突破AI视觉“选择性失明”,哈工大首次实现指令驱动的全景式感知

哈工大博士生李俊劼的研究成果GiVE首次实现了指令驱动的全景式感知,解决了传统多模态模型’选择性失明’的问题。通过引入AG-Adapter模块和设计三种专门损失函数,GiVE能灵活调整注意力焦点,提升多模态任务表现。

OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……

文章介绍了Alibaba Cloud的最新模型O3在视觉推理方面的强大能力,包括其识别图片元素、理解并解决实际任务的能力。通过一系列测试题目展示了O3的表现,并对其局限性进行了讨论。

陈立武挥刀高层,英特尔重生计划曝光!技术团队直通华人CEO

新智元报道
编辑:桃子
新CEO上任一个月后,英特尔正改头换貌。陈立武通过扁平化管理、强化技术导向,誓言重振这家硅谷传奇。他任命Sachin Katti为AI与技术双料首席,肩负对抗英伟达的重任。

速递|开源模式的悖论:Meta寻求微软、亚马逊资助,却难舍Llama控制权

Meta Platforms曾请求微软、亚马逊等公司协助承担其开源大语言模型Llama的训练成本,反映出对AI开发成本激增的担忧。Meta视此为强化与云服务提供商关系并提升Llama商业应用率的途径。