突破AI视觉“选择性失明”,哈工大首次实现指令驱动的全景式感知
哈工大博士生李俊劼的研究成果GiVE首次实现了指令驱动的全景式感知,解决了传统多模态模型’选择性失明’的问题。通过引入AG-Adapter模块和设计三种专门损失函数,GiVE能灵活调整注意力焦点,提升多模态任务表现。
哈工大博士生李俊劼的研究成果GiVE首次实现了指令驱动的全景式感知,解决了传统多模态模型’选择性失明’的问题。通过引入AG-Adapter模块和设计三种专门损失函数,GiVE能灵活调整注意力焦点,提升多模态任务表现。
文章介绍了Alibaba Cloud的最新模型O3在视觉推理方面的强大能力,包括其识别图片元素、理解并解决实际任务的能力。通过一系列测试题目展示了O3的表现,并对其局限性进行了讨论。
新一代通用智能机器人AlphaBot 2在学习能力和自主执行任务方面表现出色,能够360°感知周围环境并完成多种复杂任务。智平方与华熙生物达成合作,将机器人应用于生物科技领域。
新智元报道
编辑:桃子
新CEO上任一个月后,英特尔正改头换貌。陈立武通过扁平化管理、强化技术导向,誓言重振这家硅谷传奇。他任命Sachin Katti为AI与技术双料首席,肩负对抗英伟达的重任。
Perplexity AI正与联想集团旗下摩托罗拉就其设备集成虚拟助手事宜进行合作,并计划于本月公布这一消息。
OpenAI的o3模型在门萨智商测试中得分高达136,能够识别照片拍摄位置并进行复杂图像分析。尽管存在一些视觉推理问题上的不稳定性,但其强大的工程能力和顶尖基础性能使其有望解决这些问题。
Meta Platforms曾请求微软、亚马逊等公司协助承担其开源大语言模型Llama的训练成本,反映出对AI开发成本激增的担忧。Meta视此为强化与云服务提供商关系并提升Llama商业应用率的途径。
谷歌发布首个混合推理模型Gemini 2.5 Flash,支持灵活控制思考预算。相比Claude,新模型在知识问答和代码任务上性能更优,并且具有更高的性价比。