CVPR 2025 Highlight 国科大等新方法破译多模态「黑箱」,精准揪出犯错元凶
本文提出了一种新的基于搜索的视觉精度搜索方法,用于提高物体级基础模型的解释性,显著提升了可解释性、定位准确性和泛化能力。
本文提出了一种新的基于搜索的视觉精度搜索方法,用于提高物体级基础模型的解释性,显著提升了可解释性、定位准确性和泛化能力。
本文介绍了一项研究,发现大多数语言模型缺乏人类的工作记忆能力。通过三组实验测试,表明模型在猜数字、是非问答和数学魔术任务中均无法有效保留信息。
清华大学等机构联合推出OneTwoVLA模型,实现机器人既能思考又能执行任务,兼容长程规划、错误检测与恢复、自然人机交互及通用视觉定位能力。
研究者 James Campbell 放弃博士学业加入 OpenAI,他致力于 AGI 和 ChatGPT 的记忆+人格研究。Campbell 本科毕业于康奈尔大学,曾从事多模态 AI 系统和模型基准测试工作。
西湖大学AGI实验室团队提出FlowDirector,无需训练的视频编辑框架,通过流匹配范式直接在数据域构造演化路径,实现高质量对象编辑、添加、删除和替换功能。