多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略

字节及南洋理工大学联合研究,提出一种基于强化学习的多模态模型自主搜索训练方法,在视觉问答任务中显著提升性能,减少约30%的搜索次数。

突破全模态AI理解边界:引入上下文强化学习,赋能全模态模型“意图”推理新高度

阿里巴巴通义实验室团队推出的HumanOmniV2,强调模型必须对多模态输入有全局上下文理解的基础上进行推理,解决了现有模型存在的全局理解不足和捷径问题。通过引入强化学习方法、多维度奖励机制等手段提升模型的复杂逻辑推理能力,并构建了高质量数据集与评测基准,最终在多个全模态基准测试中取得了最佳性能。

17岁少女推翻40年前数学猜想,师从北大校友张瑞祥,即将攻读博士学位

17岁少女汉娜·凯罗推翻了Mizohata-Takeuchi猜想,这一成果震惊学术界。张瑞祥教授在她完成导师家庭作业时提供的一道题激发了她的研究兴趣,并最终成功证明该猜想不成立。

大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱

CMU研究发现,仅用监督微调训练的大模型在其他通用任务上的表现有限甚至退步。强化学习微调的模型则能更好地将数学能力迁移到推理和非推理任务上,预示着强化学习可能是实现可迁移推理的关键方法。