多模态模型具备“物理推理能力”了吗?新基准揭示:表现最好的GPT-o4 mini也远不及人类!

香港大学和密歇根大学的研究人员发布首个专门面向多模态大模型物理推理能力的大规模基准测试PhyX,评估结果表明表现最好的GPT-o4 mini准确率仅为45.8%,远不及人类水平。

MiniMax开源首个视觉RL统一框架,闫俊杰领衔!推理感知两手抓,性能横扫MEGA-Bench

MiniMax提出的新框架V-Triune能够实现视觉任务的统一强化学习,通过三层组件设计和动态IoU奖励机制弥补了传统RL方法无法兼顾多重任务的空白。

o4-mini暴击六大数学天团,攻破陶哲轩难题!4.5h激战人类阵地失守

不到两年,o4-mini与40位数学家挑战300道菲尔兹奖级难题,一举击败6组团队,碾压人类平均水平。Epoch AI举办比赛考察AI数学能力进展,结果显示AI在FrontierMath上解决了约22%的题目,而人类总体上解决约35%的题目。未来1-2年内,『超级程序员』和『AI数学家』将取得重大突破。

开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险

清华大学与墨尔本大学团队揭示了开源大模型微调过程中隐藏的安全风险,通过后门注入技术秘密窃取下游私有数据。该研究指出攻击者可从5000条微调数据中恢复接近4000条完整查询。