多模态模型具备“物理推理能力”了吗?新基准揭示:表现最好的GPT-o4 mini也远不及人类!
香港大学和密歇根大学的研究人员发布首个专门面向多模态大模型物理推理能力的大规模基准测试PhyX,评估结果表明表现最好的GPT-o4 mini准确率仅为45.8%,远不及人类水平。
香港大学和密歇根大学的研究人员发布首个专门面向多模态大模型物理推理能力的大规模基准测试PhyX,评估结果表明表现最好的GPT-o4 mini准确率仅为45.8%,远不及人类水平。
MiniMax提出的新框架V-Triune能够实现视觉任务的统一强化学习,通过三层组件设计和动态IoU奖励机制弥补了传统RL方法无法兼顾多重任务的空白。
不到两年,o4-mini与40位数学家挑战300道菲尔兹奖级难题,一举击败6组团队,碾压人类平均水平。Epoch AI举办比赛考察AI数学能力进展,结果显示AI在FrontierMath上解决了约22%的题目,而人类总体上解决约35%的题目。未来1-2年内,『超级程序员』和『AI数学家』将取得重大突破。
苹果首款带屏HomePod已进入最终研发阶段,预计2025年上市。这款集成7英寸LCD屏幕、可拆卸电池组的设备将搭载升级版Siri智能助手,并支持智能家居控制中枢功能及人脸识别与手势交互。
清华大学与墨尔本大学团队揭示了开源大模型微调过程中隐藏的安全风险,通过后门注入技术秘密窃取下游私有数据。该研究指出攻击者可从5000条微调数据中恢复接近4000条完整查询。