DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌
内团队干的!
该测试集是出了名的超难,刚推出时无模型得分能超过10分。
直到最近,
最高分也不过26
内团队干的!
该测试集是出了名的超难,刚推出时无模型得分能超过10分。
直到最近,
最高分也不过26
字节及南洋理工大学联合研究,提出一种基于强化学习的多模态模型自主搜索训练方法,在视觉问答任务中显著提升性能,减少约30%的搜索次数。
阿里巴巴通义实验室团队推出的HumanOmniV2,强调模型必须对多模态输入有全局上下文理解的基础上进行推理,解决了现有模型存在的全局理解不足和捷径问题。通过引入强化学习方法、多维度奖励机制等手段提升模型的复杂逻辑推理能力,并构建了高质量数据集与评测基准,最终在多个全模态基准测试中取得了最佳性能。
腾讯混元3D模型新增艺术级3D生成模型Hunyuan3D-PolyGen,支持复杂几何模型生成及资产转换。该模型提升了美术师建模效率70%以上,并具备高质量拓扑功能。
弗吉尼亚大学团队提出EBT架构,通过能量机制在跨模态和多维度上超越了Transformer++模型,并展示了其在推理、数据量、参数量等多方面的优势。
17岁少女汉娜·凯罗推翻了Mizohata-Takeuchi猜想,这一成果震惊学术界。张瑞祥教授在她完成导师家庭作业时提供的一道题激发了她的研究兴趣,并最终成功证明该猜想不成立。
CMU研究发现,仅用监督微调训练的大模型在其他通用任务上的表现有限甚至退步。强化学习微调的模型则能更好地将数学能力迁移到推理和非推理任务上,预示着强化学习可能是实现可迁移推理的关键方法。
传统心脏MRI可能遗漏风险信号,AI模型MAARS首次实现高精度预测心源性猝死风险,准确率高达89%,有望提高诊断准确性。