数学测试归档

UC伯克利：让推理模型少思考，准确率反而更高了！

2025年4月17日23时作者量子位

UC伯克利研究发现，强制要求模型跳过思考过程仍能保持或提高推理能力。使用DeepSeek-R1模型，在定理证明任务中仅需30%的Token就能达到与完整思考相同的准确率。

2025年4月17日16时作者智东西

字节跳动发布豆包1.5·深度思考模型，采用MoE架构，参数量为200B，激活参数仅20B，在多项基准测试中达到或接近全球第一梯队水平，具备‘边想边搜’、视觉理解等实用能力。

2025年2月28日14时作者 AI先锋官

OpenAI发布号称最好和最大的聊天模型GPT 4.5，虽然在基准测试中表现一般，但其强大的无监督学习能力、更低的幻觉率以及新引入的安全技术备受关注。

2024年12月22日14时作者机器之心

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000

2024年11月27日10时作者 AI信息Gap

木易公众号分享的Kimi新上线数学模型k0-math功能介绍及测试体验，该模型通过强化学习和思维链技术提升复杂问题处理能力，但用户反馈认为其回答过程繁琐冗长，不如其他同类模型简洁直接。