数学基准测试归档

新版Gemini 2.5所有榜一，谷歌无敌了！一个月全面击败o3，编程反超Claude 4

2025年6月6日11时作者新智元

谷歌发布了Gemini 2.5 Pro，仅用一个月就碾压了旧版。新版模型在数学、编程和推理方面表现卓越，稳居所有榜单第一。它引入了‘思考预算’功能，并提升了代码生成的质量。

2025年4月22日8时作者 AI寒武纪

OpenAI推出的满血版O3模型在数学基准测试中的成绩被独立测试揭穿为10%，远低于原公布的25%+，揭示了测试环境、数据集以及模型版本差异的影响。

2025年3月18日23时作者量子位

一半
都是“重复劳动”！
来自上海AI Lab、上海交大以及浙江大学最新研究显示：当下流行的多模态大

2025年1月21日16时作者新智元

新智元报道
编辑：泽正英智
【新智元导读】
人大清华团队提出Search-o1框架，大幅提升推理模

2025年1月11日16时作者多知

微软发布rStar-Math技术，让小型语言模型具备深度思考能力。通过蒙特卡罗树搜索方法，该技术在多个开源模型测试中取得了显著提升，甚至超越了OpenAI的o1-preview系统。

2025年1月9日14时作者 AI先锋官

昆仑万维发布「天工大模型」4.0版本，免费向用户开放。Skywork o1在数学和代码基准测试中表现优于国产模型。对比其他模型，其推理能力和学习能力有所提升。