FrontierMath 归档 - 每时AI

AI七个月突破数学家“围剿”反超人类！14位数学家深挖原始推理token：不靠死记硬背靠直觉

2025年6月9日16时作者量子位

大模型o3-mini-high在7个月内从只能答对2%的数学题目提升至答对22%，引发了数学家们对其推理机制和局限性的讨论。研究发现，o3-mini-high依靠广泛的知识储备而非精确证明，并依赖直觉而非严格推导。同时，它缺乏创造力、理解深度以及形式精确性，表现出一定程度的幻觉现象。

o4-mini暴击六大数学天团，攻破陶哲轩难题！4.5h激战人类阵地失守

2025年5月27日23时作者新智元

不到两年，o4-mini与40位数学家挑战300道菲尔兹奖级难题，一举击败6组团队，碾压人类平均水平。Epoch AI举办比赛考察AI数学能力进展，结果显示AI在FrontierMath上解决了约22%的题目，而人类总体上解决约35%的题目。未来1-2年内，『超级程序员』和『AI数学家』将取得重大突破。

40位数学家组成8队与o4-mini-medium比赛，6队败北

2025年5月24日16时作者机器之心

在FrontierMath基准测试中，O4-mini-medium击败了由数学专家组成的团队。尽管AI尚未达到超人水平，但有观点认为它很快就会超越人类。

满血o3降智和幻觉倍增的原因可能找到了

2025年4月22日8时作者 AI寒武纪

OpenAI推出的满血版O3模型在数学基准测试中的成绩被独立测试揭穿为10%，远低于原公布的25%+，揭示了测试环境、数据集以及模型版本差异的影响。

o3被曝「无视」前成果？华人学者实名指控，谢赛宁等大牛激烈争辩

2025年4月21日23时作者新智元

人成果？OpenAI研究人员对此回应：不存在。
在视觉感知方面，o3和o4-mini在思维链中进行图

o3被曝「无视」前成果？华人博士生实名指控，谢赛宁等大牛激烈争辩

2025年4月21日16时作者新智元

人成果？一名华盛顿大学博士生发出质疑，OpenAI研究人员对此回应：不存在。
在视觉感知方面，o3和

OpenAI被爆造假！o3碾压一切的数学能力，全靠“作弊”

2025年1月20日23时作者乌鸦智能说

OpenAI因在FrontierMath数学基准测试中作弊而陷入风波，被指获得了题库的特权访问权，并资助了该测试。此举引发了业界对于OpenAI领先优势是否真实存在的质疑，同时也暴露了其商业化压力下的困境。

OpenAI 最强模型被曝造假！提前获取测试题，顶级数学家被蒙在鼓里

2025年1月20日16时作者 APPSO

近日，OpenAI在FrontierMath数学基准测试中成绩突飞猛进，但承包商爆料称其获得了不公平的特权访问权，引发争议。

震惊！OpenAI“造假”石锤？秘密参与数学基准测试，FrontierMath 透明度遭质疑

2025年1月20日16时作者 AI寒武纪

Epoch Al 在与 OpenAI 合作的 FrontierMath 项目中因透明度问题道歉，并承认沟通失误。他们承诺改进未来的工作。