AI七个月突破数学家“围剿”反超人类!14位数学家深挖原始推理token:不靠死记硬背靠直觉

大模型o3-mini-high在7个月内从只能答对2%的数学题目提升至答对22%,引发了数学家们对其推理机制和局限性的讨论。研究发现,o3-mini-high依靠广泛的知识储备而非精确证明,并依赖直觉而非严格推导。同时,它缺乏创造力、理解深度以及形式精确性,表现出一定程度的幻觉现象。

o4-mini暴击六大数学天团,攻破陶哲轩难题!4.5h激战人类阵地失守

不到两年,o4-mini与40位数学家挑战300道菲尔兹奖级难题,一举击败6组团队,碾压人类平均水平。Epoch AI举办比赛考察AI数学能力进展,结果显示AI在FrontierMath上解决了约22%的题目,而人类总体上解决约35%的题目。未来1-2年内,『超级程序员』和『AI数学家』将取得重大突破。