MathArena 归档 - 每时AI

大模型IMO25数学竞赛成绩公布了

2025年7月18日23时作者量子位

大模型在IMO数学竞赛中的表现：Gemini以超30%总成绩拔得头筹，o3和o4-mini紧随其后。MathArena对五款模型进行评估发现多数模型在几何题上得分较低，且存在格式优化过度的问题；Grok 4则因答案过于简略而受到批评。