2025 IMO真题撕碎AI数学神话,全球顶尖模型齐翻车!冠军铜牌都拿不到
新智元报道
编辑:Aeneas
AI做奥数的神话被戳破!全球顶尖AI模型在最新出炉的2025 IMO数学竞赛中均未通过。即使是冠军Gemini也只得了可怜的31分,无法拿到铜牌。Grok-4更是表现极差,连DeepSeek-R1都令人失望。研究表明,AI想超越人类选手还需进步。
新智元报道
编辑:Aeneas
AI做奥数的神话被戳破!全球顶尖AI模型在最新出炉的2025 IMO数学竞赛中均未通过。即使是冠军Gemini也只得了可怜的31分,无法拿到铜牌。Grok-4更是表现极差,连DeepSeek-R1都令人失望。研究表明,AI想超越人类选手还需进步。
马斯克发布最新AI模型Grok-4,成为首个突破50%准确率的人工智能。该模型训练量是前版本的10倍以上,并且在多项基准测试中表现出色。
今年高考,数学难度引起热议。为此,多家国产大模型参加了全国卷一的数学测试。结果显示,部分大模型表现亮眼,如豆包Seed1.5、智谱Z1满分通过;而Qwen3和千问Kimi等表现不佳。测试旨在考察大模型在深度问题上的能力。