AI无法攻克的235道谜题!让o1、Gemini 2.0 Flash Thinking集体挂零

新基准ENIGMAEVAL对高难度问题提出挑战,显示主流推理模型在面对复杂谜题时准确率极低。研究者使用原始多模态谜题进行评估,发现前沿语言模型即使在普通谜题中表现也仅7.0%,且难以解决困难谜题。

DeepSeek-R1、o1都低于10%,人类给AI的「最后考试」来了,贡献者名单长达两页

文章介绍了一个名为”人类的最后考试”(HLE)的新AI基准,旨在评估大规模语言模型的能力。该基准包含3000多个问题,涉及上百个学科领域,要求模型不仅给出正确答案,还需提供合理的推理过程。目前最先进的SOTA模型在HLE上的准确率仍低于10%。

深度|百亿美金独角兽华裔CEO谈中美AI竞赛:中国最先进AI模型DeepSeek表现最为出色,与美国最好模型o1不相上下

在美国对AI模型评估的新标准下,中国先进模型DeepSeek表现优异。中美在人工智能领域竞争激烈,美国需释放政策和基建能量以主导全球竞赛。AGI被定义为像人类一样使用计算机并运用其所有工具的超级智能系统。