这道推理题让所有AI大模型集体翻车

作者|沐风

来源AI先锋官


继比大小“9.8与9.11谁更大”、数草莓“Strawberry里有几个 r”等经典AI大模型问题之后,AI推理又出现了新难题。


这个问题让当下所有的AI推理模型全军覆没,包括OpenAI的o3和Gemini 2.5Pro。


题目如下:假设我们只能添加立方体,在图中还需要添加多少个小立方体能形成一个完整的大立方体?


该问题在Reddit引起了大量讨论,并且,发帖者表示,目前没有一个模型可以解决这个问题。

小编随即使用DeepSeek R1、Kimi 1.5、豆包、Qwen3、阶跃AI、元宝进行了测试。

DeepSeek R1

Kimi 1.5

豆包


Qwen3


阶跃AI


元宝


结果无一例外,全军覆没。


DeepSeek R1认为需要添加7个小立方体;
阶跃AI认为需要添加3个小立方体;
元宝认为需要添加5个小立方体;
Kimi 1.5认为需要添加16个小立方体;
豆包认为需要添加16个小立方体;
Qwen3认为需要添加28个小立方体。

不过小编通过它们的回答发现,究其原因在于大模型对组成的大立方体的规格理解不同。

DeepSeek R1、阶跃AI、元宝最终都将大立方体的规格设定为了3x3x3。

Kimi 1.5、豆包、Qwen3则是将大立方体规格设定为了4x4x4。

但最终组成的大立方体正确的规格应该为5x5x5,所以最终的大立方体需要125个小立方体,图中已经给出了46个,所以答案应该为79。

对于最终要组成的大立方体的规模理解不同,各大模型自然而然就会给出不同的答案。

所以,小编又对它们进行了新一轮的提示:“最长的可见边长应该是5个小正方体,所以最大的正方体应该是5x5x5=125个正方体对吧,所以它还需要添加多少个小正方体能形成一个完整的大正方体?”

DeepSeek R1

阶跃AI

元宝


Kimi 1.5


豆包


Qwen3


可以看到,除了Kimi 1.5的答案没变,其他模型的答案都改变了,并且本轮出现了一位回答正确的选手:阶跃AI。


但有意思的情况出现了,此轮回答阶跃AI使用的模型为DeepSeek R1,而DeepSeek R1本尊却没有回答正确,给出的答案为105个。

在该帖子的评论区,有网友发现结合提示多次尝试,也有大模型能够渐渐找准方向。

就例如该网友在o3上尝试了3次。

他在前两次尝试中给出了提示,虽然给出答案仍然不对,但在其第三次尝试中,没有任何提示,在o3“思考”了4分39秒后,给出了正确答案。


该网友猜测是由于ChatGPT的长期记忆功能,让它记住了前两次尝试的提示(比如考虑最长运行中有多少个立方体,专注于严格计数而不是估计),考虑到它的失败经验,并将它们全部整合在一起。

因此,可以说即使o3不会做某些事,你也可以教它,让它通过记忆来学习。

针对该问题,也有网友认为,错误答案是由于作者问题表述不清楚导致AI的分析过程出现了偏差。


比如题目的要求到底是以原来的排列结构为基础还是可以打乱结构重新排列?


最后,有网友说“人类自己都无法统一答案的问题,对AI来说是不是太难了点!”

 

(文:AI先锋官)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往