让AI做高考数学最难的解答题，这4家拿到满分

昨天，我们让国内的几个大模型做了今年的高考数学题（全国一卷），大家都很想看看国内和国外的大模型同台竞技，然后看看排行。

行，没问题，今天就多搞点大模型来对比。

但是这次我们就不测简单的题了，就专门测解答题，毕竟解答题是数学考试中最难的部分，也是分值最高的部分，同时也最考验模型的数学能力。

本次参考的大模型考生有：DeepSeek-R1（问小白版）、豆包Seed1.5、Qwen3、混元T1、Kimi K1.5、智谱Z1、跃问Step-R1、讯飞星火X1、GPT o4-mini、Gemini 2.5 pro（0605）、Claude 4、Grok3，全部为推理模型。

缺考考生依旧为DeepSeek官方版（不能上传图片）和文心X1-Turbo（上传图片必须打开联网功能）。

考试规则

考试规则基本还是昨天的规则，我也给大家放在下面，毕竟有很多朋友可能没看过昨天的贴。

以下是考试规则：

1.本次测试直接用图片输入，不改变题目内容，也不做任何Prompt引导。

2.本次题型全部为解答题，而且选择的是解道题的最后两道，没有什么别的意思，单纯是因为这两道最难。

3.解答题第一题有两个问，计40分（其中第二问中两个小问各计10分），解答题第二题有三个问，计60分，这样刚好是100分，答错一个小问扣20分。

4.各模型每题只跑一次，毕竟现实中，每位考生也只有一次的作答机会。

5.将超时问题加入评判标准，如果模型陷入无限循环则计为0分。

6.所有模型都选择推理模式，不开联网，不允许写代码沙盒计算（相当于带计算器）。

考试试题

本次考试共两题，都是解答题，选自全国卷一。

1）解答题一

2）解答题二

考试结果

1）解答题一

标准答案：

问小白版DeepSeek-R1，依旧做题做到一半就歇菜了，我估计是Token被限制了。

豆包Seed1.5全对。

Qwen3错了第二问的第二小问。

混元T1全对。

Kimi K1.5也是错了第二问的第二小问。

智谱Z1全对。

跃问Step-R1也是错了第二问的第二小问。

讯飞星火X1全对。

GPT o4-mini只答对了第一问，差点答对第二问的第一小问，只差一个正负号的差距。

Gemini 2.5pro全对。

Claude 4 sonnet只答对了第一问。

Grok3不仅思考时三个问题就全做错了，回到答案时更是只回答了一个就停下了。

国内的，豆包Seed1.5、混元T1、智谱Z1、讯飞星火X1都是全对，国外只有Gemini全对。

国内还有三个同样只错了第二问的第二个小问的，要不是都算出来不一样，我都要判他们抄袭了。

2）解答题二

标准答案：

问小白版DeepSeek-R1还是做题做到一半又歇菜了，这给每个问题的Token也分配的太少了吧。

豆包Seed1.5全对。

Qwen3错了第三问。

混元T1全对。

Kimi K1.5又是做题做到一半就歇菜了，应该也是分配给每个问题的Token用完了。

智谱Z1错了第二问。

跃问Step-R1错了第二问和第三问。

讯飞星火X1全对。

GPT o4-mini全对。

Gemini 2.5 pro全对。

Claude 4 sonnet错了第二问和第三问。

Grok3错了第二问。

本题国内模型全对的有豆包Seed1.5、混元T1和讯飞星火X1，国外的GPT o4-mini和Gemini 2.5 pro也是全对，错的就五花八门了，一二三问都有模型出错。

最后统计下来，所有大模型的得分如下：

写在最后

看来做数学题这一方面，豆包Seed1.5、混元T1、讯飞星火x1和Gemini 2.5 pro确实是个中好手，一题没错拿了满分。

第二梯队则是智谱Z1和GPT o4-mini，都按到了80分这个优异的成绩。

第三梯队则是Qwen3，至少是达到及格分以上了。

第四梯队有Kimi K1.5、跃问Step-R1、Claude 4 sonnet和Grok 3，都没及格。

至于0分的DeepSeek，我相信这肯定不是它的真实实力，但是没办法，答题停止是测试中真实发生的情况，我也改变不了。

总的来说，国内国外都有有优秀的数学能力的大模型，但还是能够看出有些大模型的数学能力依然差了那么一截。最后我想吐槽的是，为什么DeepSeek和Kimi给定的Token连一道题都跑不完啊。

我希望明年再来一轮测试，以目前AI发展的速度，我估计到时候所有大模型做高考数学题都是没有难度的了。

最后的最后，我希望不要因为AI越来越牛使得我们失去创造力与学习能力，大家要永远走在学习的道路上，要永远保有一颗对未知事物的好奇心。

（文：沃垠AI）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

发表评论 取消回复

发表评论取消回复