国产大模型参加数学高考，第一名却是他俩

每年高考，是6月越不过的话题。而今年高考，大家普遍反馈数学特别难。那正好，我们可以让大模型来答下卷。

毕竟每回新模型发布，都说自己在AIME-2025、AIME-2024、MATH-500等各种数学测试基准上遥遥领先，都说自己达到SOTA级别。

So，我们今天就给10来家国产大模型准备了全国卷一的数学题，看看他们参加高考能拿多少分。

本次参考的大模型考生有：DeepSeek-R1（问小白）、豆包Seed1.5、Qwen3、混元T1、Kimi K1.5、智谱Z1、跃问Step-R1，全部为推理模型。

缺考考生有：DeepSeeek-R1官方版、文心X1-Turbo、讯飞星火x1。

考试规则

为保证本次考试公平公正，我们直接用原题测试，不改变题目内容，也不做任何Prompt引导，直接用上传题目图片的方式进行测试。毕竟我们人也是用眼睛看试题，人有看走眼的时候，模型也有视觉理解不行的问题，这完全各凭本事。

所以，DeepSeeek-R1官方版第一个缺考（不支持图片理解），我们找来了问小白递补。

文心X1-Turbo也缺考，因为它的深度思考必须打开联网才能使用。担心作弊问题，被我们直接ban掉。

Ps.文心这逻辑真的有点奇怪，联网与上传附件是完全不同的RAG方式，怎么能一起使用呢？而且还是强制绑定。如果你切换到X1-Turbo模型，又无法上传附件。整个产品逻辑，都怪怪的。

另外，讯飞星火x1也缺考了，它说高考期间让我换个问题。

以下是考试规则：

1.本次测试直接用图片输入，不改变题目内容，也不做任何Prompt引导。

2.题型尽量覆盖全面，本次测试选择了四道单选题、两道多选题、两道填空题和两道解答题。

3.单选题每题计5分，多选题每题计10分（答案不全扣5分），填空题每题计10分，解答题每题计20分（答错一个小问扣10分），这样刚好是100分。

4.各模型每题只跑一次，毕竟现实中，每位考生也只有一次的作答机会。

5.将超时问题加入评判标准，如果模型陷入无限循环则计为0分。

6.所有模型都选择推理模式，不开联网，不允许写代码沙盒计算（相当于带计算器）。

考试试题

本次考试，一共10道题，全部取自全国卷一。

1）单选题一

2）单选题二

3）单选题三

4）单选题四

5）单选题一

6）多选题二

7）填空题一

8）填空题二

9）解答题一

10）解答题二

考试结果

单选题，所有模型全对。

到多选题部分，就开始分出高下了。

多选题一，千问3陷入了无限循环，我只好暂停了它（其实千问3也做对了，但是它一直陷入了觉得只有一个正确答案的自检循环中，这样考下去100%超时），其他大模型都做对了。

多选题二，千问3直接做错。

跃问Step-R1其实一开始是对的，已经思考出了正确答案。但是它和千问3一样，在一通自检后只给出了一个答案，所以扣了一半的分。

填空题，所有模型也是全对。

解答题一，千问3做错了一个小问（所以我们算他一半分）。

DeepSeek-R1的思考过程是对的，但是回答的时候中途停下来了，只答对了一个小问（我们算它得一半的分）。

跃问Step-R1也是只做对了第一小问，得一半的分。其他模型，则是全对。

最后一道解答题，出问题的大模型就比较多了。

首先是DeepSeek-R1直接摆烂，算到一半就停了（并不是网络问题，所有模型我们都是在同一网络下同时开测的）。

千问3、混元T1、跃问Step-R1都是错了第二问的第二小问（算他们15分），而且算出的错误答案居然一样，不知道三个AI到底同时想到了什么。

千问3：

Kimi k1.5：

有意思的是，Kimi最后一题解到一半直接不解了，还在思考的时候说什么解题时间不够了，不是哥们？真把自己当高考考生了啊？？

最后一题，只有唯二的豆包Seed1.5和智谱Z1做对。

最终，所有模型的得分情况如下：

豆包Seed1.5、智谱拿到满分，混元T1也表现不错，DeepSeek-R1、Qwen3有点拉跨（多数情况是因为想得太多导致拿不到分）。

写在最后

这个结果，有点令我意外。在开测之前，我以为会是DeepSeek-R1霸榜，没想到却是豆包Seed1.5、智谱Z1和腾讯混元T1拿下三甲。而且，豆包和智谱还拿到了满分。

DeepSeek-R1和Qwen3丢分，主要是因为想得太多，要么是没有做完题，要么是在规则理解上出了问题，导致丢大分。kimi K1.5和跃问Step-R1，也有点类似。

在最后一道解答题上，则不少模型都做错了。看得出，在深度问题、复杂问题上还是很考验模型的底层能力。

这回测试，Qwen3表现垫底，或许跟它的思维方式有关。很多时候，它明明思考过程都想对了，但是在答卷时却陷入了一根筋，复检一遍反而答错。

不过，再怎么找理由，题没做出来或者做错就是能力的体现。就像高考一样，它可能不是人生的终极答案，但会是一个重要的分水岭。

在Way to AGI的路上，人们不会给AI开绿色通道、建规则前提。通用人工智能能否适应人类只有一个标准——通用性和自适应。

所以，继续前进吧。

（文：沃垠AI）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

发表评论 取消回复

发表评论取消回复