国产大模型参加数学高考,第一名却是他俩


每年高考,是6月越不过的话题。而今年高考,大家普遍反馈数学特别难。那正好,我们可以让大模型来答下卷。


毕竟每回新模型发布,都说自己在AIME-2025、AIME-2024、MATH-500等各种数学测试基准上遥遥领先,都说自己达到SOTA级别。


So,我们今天就给10来家国产大模型准备了全国卷一的数学题,看看他们参加高考能拿多少分。


本次参考的大模型考生有:DeepSeek-R1(问小白)、豆包Seed1.5、Qwen3、混元T1、Kimi K1.5、智谱Z1、跃问Step-R1,全部为推理模型。


缺考考生有:DeepSeeek-R1官方版、文心X1-Turbo、讯飞星火x1。


考试规则


为保证本次考试公平公正,我们直接用原题测试,不改变题目内容,也不做任何Prompt引导,直接用上传题目图片的方式进行测试。毕竟我们人也是用眼睛看试题,人有看走眼的时候,模型也有视觉理解不行的问题,这完全各凭本事


所以,DeepSeeek-R1官方版第一个缺考(不支持图片理解),我们找来了问小白递补。


文心X1-Turbo也缺考,因为它的深度思考必须打开联网才能使用。担心作弊问题,被我们直接ban掉。

Ps.文心这逻辑真的有点奇怪,联网与上传附件是完全不同的RAG方式,怎么能一起使用呢?而且还是强制绑定。如果你切换到X1-Turbo模型,又无法上传附件。整个产品逻辑,都怪怪的。


另外,讯飞星火x1也缺考了,它说高考期间让我换个问题。


以下是考试规则:


1.本次测试直接用图片输入,不改变题目内容,也不做任何Prompt引导。


2.题型尽量覆盖全面,本次测试选择了四道单选题、两道多选题、两道填空题和两道解答题。


3.单选题每题计5分,多选题每题计10分(答案不全扣5分),填空题每题计10分,解答题每题计20分(答错一个小问扣10分),这样刚好是100分


4.各模型每题只跑一次,毕竟现实中,每位考生也只有一次的作答机会。


5.将超时问题加入评判标准,如果模型陷入无限循环则计为0分。


6.所有模型都选择推理模式,不开联网,不允许写代码沙盒计算(相当于带计算器)。


考试试题


本次考试,一共10道题,全部取自全国卷一。


1)单选题一


2)单选题二


3)单选题三


4)单选题四


5)单选题一


6)多选题二


7)填空题一


8)填空题二


9)解答题一


10)解答题二




考试结果


单选题,所有模型全对。


到多选题部分,就开始分出高下了。


多选题一,千问3陷入了无限循环,我只好暂停了它(其实千问3也做对了,但是它一直陷入了觉得只有一个正确答案的自检循环中,这样考下去100%超时),其他大模型都做对了。


多选题二,千问3直接做错。


跃问Step-R1其实一开始是对的,已经思考出了正确答案。但是它和千问3一样,在一通自检后只给出了一个答案,所以扣了一半的分。



填空题,所有模型也是全对。


解答题一,千问3做错了一个小问(所以我们算他一半分)


DeepSeek-R1的思考过程是对的,但是回答的时候中途停下来了,只答对了一个小问(我们算它得一半的分)


跃问Step-R1也是只做对了第一小问,得一半的分。其他模型,则是全对。



最后一道解答题,出问题的大模型就比较多了。


首先是DeepSeek-R1直接摆烂,算到一半就停了(并不是网络问题,所有模型我们都是在同一网络下同时开测的)。


千问3、混元T1、跃问Step-R1都是错了第二问的第二小问(算他们15分),而且算出的错误答案居然一样,不知道三个AI到底同时想到了什么


千问3:


Kimi k1.5:


有意思的是,Kimi最后一题解到一半直接不解了,还在思考的时候说什么解题时间不够了,不是哥们?真把自己当高考考生了啊??


最后一题,只有唯二的豆包Seed1.5智谱Z1做对。


最终,所有模型的得分情况如下:


豆包Seed1.5智谱拿到满分,混元T1也表现不错,DeepSeek-R1Qwen3有点拉跨(多数情况是因为想得太多导致拿不到分)


写在最后


这个结果,有点令我意外。在开测之前,我以为会是DeepSeek-R1霸榜,没想到却是豆包Seed1.5智谱Z1腾讯混元T1拿下三甲。而且,豆包和智谱还拿到了满分


DeepSeek-R1Qwen3丢分,主要是因为想得太多,要么是没有做完题,要么是在规则理解上出了问题,导致丢大分。kimi K1.5和跃问Step-R1也有点类似。


在最后一道解答题上,则不少模型都做错了。看得出,在深度问题、复杂问题上还是很考验模型的底层能力。


这回测试,Qwen3表现垫底,或许跟它的思维方式有关。很多时候,它明明思考过程都想对了,但是在答卷时却陷入了一根筋,复检一遍反而答错。


不过,再怎么找理由,题没做出来或者做错就是能力的体现。就像高考一样,它可能不是人生的终极答案,但会是一个重要的分水岭。


在Way to AGI的路上,人们不会给AI开绿色通道、建规则前提。通用人工智能能否适应人类只有一个标准——通用性自适应


所以,继续前进吧。



(文:沃垠AI)

发表评论