为期3天的高考终于落下帷幕。
如同往年一样,今年最令考生想要吐槽的就是#数学太难了!!
有位考生甚至形容高考数学远看似娇妻,近看是大汉。
那么自ChatGPT问世以来AI大爆炸的这几年,国产AI大模型的真实表现究竟如何?
面对无法提前“背题”的高考数学真题,这是一次难得的客观公平的考验,因为数学题更具有挑战,包括逻辑推理的严谨性、数学符号的精准处理、抽象概念的理解深度等等。
是骡子是马拉出来溜溜吧!
测试试卷:2025年高考数学新课标Ⅰ卷
参赛选手:百度文心 X1 Turbo、阿里Qwen3、腾讯元宝(混元T1)以及字节豆包1.5
测试方法说明:
①本文测试以上模型时均在对应模型的官方网页版进行测试,均开启了深度思考模式;
②本文测试选择最接近普通用户的交互方式——直接将高考题的截图上传输入给模型;因为DeepSeek目前对图像输入支持不友好,故本次未将DeepSeek作为测试对象;
③选择和填空题按照正确与否客观打分,解答题有过程分,我们请了一位极高水平的高中在职数学老师来打分;
④由于高考试题官方标准答案尚未公布,本测试仅供参考;
几个国产模型测试后的总分如下(满分150分):
从整体测试结果来看,混元和豆包的表现尤为惊艳。混元在答题中仅答错一道选择题(第6题),最终取得了145分的优异成绩。豆包则是答错了一道选择题以及第 18 题解答题的一个小问,不过也拿到了 140 分的高分。
值得注意的是,本次表现略逊一筹的Qwen 3也交出了117分以上的优秀答卷。若将此成绩置于真实高考场景中衡量,117分已超越众多省份平均分,稳居考生群体的中上游水平。
由此可见,开启【深度思考】模式的国产大模型在数学领域的逻辑推理能力已经实现了大幅提升,即便是全新的高考题,最出色的模型也能做到接近满分的回答。
其实测试结果挺令人惊喜的,国产大模型的数学能力正以惊人速度逼近人类高考生顶尖水平,有几个模型差一点就拿到了满分,或许这个遗憾在明年这个时候将会被弥补上,到时候国产AI模型可能轻松拿下高考数学满分,接下来可以继续挑战考研数学了甚至更难的竞赛数学。
最后来聊一下在测试过程中发现的现象。
首先是所有模型都答错了的选择题第六题,这道题是所有选择填空题里面唯一一道带图像的题目,我估计之所以所有模型都答错,是因为下图右下角中的【坐标系图像】对于模型来说还是过于复杂了,国产模型的多模态识别和理解能力还需要进一步提升。
再来看一下文心 X1 Turbo和Qwen3都答错的第8题,仔细看可以发现,Qwen3已经推导出了正确结论,但可能对题目含义产生误判,最终给出错误选项;文心 X1 Turbo 则在整体答题思路上出现偏差,未能精准把握题意。
反观混元和豆包,二者在解题过程中不仅展现出对题意的准确理解,且推导逻辑清晰,最终均顺利得出正确答案。
混元的回答:
豆包的回答:
Qwen 3的回答:
此外,多选题9、10、11 只有混元和豆包选全了,另外两家都一定程度上漏选了(但也没选错误答案)。
整体来看,除了全军覆没的第六题之外,几家大模型都不大存在“全错”的情况,比如多选题只是漏选答案但不会选错答案,大题即使丢分也只是丢到其中一小题。
比如解答题第18题:
前面两个小问4个参赛模型都给出了准确答案,第二小问虽然每家大模型给出的答案形式略有不同,但经数学老师验证后是等价的,都算答对。但第三小问只有混元给出了准确的答案,豆包和Qwen 3的回答都不准确,文心 X1 Turbo甚至没能给出一个答案。
混元的回答:
豆包的回答:
Qwen 3的回答:
文心 X1 Turbo的回答: