国产大模型2025考研数学排行榜：仅前两名成绩破百

AI大模型工场

2024-12-26 14:45发布于北京

作者｜参商

编辑｜星奈

媒体｜AI大模型工场

2024 年就要结束了，在这一年里，大模型的智力水平究竟长进了多少？

上周日，2025考研初试刚刚结束，我们趁热拿考研数学卷子，去测测主流的几家国产大模型，看看他们的真实智商水平如何。

5位国产大模型考生名单：

大厂巨头代表队：字节豆包、阿里通义

创业公司代表队：智谱、Kimi

私募巨头代表队：DeepSeek

记得6月份高考的时候，很多媒体做了大模型高考成绩评测，结果发现大家的语文成绩都能考100分以上，但数学成绩基本都惨不忍睹，低的只有37分，高的也不过60多分，没有一家能及格。要知道高考数学的满分是150，只有考到90分以上才算及格。

这也侧面说明，起码在自然语言理解这一块，大模型基本已经“及格”，但在人类与其他物种拉开差距的“逻辑思维”能力上，哪怕还需要继续进化。

不过，2024年下半年，尤其是9月份Open AI的o1推理模型出来之后，在新的强化学习技术范式下，大模型似乎找到了破解数理化等领域难题和复杂任务的钥匙。Kimi、DeepSeek、通义等公司，也相继推出了自己的支持思维链（Chain of Thought）的推理模型，数理化水平上了一个新台阶。

废话少说，直接开测！

我们选取了难度适中的2025考研数学三作为参考试卷，每个题目各家模型有两次作答机会，得分取两次的平均值。

为了确保测试的公平，我们都采用各家产品的最新版本 （豆包和通义不能选择模型，采用了默认模式；Kimi采用新推出的视觉思考版；DeepSeek打开“深度思考”开关，智谱清言采用 GLM-4-Plus模型），上传完全一样的 22 道题目截图，输入给大模型的文字提示（Prompt）也基本一样，模拟真实场景，“解答这道题”、“这道题选什么”、“解一下这道题”“这个题答案是什么”。

一、2025考研数学：两家成绩破百

真实水平如何？让我们直接看成绩：

从最终的测试结果来看，本次考研数学初试数学成绩，有两家模型破百，其中 Kimi 视觉思考版的得分为 133分，DeepSeek 103.5分。通义90分，及格了。豆包和智谱都获得88.5分，接近及格。相比6月份的高考数学成绩，大家都进步了不少。Kimi 和 DeepSeek 进步尤其快。

以往做小学数学题都能磕磕绊绊的国产大模型，如今做研究生级别的数学题，居然有几家已经游刃有余，这挺让我们感到意外的。不过，从最后一道题的成功率，还有一些进步空间。

二、解题过程两种风格：给答案 vs 给思路+答案

仅仅按分数来算，谁更有可能最后上岸，其实一目了然。

不过做这套考研数学真题的成绩，也并不能完整展现这些模型的全部能力，但对于一些备考的学生党来说，在面对同样的题目时，谁的解题思路更完整，推导步骤更丰富，谁的参考性和实用性自然就越大。

先来看一道代数方面的三角函数选择题。

这道题的正确答案是C，但不同模型得到C的过程很有意思。

先来看豆包的解题过程

豆包同样给出了正确答案，但解题过程相对简略，更像考研参考书上的一些标准答案，如果要知道更详细的解题过程，尚需购买对应的考研名师课程作为辅助。

智谱清言的解答过程相对尴尬一些。因为这道题它没做对，第一遍测试选B，第二遍测试选了A。

第一遍测试B：

第二遍测试A：

不过，即便做错，也给出了相对完整的思考过程，“错”有可原。

再来看Kimi视觉思考版。

可以看到，Kimi视觉思考版在给出正确答案之余，也会给出完整的推导过程和解题思路。对于一些考研党来说，具有较高的参考价值，有助于检查错题和举一反三。

阿里通义和Deepseek的回答与豆包类似，相对而言，这两家模型展现的步骤会简略一些。

通义千问

Deepseek

再来看一道填空题。

这是它的标准答案：渐进线方程为y=3和y=-3

可以看到，跟前述选择题一样，Kimi思考版的解题过程较为翔实，推导细节很多，并最终给出了正确答案。

豆包的推导过程相对简略一些，但也可以看到明显的推导过程，也具备不错的可参考性。阿里通义和deepseek类似过程略简单，但给出了正确答案。

遗憾的是智谱在这道题上，两次结果都是错误的。

但在下面这道定积分的题上，各家模型差距就较为明显了。

首先放正确答案：a=2

Kimi思考版的表现较为稳定，在给出足够多的推导步骤之后，还有一次验算，最后输出了a＝2的正确结果。

豆包表现也较为稳定。不过推导步骤一如既往地简洁。

智谱清言在解决这个问题的时候，第一遍回答正确，但问题在于没有使用自然语言，使用的是代码，对普通学习者参考价值有限，第二遍测试则直接没有给答案，并且认为题目设置有问题。

通义的表现尚算正常，第一次的回答错误，第二次给出正确答案。但Deepseek就比较尴尬，第一次它无法回答。

第二次则陷入死循环，回答超过3分钟还在写答案。

如果是一些更难的题目，有些模型就难以cover住了。

譬如下面这道。

照例先来正确答案。

kimi的回答如下，虽然最终结果跟标准答案长得不太一样，只是不同的写法，结果依然正确。

豆包在两次测试中，给出了两次回答，但都是错的，这是第一次。

第二次：

智谱清言的两次回答过程，均出现了无法回答的情况。

通义算是能写完过程的，给出的两次回答也不一样，但很遗憾，还是错的。

Deepseek表现出乎意料，跟kimi一样虽然写法不一样，但结果正确。

结语

但在仅仅几个月前，大模型厂商还在满足于写高考满分作文，相比以往，它的逻辑思维和综合能力，早已不可同日而语。

须知，无分文理，一旦拔高到科研的高度，以数理化为代表的逻辑能力是大模型可用，堪用、好用的基石，而数理化解题能力的高低，则是大模型智力的直接体现。

随着大模型能力的不断增强，在人类探索更前沿的科技领域时，以往尚且“鸡肋”的大模型，如今已经能成为不少研究者的助手。或许未来，当AI的能力真的达到人类的TOP 1%各领域专家水平，甚至超过人类水平，在AI的帮助下，我们对宇宙的认识真的有机会达到人类此前不曾达到的新高度。希望那时候，AI 还是人类的好朋友。

查看原图 86K