实测一下Kimi版“o1”推理模型k0-math

算法一只狗

2024-11-29 08:31发布于广东科技领域创作者

KIMI推出的数学推理模型k0-math，终于上线了，可以直接去到官网体验

在 Kimi 网页版中，选择侧边栏的“眼镜”图标，即可使用基于 k0-math 模型的 Kimi 数学版，官方称后续会推出手机版。

官方表示，数学公式推荐使用 LaTeX 格式，可以截图或拍照给 Kimi 常规版，让 Kimi 把图片转为 LaTeX 格式，然后复制题目给 Kimi 数学版即可。

在两个难度更大的竞赛级别的数学题库 OMNI-MATH 和 AIME 基准测试中，k0-math 初代模型的表现分别达到了 o1-mini 最高成绩的 90% 和 83%。

那么它的能力到底怎样呢？这里给了几个问题测试一下它~

实测模型能力

测试一下难倒广大中国网友的调休怎么调的问题。之前关于调休就上过热搜

由于之前国庆节和中秋是连着来，所以网友盘算着怎么调休才算最优解，这里的“上6休3上3休2上5休1上2休7再上5休1”其实就是指从中秋开始休假的缩写。

说人话就是，从中秋开始，先上6天班，再休假3天，再上3天班，再休假2天，然后上5天班，接着休1天，再上2天班，最后国庆休7天，再上5天班，最后只休1天。说实话，就算我自己打字也觉得这个假期太复杂了，简直像是念咒语一样

那时候中国网友就为了这个调休到底最后休了多少天而计算起来

既然这么难，恰好可以丢给大模型进行问答，看看具备了数学推理能力的k0-math怎么计算这道数学难题。

一开始，KIMI错误的计算出了需要算整个9月的假期。但是我们题目是从9月9日开始的，所以其实只有10个周末是我们原本休息的。

重新纠正后，告诉它只有10个周末，它终于答对了这道题目，答案是只多休了4天假期。

再来给他测试一下2024年的高考题看看效果怎么样：

编号为1，2，3，4，5，6的六个小球，不放回的抽三次，m表示前两次号码的平均值，n表示前三次号码的平均值，则m和n的差值不超过0.5的概率是多少

一开始的解答过程基本没有什么问题：它先定义了a，b，c三个作为前三次抽到的号码，然后可以得到 𝑚=(𝑎+𝑏)/2 和 𝑛=（𝑎+𝑏+𝑐）/3 ，然后由于题目要求m和n两个数的差值不超过0.5，因此可以得到｜（𝑎+𝑏）/2−(𝑎+𝑏+𝑐)/3｜<=0.5 ，接下来化简就可以得到｜𝑎+𝑏−2𝑐｜<=3

接着回答中提到了需要考虑c的取值范围，然后需要开始进行穷举法，来讨论c的取值满足｜𝑎+𝑏−2𝑐｜<=3 这个条件。

但在接下来的穷举法中，就出现了很大的偏差，比如当c=6时，正确的答案应该时9≤a+b≤15，但是AI回答却认为了3≤a+b≤9，所以之后的举例子就会出错了。

但是在我重新让kimi模型思考c=6的情况的时候，它竟然又思考对了，在c=6的时候，得出了2种情况这个正确答案。

但是很遗憾的是，其他c的取值也还是错的，导致最后得出了错误的答案~

不过从上面可以看到，kimi的k0-math模型在数学推理能力上还是很不错。同时只要你告诉它其中有一个步骤是错误的，它就会自动自己更新。

那我们再来看看o1大模型对这个题目的解答：o1模型和k0-math一样，在前面两个步骤上都答对了，且能得出｜｜｜𝑎+𝑏−2𝑐｜<=3 这个答案了，但是和k0-math一样，在穷举法的时候也计算错误了，在计算三个值满足条件的时候，得到的答案是54，与正确答案差了2个值。

简单的从从这个题目也能看出，两个模型效果都差不多，都在前置步骤上解答对了，但是在穷举的时候比较数字大小出错。

从测试的整个过程当中，可以看到其数学能力已经有了明显提升。不像o1大模型输出思维链隐藏起来一样，k0-math反而更加显性的输出自己的思考思维链，这更能说明其具有独特的思考个性。

以前的大模型就像一个搜索器，你问啥它就搜啥。但现在，不管是o1大模型还是Kimi，都在努力让AI真正学会思考。

好了，以上就是本期的所有内容了，我是leo，我们下期再见~

查看原图 23K