实测一下Kimi版“o1”推理模型k0-math

KIMI推出的数学推理模型k0-math,终于上线了,可以直接去到官网体验

图片

在 Kimi 网页版中,选择侧边栏的“眼镜”图标,即可使用基于 k0-math 模型的 Kimi 数学版,官方称后续会推出手机版。


官方表示,数学公式推荐使用 LaTeX 格式,可以截图或拍照给 Kimi 常规版,让 Kimi 把图片转为 LaTeX 格式,然后复制题目给 Kimi 数学版即可。


在两个难度更大的竞赛级别的数学题库 OMNI-MATH 和 AIME 基准测试中,k0-math 初代模型的表现分别达到了 o1-mini 最高成绩的 90% 和 83%。

图片


那么它的能力到底怎样呢?这里给了几个问题测试一下它~


实测模型能力

测试一下难倒广大中国网友的调休怎么调的问题。之前关于调休就上过热搜

图片


由于之前国庆节和中秋是连着来,所以网友盘算着怎么调休才算最优解,这里的“上6休3上3休2上5休1上2休7再上5休1”其实就是指从中秋开始休假的缩写。

图片


说人话就是,从中秋开始,先上6天班,再休假3天,再上3天班,再休假2天,然后上5天班,接着休1天,再上2天班,最后国庆休7天,再上5天班,最后只休1天。说实话,就算我自己打字也觉得这个假期太复杂了,简直像是念咒语一样

图片


那时候中国网友就为了这个调休到底最后休了多少天而计算起来

图片


既然这么难,恰好可以丢给大模型进行问答,看看具备了数学推理能力的k0-math怎么计算这道数学难题。

图片


一开始,KIMI错误的计算出了需要算整个9月的假期。但是我们题目是从9月9日开始的,所以其实只有10个周末是我们原本休息的。

图片


重新纠正后,告诉它只有10个周末,它终于答对了这道题目,答案是只多休了4天假期。

图片


再来给他测试一下2024年的高考题看看效果怎么样:

编号为1,2,3,4,5,6的六个小球,不放回的抽三次,m表示前两次号码的平均值,n表示前三次号码的平均值,则m和n的差值不超过0.5的概率是多少


一开始的解答过程基本没有什么问题:它先定义了a,b,c三个作为前三次抽到的号码,然后可以得到 𝑚=(𝑎+𝑏)/2 和 𝑛=(𝑎+𝑏+𝑐)/3 ,然后由于题目要求m和n两个数的差值不超过0.5,因此可以得到|(𝑎+𝑏)/2−(𝑎+𝑏+𝑐)/3|<=0.5 ,接下来化简就可以得到 |𝑎+𝑏−2𝑐|<=3

图片


接着回答中提到了需要考虑c的取值范围,然后需要开始进行穷举法,来讨论c的取值满足|𝑎+𝑏−2𝑐|<=3 这个条件。

图片


但在接下来的穷举法中,就出现了很大的偏差,比如当c=6时,正确的答案应该时9≤a+b≤15,但是AI回答却认为了3≤a+b≤9,所以之后的举例子就会出错了。

图片


但是在我重新让kimi模型思考c=6的情况的时候,它竟然又思考对了,在c=6的时候,得出了2种情况这个正确答案。

图片


但是很遗憾的是,其他c的取值也还是错的,导致最后得出了错误的答案~

图片


不过从上面可以看到,kimi的k0-math模型在数学推理能力上还是很不错。同时只要你告诉它其中有一个步骤是错误的,它就会自动自己更新。


那我们再来看看o1大模型对这个题目的解答:o1模型和k0-math一样,在前面两个步骤上都答对了,且能得出 |||𝑎+𝑏−2𝑐|<=3 这个答案了,但是和k0-math一样,在穷举法的时候也计算错误了,在计算三个值满足条件的时候,得到的答案是54,与正确答案差了2个值。

图片


简单的从从这个题目也能看出,两个模型效果都差不多,都在前置步骤上解答对了,但是在穷举的时候比较数字大小出错。


从测试的整个过程当中,可以看到其数学能力已经有了明显提升。不像o1大模型输出思维链隐藏起来一样,k0-math反而更加显性的输出自己的思考思维链,这更能说明其具有独特的思考个性。


以前的大模型就像一个搜索器,你问啥它就搜啥。但现在,不管是o1大模型还是Kimi,都在努力让AI真正学会思考。


好了,以上就是本期的所有内容了,我是leo,我们下期再见~