月之暗面发布数学推理模型,对标o1系列两款模型

日前,AI初创公司月之暗面宣布推出数学推理模型k0-math,并将陆续在Kimi网页版和Kimi智能助手APP上线,以帮助用户完成更具挑战性的数学任务。

图片

据悉,k0-math是月之暗面方面推出的首款推理能力强化模型,采用了全新的强化学习和思维链推理技术,并通过模拟人脑的思考和反思过程,大幅提升解决数学难题的能力。具体而言,常规模型的设定目标是尽快提供答案,但k0-math则会花更长时间来推理,包括思考和规划思路,并且在必要时自行反思、改进解题思路,以提升答题的成功率。

根据多项数学基准能力测试结果显示,该模型的表现可对标OpenAI o1系列的o1-mini和o1-preview,并在中考、高考、考研,以及包含入门竞赛题的MATH等4个数学基准测试中,k0-math初代模型取得的成绩就超过了上述两个模型。

图片

同时在业界最常使用的数学能力基准测试MATH中,k0-math的分数为93.8,这一成绩超过了o1-mini的90分和o1-preview的85.5分,仅次于暂未开放的o1完全版的94.8分。而在难度更大的竞赛级别数学题库OMNI-MATH和AIME基准测试中,k0-math初代模型的表现分别达到了o1-mini最高成绩的90%和83%。

不过需要注意的是,k0-math虽然擅长解答大部分很有难度的数学题,但其当前版本还无法解答LaTeX格式难以描述的几何图形类问题。此外该模型还有一些局限性需要突破,例如对“1+1等于几”这种过于简单的问题可能会过度思考,而对于高考难题和IMO题依然有一定概率做错或是猜答案,此外还需要更好的泛化才能在更多学科的场景中落地使用。

对此月之暗面方面表示,这些局限性既是k0-math的机遇、也是挑战,预计将会在下一阶段的迭代中逐步得到改善。接下来该模型还将持续迭代,提升更难题目的解题能力,并挑战数学模型的能力极限。

图片

值得一提的是,除了推出k0-math之外,日前月之暗面方面还公布了此前在10月中旬上线的Kimi探索版最新进展,并称其通过运用强化学习技术,在意图增强、信源分析和链式思考三大推理能力上实现了突破。

目前Kimi探索版可以将抽象的问题和模糊的概念具体化、拓展用户的真实搜索意图,同时能够从大量的搜索来源结果中,分析筛选出更具权威性和可靠性的信源,并且还可以更好地基于思维链推理能力处理产品、公司、行业等问题。

【本文图片来自网络】