多知11月19日消息,Kimi 正式发布新一代数学推理模型 k0-math。根据介绍,基准测试显示,Kimi k0-math 的数学能力可对标全球领先的 OpenAI o1 系列可公开使用的两个模型:o1-mini和o1-preview。
在多项数学基准能力测试中,k0-math 的表现能对标 OpenAI o1 系列可公开使用的两个模型:o1-mini和o1-preview。在中考、高考、考研以及包含入门竞赛题的MATH等 4 个数学基准测试中,k0-math 初代模型成绩超过o1-mini和o1-preview模型。
在数学能力基准测试 MATH 中,k0-math 模型得分 93.8,超过 o1-mini 的 90 分和 o1-preview 的 85.5 分。k0-math 这一成绩仅次于暂未开放使用的 o1 完全版 94.8 分。
在两个难度更大的竞赛级别的数学题库 OMNI-MATH 和 AIME 基准测试中,k0-math 初代模型的表现分别达到了 o1-mini 最高成绩的 90% 和 83%。接下来,k0-math 模型会持续迭代,提升更难题目的解题能力,挑战数学模型的能力极限。
常规模型的设定目标是尽快提供问题的答案。k0-math 模型则会花更长的时间来推理,包括给出思考和规划的思路,并且在必要时自行反思改进解题思路,提升答题的成功率。
值得注意的是,k0-math 模型虽然擅长解答大部分很有难度的数学题,但是当前版本还无法解答 LaTeX 格式难以描述的几何图形类问题。
此外,它还有一些局限性需要突破,包括对于过于简单的数学问题,例如1+1等于几,k0-math模型可能会过度思考;对于高考难题和IMO题目依然有一定概率做错、猜答案。
同时,Kimi 探索版也通过运用强化学习技术创新了搜索体验,在意图增强、信源分析和链式思考三大推理能力上实现突破。
此前,月之暗面推出了Kimi 探索版。官方透露,最近,Kimi 探索版运用强化学习技术创新搜索体验,在三大推理能力上实现突破:意图增强、信源分析和链式思考。未来,将推出k0-math数学模型和更强大的Kimi探索版,将会分批陆续上线 Kimi 网页版(kimi.ai)和Kimi智能助手APP,帮助用户解决更有挑战的数学和搜索调研类任务。
月之暗面官方透露,每月使用Kimi的用户,从几万增长到几千万,几乎增长了1000倍。可以看到,在通用大模型之后,月之暗面在持续优化大模型的能力,并入局垂类大模型。