Kimi视觉思考模型 k1:可拍照解题,会给出解答过程

全文1567字,阅读约需5分钟,帮我划重点

划重点

01Kimi发布视觉思考模型k1,可拍照解题并给出解答过程,包括Android版、iOS版和网页版。

02k1模型基于强化学习技术,支持端到端图像理解和思维链技术,已扩展至数学之外的更多基础科学领域。

03在数学、物理、化学等基础科学学科的基准能力测试中,k1模型表现超过OpenAI o1、GPT-4o和Claude 3.5 Sonnet。

04为此,Kimi模型研发团队自主构建了标准化测试集Science Vista,涵盖不同难度的数理化图片题目。

05然而,k1模型在分布外泛化、复杂问题成功率、噪声场景准确率和多轮问答效果等方面仍有提升空间。

以上内容由腾讯混元大模型生成,仅供参考

多知12月16日消息,今天,Kimi 发布视觉思考模型 k1,可以拍照解题,并不仅仅给出答案,还会给出思索答案的全过程。该模型将于近期正式上线,包括Android版、iOS版以及网页版。


根据Kimi介绍,k1 模型基于强化学习技术,支持端到端图像理解和思维链技术,并将能力扩展到数学之外的更多基础科学领域。在数学、物理、化学等基础科学学科的基准能力测试中,初代 k1 模型的表现超过了全球标杆模型 OpenAI o1、GPT-4o以及 Claude 3.5 Sonnet。


图片


Kimi介绍,k1 视觉思考模型,真正意义上实现了端到端的图像理解和思考能力。模型可以直接处理用户输入的图像信息并进行思考得出答案,不需要借助外部的OCR或额外视觉模型进行信息处理。


从模型训练的角度看,k1 视觉思考模型的训练分为两个阶段,先通过预训练得到基础模型,再在基础模型上进行强化学习后训练k1 的基础模型重点优化了字符识别能力,在 OCRBench 上得到 903 分的当前最好(state-of-the-art)结果,在 MathVista-testmini、MMMU-val 和 DocVQA 基准测试集上分数分别为 69.1、66.7 和 96.9,处于全球第一梯队水平。


Kimi 解释,这是因为k1 的强化学习后训练在数据质量和学习效率方面做了进一步优化,在强化学习的规模化(scaling)上取得了新的突破。


为此,Kimi 模型研发团队自主构建了一个标准化的测试集Science Vista,涵盖不同难度的数理化图片题目,且从分布上与实际用户需求较为匹配。该测试集将开放给全行业。


Kimi 还坦言,k1 视觉思考模型存在的局限性,例如在分布外(out-of-distribution)的泛化、在更复杂问题上的成功率、在更多噪声场景的准确率、多轮问答效果等方面,有很大提升空间。在一些场景和泛化能力上,k1 模型与 OpenAI 的 o1 系列模型相比仍有差距。


一个月前,Kimi 推出数学能力对标 OpenAI o1 系列的 k0-math 模型。该模型有较强的数学能力,但由于主要支持LaTeX等格式的文本输入,依赖图形理解能力的部分几何图形题则难以应对。


新的 k1 视觉思考模型,借助端到端的图像理解能力,解锁了包括几何图形题在内更加全面的数学能力。在不同阶段的几何和图形题专项基准能力测试中,k1-preview 成绩追平或超过了 OpenAI 的 o1 模型。


比如k1 视觉思考模型解决这道几何题:


图片


‍‍除了数学能力,k1视觉思考模型将能力扩展到了物理、化学等领域。Kimi表示,在基础科学学科教育阶段的物理和化学能力测试中,k1 模型的表现同样不输全球领先的玩家 OpenAI 和 Anthropic。


k1 视觉思考模型解答经典物理电路题的例子:


图片


接下来,我们来看一个 k1 视觉思考模型化学领域技术原理的例子。我们将一张曾获得诺贝尔化学奖的技术原理图去掉大部分文字说明,只留下“QD”两个字母,看 k1 是如何一步一步分析出原理图是在讲什么。


图片


在真实场景下,用户输入给模型的图像信息往往存在各种各样的噪声,包括照片灰暗、图像模糊、多题一起拍、手写字迹干扰、纯手写的题目、倾斜的拍摄角度等。


Kimi测试显示,在“噪声”场景下,多个基础科学学科的基准测试数据显示,k1 模型相比OpenAI 和 Anthropic 的视觉语言模型,有更显著的领先优势。其他大部分模型在视觉噪声场景下,能力水平下降了一半多,k1 则依靠超强的视觉识别能力,保持了最低的能力损失幅度。


图片


Kimi的工作人员在平板电脑上手动推演的公式:


图片


k1 模型是可以一步一步分析出作者的意图:


图片


在学习了代数、几何、物理、化学、生物等更多基础科学的难题之后, k1 视觉思考模型同样涌现出更多通用能力。


未来,用户不仅遇到不懂的题目,可以随手拍给 Kimi,而且在社交软件上看到不认识的城市或建筑照片、不熟悉的热带水果、看不明白的草书毛笔字、看不懂的梗图、看不懂的科学家手稿……都可以尝试发给 Kimi 视觉思考版,Kimi可以给出自己的答案。


越来越多的通用大模型正在针对细分场景不断微调,比如,更多功能适用于教育场景,如豆包有“拍题答疑”功能,而今,kimi也有了该功能,“不懂就拍”,这为学习者带来了更多的选择。



  

图片