当 Kimi 戴上眼镜之后

全文1373字,阅读约需4分钟,帮我划重点

划重点

01Kimi同学在强化学习技术的帮助下,其AI大模型智力水平持续攀升,尤其在数理化领域超过其他学霸。

02通过激励模型生成更详细的推理步骤,Kimi同学的视觉思考模型k1正在逐步跨越机器“看到”与“看懂”之间的鸿沟。

03除了物理、几何等学科,Kimi同学在语文、艺术和生活中的应用表现也相当出色。

04与传统搜题软件不同,Kimi同学的视觉思考模型能够直接对图像信息进行解析和深入推理,避免信息丢失。

05未来,Kimi同学有望在更多领域展现强大的思考能力和图像理解能力。

以上内容由腾讯混元大模型生成,仅供参考

图片

内容编辑丨特工少女
模型测试丨特工小鹏 特工西风
“咦,你家 Kimi 最近'配眼镜'了?”
“对啊,用功太狠了,天天都在学习各类知识。”
自从国庆假期之后,Kimi 这孩子的能力就在不断进化。
从探索版的 AI 新搜索,到数学版的 k0-math,再到最近的视觉思考版的 k1......直接从原先班上成绩优秀的明星同学,摇身一变成学霸同学了(让我想到了家长的双标时刻,我近视就是玩手机玩的,别人家孩子就是学习学的🤓👆)
图片
据最新的成绩单,Kimi 的 k1 模型在硬核的数理化成绩上,超过了班上的其他学霸 OpenAI o1、GPT-4o 和 Claude 3.5 Sonnet(我了个豆,悄悄内卷惊艳所有人?
图片
这孩子平时吃了啥了?偷偷报补习班了?任督二脉被打开了?
其实都不是,是 Kimi 同学找到了事半功倍的学习方法——在强化学习技术的助推下,AI 大模型的智力水平正在持续攀升,在超多领域已经达到或超过人类专家的水平。
因此 Kimi 同学基于强化学习技术,通过激励模型生成更详细的推理步骤,形成高质量的思维链 CoT,并将强大的思考能力与图像理解能力相融合。(让我想起了高中同学借助 Anki 记忆卡片从二本水平逆袭 985 的那事)
在 AI 发展史上,“看到”和“看懂”之间始终存在着一道鸿沟。机器可以“看到”图像中的每一个像素,却难以真正理解其中的含义。如今,Kimi 同学的视觉思考模型 k1,正在被逐步跨越这道鸿沟。
成绩单如此亮眼,“用功到近视”的 Kimi 同学到底实力如何?是不是真的能“洞若观火”🧐❓
就让我们来考一考他!
图片
学习场景
中学时最头疼的就是物理了,尤其是电路题......于是拿了一道初中电路题考考 Kimi,过程和答案都对了(为什么不选高中题?因为我忘光了判断不了他过程做的对不对😇)
这种电路啊几何啊啥的,经常用搜题软件也搜不到答案,搜到了答案经常也看不懂过程。现在的学生党有福了,不会的问题可以交给 Kimi
传统的搜题是静态交互,容易让学生面向标准答案学习,但学生真正要学习的不是那个答案和解析,而是解决问题的思维逻辑。Kimi 的思维链过程,就完美的展现了思考逻辑,并给人以更动态的交互体验,哪里不懂问哪里😎
图片
图片
LaTeX 输入的数学题目你能手拿把掐,那抽象版的呢?再整个趣味数学题,没想到还是没难到 Kimi 同学。
图片
图片
有一类文题也是挺让人抓狂,就是那种附个抽象的图标来让你艺术赏析🤔
结果发现 Kimi 同学的视觉理解能力和审美能力都是相当在线的。
图片
再比如介个。
图片
此外,论文里复杂的图表,Kimi 同学理解起来也是砍瓜切菜。
图片
图片
不禁感慨,我那时候要是有这 AI 伙伴陪我学习,我高低现在也是个主编(主编别多想,写稿需要🥹)
图片
图片
生活场景
先来一个经典的算卡路里环节,直接上地狱难度。测试发现,即使是一盘食物丰富的自助早餐,也基本都识别正确。
图片
群里看到的奇奇怪怪的水果图谱,这又像芒果又像榴莲的东西是什么呢?没想到还是没难到 Kimi,又去搜索求证了下,还真是金铃子。
图片
再来看看旅行篇。
随手拿一张网友出去旅游的照片发给他(别问为什么不发自己旅行的照片,因为工作太忙了没时间旅行🥹),没想到 Kimi 竟然把地点和经纬度都说对了!
图片
图片
图片
视野打开,慧根自来。
传统的推理模型主要依赖于文本数据进行训练。在处理图像数据时,通常需要借助 OCR 技术或其他视觉模型将图像转换为文本,这一转换过程不可避免地会导致信息的丢失。
相比之下,k1 作为一个原生的端到端视觉推理模型,能够将视觉识别和推理能力无缝融合,直接对图像信息进行解析和深入推理,从而避免了信息的损失。
非常期待抓到学习的“主要矛盾”的 Kimi 同学接下来的成长,能够成为无所不在的六边形学霸!
下一次遇到看不懂的东西时,不妨拿起手机拍张照发给 Kimi,毕竟在视觉思考这方面,Kimi 已经能比同班的 o1 更厉害了👍