国内热门推理大模型指南

自从OpenAI o1大模型出现之后,把大模型数学推理能力和代码编程能力推向了一个新的高度。国内各大厂商也看到了这个新的蓝海,纷纷推出了自家的推理大模型。因此这篇文章主要介绍三个最近比较热门的推理大模型。

多模态版本大模型——LLaVA-o1

LLaVA-o1是由北京大学、清华大学、鹏城实验室、阿里巴巴达摩院以及理海大学联合研发的视觉语言模型,旨在进行自主多阶段推理。它基于Llama-3.2-Vision模型打造,也是在大模型的基础上,加入了“慢思考”思维链COT。


在六个多模态推理基准测试中,LLaVA-o1超越了许多更大的开源模型(Llama-3.2V、InternVL2等),甚至也超越了一些闭源大模型(Gemini Pro 1.5、GPT-4o mini)。


图片


具体LLaVA-o1在推理答案生成的过程当中,把问题进行了有效的拆分,构建了4个结构化的推理阶段:


图片


  • Summary Stage(总结阶段):在此初始阶段,LLaVA-o1提供问题的高层次总结解释,概述其打算解决的主要问题方面。

  • Caption Stage(标题阶段):如果存在图像,LLaVA-o1提供与问题相关的视觉元素的简明概述,帮助理解多模态输入。

  • Reasoning Stage(推理阶段):在初步总结的基础上,LLaVA-o1进行结构化、逻辑推理,以得出初步答案。

  • Conclusion Stage(结论阶段):在此最终阶段,LLaVA-o1基于前述推理综合出一个答案。此阶段的输出是提供给用户的直接响应,而前三阶段是内部的“隐藏阶段”,代表LLaVA-o1的推理过程。

每个阶段都由模型自行启动,无需外部提示工程框架或额外提示。每一个阶段都有不一样的标签,比如<summary>、<caption>、<reasoning>、<conclusion>等。


其训练数据集LLaVA-o1-100k,整合了来自多个广泛使用的VQA数据集的样本,总共包含99k个图像QA对。使用GPT-4o和上面的四个阶段来进行生成。


图片


在训练过程中,模型根据需要自行选择这些标签,根据其自己的判断激活每个阶段。与OpenAI o1大模型一样,所有阶段都由模型在单个推理过程中完成。这种结构化的方法使模型能够独立管理其推理过程,提高其在复杂推理任务上的适应性和性能。


模型训练中则用了Llama-3.2-11B-Vision-Instruct模型作为基础模型,使用LLaVA-o1-100k数据集进行监督微调(Supervised Fine-Tuning, SFT)。


在推理阶段,LLaVA-o1使用了一种新的推理时间扩展方法,被称为阶段级束搜索,它主要用来提升推理时模型的输出能力。它具体方法就是在每一个阶段生成多个输出,然后让模型决定哪个保留哪一个。重复这个步骤,直到处理完所有阶段。


图片


从下面图可以看到,如果推理阶段没有使用这种搜索方法,尽管模型生成了正确的推理步骤,但在推理过程中无法得出具体答案。这导致模型在结论阶段进行猜测,从而得出错误的结果。而在使用阶段级束搜索之后,可以得到正确的结果(下图绿色部分显示)


图片


1

实测模型能力

首先给一个简单的加减题目

减去图中闪亮的小球和紫色物体,剩下多少个?


图片


模型会把问题进行拆解,然后进行一步一步的分析。


图片


第一步:分析了具体的问题,然后重点关注微小的闪亮球和紫色物体

第二步:计算了图片中共有10个物体,然后减去那些闪亮的小球,接着也识别到了紫色物体,再进行相减

第三步:最后得出了答案,从10个物体中减去2个,得到B。


可以看到,整个过程很丝滑,同时对于图片的识别和理解也毕竟准确


接着,我拿了一道2024年高考数学题目给它解答:


图片

先来看看正确的答案是:7/15


图片


由于它支持图片输入,因此直接用图片进行问答:


图片


下面是LLaVA-o1给出的答案,同时还有它的一些推理步骤:

图片  

它的回答分开了5个步骤:第一步是先理解图片中的含义,问题涉及一个数字序列和一个数学运算。我们需要根据给定的序列和运算确定一个变量的值。但是从后面的几个步骤来看,好像模型没有正确识别出图片中需要计算的背景是什么,导致只给出了一个平均值之差为3的结论。


总结起来看,这个模型能力应该更多的是优化了多模态中的简单推理能力,对于较为复杂的数学能力暂时没有针对性的优化。


KIMI推出的数学推理模型k0-math

KIMI推出的数学推理模型k0-math,终于上线了,可以直接去到官网体验


图片


在 Kimi 网页版中,选择侧边栏的“眼镜”图标,即可使用基于 k0-math 模型的 Kimi 数学版,官方称后续会推出手机版。


官方表示,数学公式推荐使用 LaTeX 格式,可以截图或拍照给 Kimi 常规版,让 Kimi 把图片转为 LaTeX 格式,然后复制题目给 Kimi 数学版即可。


在两个难度更大的竞赛级别的数学题库 OMNI-MATH 和 AIME 基准测试中,k0-math 初代模型的表现分别达到了 o1-mini 最高成绩的 90% 和 83%。


图片


那么它的能力到底怎样呢?这里给了几个问题测试一下它~


1

实测模型能力

测试一下难倒广大中国网友的调休怎么调的问题。之前关于调休就上过热搜


图片


由于之前国庆节和中秋是连着来,所以网友盘算着怎么调休才算最优解,这里的“上6休3上3休2上5休1上2休7再上5休1”其实就是指从中秋开始休假的缩写。


图片


说人话就是,从中秋开始,先上6天班,再休假3天,再上3天班,再休假2天,然后上5天班,接着休1天,再上2天班,最后国庆休7天,再上5天班,最后只休1天。说实话,就算我自己打字也觉得这个假期太复杂了,简直像是念咒语一样

图片


那时候中国网友就为了这个调休到底最后休了多少天而计算起来


图片


既然这么难,恰好可以丢给大模型进行问答,看看具备了数学推理能力的k0-math怎么计算这道数学难题。


图片


一开始,KIMI错误的计算出了需要算整个9月的假期。但是我们题目是从9月9日开始的,所以其实只有10个周末是我们原本休息的。


图片


重新纠正后,告诉它只有10个周末,它终于答对了这道题目,答案是只多休了4天假期。


图片


再来给他测试一下2024年的高考题看看效果怎么样:

编号为1,2,3,4,5,6的六个小球,不放回的抽三次,m表示前两次号码的平均值,n表示前三次号码的平均值,则m和n的差值不超过0.5的概率是多少

一开始的解答过程基本没有什么问题:它先定义了a,b,c三个作为前三次抽到的号码,然后可以得到 𝑚=(𝑎+𝑏)/2 和 𝑛=(𝑎+𝑏+𝑐)/3 ,然后由于题目要求m和n两个数的差值不超过0.5,因此可以得到|(𝑎+𝑏)/2−(𝑎+𝑏+𝑐)/3|<=0.5 ,接下来化简就可以得到 |𝑎+𝑏−2𝑐|<=3


图片


接着回答中提到了需要考虑c的取值范围,然后需要开始进行穷举法,来讨论c的取值满足|𝑎+𝑏−2𝑐|<=3 这个条件。


图片


但在接下来的穷举法中,就出现了很大的偏差,比如当c=6时,正确的答案应该时9≤a+b≤15,但是AI回答却认为了3≤a+b≤9,所以之后的举例子就会出错了。


图片


但是在我重新让kimi模型思考c=6的情况的时候,它竟然又思考对了,在c=6的时候,得出了2种情况这个正确答案。


图片


但是很遗憾的是,其他c的取值也还是错的,导致最后得出了错误的答案~


图片


不过从上面可以看到,kimi的k0-math模型在数学推理能力上还是很不错。同时只要你告诉它其中有一个步骤是错误的,它就会自动自己更新。


那我们再来看看o1大模型对这个题目的解答:o1模型和k0-math一样,在前面两个步骤上都答对了,且能得出 |𝑎+𝑏−2𝑐|<=3 这个答案了,但是和k0-math一样,在穷举法的时候也计算错误了,在计算三个值满足条件的时候,得到的答案是54,与正确答案差了2个值。


图片

简单的从从这个题目也能看出,两个模型效果都差不多,都在前置步骤上解答对了,但是在穷举的时候比较数字大小出错。


从测试的整个过程当中,可以看到其数学能力已经有了明显提升。不像o1大模型输出思维链隐藏起来一样,k0-math反而更加显性的输出自己的思考思维链,这更能说明其具有独特的思考个性。


以前的大模型就像一个搜索器,你问啥它就搜啥。但现在,不管是o1大模型还是Kimi,都在努力让AI真正学会思考。


Qwen版本o1推理模型QWQ

说实话,这个模型被称为Qwen QWQ,我是有点惊讶的。QWQ是不我们日常使用的颜文字吗?有理由怀疑qwen团队在训练这个模型的时候,已经有点魔怔了~


图片


目前QwQ的模型权重已经放到了HuggingFace上,想要体验的可以去在线玩


模型在一些数学和编程领域的数据集都表现了比较好的效果,在一些数据集上,比如MATH-500中,其取得的效果还要比OpenAI的o1大模型效果要好。


图片


目前QWQ放出来的版本,参数量只有32B,这个模型在本地也能够运行,也就是人人都能够自己搭建一个o1水平的推理模型


图片


再来给他测试一下2024年的高考题看看效果怎么样:

编号为1,2,3,4,5,6的六个小球,不放回的抽三次,m表示前两次号码的平均值,n表示前三次号码的平均值,则m和n的差值不超过0.5的概率是多少


图片


等了一会儿,确实推理速度有点慢。


一开始的解答过程基本没有什么问题:它先定义了a,b,c三个作为前三次抽到的号码,然后可以得到 𝑚=(𝑎+𝑏)/2 和 𝑛=(𝑎+𝑏+𝑐)/3 ,然后由于题目要求m和n两个数的差值不超过0.5,因此可以得到|(𝑎+𝑏)/2−(𝑎+𝑏+𝑐)/3|<=0.5 ,接下来化简就可以得到 |𝑎+𝑏−2𝑐|<=3


图片


接下来也开始了穷举法,然后把1≤c≤6之间的取值进行一一枚举,但还是一样的问题,对于每一个c的值还是得出了错误的结果。


图片


对于最令大模型头痛的一道题目

trawberry有几个r


图片


结果是正确的,确实推理能力上来之后,这种之前有问题的题目大模型已经可以做好了~


在当前的热潮中,通义团队坦言,虽然 QwQ 显示出了卓越的分析实力,但它依旧是一个用于科研的试验性模型,面临着诸如多种语言混杂、偶尔出现不适当的偏见以及对专业领域问题的认知不足等挑战。然而,随着研究的不断深入和模型的逐步迭代,这些问题有望逐一得到妥善解决。


写在最后

这次把国内的一些近期有名的推理大模型做了一些简单的介绍和基础的评测,发现这些专门针对推理的大模型应该都是沿用了OpenAI o1大模型的那个技术。这种技术包含了隐式化的COT生成和Post-training,确实能够有效提升大模型的推理能力。相信不久之后这些推理大模型将会在各个领域发挥更大的作用。随着技术的不断进步和优化,我们有望看到更加精准、高效的推理结果。


好了,以上就是本期的所有内容了,我是leo,我们下期再见~