昨夜,中国AI创业公司给了世界AI圈“小小”的震撼,朝着OpenAI-o1扔下了“双炸”。
DeepSeek和Kimi几乎同步(前后相隔仅2小时)发布了比肩OpenAI-o1的新模型。
也就是:在数学、代码和自然语言推理等任务上比肩 OpenAI-o1 正式版的 DeepSeek-R1,和在数学、代码、多模态推理能力追平OpenAI-o1满血版的多模态思考模型k1.5。
DeepSeek-R1测评:
(在AIME2024上略高于OpenAI-o1-1217;在编码任务中,稍逊于OpenAI-o1-1217;在MATH-500上,稍高于OpenAI-o1-1217)
Kimi k1.5测评:
(long-CoT 模式下,Kimi k1.5 达到长思考 SOTA 模型 OpenAI-o1 正式版的水平)
(short-CoT 模式,Kimi k1.5 数学、代码、视觉多模态和通用能力,超越短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet )
DeepSeek和Kimi都发布了详细的技术论文:
DeepSeek:
https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek\_R1.pdf
Kimi:
https://github.com/MoonshotAI/kimi-k1.5
通过剖析论文,能看出同天发布的DeepSeek-R1和Kimi k1.5,在RL的设计上都体现出"简洁"的特点。
Kimi的技术报告里表示,由于自己增加了RL上下文长度,增加了搜索步骤数量,所以能不依赖传统复杂技术(如蒙特卡洛树搜索、价值函数和过程奖励模型等),实现效果。
DeepSeek这次发布的模型包括R1-Zero和R1。
在R1-Zero中,DeepSeek没有SFT直接用了RL,也没有采用过于复杂的奖励机制。但就是这种大胆的方案,出现了接近"涌现"的效果。他们发现,R1-Zero模型会重新审视并评估之前的步骤,探索其他解决方案,也就是"反思"。
这一方案并不是共识——就在前几天,我们在硅谷的交流中听到大厂的研究员认为,在SFT之前做RL,对模型是没有意义的。但现在,R1-Zero的出现展示出新可能。
DeepSeek:极致的RL力量
DeepSeek-R1-Zero模型的aha moment,是这次发布中绝对的高光部分。
它指的是,DeepSeek-R1-Zero展示出一个令人兴奋的特点:随着测试阶段计算能力的提升,它不仅提高升数学、编程等推理任务上的能力,还会自发地进行“反思”——也就是重新审视并评估之前的步骤,探索解决问题的替代方法。
这些行为,是模型与强化学习环境交互的自然结果。
值得注意的是,这是首个通过研究验证,大型语言模型(LLMs)的推理能力可以仅通过RL激励,而不需要SFT的成果。
这种由强化学习催生出的能力涌现,更极致地体现出没有过多人工干预的情况下,RL通过正确激励发挥出的潜力。
DeepSeek如此形容它的意义:
我们直接将强化学习(RL)应用于基础模型,而不依赖有监督微调(SFT)作为初始步骤。这种方法使模型能够探索“链式推理”(CoT)以解决复杂问题,进而开发出 DeepSeek-R1-Zero。DeepSeek-R1-Zero 展现了诸如自我验证、反思以及生成长链式推理等能力,这标志着研究领域的一项重要里程碑。
在训练细节中,DeepSeek介绍了简化Critic Model的GRPO思路(可以减少内存),和基于规则(Rule-based)的奖励机制。
Rule-based奖励机制也是一个特点——DeepSeek没有在开发 DeepSeek-R1-Zero 时应用基于神经网络的结果或过程奖励模型。
他们认为,在大规模强化学习过程中,神经奖励模型可能会遭遇奖励滥用(Reward Hacking,比如模型"讨好"奖励系统)。而且,重新训练奖励模型需要额外的训练资源,使整个训练流程变得更加复杂。
DeepSeek在Zero的训练中设置了两种奖励:
准确性奖励(Accuracy rewards):评估模型的响应是否正确。例如,在有确定性答案的数学问题中,要求模型按照指定格式(例如,用框标注)提供最终答案,实现基于规则的正确性验证。
格式奖励(Format rewards):除了准确性奖励模型外,DeepSeek还使用格式奖励模型,要求模型将推理过程置于 <think> 和 </think> 标签之间。
通过这些奖励模式,模型不断学习“什么是好”的方案,最终完成了训练。
当然,由于这种方案训练出的R1 Zero还存在输出结果可读性不强、语言混杂的问题。所以,R1引入了冷启动数据结合两轮强化学习,并在最后结合拒绝采样(Rejection Sampling)和多领域的数据集,完成了训练。
针对R1的训练价值,DeepSeek表示:
我们引入了一套开发 DeepSeek-R1 的流程,包括两个旨在发现改进推理模式并与人类偏好对齐的 RL 阶段,以及两个为模型推理和非推理能力提供基础的 SFT 阶段。我们相信,这套流程将通过构建更优秀的模型为行业带来益处。
Kimi:如何优雅地应用长CoT
Kimi的k1.5,是自去年11月的k0-math数学模型,12月的k1视觉思考模型后,第三次K系列重要上新。
Kimi k1.5模型在强化学习(RL)过程中将上下文窗口扩展到了128k 。
更长的RL上下文意味着它在推理复杂任务时,可以记住更多的历史步骤并分析其中的逻辑链条,使它能够应对需要多步推理的难题。
DeepSeek-R1、DeepSeek-R1-Zero,以及 OpenAI o1 的模型上下文窗口同样都是 128k。不过,这些模型的技术报告并未明确说明它们的 RL 上下文窗口具体有多长。
通常情况下,模型上下文窗口会大于或等于 RL 的上下文窗口。因此,可以推测,k1.5 在处理需要长时间记忆和复杂推理的任务上,可能比其他模型表现更出色。
更长的 RL 上下文窗口为长链式推理能力(Long-CoT)提供了底层保障,但同时,长链式推理也带来了两个问题:训练时消耗更多的计算资源(Tokens),以及生成的答案往往过于冗长,缺乏简洁性。
k1.5 针对这些问题提出了 long2short 方法,通过以下四种方式在保持推理能力的同时,显著缩短了答案的长度:
模型融合:将一个长链式推理模型和一个短链式推理模型的权重进行简单平均,从而融合它们各自的优点。
最短拒绝采样:针对同一个问题,模型生成 8 个不同答案(即采样 8 次),然后从中选出最短且正确的答案,用作训练数据。
直接偏好优化(DPO):模型生成多个响应后,将最短的正确答案作为正样本,较长的答案(同时包括错误答案和过长的正确答案)作为负样本,通过这些对比数据优化模型的偏好。
long2short 强化学习:在标准 RL 训练后,k1.5 进行了额外的训练阶段。通过引入“长度惩罚”机制,显著减少了模型生成的最大答案长度,即便某些较长答案是正确的,模型也会倾向于输出更短的答案。
k1.5在训练过程中,还使用了更稳健的优化策略,同时让模型保留了推理上的泛化能力。
k1.5 使用了一种改进的在线镜像下降(Online Mirror Descent)方法,同时摒弃了传统强化学习中常用的值网络(Value Network)。
这种策略让模型的优化过程更稳定、更高效,并且保留了对多种推理路径的探索能力,从而提升了模型在新任务上的泛化性。
相对熵正则化:通过一个规则,限制每次优化中新策略与旧策略之间的差距,避免模型训练过程中出现大幅波动,确保优化过程更加稳健。
去掉值网络:值网络通常用于预测奖励,但在 k1.5 中被替代为直接的奖励信号。这种设计不仅简化了计算,还鼓励模型尝试更多推理路径,即使某些路径可能是错误的,只要能通过回溯找到正确答案,这些尝试都会提高模型的能力。
增强复杂推理的效果:多样化的探索使模型在处理复杂任务时表现更出色,尤其是需要多步逻辑推理的问题。
通过扩展 RL 的上下文窗口以及在训练策略上所做的这些优化,k1.5 在没有使用更复杂的技术(如蒙特卡罗树搜索、价值函数等)的情况下,就让模型获得了强大了推理性能,同时提高了训练的效率。
在推理类模型当道的如今,让模型获得更强的推理能力是各家模型厂商都在攻克的难题。Kimi k1.5 的价值在于,让我们看到了一种优雅地训练出复杂推理能力模型的方法。
并且,k1.5 在使用了相对简单的方法来结合了短 CoT 和长 CoT 的各自优点的同时,又通过视觉训练数据赋予了模型视觉理解的能力,这意味着模型拥有更好的推理效果,更广泛的应用场景。
目前,DeepSeek已经上线R1 API,官网与App也同步更新上线。Kimi k1.5的预览版也将陆续灰度上线网站和最新版APP。
这两家同时向OpenAI-o1扔下双炸的公司,即将迎来真实case的对比检验。