阅读 | DeepSeek-R1：怎么用强化学习把一个普通语言模型调教成推理高手？

LangGPT

2025-02-24 11:01发布于北京科技领域创作者

+关注

这篇论文是DeepSeek-AI团队发表的，标题是《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。

https://arxiv.org/abs/2501.12948

它主要讲了如何通过强化学习（Reinforcement Learning, RL）来提升大型语言模型（LLM）的推理能力，推出了两个模型：DeepSeek-R1-Zero和DeepSeek-R1，还顺带开源了一些小模型。这论文挺硬核的，但咱可以用大白话把它的核心内容掰开揉碎讲明白。

一、论文背景：为啥要搞这个研究？

大型语言模型（比如ChatGPT这类）这几年发展很快，已经在朝“通用人工智能”（AGI）迈进。推理能力是AI变得更聪明的重要一环，比如解决数学题、写代码、做科学推理等等。之前OpenAI推出了o1系列模型，通过延长推理过程（Chain-of-Thought, CoT）在推理任务上表现得很强，但具体怎么做到的，大家只能猜。

这篇论文的作者想搞清楚：能不能不用传统的那种监督微调（Supervised Fine-Tuning, SFT），直接靠强化学习让模型自己学会推理？他们用了DeepSeek-V3-Base作为基础模型，试着用纯RL打造一个推理高手，结果还真搞出了名堂。

二、主角登场：DeepSeek-R1-Zero和DeepSeek-R1

论文里主要讲了两个模型，一个是“原始版”DeepSeek-R1-Zero，一个是“升级版”DeepSeek-R1。

1. DeepSeek-R1-Zero：纯RL的试验田

怎么做的？

直接拿基础模型（DeepSeek-V3-Base），不给任何监督数据，就用强化学习去训练。
用了一种叫GRPO（Group Relative Policy Optimization）的算法，简单说就是让模型自己试错，试出一堆答案，然后根据“对不对”和“格式好不好”给奖励。
奖励分两块：一是答案正确性（比如数学题对不对），二是格式（要求模型把思考过程写在<think>标签里，答案写在<answer>里）。

结果咋样？

牛得很！比如在AIME 2024（美国数学邀请赛）上，正确率从15.6%飙到71%，用多数投票（cons@64）还能到86.7%，跟OpenAI的o1-0912差不多。
更厉害的是，模型自己学会了反思、验证，还能生成很长的推理过程，完全没人为干预。

有啥问题？

可读性差，回答乱七八糟，有时还中英混杂，看着头晕。
这让作者觉得，得优化一下，不能光推理强还得让人看得懂。

2. DeepSeek-R1：加点料的升级版

怎么改进的？

先用少量高质量的“冷启动数据”（cold-start data）微调基础模型，让它有个好起点。
然后分四步走：

冷启动：收集几千条带长推理过程的数据，教模型怎么写得清楚又好看。
推理强化学习：跟R1-Zero一样用RL，但加了个“语言一致性”奖励，避免中英混杂。
拒绝采样+SFT：用RL训练到差不多时，生成一大堆数据（60万推理+20万非推理），再微调模型，让它不只会推理，还能写文章、回答常识问题。
全面RL：再来一轮RL，优化帮助性和安全性，兼顾各种场景。

结果咋样？

性能直接对标OpenAI的o1-1217。比如AIME 2024上79.8%，MATH-500上97.3%，代码任务Codeforces上Elo达到2029（超过96%的人类选手）。
比R1-Zero可读性好多了，还能干更多事，比如写作、问答，长上下文理解也很强。

三、顺手开源：小模型也能很强

咋搞的？

用DeepSeek-R1生成的数据（80万条），直接微调了一些开源小模型（Qwen和Llama系列，1.5B到70B不等），叫“蒸馏”（distillation）。
没用RL，就简单SFT，结果也很猛。

效果如何？

7B的Qwen模型在AIME 2024上55.5%，14B的超了QwQ-32B-Preview，32B和70B甚至干翻o1-mini。
证明大模型的推理能力可以“传”给小模型，比直接在小模型上用RL效果好还省力。

四、实验结果：硬碰硬的数据对比

论文里给了详细的测试结果，跟一堆强模型（Claude-3.5、GPT-4o、o1系列）比了个遍。简单总结：

推理任务：DeepSeek-R1跟o1-1217不相上下，秒杀其他模型。
知识任务：MMLU 90.8%，GPQA Diamond 71.5%，比DeepSeek-V3强，但略逊o1-1217。
其他任务：写作、问答啥的也很牛，AlpacaEval 2.0胜率87.6%，ArenaHard 92.3%。

蒸馏的小模型也很有竞争力，尤其是14B、32B、70B，性价比很高。

五、聊聊得失：成功的秘密和踩过的坑

1. 为啥成功？

纯RL可行：DeepSeek-R1-Zero证明不靠监督数据也能练出推理能力，RL自己就能让模型进化。
冷启动+多阶段：DeepSeek-R1用少量数据打底，再RL+SFT循环，效果更好还更人性化。
蒸馏效率高：大模型的智慧能便宜地传给小模型。

2. 踩了啥坑？

过程奖励模型（PRM）：想细化每步奖励，但定义难、标注烦，还容易被模型“钻空子”，最后放弃了。
蒙特卡洛树搜索（MCTS）：想模仿AlphaGo用搜索提升推理，但语言模型的搜索空间太大，效果不理想。

六、未来咋办？

通用能力：现在R1在函数调用、多轮对话上不如V3，得继续优化。
语言混杂：目前只优化了中英文，其他语言容易乱，得修。
软件工程：这块数据少，RL没发挥好，后面要加码。

七、大白话总结

这论文讲的就是DeepSeek团队怎么用强化学习把一个普通语言模型调教成推理高手。DeepSeek-R1-Zero是纯RL的实验品，证明这路子走得通；DeepSeek-R1是加了料的成品，性能顶尖还好用。他们还顺手把大模型的本事“蒸馏”到小模型上，开源给大家玩。整个过程既有惊喜（模型自己学会反思），也有教训（有些方法行不通），但总的来说，是AI推理领域的一次漂亮突破。

免责声明：本内容来自腾讯平台创作者，不代表腾讯新闻或腾讯网的观点和立场。