这篇论文是DeepSeek-AI团队发表的,标题是《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。
https://arxiv.org/abs/2501.12948
它主要讲了如何通过强化学习(Reinforcement Learning, RL)来提升大型语言模型(LLM)的推理能力,推出了两个模型:DeepSeek-R1-Zero和DeepSeek-R1,还顺带开源了一些小模型。这论文挺硬核的,但咱可以用大白话把它的核心内容掰开揉碎讲明白。
一、论文背景:为啥要搞这个研究?
大型语言模型(比如ChatGPT这类)这几年发展很快,已经在朝“通用人工智能”(AGI)迈进。推理能力是AI变得更聪明的重要一环,比如解决数学题、写代码、做科学推理等等。之前OpenAI推出了o1系列模型,通过延长推理过程(Chain-of-Thought, CoT)在推理任务上表现得很强,但具体怎么做到的,大家只能猜。
这篇论文的作者想搞清楚:能不能不用传统的那种监督微调(Supervised Fine-Tuning, SFT),直接靠强化学习让模型自己学会推理?他们用了DeepSeek-V3-Base作为基础模型,试着用纯RL打造一个推理高手,结果还真搞出了名堂。
二、主角登场:DeepSeek-R1-Zero和DeepSeek-R1
论文里主要讲了两个模型,一个是“原始版”DeepSeek-R1-Zero,一个是“升级版”DeepSeek-R1。
1. DeepSeek-R1-Zero:纯RL的试验田
怎么做的?
直接拿基础模型(DeepSeek-V3-Base),不给任何监督数据,就用强化学习去训练。 用了一种叫GRPO(Group Relative Policy Optimization)的算法,简单说就是让模型自己试错,试出一堆答案,然后根据“对不对”和“格式好不好”给奖励。 奖励分两块:一是答案正确性(比如数学题对不对),二是格式(要求模型把思考过程写在 <think>
标签里,答案写在<answer>
里)。结果咋样?
牛得很!比如在AIME 2024(美国数学邀请赛)上,正确率从15.6%飙到71%,用多数投票(cons@64)还能到86.7%,跟OpenAI的o1-0912差不多。 更厉害的是,模型自己学会了反思、验证,还能生成很长的推理过程,完全没人为干预。 有啥问题?
可读性差,回答乱七八糟,有时还中英混杂,看着头晕。 这让作者觉得,得优化一下,不能光推理强还得让人看得懂。
2. DeepSeek-R1:加点料的升级版
怎么改进的?
先用少量高质量的“冷启动数据”(cold-start data)微调基础模型,让它有个好起点。 然后分四步走: 冷启动:收集几千条带长推理过程的数据,教模型怎么写得清楚又好看。 推理强化学习:跟R1-Zero一样用RL,但加了个“语言一致性”奖励,避免中英混杂。 拒绝采样+SFT:用RL训练到差不多时,生成一大堆数据(60万推理+20万非推理),再微调模型,让它不只会推理,还能写文章、回答常识问题。 全面RL:再来一轮RL,优化帮助性和安全性,兼顾各种场景。 结果咋样?
性能直接对标OpenAI的o1-1217。比如AIME 2024上79.8%,MATH-500上97.3%,代码任务Codeforces上Elo达到2029(超过96%的人类选手)。 比R1-Zero可读性好多了,还能干更多事,比如写作、问答,长上下文理解也很强。
三、顺手开源:小模型也能很强
咋搞的?
用DeepSeek-R1生成的数据(80万条),直接微调了一些开源小模型(Qwen和Llama系列,1.5B到70B不等),叫“蒸馏”(distillation)。 没用RL,就简单SFT,结果也很猛。 效果如何?
7B的Qwen模型在AIME 2024上55.5%,14B的超了QwQ-32B-Preview,32B和70B甚至干翻o1-mini。 证明大模型的推理能力可以“传”给小模型,比直接在小模型上用RL效果好还省力。
四、实验结果:硬碰硬的数据对比
论文里给了详细的测试结果,跟一堆强模型(Claude-3.5、GPT-4o、o1系列)比了个遍。简单总结:
推理任务:DeepSeek-R1跟o1-1217不相上下,秒杀其他模型。 知识任务:MMLU 90.8%,GPQA Diamond 71.5%,比DeepSeek-V3强,但略逊o1-1217。 其他任务:写作、问答啥的也很牛,AlpacaEval 2.0胜率87.6%,ArenaHard 92.3%。
蒸馏的小模型也很有竞争力,尤其是14B、32B、70B,性价比很高。
五、聊聊得失:成功的秘密和踩过的坑
1. 为啥成功?
纯RL可行:DeepSeek-R1-Zero证明不靠监督数据也能练出推理能力,RL自己就能让模型进化。 冷启动+多阶段:DeepSeek-R1用少量数据打底,再RL+SFT循环,效果更好还更人性化。 蒸馏效率高:大模型的智慧能便宜地传给小模型。
2. 踩了啥坑?
过程奖励模型(PRM):想细化每步奖励,但定义难、标注烦,还容易被模型“钻空子”,最后放弃了。 蒙特卡洛树搜索(MCTS):想模仿AlphaGo用搜索提升推理,但语言模型的搜索空间太大,效果不理想。
六、未来咋办?
通用能力:现在R1在函数调用、多轮对话上不如V3,得继续优化。 语言混杂:目前只优化了中英文,其他语言容易乱,得修。 软件工程:这块数据少,RL没发挥好,后面要加码。
七、大白话总结
这论文讲的就是DeepSeek团队怎么用强化学习把一个普通语言模型调教成推理高手。DeepSeek-R1-Zero是纯RL的实验品,证明这路子走得通;DeepSeek-R1是加了料的成品,性能顶尖还好用。他们还顺手把大模型的本事“蒸馏”到小模型上,开源给大家玩。整个过程既有惊喜(模型自己学会反思),也有教训(有些方法行不通),但总的来说,是AI推理领域的一次漂亮突破。