客户端
游戏
无障碍

1

评论

21

13

手机看

微信扫一扫,随时随地看

阅读 | DeepSeek-R1:怎么用强化学习把一个普通语言模型调教成推理高手?

这篇论文是DeepSeek-AI团队发表的,标题是《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。

图片https://arxiv.org/abs/2501.12948

它主要讲了如何通过强化学习(Reinforcement Learning, RL)来提升大型语言模型(LLM)的推理能力,推出了两个模型:DeepSeek-R1-Zero和DeepSeek-R1,还顺带开源了一些小模型。这论文挺硬核的,但咱可以用大白话把它的核心内容掰开揉碎讲明白。



一、论文背景:为啥要搞这个研究?

大型语言模型(比如ChatGPT这类)这几年发展很快,已经在朝“通用人工智能”(AGI)迈进。推理能力是AI变得更聪明的重要一环,比如解决数学题、写代码、做科学推理等等。之前OpenAI推出了o1系列模型,通过延长推理过程(Chain-of-Thought, CoT)在推理任务上表现得很强,但具体怎么做到的,大家只能猜。

这篇论文的作者想搞清楚:能不能不用传统的那种监督微调(Supervised Fine-Tuning, SFT),直接靠强化学习让模型自己学会推理?他们用了DeepSeek-V3-Base作为基础模型,试着用纯RL打造一个推理高手,结果还真搞出了名堂。



二、主角登场:DeepSeek-R1-Zero和DeepSeek-R1

论文里主要讲了两个模型,一个是“原始版”DeepSeek-R1-Zero,一个是“升级版”DeepSeek-R1。


1. DeepSeek-R1-Zero:纯RL的试验田

  • 怎么做的?

    • 直接拿基础模型(DeepSeek-V3-Base),不给任何监督数据,就用强化学习去训练。
    • 用了一种叫GRPO(Group Relative Policy Optimization)的算法,简单说就是让模型自己试错,试出一堆答案,然后根据“对不对”和“格式好不好”给奖励。
    • 奖励分两块:一是答案正确性(比如数学题对不对),二是格式(要求模型把思考过程写在<think>标签里,答案写在<answer>里)。
  • 结果咋样?

    • 牛得很!比如在AIME 2024(美国数学邀请赛)上,正确率从15.6%飙到71%,用多数投票(cons@64)还能到86.7%,跟OpenAI的o1-0912差不多。
    • 更厉害的是,模型自己学会了反思、验证,还能生成很长的推理过程,完全没人为干预。
  • 有啥问题?

    • 可读性差,回答乱七八糟,有时还中英混杂,看着头晕。
    • 这让作者觉得,得优化一下,不能光推理强还得让人看得懂。


2. DeepSeek-R1:加点料的升级版

  • 怎么改进的?

    • 先用少量高质量的“冷启动数据”(cold-start data)微调基础模型,让它有个好起点。
    • 然后分四步走:
    1. 冷启动:收集几千条带长推理过程的数据,教模型怎么写得清楚又好看。
    2. 推理强化学习:跟R1-Zero一样用RL,但加了个“语言一致性”奖励,避免中英混杂。
    3. 拒绝采样+SFT:用RL训练到差不多时,生成一大堆数据(60万推理+20万非推理),再微调模型,让它不只会推理,还能写文章、回答常识问题。
    4. 全面RL:再来一轮RL,优化帮助性和安全性,兼顾各种场景。
  • 结果咋样?

    • 性能直接对标OpenAI的o1-1217。比如AIME 2024上79.8%,MATH-500上97.3%,代码任务Codeforces上Elo达到2029(超过96%的人类选手)。
    • 比R1-Zero可读性好多了,还能干更多事,比如写作、问答,长上下文理解也很强。


三、顺手开源:小模型也能很强

  • 咋搞的?

    • 用DeepSeek-R1生成的数据(80万条),直接微调了一些开源小模型(Qwen和Llama系列,1.5B到70B不等),叫“蒸馏”(distillation)。
    • 没用RL,就简单SFT,结果也很猛。
  • 效果如何?

    • 7B的Qwen模型在AIME 2024上55.5%,14B的超了QwQ-32B-Preview,32B和70B甚至干翻o1-mini。
    • 证明大模型的推理能力可以“传”给小模型,比直接在小模型上用RL效果好还省力。


四、实验结果:硬碰硬的数据对比

论文里给了详细的测试结果,跟一堆强模型(Claude-3.5、GPT-4o、o1系列)比了个遍。简单总结:

  • 推理任务:DeepSeek-R1跟o1-1217不相上下,秒杀其他模型。
  • 知识任务:MMLU 90.8%,GPQA Diamond 71.5%,比DeepSeek-V3强,但略逊o1-1217。
  • 其他任务:写作、问答啥的也很牛,AlpacaEval 2.0胜率87.6%,ArenaHard 92.3%。

蒸馏的小模型也很有竞争力,尤其是14B、32B、70B,性价比很高。



五、聊聊得失:成功的秘密和踩过的坑


1. 为啥成功?

  • 纯RL可行:DeepSeek-R1-Zero证明不靠监督数据也能练出推理能力,RL自己就能让模型进化。
  • 冷启动+多阶段:DeepSeek-R1用少量数据打底,再RL+SFT循环,效果更好还更人性化。
  • 蒸馏效率高:大模型的智慧能便宜地传给小模型。


2. 踩了啥坑?

  • 过程奖励模型(PRM):想细化每步奖励,但定义难、标注烦,还容易被模型“钻空子”,最后放弃了。
  • 蒙特卡洛树搜索(MCTS):想模仿AlphaGo用搜索提升推理,但语言模型的搜索空间太大,效果不理想。


六、未来咋办?

  • 通用能力:现在R1在函数调用、多轮对话上不如V3,得继续优化。
  • 语言混杂:目前只优化了中英文,其他语言容易乱,得修。
  • 软件工程:这块数据少,RL没发挥好,后面要加码。


七、大白话总结

这论文讲的就是DeepSeek团队怎么用强化学习把一个普通语言模型调教成推理高手。DeepSeek-R1-Zero是纯RL的实验品,证明这路子走得通;DeepSeek-R1是加了料的成品,性能顶尖还好用。他们还顺手把大模型的本事“蒸馏”到小模型上,开源给大家玩。整个过程既有惊喜(模型自己学会反思),也有教训(有些方法行不通),但总的来说,是AI推理领域的一次漂亮突破。

免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部