客户端
游戏
无障碍

2

评论

4

8

手机看

微信扫一扫,随时随地看

【论文】大语言模型推理最新综述

内容简介  

推理模型最新综述解读


今天快速读一篇综述论文:从快思考(System 1)到慢思考(System 2): 大模型推理综述


论文新鲜出炉,2025年2月25日,由一批遍布国内外的研究员(全部中文名)联合整理,以飨读者。


从系统1(快思考,Vanilla CoT)到系统2(慢思考,o1-like)的大模型负责推理综述,覆盖 300+ 最新文献


(论文链接及github库见文末)



(1)摘要


作者

图片


要实现人类水平的智能,大模型需要从快速、直观系统 1 到更慢、更深度系统 2 推理过渡。

  • 系统 1
    擅长快速、启发式决策,而系统 2 则依靠逻辑推理来做出更准确的判断并减少偏差。
  • 基础大型语言模型 (LLMs) 擅长快速决策,但缺乏复杂推理的深度,因为尚未完全接受系统 2 思维的逐步分析特征。
  • 最近,OpenAI 的 o1/o3 和 DeepSeek 的 R1 等推理LLMs在数学和编码等领域展示了专家级的性能,与系统 2 刻意推理非常相似,实现类似人类的认知能力。

内容概要

  • 简要概述 System 2 技术的基础LLMs和早期发展进展,探讨LLMs如何为推理铺平道路。
  • 如何构建推理LLMs,分析并实现高级推理的核心方法,以及各种推理LLMs的演变。
  • 概述常见的推理数据集,并深度比较典型LLMs的推理性能。
  • 推理能力上有前途的方向,并维护了实时更新 GitHub 库,跟踪最新进展。

综述组织形式如图

图片


(2)基础概念


双系统理论

人类认知通过两种模式运作:

  • 系统 1
     快速、自动和直观,以最小代价快速做出决策
  • 系统 2 则较慢、更深思熟虑。

系统 1 对于常规任务,容易出现认知偏差,尤其是复杂或不确定情形, 导致判断错误。

系统 2 依赖于逻辑推理系统思考,从而做出更准确和理性的决策。通过减轻系统 1 的偏差,系统 2 提供了一种更精细的问题解决方法。

《思考快与慢》里system1(系统1) and system2 (系统2)

  • 系统1(主角): 无意识、快速、不费脑力、没有感觉、完全自主控制;(感性思维,快思考

  • 系统2(配角): 费脑力,通常与行为、选择和专注等相关联,需注意力并付出努力;对系统2有高需求的活动同时需要自我控制,自我控制既有损耗又很枯燥;(理性思维,慢思考

遇到问题,脑海中最先出现的是来自系统1的直觉,其次是系统2,从头到尾思索一遍,三思而后行。

图片

推理” 指回答涉及复杂多步骤过程和中间步骤的问题。
  • 基础 LLMs
    : 具有基本推理能力,处理简单或单步任务。
  • 推理 LLMs
    :擅长编码、数学证明、多模态推理等复杂任务,结合“思考”过程, 让基本LLMs努力完成任务

传统LLMs(基础LLMs)与推理LLMs对比

图片

推理LLMs在训练方法、适应性和学习能力、解决问题的策略以及通用性和可扩展性等方面具有显著优势

图片

蓝色表示sota结果。

大型语言模型是人工智能(AI)重要里程碑。GPT-4o和 DeepSeekv3 等模型在文本生成、语言翻译和各种感知任务方面表现优异。

然而,基础 LLMs 运作方式类似于 系统 1 推理,依赖于快速、启发式决策。复杂推理任务需要深入、逻辑分析和精确分析,基础 LLMs 达不到要求。



(3)大模型推理发展史


推理LLMs 是语言模型进化的重大进步。

推理LLMs 时间表:6个路线上进化过程

图片



(4)推理LLMs分析


推理LLMs特性分析


在输出行为上

  • 探索与规划:依赖CoT的DeepSeekMath、Quiet-STaR

  • 验证和检查:OpenAI的 o1和o3

  • 推理长度、时间增大:简单问题没必要

  • 过度谨慎、简单问题陷阱


训练过程中

  • 数据效率惊人:针对难样本构建慢思考CoT的数据集,模型在医疗、数学场景下的泛化能力显著提升

  • 稀疏训练:不需要大量样本、密集奖励反馈,通常只需1/100的样本量。

  • 参数特性:与普通LLMs相比,LongCoT训练出来的参数相对均匀。




(5)推理LLMs实现


推理LLMs的主要方法


图片

如何实现推理?多个路线:

  • 结构搜索 Structure Search:遍历空间里各个路径,跳出次优解,找到更好的解法,源自AlphaGo下棋决策思路,如蒙特卡洛树搜索 MCTS——重要路线

  • 奖励建模 Reward Modeling:奖励反馈机制

  • 自我提升 Self Improvements:对每步行动进行反思、校验,逐步优化,如 各种 Star系列

  • 宏观行动 Macro Action:把上一代符号逻辑系统以模版/规则形式植入到LLMs,提升推理能力,分为结果奖励模型(ORM)和过程奖励模型(PRM)

  • 强化学习微调 Reinforcement Fine-Tuning:传统强化学习(Q-Learning/DQN/PPO等)引入到语言模型训练,迈出重要一步。示例:DeepSeek R1


细节略,详见论文



(6)推理LLMs评测


不同任务对应数据集、技术方案


图片

数据集具体有:

图片


附录


参考


  • 论文 From System 1 to System 2: A Survey of Reasoning Large Language Models
免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部