划重点
01复旦大学等机构的研究人员从强化学习的角度分析了实现OpenAI o1的路线图,总结出现有的开源版o1项目。
02研究者发现,o1模型的策略初始化、奖励设计、搜索和学习四个关键部分分别涉及预训练、指令微调、树搜索和序列修正等方法。
03除此之外,研究者推测o1的奖励模型可能结合了多种奖励设计方法,如结果奖励模型和过程奖励模型。
04在搜索阶段,研究者认为o1在推理过程中主要依赖内部指导,而在训练阶段更可能采用树搜索技术。
05最后,研究者表示,o1的学习可能是多种学习方法结合的结果,如策略梯度方法、行为克隆等。
以上内容由腾讯混元大模型生成,仅供参考
新智元报道
新智元报道
【新智元导读】OpenAI o1和o3模型的秘密,竟传出被中国研究者「破解」?今天,复旦等机构的这篇论文引起了AI社区的强烈反响,他们从强化学习的角度,分析了实现o1的路线图,并总结了现有的「开源版o1」。
探索OpenAI的「AGI之迷」
STaR让AI模型能够通过反复生成自己的训练数据,自我「引导」到更高的智能水平,理论上,这种方法可以让语言模型超越人类水平的智能。
策略初始化
海量文本数据预训练 指令微调 问题分析、任务分解和自我纠正等学习能力
奖励设计
结果奖励(基于最终结果) 过程奖励(基于中间步骤)
搜索
MCTS等树搜索方法探索多种解决方案 连续修订迭代改进答案 结合两种方法可能是最佳选择
学习
政策梯度方法,如PPO和DPO 从高质量搜索解决方案克隆行为 迭代搜索和学习周期
「开源版o1」
g1:这项研究可能是最早尝试重新实现o1的项目。
Thinking Claude:与g1类似,但它通过更复杂和细粒度的操作来提示LLM。
Open-o1:项目提出了一个SFT数据集,其中每个响应都包含CoT。研究者推测,这些数据可能来自人类专家或一个强大的LLM。
o1 Journey:通过两篇技术报告中进行了详细描述。第一部分通过对搜索生成的树数据进行遍历,特定节点由GPT-4优化后用于SFT,这一策略可以被描述为专家迭代。第二部分则尝试对o1-mini进行蒸馏,并通过prompt来恢复隐藏的CoT过程。
Open-Reasoner:框架类似于AlphaGo,通过强化学习提升模型性能。
慢思考与LLM:研究同样分为两篇技术报告。第一部分与Open-Reasoner类似,结合了强化学习和测试时的搜索。第二部分从QwQ和Deepseek-R1中蒸馏,并尝试了两种强化学习方法。
Marco-o1:项目将Open-o1的数据与模型自身通过MCTS算法生成的数据结合,用于SFT训练。
o1-coder:项目尝试在代码生成领域重新实现o1。
策略初始化
预训练
语言理解与生成:语言理解是分层次发展的——句法模式较早涌现,而逻辑一致性和抽象推理则在训练的后期阶段逐步形成。因此除了模型规模外,训练时长和数据组成也至关重要。
世界知识获取与存储:知识存储具有高效的压缩和泛化特性,而抽象概念相比事实性知识需要更广泛的训练。
基础推理能力:预训练通过多样化的推理模式发展了基础推理能力,后者以从简单推断到复杂推理的层次结构逐步涌现。
指令微调
类人推理行为
问题分析:问题分析是一个关键的初始化过程,模型在解决问题前会先重新表述并分析问题。
任务分解:在面对复杂问题时,人类通常会将其分解为若干可管理的子任务。
任务完成:之后,模型通过基于明确问题和分解子任务的逐步推理,生成解决方案。
替代方案:当面临推理障碍或思路中断时,生成多样化替代解决方案的能力尤为重要。如表1所示,o1在密码破解中展现了这一能力,能够系统性地提出多个选项。
自我评估:任务完成后,自我评估作为关键的验证机制,用于确认所提解决方案的正确性。
自我纠正:当推理过程中出现可控错误时,模型会采用自我纠正行为来解决这些问题。在o1的演示中,当遇到诸如「No」或「Wait」之类的信号时,会触发纠正过程。
关于o1策略初始化的推测
长文本生成能力:在推理过程中,LLM需要精细的长文本上下文建模能力。
合理塑造类人推理行为:模型还需要发展以逻辑连贯方式,有序安排类人推理行为的能力。
自我反思:自我评估、自我纠正和替代方案提议等行为,可视为模型自我反思能力的表现。
奖励设计
结果奖励与过程奖励
奖励设计方法
来自环境的奖励:最直接的奖励设计方法是直接利用环境提供的奖励信号,或者学习一个模型来模拟环境中的奖励信号。
从数据中建模奖励:对于某些环境,环境中的奖励信号无法获取,也无法进行模拟。相比直接提供奖励,收集专家数据或偏好数据更为容易。通过这些数据,可以学习一个模型,从而提供有效的奖励。
奖励塑造
关于o1奖励设计的推测
奖励集成:为通用任务构建奖励信号的一种直观方式是通过特定领域的奖励集成。
世界模型:世界模型不仅能够提供奖励信号,还可以预测下一状态。有研究认为,视频生成器可以作为一种世界模型,因为它能够预测未来时间步的图像。
搜索
搜索指导
搜索策略
搜索在o1中的角色
关于o1搜索的推测
训练阶段搜索:在训练过程中,o1更可能采用树搜索技术,例如BoN或树搜索算法,并主要依赖外部指导。
推理阶段搜索:在推理过程中,o1更可能使用序列修正,结合内部指导,通过反思不断优化和修正其搜索过程。
学习