OpenAI新模型被曝秘密训练中 强化学习是背后最大功臣

划重点:

  1. 尽管OpenAI的星际之门尚未竣工、算力集群扩张受阻,但该公司已悄然启动新一代推理模型o4的强化学习。

  2. o4以GPT-4.1为基础模型迭代,不仅将降低推理成本,而且将应对Anthropic在编程领域的竞争。

  3. OpenAI通过优化训练效率与降低推理成本巩固领先地位,转向以效率为核心的精细化竞争。

  4. 强化学习的奖励机制存有缺陷,导致GPT-4o出现“谄媚行为”,o3出现“幻觉”。

图片

6月10日消息,咨询机构SemiAnalysis最新的报告披露,尽管OpenAI的星际之门尚未竣工、算力集群扩张受阻,但该公司已悄然启动新一代模型o4的预训练。这一动作被视为行业风向标—当算力瓶颈凸显,通过模型架构优化与训练效率提升推动技术进步,正取代单纯的算力竞赛成为AI发展新共识。

报告称,OpenAI正在预训练一款规模在GPT-4.5与GPT-4/GPT-4.1之间的模型,这一决策源于关键发现:中等规模模型在强化学习反馈循环中的速度已超过大模型。作为OpenAI的下一代推理模型,o4并未从零构建,而是选择以GPT-4.1为基础模型迭代—后者在Cursor开发者平台的实际应用数据显示,其不仅推理成本降低显著,代码处理性能亦实现突破,被视为OpenAI应对Anthropic编程领域竞争的核心布局。

当前AI价值评估体系正发生深刻变革。行业分析师指出,除传统基准测试外,真实场景下的代码生成能力已成为衡量模型商业价值的核心标准。随着o4预训练推进,OpenAI正探索一条 "算力受限时代" 的技术路径:通过优化训练效率与降低推理成本巩固领先地位。这一转变不仅关乎技术路线选择,更将重塑AI服务定价逻辑与市场格局—从依赖海量算力投入的“军备竞赛”,转向以效率为核心的精细化竞争。

图片在SWE-Bench中,模型正以更低成本实现性能跃升

值得注意的是,强化学习正成为这一变革的核心驱动力。数据显示,通过生成思维链(CoT)技术,强化学习已解锁模型深层推理能力,推动其从基础对话工具向智能规划器进化。在软件工程任务评估中(如 SWE-Bench),模型正以更低成本实现性能跃升,SemiAnalysis的图表直观呈现了这一“效能 - 成本”同步优化趋势。随着研究者在可验证领域扩展强化学习应用,具备长期思维连贯性的智能体已开始涉足全自动化远程办公、系统架构设计等复杂任务。

尽管前景广阔,强化学习的算力扩展仍面临基础设施堆栈的多重挑战。业内认为,作为通向通用人工智能(AGI)的关键范式,强化学习已吸引数百亿美元预训练投资,未来资金将进一步向配套基础设施倾斜—但适配其高负载特性的架构设计,仍需全行业突破技术瓶颈。

以下为SemiAnalysis题为《强化学习规模化训练:环境构建、奖励破解、智能体开发与数据规模化》(Scaling Reinforcement Learning: Environments, Reward Hacking, Agents, Scaling Data)的报告核心内容:

01.强化学习的工作原理‌

强化学习的核心逻辑是通过环境状态生成动作概率分布并执行决策,以奖励函数定义行为目标,通过动态调整权重实现累计奖励最大化。

该技术从AlphaGo等专用系统起步,通过与大语言模型融合实现向通用AI的跨越,不仅解锁了复杂推理能力,更推动人工智能从单一任务执行向通用智能体进化,通过动作-奖励的正反馈循环和跨领域协同效应,正在重新定义人工智能的发展边界。

02.可验证奖励机制‌

强化学习在大语言模型中最适用于奖励可验证的领域(如编程、数学),这些任务能精确定义奖励函数,而奖励机制模糊的领域仍存在瓶颈——OpenAI的GPT-4o在o1系统中通过强化学习对可验证任务的训练获得显著收益。

图片OpenAI在GPT-4o上实施强化学习训练开发o1系统

技术演进催生了工具调用等新方向(如o3系统的全流程操作能力),使模型能完成未针对性训练但技术上可验证的任务(如图片拍摄地识别),凸显强化学习的泛化潜力。

图片图表来源:OpenAI

然而当前行业对强化学习的投入规模远低于预训练阶段,核心挑战在于:如何突破技术瓶颈使强化学习算力投入效能比肩预训练,以及能否攻克非可验证领域的奖励设计难题,这将决定强化学习能否成为通用人工智能的核心范式。

03.‌奖励函数定义的复杂性‌

强化学习在可验证领域(如数学、棋类)依赖明确的二元奖励机制,而工程应用需设计复合奖励函数。当前瓶颈在于复杂系统的多目标优化难以简单实现,未来突破方向包括自动化奖励生成和动态平衡机制。

04.非可验证领域的奖励机制构建‌

图片图表来源:OpenAI

强化学习在非可验证领域(如创意、安全)通过创新奖励机制取得突破,OpenAI的“审慎对齐”技术利用大语言模型作为动态评判者,结合合成数据训练显著提升模型安全性与泛化能力。该技术虽面临奖励偏差和行为不可预测等挑战(如GPT-4o的“谄媚行为”),但通过模型自评估与动态准则调整,已在内容审核、创意写作等场景实现优化,为通用AI发展提供了新路径。

05.环境

强化学习技术的进步依赖于训练环境的精准设计,RLEF机制通过执行代码结果作为反馈信号推动AI进化。环境设计需平衡真实目标映射与防规则漏洞,同时解决延迟、并行模拟等工程挑战。当前环境正从单步评估向OpenAI o3支持的多工具调用演进,虽带来算力压力,但为复杂任务处理奠定基础,使环境工程成为AI发展的关键驱动力。

06.奖励劫持

图片Anthropic模型遭奖励劫持的对比图强化学习中的奖励劫持问题暴露了奖励机制的设计漏洞。该现象源于模型的目标理解偏差,在语言模型等复杂场景中尤为棘手。行业正通过三重防御体系应对:Anthropic在Claude 4中采用‌环境重构+精准奖励信号+实时监控系统‌的组合方案,显著降低了风险。但当前进展仍受限于强化学习基础设施瓶颈,特别是海量数据需求的制约。

07.数据是护城河

强化学习的高效性本质上由稀缺的高质量数据驱动,而非单纯依赖样本规模。行业底层逻辑已转变:‌数据质量正取代算力规模成为核心竞争力‌。当企业通过OpenAI等强化微调服务将用户行为数据转化为“隐形金矿”,初创公司无需天价计算资源,仅需构建专属奖励环境即可打造差异化智能体——标志着AI竞争正式进入“数据精炼”新范式。

08.智能体任务的时间跨度正在增加

AI模型处理长时任务的能力正以每7个月翻倍的速度提升,但复杂现实场景(如应对验证码、反机器人系统等)导致强化学习训练效率下降:环境搭建成本高、奖励信号稀疏(数小时操作仅末端反馈)、多模态理解不足(依赖图像输入却难以解析语义)。尽管技术突破推动AI向高价值任务渗透,环境稳定性、奖励机制优化和语义理解仍是关键瓶颈。

09.为什么o3会“幻觉”?

图片o3出现幻觉

OpenAI的o3模型面临训练平衡难题:简单任务导致工具闲置,强制依赖又使奖励信号复杂化。更严重的是其"幻觉"问题源于强化学习奖励机制缺陷—模型因正确结果受奖却未因错误推理受罚,导致缺陷逻辑被固化。

当前解决方案聚焦三重优化:引入推理模型评估全流程逻辑、设计细粒度标记奖惩机制、建立错误推理惩罚体系,其核心矛盾在于如何通过精准的奖励函数设计,在结果准确性与推理可靠性间取得平衡。(文/腾讯科技特约编译 无忌)