深度｜OpenAI预演o3模型：推理能力实现飞跃，在ARC AGI挑战取得突破性进展

ZPotentials

2025-01-06 11:12发布于福建科技领域创作者

图片来源：NATHAN LAMBERT

Z Highlights

多次生成的共识对于o1模型的最佳性能至关重要。这适用于所有推理阶段的计算——为了获得最佳结果，不能仅依赖单一的输出流。
没有任何证据表明o3通过添加树搜索对推理架构进行了改变，所有的说法都只是道听途说。推理扩展定律的核心规则是，从同一单流生成中采样更多内容可以带来性能提升。
今年，无疑是强化学习（RL）及相关方法重新确立为人工智能核心的一年。

今天，OpenAI预览了他们的o3模型，延续了近期在训练语言模型以使用o1进行推理方面的进展。这些模型从o3-mini开始，预计将在2025年1月底向公众开放。在我们即将结束2024年时，许多敏锐的观察者将这一年视为人工智能领域的整合之年，许多参与者达到了GPT-4等效模型的水平，并开始探索如何实际应用这些模型。

2024年并没有出现类似“GPT-4发布”那样令人兴奋的时刻。o3的出现改变了这一点，因为它比o1更加出人意料，并且标志着推理模型的快速进步。我们早已知道o1的到来，因为它有较长的前期铺垫——而o3的快速且高效的后续发布，让我们对2025年的动态发展充满期待。

尽管许多人质疑o1类模型在数学、编程、物理和硬科学以外领域的适用性，这些模型很快将在整个人工智能研究生态系统中被广泛使用，从而显著加速进展。一种乐观的观点是，目前还没有足够的时间来探索这些模型的用途，也没有公开的强化学习训练方法来将推理模型扩展到其他领域。

OpenAI的o3表明，行业正在攀登下一个高峰，因为仅依赖互联网文本进行预训练的收益正在减少。o3在推理评估中实现了重大突破——总结如下：

这是第一个在ARC AGI奖项中超过85%完成率的模型（注：这是在公开数据集上完成的，而非测试集，并且超出了成本限制）。
在全新的Frontier Math基准测试中，性能从2%跃升至25%，实现了质的飞跃。
在所有领先的编程基准测试（如SWE-Bench-Verified）上取得了显著改进。

而这一切距离模型的第一个版本宣布仅仅过去了3个月。这些变化将很快通过加速人工智能研究的进展而显现出来。随着推理成本的下降，这将成为改变我们今天所知的许多软件工程角色的又一步。

与此同时，OpenAI发布了一篇关于审慎对齐的博客文章和研究论文，展示了o1级模型如何增强安全性和对齐研究。这为我之前提到的一个更大的开放性问题提供了一些初步的积极证据：增强的推理能力能否在可验证领域之外带来价值？这个问题将在2025年被多次重新审视。

o3概览

OpenAI的o3模型在“OpenAI的12天发布活动”最后一天宣布。此次发布伴随着其在多个领域超越之前最先进模型（Gemini 1.5 Pro和Claude 3.5 Sonnet New）的惊人成绩。

图片来源：NATHAN LAMBERT

关于o1系列模型的博客文章和相关交流中，一个常被忽略的细节是柱状图中阴影的含义。在o1的首篇博客文章中，第一张结果图的说明中提到了这一点：实心柱表示pass@1的准确率，阴影区域表示使用64个样本进行多数投票（共识）的性能。

这一细节表明，多次生成的共识对于o1模型的最佳性能至关重要。这适用于所有推理阶段的计算——为了获得最佳结果，不能仅依赖单一的输出流。然而，这并不意味着必须使用树搜索或某种中间表示。o1的专业模式以及我们将讨论的ARC奖项结果，依赖于这种并行生成来实现绝对最高分。

关于Frontier Math基准测试的定性评价，可以参考两位菲尔兹奖得主的评论。请注意，他们的评论针对的是基准测试中最难的部分，但这很好地体现了其定性目标：

“这些题目极其具有挑战性……我认为它们至少在未来几年内会让AI束手无策。”——TerenceTao，2006年菲尔兹奖得主

“我看到的这些问题都不属于我的研究领域，而且看起来完全是我无法解决的……它们似乎比IMO（国际数学奥林匹克）问题的难度高出一个层次。”——TimothyGowers，2006年菲尔兹奖得主

这一基准测试于11月7日引入，并被列为AI能力中少数尚未攻克的开放前沿之一。此次发布将OpenAI的o3定位为唯一达到两位数得分的模型，并直接跃升至25%。

第二个领先的结果出现在编程领域。在直播中，OpenAI展示了SWE-Bench Verified的71.7%得分（这一成绩在一定程度上是当前的最先进水平），以及在Codeforces（一个编程竞赛网站）上的广泛结果。

图片来源：NATHAN LAMBERT

o3在某个未公开的N值下通过共识投票的得分为2727，达到了国际特级大师水平，约位列全球人类竞赛程序员的前200名。o3-mini的性能优于o1，同时成本显著降低。鉴于我们在2024年观察到的趋势，这可能会成为更广泛用户群体使用的更具影响力的模型。这使得o3直播中的最终突破性成果成为可能——有效解决了ARC AGI挑战。

应对ARC评估

抽象与推理语料库（ARC）是由François Chollet在其2019年的论文《论智能的衡量》中提出的一种人工智能评估方法。ARC评估的设计初衷是为了更贴近对人类智能的评估：

我们基于算法信息理论提出了一种新的智能形式化定义，将智能描述为技能获取效率，并强调了范围、泛化难度、先验知识和经验的概念。基于这一定义，我们提出了一套通用人工智能基准的设计指南。最后，我们展示了一个严格遵循这些指南的基准——抽象与推理语料库（ARC），其构建基于一组明确的先验知识，尽可能接近人类的先天先验知识。我们认为，ARC可以用来衡量一种类似人类的通用流动智能，并且能够在人工智能系统与人类之间实现公平的通用智能比较。

ARC AGI奖于2024年6月启动，设立了100万美元的奖金，奖励第一个满足特定标准并解决一组私有ARC任务的解决方案。被认为“解决”该任务的门槛是达到85%的准确率。今天，OpenAI和ARC Prize分享了以下结果：

图片来源：NATHAN LAMBERT

仔细观察价格的x轴，我们稍后会回到这个话题。

在o1类模型之前，OpenAI的最佳模型GPT-4o仅达到了5%的准确率。OpenAI在其新推理模型上的快速进展由ARC奖联合创始人Mike Knoop总结如下：

• GPT-2（2019年）：0%

• GPT-3（2020年）：0%

• GPT-4（2023年）：2%

• GPT-4o（2024年）：5%

• o1-preview（2024年）：21%

• o1 high（2024年）：32%

• o1 Pro（2024年）：约50%

• o3 tuned low（2024年）：76%

• o3 tuned high（2024年）：87%

就在今年6月，人们还普遍认为解决ARC-AGI将会极其困难。然而，仅仅几个月后，这一认知完全被颠覆了。即使是对Q*及其他推理方法持乐观态度的人，也未曾预料到会取得如此程度的成功。

Chollet在ARC奖官网上分享了更多细节：

我们用两个ARC-AGI数据集测试了o3：

• 半私有评估：100个私有任务，用于评估过拟合情况

• 公开评估：400个公开任务

在OpenAI的指导下，我们在两种计算水平下进行了测试，样本规模可变：6（高效模式）和1024（低效模式，计算量为前者的172倍）。

以下是测试结果：

图片来源：NATHAN LAMBERT

注意：o3高计算成本的具体数据尚未公布，因为定价和功能可用性仍待确定。计算量大约是低计算配置的172倍。

例如，以下是一个未解决的问题：

图片来源：NATHAN LAMBERT

许多问题对人类来说非常直观。为了将这些问题输入模型，颜色被编码为数字，并以网格形式作为上下文输入，如Greg Kamradt所强调的那样：

图片来源：NATHAN LAMBERT

从技术上讲，奖金尚未被领取，因为解决方案的成本超出了阈值且未开源。竞赛仍在继续。几年内，这种类型的智能将变得几乎免费。免费，指的是运行推理的成本将低于用户广告数据的货币价值。

目前，ARC奖博客中引用的o3价格（在OpenAI的交流中被改为相对于o1的相对价格）揭示了许多关于o3技术运作的细节。

o3的架构、成本与训练方式

ARC AGI团队直接与OpenAI合作，获取了其模型的价格估算。o3在API中正式上线后的最终定价很可能会有所不同。基于推理扩展定律的重要性，ARC-AGI团队为提交解决方案进行私密评估增加了一项额外要求。在他们的博客文章中，团队记录了总成本和每个任务的成本，作为FLOPs的代理指标或计算资源使用量的直接计算。这与ARC奖项公告中关于公共排行榜的一条规则一致（该规则与100万美元奖金无关）：

$10,000USD是解决500个任务（包括公共评估集中的400个任务和一个新的半私密评估集中的100个任务）所能花费的运行成本上限，这包括调用商业API的费用。

在公共或半公共评估集的500个任务中，o3的成本远远超出了这一限制。ARC奖项显示，o3的每次查询成本远超$1,000。他们还对模型的性质进行了假设。以下内容旨在平息关于o3是否采用了不同于o1的训练技术的猜测。具体来说，Chollet明确表示他是在推测：

目前，我们只能对o3的具体工作原理进行推测。但o3的核心机制似乎是在token空间内进行自然语言程序搜索和执行——在测试时，模型会搜索可能的思维链（CoTs）空间，这些思维链描述了解决任务所需的步骤，其方式可能与AlphaZero风格的蒙特卡洛树搜索有些相似。在o3的情况下，搜索可能由某种评估器模型引导。

再次强调，关于MCTS（蒙特卡洛树搜索）的引用和假设是误导性的，但可以理解，因为许多聪明的人都被o1和o3仅通过单一语言模型的前向传递实现的能力所震惊。我最近的一篇文章解释了这如何通过大规模强化学习训练实现，并说明了为什么OpenAI的一些图表在推理阶段的计算成本上具有误导性。OpenAI的员工也强调了o3“只是一个通过强化学习训练的模型”的本质。

尽管如此，我们还是以ARC团队记录的成本为基础，并结合OpenAI对o1的定价（$60.00/百万输出token）进行分析。根据ARC奖项结果图表，完整o3的每次查询成本约为$5000。将总成本除以每token的价格，得出的结果是模型每次回答生成了8000万token，这在没有长上下文模型的极大改进的情况下是不可能的。因此，关于不同搜索架构的猜测随之而来。

关键在于ARC奖项博客文章中的一些细节，其中提到：

在OpenAI的指导下，我们在两种计算水平下进行了测试，样本规模可变：6（高效模式）和1024（低效模式，计算量为前者的172倍）。

根据SemiAnalysis的说法，o1 pro使用了self-consistency方法或简单的consensus@N检查，通过选择对同一查询的多个并行响应中最常见的答案来提高性能。在这里，样本规模N可能对应于consensus@N的数值，这表明o3的评估配置接近于客户可以使用的o1 pro配置，即6倍计算量，以及每个问题1024倍计算量的超高配置。

这种推理规模在很长一段时间内都不会向普通付费用户开放。大多数用户将接触到的只是一次生成到consensus@10的结果，具体取决于o1模型“专业”版本的规格。

假设每百万输出token的价格仍为$60，将其除以1024个流，意味着模型每次响应生成约78,000个token。实际上，o3似乎还受益于一个更大的基础模型，因为从OpenAI在直播中展示的所有对数计算量x轴来看，o1的计算成本显著增加。使用更大的基础模型，这些数字完全合理，并不暗示添加了额外的“搜索”元素。

近年来推动深度学习进展的核心故事是找到一个潜力丰富的领域并在其上不断攀登。第一波进展来自互联网规模的预训练。现在，OpenAI通过扩展强化学习训练和长上下文推理，找到了一个新的攀登方向。鉴于o3距离OpenAI发布o1仅约三个月，最简单的解释是它采用了相同的架构和训练方法，只是规模更大。

没有任何证据表明o3通过添加树搜索对推理架构进行了改变，所有的说法都只是道听途说。推理扩展定律的核心规则是，从同一单流生成中采样更多内容可以带来性能提升。

关键问题在于，o3的基础模型是否是Orion（OpenAI内部代号，可能是GPT-5），还是新基础模型仅在训练时受益于Orion。如果基础模型的规模增加了2到5倍，那么从ARC奖项中报告的API价格来看，这些数据完全符合预期。

关于o3的具体细节仍然存在不确定性。ARC团队发布的图表中，o3模型旁标注了“（tuned）”，但尚未有关于o3的详细说明。然而，当我们关注进展的趋势时，很明显，o1级别的模型将长期存在。

最后，为了保持谦逊，这里有一个o3未能解决的ARC奖项示例。它非常简单。

图片来源：NATHAN LAMBERT

我们显然还有很长的路要走，但你应该感到兴奋，并期待这些模型被广泛使用的现实比大多数人预期的更早到来。假设AI会持续进步是最安全的选择。

2024：RL回归

今天早些时候，Anthropic发布了一段视频，主题是关于创建Anthropic的过程，由几位联合创始人参与讨论。其中有一个出乎意料的细节由联合创始人兼CEO Dario Amodei分享道：

“……将这些模型扩展的全部原因是它们的智能还不足以让我们在其基础上进行RLHF（使用人类反馈的强化学习）。”

作为现代RLHF概念的创始人之一，Dario很可能早已直觉到，所有关于微调技术的进展即将到来。这种对RLHF潜力的看法，比大多数从业者的认知都更加广阔和深远。今年，无疑是强化学习（RL）及相关方法重新确立为人工智能核心的一年。

写这篇文章的过程是我说服自己，要在2025年训练一个类似这样的基于推理的语言模型。这种感觉就像2024年对科技公司来说，标准的预训练已成为行业的基本要求一样。可以预见的是，类似o1风格的模型将会在未来很长一段时间内成为人工智能工具箱中的默认工具。我非常期待拥抱这种新的世界观，并亲身学习这些模型训练的工作原理。

原文：OpenAI's o3: The grand finale of AI in 2024

编译：Yihan Chen

-----------END-----------

🚀 我们正在招募新一期的实习生

🚀 我们正在寻找有创造力的00后创业

关于Z Potentials

查看原图 63K