OpenAI发布新一代AI推理模型o3,能解最难的数学题

全文1108字,阅读约需4分钟,帮我划重点

划重点

01OpenAI发布o3,包括o3和o3-mini两个版本,安全人员开始注册参与预览,后者最快将于明年1月向公众开放。

02o3能够进行更高级的类人推理,至少在某些条件下,可能接近实现通用人工智能。

03o3在ARC-AGI测试中最佳状态下的得分达到87.5%,远超上一代产品o1的25%至32%,其他测试中同样表现优异。

04外界对o3给予高度评价,证明大型生成式人工智能模型并未遇到发展瓶颈。

以上内容由腾讯混元大模型生成,仅供参考

OpenAI发布狂欢最后一弹:o3横空出世!血洗o1,能解最难的数学题

12月21日消息,在“12天发布狂欢”的最后一天,OpenAI正式发布了o3,这是继今年9月推出的o1“推理”模型之后的新一代产品。具体来说,o3不仅仅是一个单一的模型,而是一个模型系列,这一点与o1相似。o3家族中包括了o3和o3-mini两个版本,其中o3-mini是一个更为紧凑的模型,专为特定任务进行了精细调整。

与o1模型类似,新的o3模型会在解决问题时进行“深思熟虑”,以提供更好的答案,特别是对于那些需要逐步逻辑推理的问题。

OpenAI声称,至少在某些条件下,o3可能接近实现通用人工智能(AGI)。OpenAI总裁格雷格·布洛克曼(Greg Brockman)在社交媒体X上表示,最新的推理模型o3是一个突破,在最困难的基准上有了阶跃函数的改进。OpenAI已经开始了有限的外部测试,这种测试被称为“红队测试”。在这种测试中,外部的安全专家会寻找漏洞、弱点和偏见。

图片

新模型被命名为o3而非o2,原因可能在于商标权的问题。据外媒之前报道,OpenAI为了避免与英国电信提供商O2的潜在商标冲突,选择跳过了o2,直接将新模型命名为o3。奥特曼在周五的直播中也间接证实了这一点。

在直播中,OpenAI透露了o3相较于现有模型的先进之处——它能够进行更高级的类人推理,这无疑加剧了与谷歌等竞争对手之间的竞争。

“我们认为这是人工智能下一个阶段的开始,”奥特曼在周五的直播中说,“在这个阶段,你可以使用这些模型来完成越来越复杂的任务,这些任务需要大量的推理。”

虽然o3和o3-mini目前还未向公众广泛开放,但安全研究人员将有机会从周五晚些时候开始注册参与预览。按照OpenAI的计划,该公司会在明年1月底发布o3-mini模型,并在不久之后推出o3模型。

图片

除了模型预览外,OpenAI还发布了关于其新采用的方法“审慎对齐”(deliberative alignment)的研究,这是一种确保像o1和o3这样的系统能够正确响应用户查询并避免参与非法活动的技术。对齐问题,或者说模型的伦理和价值导向,对于构建大型语言模型来说是一个技术挑战,因为人们的伦理观念和对人工智能的期望各不相同。

“我们认为这是人工智能下一个阶段的开始,”奥特曼在周五的直播中说,“在这个阶段,你可以使用这些模型来完成越来越复杂的任务,这些任务需要大量的推理。”

在最近的一次采访中,奥特曼表示,在OpenAI推出新的推理模型之前,他更倾向于建立一个联邦层面的测试框架,以指导对这些模型的监控和风险缓解工作。

自当地时间12月5日起,OpenAI开启了一个密集的新功能发布周期,12天内通过12场直播活动陆续推出新产品和功能,OpenAI陆续发布了多项创新,包括ChatGPT Pro计划、强化微调技术、Sora、交互界面Canvas,高级语音视觉功能、Projects功能、ChatGPT搜索、满血版o1模型、通过其应用程序编程接口(API)向第三方开发者开放其大模型o1系列,以及MacOS桌面应用程序及其与各类应用程序的互操作性功能。

推理过程解析

不同于大多数人工智能,o3这类推理模型能够自我验证事实,从而避免了一些常见于其他模型的陷阱。这种自我验证的过程虽然会带来一些延迟,o3和它的前身o1一样,相较于普通的非推理模型,需要更长的时间--通常是几秒到几分钟--来得出结论。然而,这种延迟换来的是,在物理学、科学和数学等领域更高的可靠性。

o3被设计为在回应之前进行“思考”,OpenAI将这一过程称为“私密的思维链”。该模型能够深入推理任务,提前规划,执行一系列长时间跨度的动作,以帮助它找到解决方案。实际操作中,o3在给出回应前会稍作停顿,考虑多个相关的提示,并在此过程中“解释”其推理过程。经过一段时间的思考后,模型会总结出它认为最准确的答案。

o3的一个新特性是能够“调整”推理时间。用户可以为模型设置低、中、高三种思考时间--思考时间越长,o3的表现就越出色。

基准测试与通用人工智能

关于OpenAI是否宣称其最新模型接近通用人工智能(AGI)的问题,一直是业界关注的热点。通用人工智能,通常被理解为能够执行任何人类能够完成的任务的人工智能系统。OpenAI对通用人工智能有自己的定义,即“在大多数具有经济价值的工作中超越人类表现的高级自主系统”。

宣称达到通用人工智能将是一个重大的声明,对OpenAI而言,这不仅是技术上的里程碑,也具有合同上的重要意义。根据OpenAI与合作伙伴及投资者微软的协议,一旦OpenAI实现了符合其定义的通用人工智能,它就不再有义务向微软提供其最先进的技术。

图片

以ARC-AGI这一测试为例,它是一个专门设计用来测试人工智能模型对极其困难的数学和逻辑问题进行推理的能力的基准测试。o1在这项测试中的得分为25%至32%(满分为100%)。

达到85%的得分即被认为是“人类水平”。

OpenAI表示,o3在最佳状态下的得分达到了87.5%,在最差状态下,其性能也达到了o1的三倍。此外,OpenAI宣布将与ARC-AGI背后的基金会合作,共同开发下一代的基准测试。需要注意的是,ARC-AGI也有其局限性,它对通用人工智能的定义只是众多定义中的一种。

图片

在其他基准测试中,o3的表现同样超越了竞争对手。该模型在SWE-Bench Verified上的得分比o1高出22.8个百分点,并在Codeforces上获得了2727的评分。它在AIME 2024上得分96.7%,仅错了一个问题,并在GPQA Diamond上获得了87.7%的得分。同时,它在已知最严格的评估中创下了新纪录,在EpochAI的Frontier Math上解决了25.2%的问题,而其他模型没有超过2%。

图片

“这确实标志着我们在实用性的前沿上攀登,”OpenAI研究高级副总裁马克·陈(Mark Chen)在周五的直播中说道。“这个模型在编程方面非常出色,”奥特曼也补充说。当然,这些成绩需要我们持谨慎态度,因为它们是基于OpenAI的内部评估。我们需要等待来自外部客户和组织的基准测试结果,以验证这些模型的实际性能。

审慎对齐

随着技术的进步,OpenAI加强了对安全和对齐的承诺。该公司引入了审慎对齐的新研究,这是一种关键技术,使得o1模型成为迄今为止最稳健和对齐的模型之一。

审慎对齐技术将人类编写的安全规范嵌入到模型中,使模型在生成响应之前能够明确地对这些政策进行推理。这一策略旨在通过为模型配备思维链(chain-of-thought, CoT)推理,解决大语言模型中常见的安全挑战,例如易受越狱攻击的脆弱性和对良性提示的过度拒绝。这一过程允许模型在推理过程中动态回忆和应用安全规范。

审慎对齐改进了之前的方法,如基于人类反馈的强化学习(RLHF)和宪法AI(constitutional AI),这些方法仅依赖于安全规范进行标签生成,而不是将政策直接嵌入到模型中。通过对大语言模型进行安全相关提示及其相关规范的微调,这种方法创造了能够在不依赖大量人类标记数据的情况下进行政策驱动推理的模型。

OpenAI研究人员在一份新的、未经同行评审的论文中分享的结果表明,这种方法提高了安全基准的性能,减少了有害输出,并确保更好地遵守内容和风格指南。审慎对齐技术让o1模型相对于前代,如GPT-4o和其他最先进的模型实现了进步。此外,该方法促进了分布外泛化(out-of-distribution generalization),在多语言和编码越狱场景中展现出鲁棒性。这些改进与OpenAI的目标一致,即随着人工智能系统能力的增长,使其更安全、更可解。

这项研究还将在对齐o3和o3-mini方面发挥关键作用,确保它们的能力既强大又负责任。

如何申请参与测试o3和o3-mini模型

OpenAI网站现已开放o3和o3-mini模型的早期访问申请,申请截止至2025年1月10日。申请者需在线填写表格,提供包括研究领域、过往经历、已发表的论文链接、GitHub上的代码库链接等信息,并指明他们希望测试的模型是o3还是o3-mini,以及他们计划如何使用这些模型。

获选的研究人员将被授予o3和o3-mini的使用权限,以便他们探索模型的功能并参与安全评估。但要注意的是,o3模型将在数周后才能提供使用。研究人员被鼓励开展全面的评估,创建高风险能力的控制演示,并在其他广泛使用的工具无法实现的场景中进行模型测试。此项计划建立在OpenAI已有的实践基础之上,包括严格的内部安全测试、与美国和英国A人工智能安全研究所等组织的合作,以及其应急准备框架。

OpenAI将从即日起开始对申请进行陆续审核,并立即开始选拔过程。

发展趋势

随着OpenAI首个推理模型系列的推出,推理模型领域迎来了一股新潮流,众多人工智能公司纷纷跟进,包括科技巨头谷歌。11月初,由量化交易者资助的人工智能公司DeepSeek发布了其首个推理模型DeepSeek-R1的预览版。同一时期,阿里巴巴的Qwen团队也推出了他们所声称的首个“开放”的o1挑战者。

推动推理模型发展的一个主要因素是对生成式人工智能新方法的探索,因为过去那种依靠简单增加模型规模来提升性能的“蛮力”技术已经不再像以往那样有效。然而,并非所有人都认为推理模型是未来发展的最佳方向。这些模型通常成本较高,部分原因是运行它们需要大量的算力。尽管它们在基准测试中表现不错,但是否能够持续这样的进步速度还有待观察。

值得注意的是,o3模型的发布伴随着OpenAI一位杰出科学家的离职。亚历克·拉德福德(Alec Radford),作为OpenAI“GPT系列”生成式人工智能模型(包括GPT-3、GPT-4等)的开创性论文的主要作者,近日宣布他将离开OpenAI,去追求独立的研究工作。

谷歌在推理模型领域也不甘落后。谷歌的研究员诺姆·沙泽尔(Noam Shazeer)在社交媒体平台X上发表的文章中透露,谷歌开发了自家的推理模型,名为Gemini 2.0 Flash Thinking。谷歌CEO桑达尔·皮查伊(Sundar Pichai)也在自己的文章中称赞这款模型是“我们迄今为止最有深度的模型”。

这两款模型的竞争显示出OpenAI和谷歌之间的竞争愈发激烈。对于OpenAI而言,持续展示其技术进步的能力至关重要,这不仅关系到吸引更多投资,也关系到构建盈利业务。谷歌则急切希望证明其在人工智能研究领域依然保持领先地位。新模型的出现也反映出人工智能公司正在探索超越简单扩大模型规模的方法,以期从中提取更深层次的智能。

新模型的出现也展示出人工智能公司越来越不满足于仅仅通过扩大模型的规模来提升它们的智能水平。随着传统通过增加模型大小和数据输入来提升模型性能的方法遭遇重大挑战,人工智能行业正在探索新的方法来提高人工智能的进步。这些新方法包括利用多模态数据和合成数据来提升人工智能性能,以及开发更有效的硬件和软件解决方案来支持人工智能应用的演变需求。

随着仅仅扩大模型规模的方法逐渐显露出局限性,业界开始更多地关注提升人工智能的推理能力。人工智能公司正在加大对技术的投入,旨在使模型能够更高效地处理信息,超越单纯的模式识别,发展到解决更复杂问题的能力。这一转变对于人工智能在各行业的实际应用极为关键,它确保了人工智能系统能够承担起需要深层次理解和复杂推理的任务。

外界观点

无论是内部人士还是外部观察者,都立刻对OpenAI所宣称的基准测试分数表示赞赏,认为这证明了大型生成式人工智能模型并未遇到发展瓶颈。

OpenAI的新模型o3比o1的性能提高了20%。“o3的表现远超预期,”参与SWE-Bench开发的普林斯顿大学博士后研究员奥菲尔·普雷斯(Ofir Press)。“提升非常惊人,我不确定他们是如何做到的。”

OpenAI产品主管凯文·韦尔(Kevin Weil)在LinkedIn上写道:“o3的表现令人惊叹。与o1相比,在所有我们最具挑战性的基准测试中都有了巨大的飞跃。”

“OpenAI刚刚宣布了他们的新推理模型o3,它在基准测试中的表现似乎异常出色,”Box的首席执行官亚伦·列维(Aaron Levie)发文表示。“目前,人工智能的发展没有任何放缓的迹象。”