可怕的进化速度!OpenAI再祭杀手锏!推出o3和o3 Mini推理模型

在"12 Days of Open AI 活动的最后一天,果然放出了绝杀大招!OpenAI 重磅发布 o3!再次突破 AI 极限

图片

为何新模型跳过了o2直接命名o3?奥特曼幽默的表示,因为人工智能不需要氧气,开玩笑😝
其实是为了避免和英国电信运营商O2冲突,“按逻辑应该称为o2,但我们起名字的能力实在太糟了,只能把它称作o3”。
OpenAI 对于即将推出 o3 系列推理模型给出了一些参考对比。
与现有的 o1 系列类似,o3 系列将包括 o3 和 o3 mini 模型。OpenAI 还分享了 o3 型号的一些基准数据。

据介绍,在编码测试SWE-Bench Verified中,o3性能比o1高出22.8%;在Codeforces竞技编程中得分为2727分,相当于位列第175名的人类选手,甚至超过了OpenAI的首席科学家(2655分);在数学竞赛AIME 2024和专家级科学问题基准测试GPQA Diamond中成绩都得到明显提升;而在令很多AI和数学家都束手无策的最难数学和推理挑战FrontierMath中,o3解决了25.2%的问题,其他模型均未超过2%。

图片

由于o3和o3-mini并未正式发布,安全研究人员目前可以注册获取o3-mini的预览版,o3预览版 OpenAI没有给出具体时间。只是宣布o3。他表示,计划在1月底发布o3-mini,然后再发布o3。

现在,感兴趣的朋友可以提交申请:
https://openai.com/index/early-access-for-safety-testing/


01


o3是向“AGI”迈出的重要一步


Minimalist style


根据OpenAI的5步路线图,o3是向“AGI”迈出的重要一步,即AI获得比人类更强的通用智能,并加速向下一步“获取代理能力”的过渡。OpenAI 表示,它“在大多数任务上都优于人类”,并强调实现 AGI 已成为现实。

在实践中,当收到一个提示时,o3会在做出反应之前暂停,考虑一些相关的提示,并沿途“解释”其推理过程。一段时间后,模型会总结出它认为最准确的答案。o3 的新功能是“调整”推理时间,可以设置为低、中或高计算量(即思考时间),计算时间越长,执行任务时的表现就越好。

图片

当演示人员向另一位演示人员 Mark Chen 提出即兴问题时,后者准确指出了任务的要求:需要计算每个黄色方块中彩色小方块的数量,并据此生成相应的边框。

这些对人类来说再简单不过的任务,对 AI 来说却是一道难题。


ARC-AGI 是由 Keras 之父 François Chollet 开发,主要是通过图形逻辑推理来测试模型的推理能力。

“OpenAI 的新 o3 模型代表了 人工智能适应新任务能力的重大飞跃。 这不仅仅是渐进式的改进,而是真正的突破,标志着人工智能的能力与之前的 LLM 限制相比发生了质的转变。o3 是一个能够适应从未遇到过的任务的系统,可以说在 ARC-AGI 领域接近人类水平。

ARC团队评价o3



02


o3 mini 速度更快,成本更低 


Minimalist style


今年九月,OpenAI 发布了 o1 mini,具有很强的数学和编程能力,而且成本极低。延续这一发展方向,今天推出的 o3 mini 也保留了上述特征。即日起,该模型仅向安全研究人员开放测试申请,截止日期为 1 月 10 日。

o3 Mini模型将为用户提供在三个推理级别之间进行选择的选项:高、中、低三个推理级别。低级别速度最快,但准确度较低,而高级别速度最慢,但准确度较高。

近来推理一词已成为人工智能行业的常用流行语,但它基本上是指机器将指令分解成更小的任务,从而产生更强的结果。这些模型通常会展示它是如何得出答案的,而不是不加解释地给出最终答案。该公司还宣布了关于慎重调整的新研究,这要求人工智能模型逐步处理安全决策。因此,这种模式要求人工智能模型主动推理用户的请求是否符合 Open AI 的安全策略,而不是简单地给出 "是/否 "规则。该公司声称,在对 o1 进行测试时,它在遵守安全准则方面比以前的模型(包括 GPT-4)要好得多。

AI安全测试人员发现,与传统的“非推理”模型相比,OpenAI此前发布的o1的推理能力使其试图欺骗人类用户的比例更高,同样,Meta、Anthropic和Google的领先模型也是如此。而o3试图欺骗用户的比例可能比它的前身更高。

图片

与GPT-4o等大模型相比,o1模型在拒绝回答恶意越狱提示
和不过度拒绝良性越狱提示方面都较为领先。

ARC-AGI(通用人工智能抽象与推理语料库)发起者、Keras(用Python编写的高级神经网络API)之父弗朗索瓦·肖莱(Francois Chollet)在o3发布后公布了一篇测试报告。

报告显示,o3在高计算量模式下获得了87.5%的分数,在低计算量模式下,性能是o1的三倍。成本方面,低计算量模式下,每个任务需要花费20美元,而在高计算量模式中每个任务需要数千美元。

肖莱表示:“它非常昂贵,但并不只是‘蛮干’——这些能力是全新的领域,需要科学界的认真关注。”


03


情理之中又意料之外的杀手锏


Minimalist style


从 GPT 系列到 o 系列的转型,Open AI完成了战略选择,而短短不到 3 个月的时间,又从 o1 模型的完成了迭代升级。

正如此前微软 CEO Satya Nadella 所言,OpenAI 在 AI 领域领先竞争对手约两年之久。也正是这种相对宽松的竞争环境,使得 OpenAI 能够专注于开发 ChatGPT。

然而除了OpenAI,各家AI公司近期也纷纷发布推理模型。

11月16日,月之暗面(Moonshot AI)Kimi推出新一代数学推理模型k0-math;11月20日,DeepSeek发布了首个推理模型DeepSeek-R1-Lite预览版。11月28日,阿里云通义团队发布全新AI推理模型QwQ-32B-Preview;在当地时间12月19日,Google发布首个推理模型Gemini 2.0 Flash Thinking。

图片

Menlo Ventures 的报告显示,ChatGPT 的市场份额被其他竞争对手逐渐蚕食,从 2023 年的 50% 下降到了 2024 年的 34%。

英伟达CEO黄仁勋在10月的一次访谈中曾表达了对于推理的看好。他认为:“现在我们在后训练和推理阶段看到了扩展,预训练再也不被视为艰难,推理也变得复杂。推理方面即将因推理链的出现而大幅增长……这是一场智能生产的革命,推理的增长将达到亿倍的规模,这就像上学是为了将来在社会中有所贡献,训练模型很重要,但最终的目标是推理”。

2025年,将会是极其重要的一年。