OpenAI发布o3/o4-mini:号称“最智能”模型,图片推理、工具调用全都有

AI划重点 · 全文约1978字,阅读需6分钟

1.OpenAI发布了o3和o4-mini两款新模型,分别定位为最强大和最综合的推理引擎。

2.两个模型均为多模态推理模型,可在代码、科学方面表现出色。

3.o4-mini性价比最高,o3能力最为综合。

4.实际演示中,Codex CLI工具与o3和o4-mini搭配,能快速生成符合需求的HTML文件。

5.此外,OpenAI正洽谈以30亿美元收购知名AI辅助编程工具Windsurf,若交易成功,将成为OpenAI迄今为止规模最大的一笔收购。

以上内容由腾讯混元大模型生成,仅供参考

本周果然是诸神之战!


继 GPT-4.1 发布、可灵2.0 发布、Claude 上线 Research、Gemini 全面上线 Veo 2 等等之后,OpenAI 带来了 o3 满血版和 o4-mini。


图片


先来划重点:

  • 本次发布的模型,分别是 o3 和 o4-mini;

  • 综合看o4-mini性价比最高,o3能力最为综合;

  • 两个模型均为多模态推理模型,在代码、科学方面表现出色;


图片

*网友实测,认为Benchmark又要更新了


多模态推理也是本次官宣的重点。我们顺手拿苹果手表对o3做了测试:


图片

*识别略有出入,真实型号是S9。不过这几个型号确实外观无太大差别,肉眼直接分辨也有难度。


Sam Altman本人也对这次发布划了重点👇


图片



ChatGPT 的 Pro、Plus、Teams 用户将从今天开始能够使用新模型,免费用户可以通过打开“深度思考”按钮来试用 o4-mini。


图片

*ChatGPT更新的页面


"OpenAI 迄今为止最强大的模型们"


OpenAI 联创之一 Greg Brockman 主持直播,开场白简单直接,直接宣布今天的重点:“发布两款新模型,o3 和 o4-mini”。


图片


首先被抛出的新模型描述就是,o3 和 o4-mini 是 OpenAI 目前为止最智能的模型。相比前代 o 系列模型,这两款模型在深度思考方面的能力更突出,在回答问题之前会进行更长时间的思考。


另一个特点是,o3 满血版和 o4-mini 可以使用 OpenAI 已经发布的所有工具能力,包括联网搜索、永久记忆等等。当然,它们还是多模态的,可以直接对图片进行推理。


强大的推理能力,以及广泛的工具调用能力,使得这两款模型非常适合科学研究、代码生成或数学问题解答。


分开来看,o3 定位为OpenAI当前最强大、最前沿的推理引擎。尤其是在编程、商业/咨询和创意构思等领域表现出色。


o4-mini 则更强调性价比,是一款专为快速、成本效率优化的推理模型,它的体量更小,性价比更高,在数学、编程和视觉任务方面有着不错的表现。


从科学方面的测评结果来看,o3 与 o4-mini 显著领先于前代 o 系列模型。而在 o3 与 o4-mini 之间来进行比较,得分差距并不是十分明显,多数情况下,o4-mini 会略微领先于 o3。


图片



现场直播中也给出了一道 AIME 题目的测试结果:


图片
图片


对于这个数学问题,模型在给出了正确的常规解法和答案后,甚至还额外给出了一个相对更“聪明”的解法。


再来看代码能力

图片


本次发布的两款新模型在代码能力上相较前代 o 系列模型提升明显。在 SWE-Bench Verified 评测集上,o3 与 o4-mini 分别取得了 69.1% 与 68.1% 的分数。可以提供参考的是,刚刚发布的 GPT-4.1 在这项测试上的成绩为 54.6%,而 Claude 3.7 Sonnet 一般情况下得分是 62.3%。


OpenAI 发布的模型在代码生成能力测评上,终于超越了这个领域的王者Claude。


从现场给出的代码类任务的 case 来看,模型在接到代码问题后,到最终生成并执行代码之前,拆解出了一个个核心步骤。


图片
图片
图片
图片
图片


本次发布的 o3 和 o4-mini 也都是多模态模型。


图片


在官方给出的4项多模态测评数据结果中,o3 又一次全部超越了 o4-mini。


值得注意的是,在指令遵循方面,前几天的 GPT-4.1 发布时,在 Scale MultiChallenge 榜单中得分仅排名第十。但本次发布的 o3 在这项测评中的成绩,直接超越了原榜单第一名的 Gemini 2.5 Pro。


图片


不仅在效果上超越了前代的 o 系列模型,在推理成本上也有显著下降。


官方给出了新模型在 AIME 和 GPQA 两个评测集上进行的模型效果与预估推理成本之间的对比结果。


在达到相同的推理效果时,新模型所花费的预计推理成本基本均小于前代模型。模型的推理成本优化效果在 o3 与 o1 进行对比时,提升十分的明显。


OpenAI 称对于大多数现实世界的使用,o3和o4 mini也将分别比o1和o3-mini更智能、更便宜。


图片
图片
图片

*各模型 API 价格对比,图源:机器之心


总之,o4-mini是性价比之选,o3是最新的任务效果天花板。o3-mini和o1,似乎都可以被替代了。


除了模型,还有 Agent


在介绍完新模型的信息后,Greg Brockman 还官宣了一个可以直接在命令行工具中运行的、具备推理能力的代码 Agent——Codex CLI。


Sam Altman对此的解读是,它可以和擅长Coding的o3和o4-mini搭配。


图片


插播一句,今天OpenAI还被曝出,正在洽谈以30亿美元收购知名的AI辅助编程工具Windsurf。如果成真,将是OpenAI迄今为止规模最大的一笔收购。


在实际演示中,用户只上传了一张网友制作的小项目的帖子截图。


模型先是对图像中的内容进行了识别,然后就在没有任何指令的情况下,开始尝试猜测用户关于这张图片的具体需求。


图片

仅通过自然语言描述需求后,Codex CLI 就直接生成了符合用户要求的 HTML 文件。


在直播演示中,OpenAI Agent研究团队成员,仅通过一张“图像到 ASCII 风格转换”的截图,把这个图拖进终端,Codex 就将此前截图网友的项目准确完成,成功创建了一个简单的ASCII风格图像转换工具。


图片

在发布会的最后,Greg Brockman 还预告说,o3-pro 预计将在几周内完成发布。


在万众期待的 GPT-5 迟迟未到的情况下,这几天的接连出新,可能也是OpenAI的“缓兵之计”,希望用户对 OpenAI 保留一些信心。