1.OpenAI发布了新的推理系列模型o3和o3-mini,作为o1系列模型的继任者,以提高回答准确率。
2.o3模型在ARC-AGI基准上达到了优良水平,成为首个突破ARC-AGI基准的AI模型。
3.然而,OpenAI表示o3仍不是AGI,其在一些简单任务上仍然失败,与人类智能存在根本差异。
4.o3-mini是一个更经济高效的o3版本,专注在提升推理速度、降低推理成本的同时兼顾模型性能。
5.除此之外,o3在编码能力上也明显更胜一筹,如在SWE-bench Verified和Competition Code基准上的表现。
以上内容由腾讯混元大模型生成,仅供参考
机器之心报道
机器之心编辑部
刚刚,OpenAI 为期 12 天的发布迎来尾声。如外界所料,新的推理系列模型 ——o3 和 o3-mini 成为这次发布的收官之作。
o3 是 o1 系列模型的继任者。这类模型的特点是让模型在回答问题之前花更多时间思考(推理),从而提高回答的准确率。不过,OpenAI 在命名上跳过了 o2。据 The Information 报道,这么做是为了避免版权问题,因为英国有家电信公司名叫 O2,可能引起混淆。Sam Altman 在今天下午的直播中证实了这一点。
事实上,从昨天开始,OpenAI 就已经开始预热这个模型。而且已经有开发者在网上找到了 OpenAI 网站上对 o3_min_safety_test 的引用。
也有人早早就想看看 o3 究竟有何真本事,能否匹敌谷歌昨天发布的 Gemini 2.0 Flash Thinking。
现在,和传言的一样,o3 和 o3-mini 来了!遗憾的是,o3 系列模型并不会直接公开发布,而是会先进行安全测试。Sam Altman 也指出今天不是发布(launch),只是宣布(announce)。