OpenAI推出o3系列模型，号称已接近实现AGI

三易生活

2024-12-22 16:31发布于湖北三易生活官方账号

继不久前在“12 Days of OpenAI”线上新品发布活动中，OpenAI方面宣布上线正式版o1推理大模型后。在当地时间12月20日举行的“12 Days of OpenAI”最后一期活动中，OpenAI发布了全新的推理模型o3系列，即o1系列模型的升级版本。而对于不将下一代模型命名为o2的原因，OpenAI方面表示，“是出于对同名英国电信运营商o2的尊重”。

据了解，o3系列模型与o1系列一样有o3和o3-mini两个版本，后者是一款更小的精简版模型，针对特定任务进行了微调。值得一提的是，据OpenAI方面声称，在某些条件下o3系列模型可接近实现AGI。对此OpenAI CEO Sam Altman表示，“我们认为这是AI下一阶段的开始。你可以使用这些模型来完成越来越复杂、需要大量推理的任务”。

OpenAI公布的相关信息中显示，o3在主要通过图形逻辑推理测试模型的推理能力的ARC-AGI基准测试中获得了破纪录的分数。具体而言，以100%为最高分的ARC-AGI评估结果显示，在低计算场景中o3得分为75.7%，高计算测试中达到87.5%，这也标志着o3的最佳成绩超过了标志着达到人类水平门槛的85%。作为对比，目前o1模型的得分仅在25%到32%之间。

而在衡量编程能力的Codeforces评分中，o3取得了2727的Elo评分，o1则仅为1891。在OpenAI今年8月推出的SWE-bench Verified代码生成评估基准中，o3的准确率为71.7%，比o1的48.9%高出22.8个百分点。在2024年美国AIME数学竞赛测试中，o3的准确度得分为96.7、即准确率96.7%，而o1的准确率则是83.3%。

与o3相比，o3-mini模型则在性能与成本平衡方面表现出色，能够以较低的成本提供更高效的服务。据悉，在CodeForces评估中，随着思考时间的增加，o3-mini的表现不断提升，并逐渐超越o1-mini模型，在中位思考时间下，o3-mini的性能甚至优于o1模型，能够以大约一个数量级的更低成本提供相当、甚至更好的代码性能。

但需要注意的是，目前OpenAI方面并未完全开放o3和o3-mini这两款模型。在公开发布这两款模型之前，OpenAI方面将开放外部研究人员测试的申请流程，并将于2025年1月10日截止。据Sam Altman透露，计划在2025年1月底之前正式推出o3 mini，并在后续推出完整版的o3模型。

【本文图片来自网络】

查看原图 12K