继不久前在“12 Days of OpenAI”线上新品发布活动中,OpenAI方面宣布上线正式版o1推理大模型后。在当地时间12月20日举行的“12 Days of OpenAI”最后一期活动中,OpenAI发布了全新的推理模型o3系列,即o1系列模型的升级版本。而对于不将下一代模型命名为o2的原因,OpenAI方面表示,“是出于对同名英国电信运营商o2的尊重”。
据了解,o3系列模型与o1系列一样有o3和o3-mini两个版本,后者是一款更小的精简版模型,针对特定任务进行了微调。值得一提的是,据OpenAI方面声称,在某些条件下o3系列模型可接近实现AGI。对此OpenAI CEO Sam Altman表示,“我们认为这是AI下一阶段的开始。你可以使用这些模型来完成越来越复杂、需要大量推理的任务”。
OpenAI公布的相关信息中显示,o3在主要通过图形逻辑推理测试模型的推理能力的ARC-AGI基准测试中获得了破纪录的分数。具体而言,以100%为最高分的ARC-AGI评估结果显示,在低计算场景中o3得分为75.7%,高计算测试中达到87.5%,这也标志着o3的最佳成绩超过了标志着达到人类水平门槛的85%。作为对比,目前o1模型的得分仅在25%到32%之间。
而在衡量编程能力的Codeforces评分中,o3取得了2727的Elo评分,o1则仅为1891。在OpenAI今年8月推出的SWE-bench Verified代码生成评估基准中,o3的准确率为71.7%,比o1的48.9%高出22.8个百分点。在2024年美国AIME数学竞赛测试中,o3的准确度得分为96.7、即准确率96.7%,而o1的准确率则是83.3%。
与o3相比,o3-mini模型则在性能与成本平衡方面表现出色,能够以较低的成本提供更高效的服务。据悉,在CodeForces评估中,随着思考时间的增加,o3-mini的表现不断提升,并逐渐超越o1-mini模型,在中位思考时间下,o3-mini的性能甚至优于o1模型,能够以大约一个数量级的更低成本提供相当、甚至更好的代码性能。
但需要注意的是,目前OpenAI方面并未完全开放o3和o3-mini这两款模型。在公开发布这两款模型之前,OpenAI方面将开放外部研究人员测试的申请流程,并将于2025年1月10日截止。据Sam Altman透露,计划在2025年1月底之前正式推出o3 mini,并在后续推出完整版的o3模型。
【本文图片来自网络】