全网鼓吹的o3,真的已经达到AGI了?专家们不这么认为

全文1315字,阅读约需4分钟,帮我划重点

划重点

01OpenAI发布了o3和o3-Mini两个模型,其在推理、编程和数学问题解决上表现出色,引发关注。

02然而,专家们对o3是否真正达到AGI标准存在争议,认为其距离AGI仍有不小距离。

03o3模型具有链式思维推理方法,能拆解复杂问题并推导出准确结论,展示出强大的适应性。

04尽管如此,o3在高计算模式下成本高昂,简单任务表现不稳定,仍有提升空间。

05OpenAI将继续攻克难题,致力于缩小人类智慧与机器智能的差距,推动AI技术进步。

以上内容由腾讯混元大模型生成,仅供参考

OpenAI为期12天的12场直播发布会告一段落。最后一天,奥特曼掏出了压箱底的宝贝——o3和o3-Mini两个模型。

图片

o3在推理、编程和数学问题解决上表现十分出色,出色到在AI圈掀起了不小的波澜~

很多自媒体说AGI已来,但是也有很多人说o3距离AGI仍有不小的距离,专家们对它是否真正达到了AGI标准也存在不小的争议。这篇文章带你深入探讨o3模型的实际表现,分析它究竟离AGI还有多远。

1

 地表最强理科生的“成绩单”

o3模型的一个亮点是其“链式思维”推理方法,能够将复杂问题拆解成中间步骤,推导出更准确的结论。这种推理能力在适应新任务时尤为突出,展示了超越简单记忆训练数据的泛化水平。

例如,o3成功解决了训练期间从未见过的问题,基于基本原理推导出解决方案。这种适应性是AGI的重要标志,说明它具备了应对各种挑战的潜力。

图片

o3和o3-Mini模型各有绝活,搞定了不少开发者和研究人员头疼的问题。在软件开发、数据分析和科学研究等领域可以如鱼得水

可调节推理模式:这两个模型像是有三档变速的跑车,用户可以根据任务的难易程度选择低、中、高三种推理模式,想要啥样的答案都能调。

自我评估能力:它们还能自己写代码检查自己的答案,像是在考试前自测,确保答案更靠谱。

增强的API功能:支持结构化输出、函数调用和开发者消息,让开发者的调试和工作流程变得简单高效。

在性能上,o3和o3-Mini的表现足够惊艳:

ARC AGI基准测试:在这个测试中,们得了87分,展示了强大的推理和问题解决能力,但离AGI还差一点。

编程能力:编程任务ELO评分2727,准确率71.7%,秒杀99.99%的程序员。

数学问题解决:复杂数学问题也是它们的拿手好戏,科学和工程任务都不在话下。

图片

2

 o3真的是“完美学霸”?

尽管o3能力强大,但其高昂的计算成本也是一大挑战。

在高计算模式下,测试费用超过30万美元,扩展此类先进系统面临不小的困难。OpenAI强调需要优化推理预算,降低每任务成本,以使这些创新的AI系统更具可行性和可持续性。

此外,o3还有一个问题,就是在简单任务上会有不一致的表现。复杂任务能轻松搞定,简单任务却偶尔出错,说明o3还是有很大的提升空间。  

3

 o3达到AGI了吗?

尽管o3的成就令人瞩目,但是否达到AGI仍有争议。

ARC AGI基准测试的创始人弗朗索瓦·乔莱特警告不要过早将其看作AGI。他指出,o3在需要深度理解或创造性问题解决的任务中仍有不足,这些领域人类仍然占领上风

其他研究人员认为,现有基准测试可能无法全面评估AI系统的泛化或适应新挑战的能力。他们呼吁开发更全面的评估框架,来更好地衡量AI系统的能力。

图片

o3模型的发布重新点燃了关于AGI定义的讨论。一些人认为o3是重要的里程碑,另一些人则认为需要更严格的标准来定义AGI,他们认为真正的AGI应能在无需强大计算或特定领域训练的情况下解决所有新任务。

4

 通往AGI的道路,o3功不可没

o3和o3-Mini是通往AGI路上的重要一步。

在ARC AGI 2基准测试中,我们看到它们在推理、效率和适应性方面的潜力和不足。OpenAI将继续攻克这些难题,致力于缩小人类智慧与机器智能的差距。随着这些模型不断进化,它们在AI技术进步中将扮演越来越重要的角色。

虽然离AGI还有距离,但o3这些创新特性,如可调节推理模式、自我评估能力和增强的API功能,让它们成为开发者和研究人员手中的利器。继续发展下去,这些模型有望引领AI的未来,让AGI的梦想更一步。