重磅!OpenAI推出o3模型系列:彻底颠覆AI怀疑论者,AGI评测基准达到惊人87.5%

全文1381字,阅读约需4分钟,帮我划重点

划重点

01OpenAI推出了o3模型系列,包括o3、o3mini、o3mini low、o3mini medium和o3mini high,其在ARC-AGI评测基准上取得了惊人的87.5%分数。

02ARC-AGI创始人表示,尽管o3取得了显著成果,但距离真正的AGI仍有相当距离,部分简单任务仍无法解决。

03与此同时,早期迹象表明,ARC-AGI-2对o3来说仍然极具挑战性。

04除此之外,o3还在其他技术基准如AIME和GPQA-Diamond上取得了SOTA成绩。

05最后,OpenAI呼吁安全研究人员参与o3-mini和o3的测试,并提供申请地址。

以上内容由腾讯混元大模型生成,仅供参考

图片


OpenAI推出o3模型系列(因为o2和英国电信商命名有冲突,所以跳过了o2),包括o3,o3mini ,o3 mini low(低计算力),o3mini medium(中等计算力),o3mini high(高计算力)

废话不多多说,直接看o3硬核测试表现

o3在ARC-AGI(通用人工智能评估基准)上取得了惊人的高达87.5%的分数,而人类是85%

图片

ARC-AGI 创始人对这一测试结果的详细解读:

图片

今天,OpenAI 发布了其下一代推理模型 o3。我们与 OpenAI 合作,在 ARC-AGI 上对其进行了测试,我们相信它在让人工智能适应新任务方面取得了重大突破。在低计算模式下(每个任务的计算费用为 20 美元),它在半私人评估中的得分率为 75.7%;在高计算模式下(每个任务的计算费用为数千美元),它的得分率为 87.5%。它的成本很高,但并不只是蛮干 -- 这些能力是全新的领域,需要科学界的认真关注”

那么,这就是 AGI 吗? 虽然新模型令人印象深刻,是通往 AGI 道路上的一个重要里程碑,但我并不认为这就是 AGI -- 仍然有相当数量非常简单的 ARC-AGI-1 任务是 o3 无法解决的,而且我们有早期迹象表明,ARC-AGI-2 对 o3 来说仍然极具挑战性。这表明,在不涉及专业知识的情况下,创建对人类来说容易但对人工智能来说不可能的不饱和、有趣的基准仍然是可行的。当创建这样的测试变得完全不可能时,我们将拥有 AGI”

这是否意味着 ARC-AGI 基准已经饱和?是的 -- 该基准的 v1 版本已经开始饱和。在今年的 Kaggle 竞赛中已经出现了这种迹象--所有参赛者的合计得分将达到 81%。明年的竞赛将在 ARC-AGI-2 上进行,这是数据集的更新版本,与 v1 版保持了相同的格式,但减少了容易被暴力破解的任务。早期迹象表明,ARC-AGI-v2 将代表最先进技术的全面重置,对于 o3 来说,难度仍然非常大。与此同时,聪明人或由普通人组成的小型小组仍能获得 95% 以上的分数”

这对未来的 AGI 研究意味着什么? 对我来说,主要的未决问题是 o3 背后技术的扩展瓶颈会在哪里。举例来说,如果人类标注的CoT数据是一个主要瓶颈,那么其能力就会像LLM一样迅速达到顶峰(直到下一个架构出现)

分析新系统的优势和局限性也极为重要。以下是一些 o3 在高计算设置下无法解决的任务示例(即使它在此过程中生成了数百万个 CoT 搜索令牌,并消耗了数千美元的计算资源)。有趣的是,第一个任务就是我们在大学巡回演讲中用来说明 "人类容易,人工智能难 "的任务

图片

另外两个例子。您可以在这里找到完整的测试数据:https://github.com/arcprizeorg/model_baseline/tree/main/results......如果您对该主题感兴趣,可以看看对这些数据的分析

图片

o3在最难的前沿数学基准测试(EpochAI陶哲轩认证)中实现了重大突破

图片

o3同时在其他技术基准如AIME(美国数学竞赛)和GPQA-Diamond上也达成了SOTA,在 AIME 2024 上:o3 获得了 96.7%的分数,只错过了一个问题 ,在 GPQA Diamond 上:o3 获得了 87.7%的分数,远高于人类专家的表现

图片

o3其他表现:

SWE-bench O3有70分真的离谱,推理这路上也算看到希望了,在 Codeforces(编程测试) 上:o3 获得了 2727 分,超过了 OpenAI 首席科学家的 2665 分 

图片

o3mini表现
图片

图片

图片

Sam Altman 喊话安全人员进行测试

图片

如果你是安全研究员,请考虑申请帮助测试 o3-mini 和 o3

图片

测试申请地址:

https://openai.com/index/early-access-for-safety-testing/

O3 Mini 1月底就可以用



⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~