人类100%通关,AI最高仅0.37%!这个测试戳破AGI“泡沫”?

问AI · AI在ARC-AGI-3中表现不佳是否暴露了AGI发展的核心短板?

3月底,ARC大奖基金会发布了一篇全新论文,推出ARC-AGI-3智能测试基准,直接给当下所有顶尖大模型来了次“裸考”。

图片

结果相当残酷。


研究团队找了486名普通人类受试者,测试了414个环境。


结果,人类100%能完成所有任务,单次尝试中位耗时仅7.4分钟,最快几分钟就能搞定一关。


而GPT、Gemini、Opus这些顶流AI,最高分才0.37%,几乎全军覆没。

图片


先搞懂这个论文的主角 ARC-AGI系列,到底是个什么测试?

早在2019年,第一篇ARC-AGI-1就横空出世。


它的设计理念很纯粹,不考记忆、不考刷题、不考语言和现成知识,只测最核心的抽象推理能力

图片


ARC-AGI-1和2025年推出的ARC-AGI-2,都是用网格图形题,让AI从少量示例里找规律、推规则,杜绝靠大数据训练“作弊”。

而且,评分机制惩罚蛮力。


如果人类需要 10 个步骤,而 AI 需要 100 个步骤,AI 不会获得 10% 的分数,而是 1%。


就是说,你无法通过增加计算能力来解决这个问题。


前两代测试,已经让很多AI现出原形,可随着大模型发展,出现了新问题。


不少模型投入数百万美元,通过海量相似任务训练、测试时优化,找到了“记忆捷径”,慢慢能刷出高分。


比如, Gemini 在该测试中取得了 98% 的正确率。ARC-AGI-2 的正确率在不到一年的时间内从 3% 提升到了 77%。


正是为了补上这个缺口,ARC-AGI-3应运而生,它彻底换了打法:从“做题”变成“玩游戏”

就是把AI放进一个个全新的交互式回合制环境里,没有任何指令、没有教程、没有提示,连目标是什么都不说,全靠AI自己摸索。


图片

论文里明确,它专门测试智能体的四大核心能力,这恰恰是人类天生具备,却是当下AI最大短板

1. 探索能力:主动和环境互动,自己找信息、摸规则,而不是等着喂数据;

2. 建模能力:把零散的观察,总结成环境运行的规律,构建自己的“世界模型”;

3. 目标设定:没人告诉它要做什么,自己判断通关条件、找到获胜目标;

4. 规划执行:制定行动步骤,还能根据环境反馈随时调整,不是盲目试错。

为了保证公平,这套测试的设计极其严格:

• 所有环境只基于客体、基础几何、直觉物理等核心先验知识,不用语言、数字、文化符号,杜绝靠常识“躺赢”;

• 每个环境都是全新原创,和现有游戏、前两代任务完全不同,防止AI靠记忆刷分;

• 经过大规模人类测试,确保普通人都能轻松通关,排除题目本身太难的问题。

整个基准分为公共演示集和私有测试集,公共集用来展示,真正打分的私有集完全保密,从根源上避免AI针对性优化。

经过测试,从论文里公布的官方测试数据看,堪称 AI 的滑铁卢。

论文还特意区分了两个排行榜。


官方榜:纯原生AI,无任何辅助,测的是真实智能;


社区榜:允许用外部框架,分数再高,也不代表AGI真正进步。

说白了,加了“外挂”的AI能拿高分,但那是人类设计的框架在帮忙,不是AI本身变聪明了。

图片

这两年,AI画画、写代码、对话越来越像人,很多人喊着“AGI已来”。


前不久,黄仁勋还在说,AGI 已经来了。


从ARC-AGI-3的测试结果看, AI要么摸不透规则,要么找不到目标,要么只会盲目试错,完全没有人类那种“举一反三、自主探索”的能力。


看起来,当下 AI 的本质,还是“指令驱动”,还是“做题家”——给任务、给规则才能做,和人类的通用智能有根本的差距。

前者擅长的是记忆、计算、模仿,而人类的智能,是探索、推理、创造。

而真正的智能,从来不应该是知识型,而是在未知里,去寻找解决方案的能力。


最新消息是,经过训练,已经有公司宣布全部通关了 ARC-AGi-3,但还没有人去领取奖金。


图片