3月底,ARC大奖基金会发布了一篇全新论文,推出ARC-AGI-3智能测试基准,直接给当下所有顶尖大模型来了次“裸考”。
结果相当残酷。
研究团队找了486名普通人类受试者,测试了414个环境。
结果,人类100%能完成所有任务,单次尝试中位耗时仅7.4分钟,最快几分钟就能搞定一关。
而GPT、Gemini、Opus这些顶流AI,最高分才0.37%,几乎全军覆没。
先搞懂这个论文的主角 ARC-AGI系列,到底是个什么测试?
早在2019年,第一篇ARC-AGI-1就横空出世。
它的设计理念很纯粹,不考记忆、不考刷题、不考语言和现成知识,只测最核心的抽象推理能力。
ARC-AGI-1和2025年推出的ARC-AGI-2,都是用网格图形题,让AI从少量示例里找规律、推规则,杜绝靠大数据训练“作弊”。
而且,评分机制惩罚蛮力。
如果人类需要 10 个步骤,而 AI 需要 100 个步骤,AI 不会获得 10% 的分数,而是 1%。
就是说,你无法通过增加计算能力来解决这个问题。
前两代测试,已经让很多AI现出原形,可随着大模型发展,出现了新问题。
不少模型投入数百万美元,通过海量相似任务训练、测试时优化,找到了“记忆捷径”,慢慢能刷出高分。
比如, Gemini 在该测试中取得了 98% 的正确率。ARC-AGI-2 的正确率在不到一年的时间内从 3% 提升到了 77%。
正是为了补上这个缺口,ARC-AGI-3应运而生,它彻底换了打法:从“做题”变成“玩游戏”。
就是把AI放进一个个全新的交互式回合制环境里,没有任何指令、没有教程、没有提示,连目标是什么都不说,全靠AI自己摸索。
论文里明确,它专门测试智能体的四大核心能力,这恰恰是人类天生具备,却是当下AI最大短板:
1. 探索能力:主动和环境互动,自己找信息、摸规则,而不是等着喂数据;
2. 建模能力:把零散的观察,总结成环境运行的规律,构建自己的“世界模型”;
3. 目标设定:没人告诉它要做什么,自己判断通关条件、找到获胜目标;
4. 规划执行:制定行动步骤,还能根据环境反馈随时调整,不是盲目试错。
为了保证公平,这套测试的设计极其严格:
• 所有环境只基于客体、基础几何、直觉物理等核心先验知识,不用语言、数字、文化符号,杜绝靠常识“躺赢”;
• 每个环境都是全新原创,和现有游戏、前两代任务完全不同,防止AI靠记忆刷分;
• 经过大规模人类测试,确保普通人都能轻松通关,排除题目本身太难的问题。
整个基准分为公共演示集和私有测试集,公共集用来展示,真正打分的私有集完全保密,从根源上避免AI针对性优化。
经过测试,从论文里公布的官方测试数据看,堪称 AI 的滑铁卢。
论文还特意区分了两个排行榜。
官方榜:纯原生AI,无任何辅助,测的是真实智能;
社区榜:允许用外部框架,分数再高,也不代表AGI真正进步。
说白了,加了“外挂”的AI能拿高分,但那是人类设计的框架在帮忙,不是AI本身变聪明了。
这两年,AI画画、写代码、对话越来越像人,很多人喊着“AGI已来”。
前不久,黄仁勋还在说,AGI 已经来了。
从ARC-AGI-3的测试结果看, AI要么摸不透规则,要么找不到目标,要么只会盲目试错,完全没有人类那种“举一反三、自主探索”的能力。
看起来,当下 AI 的本质,还是“指令驱动”,还是“做题家”——给任务、给规则才能做,和人类的通用智能有根本的差距。
前者擅长的是记忆、计算、模仿,而人类的智能,是探索、推理、创造。
而真正的智能,从来不应该是知识型,而是在未知里,去寻找解决方案的能力。
最新消息是,经过训练,已经有公司宣布全部通关了 ARC-AGi-3,但还没有人去领取奖金。