人类100%通关，AI最高仅0.37%！这个测试戳破AGI“泡沫”？

AI先锋官官方

2026-03-31 07:42发布于北京

问AI · AI在ARC-AGI-3中表现不佳是否暴露了AGI发展的核心短板？

3月底，ARC大奖基金会发布了一篇全新论文，推出ARC-AGI-3智能测试基准，直接给当下所有顶尖大模型来了次“裸考”。

结果相当残酷。

研究团队找了486名普通人类受试者，测试了414个环境。

结果，人类100%能完成所有任务，单次尝试中位耗时仅7.4分钟，最快几分钟就能搞定一关。

而GPT、Gemini、Opus这些顶流AI，最高分才0.37%，几乎全军覆没。

先搞懂这个论文的主角 ARC-AGI系列，到底是个什么测试？

早在2019年，第一篇ARC-AGI-1就横空出世。

它的设计理念很纯粹，不考记忆、不考刷题、不考语言和现成知识，只测最核心的抽象推理能力。

ARC-AGI-1和2025年推出的ARC-AGI-2，都是用网格图形题，让AI从少量示例里找规律、推规则，杜绝靠大数据训练“作弊”。

而且，评分机制惩罚蛮力。

如果人类需要 10 个步骤，而 AI 需要 100 个步骤，AI 不会获得 10% 的分数，而是 1%。

就是说，你无法通过增加计算能力来解决这个问题。

前两代测试，已经让很多AI现出原形，可随着大模型发展，出现了新问题。

不少模型投入数百万美元，通过海量相似任务训练、测试时优化，找到了“记忆捷径”，慢慢能刷出高分。

比如， Gemini 在该测试中取得了 98% 的正确率。ARC-AGI-2 的正确率在不到一年的时间内从 3% 提升到了 77%。

正是为了补上这个缺口，ARC-AGI-3应运而生，它彻底换了打法：从“做题”变成“玩游戏”。

就是把AI放进一个个全新的交互式回合制环境里，没有任何指令、没有教程、没有提示，连目标是什么都不说，全靠AI自己摸索。

论文里明确，它专门测试智能体的四大核心能力，这恰恰是人类天生具备，却是当下AI最大短板：

1. 探索能力：主动和环境互动，自己找信息、摸规则，而不是等着喂数据；

2. 建模能力：把零散的观察，总结成环境运行的规律，构建自己的“世界模型”；

3. 目标设定：没人告诉它要做什么，自己判断通关条件、找到获胜目标；

4. 规划执行：制定行动步骤，还能根据环境反馈随时调整，不是盲目试错。

为了保证公平，这套测试的设计极其严格：

• 所有环境只基于客体、基础几何、直觉物理等核心先验知识，不用语言、数字、文化符号，杜绝靠常识“躺赢”；

• 每个环境都是全新原创，和现有游戏、前两代任务完全不同，防止AI靠记忆刷分；

• 经过大规模人类测试，确保普通人都能轻松通关，排除题目本身太难的问题。

整个基准分为公共演示集和私有测试集，公共集用来展示，真正打分的私有集完全保密，从根源上避免AI针对性优化。

经过测试，从论文里公布的官方测试数据看，堪称 AI 的滑铁卢。

论文还特意区分了两个排行榜。

官方榜：纯原生AI，无任何辅助，测的是真实智能；

社区榜：允许用外部框架，分数再高，也不代表AGI真正进步。

说白了，加了“外挂”的AI能拿高分，但那是人类设计的框架在帮忙，不是AI本身变聪明了。

这两年，AI画画、写代码、对话越来越像人，很多人喊着“AGI已来”。

前不久，黄仁勋还在说，AGI 已经来了。

从ARC-AGI-3的测试结果看， AI要么摸不透规则，要么找不到目标，要么只会盲目试错，完全没有人类那种“举一反三、自主探索”的能力。

看起来，当下 AI 的本质，还是“指令驱动”，还是“做题家”——给任务、给规则才能做，和人类的通用智能有根本的差距。

前者擅长的是记忆、计算、模仿，而人类的智能，是探索、推理、创造。

而真正的智能，从来不应该是知识型，而是在未知里，去寻找解决方案的能力。

最新消息是，经过训练，已经有公司宣布全部通关了 ARC-AGi-3，但还没有人去领取奖金。