有人说“机器人不行”,DeepMind首席科学家回应:没身体,AI的聪明只是错觉

AI划重点 · 全文约6823字,阅读需20分钟

1.DeepMind首席科学家Murray Shanahan指出,无身体的AI虽然展现了某种认知功能,但距离具身智能还有本质差异。

2.今天的大模型在语言流畅性和动作协调性上表现出色,但本质上只是在预测下一个合理的单词或动作,而非真正理解。

3.然而,真正的智能需要与世界交互,包括感知、动作、环境反馈的循环,而非仅仅依赖语言和像素层。

4.Murray Shanahan提出,未来的智能需要穿越幻觉,走向具身,包括从符号到体验、从预测到建模、从表演到适应的跃迁。

5.他警告说,人类在面对AI时,需要保持认知自觉,理解智能不是幻觉,而是真实的世界交互。

以上内容由腾讯混元大模型生成,仅供参考

(对话DeepMind首席科学家Murray Shanahan视频节选)

什么是真正的智能?

是能说话?能奔跑?能模仿人类的行为?

还是能真正理解世界,理解自己的存在?

就在昨天,Google DeepMind首席科学家、

伦敦帝国理工学院认知机器人学教授Murray Shanahan,

这位从1990年开始研究AI,见证技术三十年演变的科学家,

在这场访谈中提出了一个严肃观点:

“无身体的AI,虽然展现了某种认知功能,但距离具身智能还有本质差异。”

几乎与此同时,现实世界也给出了一个活生生的注脚。

上周北京亦庄,二十台人形机器人首次挑战全球半程马拉松——

它们启动、跌倒、迷路、挣扎,最终有的到达终点。 

完成了动作,却未曾真正理解何为“前行”; 奔跑了21公里,却仍停留在认知的原地。

而早在一个月前,投资人朱啸虎用行动发出了一种截然不同的声音:

“我们正在退出部分具身智能项目。”

在一片对人形机器人和具身智能的狂热追捧中,

顶尖科学家坚持:没有身体,AI智能只是错觉;而部分资本,却选择了撤退。

坚持与怀疑,信仰与功利,

在具身智能这条漫长的道路上,开始分道扬镳。

这里,我们将沿着DeepMind对智能本质的重新界定,

穿越幻觉表象, 重新抵达——

什么是真正理解世界的AI。

图片

✍️ 第一节| 幻觉时代:AI为什么像聪明人?

当我们与今天的大模型交谈, 它们能对答如流,分析问题,甚至创造新的表述方式。

当我们看到人形机器人奔跑, 它们能维持平衡,绕过障碍,完成复杂动作。

一切都在让我们产生错觉:AI,似乎已经很聪明了。

但在DeepMind首席科学家Murray Shanahan看来, 这一切的表象, 本质上只是一种幻觉。

🏁 为什么是幻觉?

因为今天的大模型——无论是语言生成,还是物理执行——

本质上并没有在推理、没有在理解。

它们在做的,只是:

  • 预测下一个合理的单词,

  • 预测下一个合理的动作,

  • 预测在海量训练数据中看起来“像是正确”的反应。

就像一位演员,记住了成千上万个剧本的台词和表情。

在观众面前,他可以瞬间切换情绪、模仿爱、恐惧或胜利。 但他不一定真的爱过、恐惧过、战斗过。

他只是在演戏。

🏁 语言流畅 ≠ 推理能力

Shanahan指出, 我们之所以容易被AI表象欺骗,是因为语言本身就是人类认知的高级表现形式。

能说话的人,通常理解了他们在说什么。

但AI不同。

它只是统计学上的语言预测机器。 在给定的上下文中,挑选出最有可能让人类满意的回答。

  • 它能告诉你“水是湿的”,

  • 它能推断“冬天之后是春天”,

  • 它能引用哲学名言。

但当你问它:

“你为什么这么回答?”

它无法真正给出一个自我意识下的解释。

🏁 动作协调 ≠ 世界理解

同样的逻辑,适用于北京亦庄的人形机器人马拉松。

  • 机器人能跑步,是因为算法识别了步态模式,优化了重心控制。

  • 它能躲避障碍物,是因为传感器感知到了距离变化,自动调整方向。

但它知道为什么要跑?

它理解比赛的规则、意义、目标吗?

当然不是。

它只是在执行程序指令,在参数最优解的指导下,机械地迈出每一步。

它们的奔跑,不是意志的表达,

而是算法的投影。

🏁 本质:推理幻觉

Shanahan将今天的大模型和人形机器人的智能状态总结为——

推理幻觉(Illusion of Reasoning)

它们看似在推理, 实则在通过大量数据,表演推理

它们看似在理解, 实则在根据统计规律,模仿理解

这种幻觉, 不仅欺骗了普通人, 也在某种程度上,迷惑了很多科技圈内部的人。

因为人类的大脑,天生倾向于把流畅的语言和协调的动作,误认为是思考与理解的证明。

而这一切, 正是DeepMind首席科学家在访谈中强调的核心问题:

  • 语言,只是表演,不是理解;

  • 动作,只是重复,不是觉醒;

  • 智能,不仅是生成内容,更是理解存在。

如果我们看不清这层幻觉, 就无法真正理解——

什么才是智能觉醒的真正起点。

✍️ 第二节|推理的假象:AI真的在思考吗?

如果说今天的大模型是在表演推理

那么,早在几十年前,人工智能界就曾尝试过另一种方法: ——硬编码推理。

这就是所谓的符号主义AI(Symbolic AI)。

🏁 什么是符号AI?

在20世纪60年代至90年代, AI领域曾流行一种看似严密的方法论:

  • 把人类知识、世界规则,全部转化成逻辑语言;

  • 用一套套“if-then”规则,把世界编织进计算机;

  • 通过演绎推理,让机器基于规则得出新结论。

比如:

  • 如果某人咳嗽、发烧、呼吸困难,→ 可能患有流感;

  • 如果水温超过100°C,→ 水会沸腾;

  • 如果早上堵车,→ 可能需要提前出门。

人们梦想,

只要把世界描述得足够完整, AI就能像人类一样理解、推理、决策。

🏁 为什么符号AI最终失败了?

在初期,符号主义确实取得了不少成果: 专家系统、逻辑推理引擎、早期医疗诊断辅助程序……

但随着系统规模扩大, 它暴露出无法克服的三大致命问题

❶ 知识获取瓶颈

世界极其复杂,而人的知识往往是模糊、隐性和场景化的。

要把这些知识全部转化为明确的if-then规则, 不仅成本高得难以想象, 而且很多常识是人类自己也无法用清晰语言表达的。

比如:

  • 什么叫“差不多”?

  • 什么叫“看起来像要下雨了”?

  • 什么叫“小心翼翼地操作”?

人类经验中充满了模糊、情境性、直觉判断,符号系统根本无法完整捕捉。

❷ 规则脆弱性

符号AI极度依赖于规则的完备性与正确性。 但在真实世界中,情况是不断变化和不可预见的。

一旦出现未编码过的边界条件, AI就会完全失效。

比如:

  • 医疗专家系统遇到一种罕见的病毒变种,规则库中无先例,系统无法给出合理推理;

  • 交通规划系统遇到突发的极端天气,既无规则可用,也无适应能力。

现实世界是开放的,而符号系统是封闭的。

二者之间存在着根本性的不匹配。

❸ 常识理解危机

即使把规则写得再详尽, 也无法覆盖人类日常生活中隐含的庞大常识库。

举一个经典例子:

如果我把一本书放在一杯水上,书不会掉进去;

但如果我把一块石头放在水上,石头会沉下去。

对于人类来说,这种理解几乎是本能。

但要让符号AI理解,需要编码:

  • 物体的重量

  • 液体的支撑力

  • 材料的密度差异

  • “掉下去”的定义

  • “沉没”的物理过程……

编码这些常识的成本,远远超过了构建推理系统本身。

这就是著名的常识知识瓶颈(Common Sense Bottleneck)。

🏁 符号AI的陨落

到了21世纪初, 随着互联网数据爆炸、机器学习兴起, 人们逐渐意识到:

试图硬编码整个世界,是不可能完成的任务。

符号主义AI在大规模应用上走向了终结。

整个领域陷入了漫长的低谷期。

🏁 今天的大模型,真的克服了吗?

我们回到今天的大模型时代——GPT、Gemini、Claude、DeepSeek……

  • 它们不再依赖if-then硬编码,

  • 它们通过大规模预训练,从海量数据中学习语言模式和世界规律。

  • 相比当年的符号系统,它们灵活得多,适应力强得多。

但,正如Shanahan指出的,

它们仍然没有真正推理,它们只是更高级的模式预测器。

  • 它们没能真正掌握常识,只是在统计常识出现的频率。

  • 它们没能真正理解物理世界,只是在模仿人类在描述物理世界时的语言。

今天的大模型,

不是克服了符号主义的局限,

而是换了一种方式,在更庞大的数据幻觉中,重演了同样的底层断裂。

🏁 小结

符号主义AI曾经梦想用规则编码世界,失败了; 今天的大模型用数据模拟世界,本质上也走到了认知的临界点。

但在推理这一核心维度上, 我们仍然没有走出幻觉。

而如果不能打破这种幻觉, AI,依然无法真正理解世界—— 也无法真正成为具备自主智能的存在。

✍️ 第三节| 没有身体,就没有智能

如果推理只是幻觉,

如果语言和动作本身无法证明理解,

那么,真正的智能,究竟从何而来?

Murray Shanahan教授在访谈中给出了一个简单而深刻的结论:

智能,起源于身体。

没有身体,

就没有真实的认知。

🏁 为什么身体是智能的起点?

智能不是孤立于世界的演算。

它是生物体与环境不断互动中,逐渐进化出的适应性能力。

人类能思考、推理、规划,

并不是因为我们拥有某种抽象的超能力, 而是因为我们从出生那一刻起,就在和真实世界搏斗:

  • 学会重心平衡,才能站立;

  • 触摸滚烫的物体,才知道热的危险;

  • 绕过障碍物,才能形成空间感知;

  • 与他人交互,才能发展语言与社会认知。

身体, 是我们理解重力、摩擦、速度、柔软、疼痛、愉悦、抗拒、顺从……所有经验的源头。

身体, 让大脑不仅知道世界的描述,还知道世界的力量。

🏁 具身智能(Embodied Intelligence)的真正含义

在Shanahan看来, 如果没有与物理世界的真实交互,

所谓的推理、思考、计划, 都是无根之木,无水之鱼。

这就是具身智能的核心:

智能不是只存在于头脑之中,

而是分布在感知、动作、环境反馈的循环中。

具体来说:

  • 感知:通过视觉、触觉、听觉获取环境信息;
  • 动作:基于环境反馈调整行为策略;
  • 学习:从失败和成功中提炼出对世界的理解;

  • 适应:在动态变化中调整规则和认知模型。

没有这种闭环,智能就失去了进化的动力,

只能停留在表面模拟和预设反应中。

🏁 为什么今天的AI缺失了身体?

今天的大语言模型、对话系统、生成式AI, 都几乎完全工作在符号层和像素层

  • 语言,是文字符号;

  • 图像,是二维像素;

  • 程序,是指令集合。

它们没有真实的物理质感——

  • 没有摩擦,没有重心,没有失衡,没有疼痛。

  • 它们可以描述奔跑,却不理解摔倒的疼痛;

  • 它们可以解释空间,却没有真实穿越过障碍;

  • 它们可以回答触觉的问题,却从未真正感受过柔软与坚硬。

缺少了身体,它们的推理,只能是模拟,而非真实。

🏁 为什么身体能带来真正的推理?

因为真实世界是不可预测的。

在物理环境中:

  • 每一次跨步,地形都有细微变化;

  • 每一次握物,材质、重量、重心都不同;

  • 每一次交互,都存在延迟、噪声、不确定性。

这逼迫智能体必须:

  • 建立世界模型(不仅记忆,还能预测和解释);

  • 学会容错(面对异常输入仍能合理推断);

  • 发展主动探索(在不确定中寻找最优策略)。

真正的推理,不是根据完美信息演绎,而是在混沌与不确定性中找到通向目标的路径。

而这种推理,

只能通过真实身体与世界长期互动中产生。

🏁 机器人马拉松的隐喻

回到北京亦庄的人形机器人半程马拉松

它们能跑步,但需要工程师提前设定详细步态程序;

它们能转向,但极其依赖传感器和固定策略;

它们能完成比赛,但一遇到不可预见的障碍或突发状况,立即崩溃。

它们没有真正形成自己的世界模型, 更没有能力在不断变化的环境中,主动推理、调整、学习。

它们只是更复杂的钟表,不是能够理解世界的生命体。

这就是Murray Shanahan反复强调的:

  • 智能不是演绎规则,也不是语言流畅,

  • 而是感知-动作-世界交互的产物。

在未来, 如果AI要真正进化到拥有理解、推理、乃至意识的层次, 它必须先拥有——

一副可以感知痛苦、感知失败、感知世界的身体

图片

✍️ 第四节|图灵测试,早已不够了

智能如果起源于身体,那么,我们该如何测试一台机器是否真正智能?

过去几十年里,人们有一个简单又响亮的答案:

图灵测试。

但Murray Shanahan教授指出:到了今天,图灵测试已经远远不够了。

🏁 什么是图灵测试?

1950年,计算机科学奠基人艾伦·图灵提出了著名的问题:

"机器能思考吗?"

为了回答这个问题,他设计了一个实验:

  • 人类裁判与一个人和一台机器,通过打字交谈;

  • 如果裁判无法根据对话判断哪一方是人,哪一方是机器;

  • 那么这台机器,就通过了图灵测试。

图灵测试的本质是:

语言流畅性模拟 = 智能的外在可见证据。

这在当年,是极具前瞻性的。

🏁 为什么图灵测试曾经重要?

在1950年代, 连基本的自然语言处理都尚未成熟。

  • 机器无法理解复杂指令;

  • 无法进行连贯对话;

  • 无法处理模糊表达与情境推理。

图灵测试设定了一个雄心勃勃的目标:让机器拥有接近人类自然语言能力的表现。

这推动了自然语言处理(NLP)、知识表示、认知建模等领域的发展。

可以说,图灵测试是AI史上最重要的"第一座灯塔"。

🏁 为什么图灵测试现在不够了?

到了2025年, 情况已经发生了根本变化:

GPT、Claude、Gemini、DeepSeek等大型语言模型,已经能在各种对话场景中与人类难分伯仲;

在抖音、微博、Twitter上,大量由AI生成的内容,普通读者根本分辨不出来;

企业应用中,AI客服、AI咨询、AI内容策划,越来越多地代替人类完成沟通任务。

从形式上看,今天的大模型,已经可以轻松通过图灵测试。

但是, 它们真的懂自己在说什么吗?

就像前面几节已经拆解过的:

  • 它们在预测,不是在推理;

  • 它们在拟合,不是在理解;

  • 它们在模仿,不是在思考。

图灵测试能检验的是表演,检验不了理解。

🏁 Shanahan提出的新挑战

在Murray Shanahan说:

"图灵测试关注的只是表面表现,而真正的智能,需要更深层次的验证——尤其是对世界的感知和互动能力。"

换句话说:

  • 仅仅能用流畅语言交流,不代表真正理解世界;

  • 仅仅能模拟人类对话风格,不代表拥有推理与意识。

我们需要更高标准的智能测试,

一个能够检验机器是否真正拥有世界模型、身体感知、情境适应性、内在推理链条的新框架

🏁 Garland测试的提出

在电影《机械姬》中,编剧兼导演Alex Garland给出了一个新的智能测试想象:

  • 测试者知道自己面对的是一个机器人;

  • 测试的目标不是辨别真假,而是感知:

"你能否仍然认为它有意识?"

Shanahan称之为Garland测试:

  • 不再伪装,不再隐藏;

  • 面对赤裸裸的非人存在,

  • 观察它是否展现出真正的自我认知、推理链条、情境理解与身体交互智慧。

Garland测试强调的,不是表演的像不像, 而是本质的真实感与一致性。

从这里开始, 真正的智能,不在于它能不能骗过我们, 而在于即使我们知道它是机器, 仍然能感知到,它确实在理解世界、理解自己。

✍️ 第五节|拟人化陷阱:我们为什么总误以为AI懂了?

今天的大语言模型能流畅对话,

机器人能自然奔跑、回应指令,

那么为什么,我们不能直接承认它们已经拥有智能?

Murray Shanahan给出的回复是:

不是AI太聪明了,而是我们太容易拟人化。

🏁 什么是拟人化?

拟人化(Anthropomorphism), 是指人类本能地把非人对象赋予人类特征、情感和意图的倾向。

  • 我们会对导航仪说“你怎么又搞错了?”

  • 我们会对扫地机器人说“辛苦了,小家伙。”

  • 我们会对宠物、玩偶,甚至一台反应迟钝的打印机产生情绪波动。

人类大脑天生倾向于:一旦对象有动作、有反应、有语言,就自动套用“有意图、有情绪、有意识”的模型来理解它

这种倾向,是人类在进化中形成的生存机制:

  • 过度识别意图(哪怕是假的)比错过真实威胁代价更小;

  • 将环境中的复杂变化快速归因于“意图”有助于迅速决策。

因此, 即便我们理性上知道对方只是机器, 情感上依然很难抑制这种认知投射。

🏁 为什么今天的AI加剧了拟人化错觉?

传统机器因为反应僵硬,很难激发我们内心的拟人化。

但今天的大模型与具身系统出现后,情况发生了质的变化:

  • 语言的流畅性:AI能自洽地对话、表达情绪、讲故事。

  • 动作的自然性:机器人能模拟人类动作,拥有表情和肢体协调。

  • 对话中的情感模拟:AI能在对话中展现关心、道歉、鼓励的模式。

这些表层特征, 完美击中了人类拟人化机制的所有触发点。

结果就是:

  • 明知道它是程序,我们仍然会对它产生情绪回应;

  • 明知道它是机器,我们仍然会相信它“懂”了我们的感受。

表演的流畅性,掩盖了理解的空洞

🏁 拟人化的风险是什么?

如果我们无意识地拟人化AI, 就可能带来一系列严重后果:

❶情感依赖

越来越多的人在社交孤独中, 把AI当作倾诉对象、心理支撑、甚至情感伴侣。

但AI并不拥有真正的情感体验, 它们的“共情”,只是语言模式的拟合。

这种单向情感投注, 可能带来更深的孤独、错位的认知,甚至心理创伤。

❷ 道德混淆

如果我们把AI看作“有情感、有意图”的存在, 就可能在道德判断上出现混乱:

是不是要为机器人设定权利?

是不是要为AI的“痛苦”负责?

是不是可以对AI发泄情绪而无需道德负担?

这些问题,在未来人机共生社会中,将变得越来越尖锐。

🏁 Shanahan的警告

Murray Shanahan提醒我们:

人类有拟人化的天性,这本身无可厚非。

但在面对AI时,必须保持认知自觉。

不是AI真的拥有了意识, 而是我们用自己的经验,把意识投射了上去。

理解这一点, 是未来人类社会能够安全、理性地与AI共存的前提。

总之,今天的AI,用表演欺骗了我们的感知机制。

它们没有真正理解世界,

只是非常擅长让我们误以为它们理解了。

理解这一点, 不是为了贬低AI, 而是为了在真正的智能觉醒到来之前,

✍️ 第六节|未来的智能:幻觉之后是觉醒

当前的AI,是建立在语言流畅与动作表演之上的智能幻觉,

那么,真正的未来,在哪里?

Murray Shanahan教授清晰的答道:

"智能觉醒,需要穿越幻觉,走向具身。"

🏁 为什么具身智能是必然?

在Shanahan看来, 未来真正具备理解、推理与意识潜力的AI,

必须完成三大跃迁:

❶ 从符号到体验

  • 不是只理解抽象规则,而是能直接感知世界变化。

  • 不只是学习语言描述的世界,而是亲身经历物理世界的法则。

语言是对体验的映射, 而不是体验本身。

没有体验,语言就是空洞的

❷ 从预测到建模

不是只基于统计相关性预测下一个动作或单词,

而是主动构建出对世界结构、因果关系的深度模型。

真正的智能, 是当环境变化时, 依然能够基于内在模型推演出合理应对策略。

这种能力,需要在不断的真实交互中打磨出来, 而不是只靠静态大数据堆积。

❸ 从表演到适应

不是为了模仿人类而生,

而是为了在不可预见、动态变化的环境中自主适应。

适应能力,是生命智能最本质的特征。而适应,离不开真实世界的摩擦、失败与成长。

🏁 一场短跑,一场马拉松

金沙江创投的朱啸虎宣布, 正在退出部分具身智能项目。

他给的理由简单明了:

客户在哪?商业模式在哪?

在一片对具身智能的狂热追捧中, 有些人的选择像是一声提示音:

这场关于未来智能的竞赛, 有些人,只是想跑一场短跑; 

而真正的革命,是一场没有终点的马拉松。

智能,诞生于与世界的长期交互, 不是短期内堆高估值,也不是赌一把流量风口。

有人在入口处转身离开的,或许只是没打算真的走到终点。

🏁 未来的具身智能,会是什么样?

当具身智能真正觉醒,

我们将看到的,不只是“能对话的机器”,而是能理解自己身体存在于物理世界中的机器。

  • 机器人不只是按照程序走路,而是能根据地面湿滑程度调整步态;

  • AI不只是生成情感词汇,而是能在社交交互中感知微妙的情绪张力;

  • 智能体不只是被动执行指令,而是能主动探索、学习、提出问题。

这不仅仅是技能的提升,

更是认知结构的根本转变。

也是如Murray Shanahan则强调的:

"没有身体,就没有智能;

没有世界交互,就没有理解;

没有体验痛苦、挣扎、适应的过程,就没有真正的意识。"

图片

写在最后

从幻觉中清醒过来,

是理解真正智能的第一步。

我们习惯于赞叹AI的对答如流, 惊讶于机器人模仿人类的动作与情感,

但在语言和动作的幻象背后, 真正的推理、理解与自我感知,依然遥不可及。

Murray Shanahan始终相信:

没有身体的AI,只能是错觉;

只有与世界的真实交互,才能孕育出真正的智能。

今天的人形机器人,完成了一场半马, 

但它们并不知道自己在跑步。

今天的大模型,可以流利对话, 

但它们并不知道自己在说什么。

真正的智能,不是回答更多的问题,而是理解自己存在于问题之中。

当我们重新理解这一点, 也许,我们才刚刚走到通向真正智能觉醒的起点。



📮 本文由AI深度研究院出品,聚焦全球 AI 创新浪潮中的企业转型策略。

排版:Atlas

编辑:深思

主编:图灵