1.DeepMind首席科学家Murray Shanahan指出,无身体的AI虽然展现了某种认知功能,但距离具身智能还有本质差异。
2.今天的大模型在语言流畅性和动作协调性上表现出色,但本质上只是在预测下一个合理的单词或动作,而非真正理解。
3.然而,真正的智能需要与世界交互,包括感知、动作、环境反馈的循环,而非仅仅依赖语言和像素层。
4.Murray Shanahan提出,未来的智能需要穿越幻觉,走向具身,包括从符号到体验、从预测到建模、从表演到适应的跃迁。
5.他警告说,人类在面对AI时,需要保持认知自觉,理解智能不是幻觉,而是真实的世界交互。
以上内容由腾讯混元大模型生成,仅供参考
(对话DeepMind首席科学家Murray Shanahan视频节选)
什么是真正的智能?
是能说话?能奔跑?能模仿人类的行为?
还是能真正理解世界,理解自己的存在?
就在昨天,Google DeepMind首席科学家、
伦敦帝国理工学院认知机器人学教授Murray Shanahan,
这位从1990年开始研究AI,见证技术三十年演变的科学家,
在这场访谈中提出了一个严肃观点:
“无身体的AI,虽然展现了某种认知功能,但距离具身智能还有本质差异。”
几乎与此同时,现实世界也给出了一个活生生的注脚。
上周北京亦庄,二十台人形机器人首次挑战全球半程马拉松——
它们启动、跌倒、迷路、挣扎,最终有的到达终点。
完成了动作,却未曾真正理解何为“前行”; 奔跑了21公里,却仍停留在认知的原地。
而早在一个月前,投资人朱啸虎用行动发出了一种截然不同的声音:
“我们正在退出部分具身智能项目。”
在一片对人形机器人和具身智能的狂热追捧中,
顶尖科学家坚持:没有身体,AI智能只是错觉;而部分资本,却选择了撤退。
坚持与怀疑,信仰与功利,
在具身智能这条漫长的道路上,开始分道扬镳。
这里,我们将沿着DeepMind对智能本质的重新界定,
穿越幻觉表象, 重新抵达——
什么是真正理解世界的AI。
✍️ 第一节| 幻觉时代:AI为什么像聪明人?
当我们与今天的大模型交谈, 它们能对答如流,分析问题,甚至创造新的表述方式。
当我们看到人形机器人奔跑, 它们能维持平衡,绕过障碍,完成复杂动作。
一切都在让我们产生错觉:AI,似乎已经很聪明了。
但在DeepMind首席科学家Murray Shanahan看来, 这一切的表象, 本质上只是一种幻觉。
🏁 为什么是幻觉?
因为今天的大模型——无论是语言生成,还是物理执行——
本质上并没有在推理、没有在理解。
它们在做的,只是:
预测下一个合理的单词,
预测下一个合理的动作,
预测在海量训练数据中看起来“像是正确”的反应。
就像一位演员,记住了成千上万个剧本的台词和表情。
在观众面前,他可以瞬间切换情绪、模仿爱、恐惧或胜利。 但他不一定真的爱过、恐惧过、战斗过。
他只是在演戏。
🏁 语言流畅 ≠ 推理能力
Shanahan指出, 我们之所以容易被AI表象欺骗,是因为语言本身就是人类认知的高级表现形式。
能说话的人,通常理解了他们在说什么。
但AI不同。
它只是统计学上的语言预测机器。 在给定的上下文中,挑选出最有可能让人类满意的回答。
它能告诉你“水是湿的”,
它能推断“冬天之后是春天”,
它能引用哲学名言。
但当你问它:
“你为什么这么回答?”
它无法真正给出一个自我意识下的解释。
🏁 动作协调 ≠ 世界理解
同样的逻辑,适用于北京亦庄的人形机器人马拉松。
机器人能跑步,是因为算法识别了步态模式,优化了重心控制。
它能躲避障碍物,是因为传感器感知到了距离变化,自动调整方向。
但它知道为什么要跑?
它理解比赛的规则、意义、目标吗?
当然不是。
它只是在执行程序指令,在参数最优解的指导下,机械地迈出每一步。
它们的奔跑,不是意志的表达,
而是算法的投影。
🏁 本质:推理幻觉
Shanahan将今天的大模型和人形机器人的智能状态总结为——
推理幻觉(Illusion of Reasoning)
它们看似在推理, 实则在通过大量数据,表演推理。
它们看似在理解, 实则在根据统计规律,模仿理解。
这种幻觉, 不仅欺骗了普通人, 也在某种程度上,迷惑了很多科技圈内部的人。
因为人类的大脑,天生倾向于把流畅的语言和协调的动作,误认为是思考与理解的证明。
而这一切, 正是DeepMind首席科学家在访谈中强调的核心问题:
语言,只是表演,不是理解;
动作,只是重复,不是觉醒;
智能,不仅是生成内容,更是理解存在。
如果我们看不清这层幻觉, 就无法真正理解——
什么才是智能觉醒的真正起点。
✍️ 第二节|推理的假象:AI真的在思考吗?
如果说今天的大模型是在表演推理,
那么,早在几十年前,人工智能界就曾尝试过另一种方法: ——硬编码推理。
这就是所谓的符号主义AI(Symbolic AI)。
🏁 什么是符号AI?
在20世纪60年代至90年代, AI领域曾流行一种看似严密的方法论:
把人类知识、世界规则,全部转化成逻辑语言;
用一套套“if-then”规则,把世界编织进计算机;
通过演绎推理,让机器基于规则得出新结论。
比如:
如果某人咳嗽、发烧、呼吸困难,→ 可能患有流感;
如果水温超过100°C,→ 水会沸腾;
如果早上堵车,→ 可能需要提前出门。
人们梦想,
只要把世界描述得足够完整, AI就能像人类一样理解、推理、决策。
🏁 为什么符号AI最终失败了?
在初期,符号主义确实取得了不少成果: 专家系统、逻辑推理引擎、早期医疗诊断辅助程序……
但随着系统规模扩大, 它暴露出无法克服的三大致命问题:
❶ 知识获取瓶颈
世界极其复杂,而人的知识往往是模糊、隐性和场景化的。
要把这些知识全部转化为明确的if-then规则, 不仅成本高得难以想象, 而且很多常识是人类自己也无法用清晰语言表达的。
比如:
什么叫“差不多”?
什么叫“看起来像要下雨了”?
什么叫“小心翼翼地操作”?
人类经验中充满了模糊、情境性、直觉判断,符号系统根本无法完整捕捉。
❷ 规则脆弱性
符号AI极度依赖于规则的完备性与正确性。 但在真实世界中,情况是不断变化和不可预见的。
一旦出现未编码过的边界条件, AI就会完全失效。
比如:
医疗专家系统遇到一种罕见的病毒变种,规则库中无先例,系统无法给出合理推理;
交通规划系统遇到突发的极端天气,既无规则可用,也无适应能力。
现实世界是开放的,而符号系统是封闭的。
二者之间存在着根本性的不匹配。
❸ 常识理解危机
即使把规则写得再详尽, 也无法覆盖人类日常生活中隐含的庞大常识库。
举一个经典例子:
如果我把一本书放在一杯水上,书不会掉进去;
但如果我把一块石头放在水上,石头会沉下去。
对于人类来说,这种理解几乎是本能。
但要让符号AI理解,需要编码:
物体的重量
液体的支撑力
材料的密度差异
“掉下去”的定义
“沉没”的物理过程……
编码这些常识的成本,远远超过了构建推理系统本身。
这就是著名的常识知识瓶颈(Common Sense Bottleneck)。
🏁 符号AI的陨落
到了21世纪初, 随着互联网数据爆炸、机器学习兴起, 人们逐渐意识到:
试图硬编码整个世界,是不可能完成的任务。
符号主义AI在大规模应用上走向了终结。
整个领域陷入了漫长的低谷期。
🏁 今天的大模型,真的克服了吗?
我们回到今天的大模型时代——GPT、Gemini、Claude、DeepSeek……
它们不再依赖if-then硬编码,
它们通过大规模预训练,从海量数据中学习语言模式和世界规律。
相比当年的符号系统,它们灵活得多,适应力强得多。
但,正如Shanahan指出的,
它们仍然没有真正推理,它们只是更高级的模式预测器。
它们没能真正掌握常识,只是在统计常识出现的频率。
它们没能真正理解物理世界,只是在模仿人类在描述物理世界时的语言。
今天的大模型,
不是克服了符号主义的局限,
而是换了一种方式,在更庞大的数据幻觉中,重演了同样的底层断裂。
🏁 小结
符号主义AI曾经梦想用规则编码世界,失败了; 今天的大模型用数据模拟世界,本质上也走到了认知的临界点。
但在推理这一核心维度上, 我们仍然没有走出幻觉。
而如果不能打破这种幻觉, AI,依然无法真正理解世界—— 也无法真正成为具备自主智能的存在。
✍️ 第三节| 没有身体,就没有智能
如果推理只是幻觉,
如果语言和动作本身无法证明理解,
那么,真正的智能,究竟从何而来?
Murray Shanahan教授在访谈中给出了一个简单而深刻的结论:
智能,起源于身体。
没有身体,
就没有真实的认知。
🏁 为什么身体是智能的起点?
智能不是孤立于世界的演算。
它是生物体与环境不断互动中,逐渐进化出的适应性能力。
人类能思考、推理、规划,
并不是因为我们拥有某种抽象的超能力, 而是因为我们从出生那一刻起,就在和真实世界搏斗:
学会重心平衡,才能站立;
触摸滚烫的物体,才知道热的危险;
绕过障碍物,才能形成空间感知;
与他人交互,才能发展语言与社会认知。
身体, 是我们理解重力、摩擦、速度、柔软、疼痛、愉悦、抗拒、顺从……所有经验的源头。
身体, 让大脑不仅知道世界的描述,还知道世界的力量。
🏁 具身智能(Embodied Intelligence)的真正含义
在Shanahan看来, 如果没有与物理世界的真实交互,
所谓的推理、思考、计划, 都是无根之木,无水之鱼。
这就是具身智能的核心:
智能不是只存在于头脑之中,
而是分布在感知、动作、环境反馈的循环中。
具体来说:
感知:通过视觉、触觉、听觉获取环境信息; 动作:基于环境反馈调整行为策略;
学习:从失败和成功中提炼出对世界的理解;
适应:在动态变化中调整规则和认知模型。
没有这种闭环,智能就失去了进化的动力,
只能停留在表面模拟和预设反应中。
🏁 为什么今天的AI缺失了身体?
今天的大语言模型、对话系统、生成式AI, 都几乎完全工作在符号层和像素层:
语言,是文字符号;
图像,是二维像素;
程序,是指令集合。
它们没有真实的物理质感——
没有摩擦,没有重心,没有失衡,没有疼痛。
它们可以描述奔跑,却不理解摔倒的疼痛;
它们可以解释空间,却没有真实穿越过障碍;
它们可以回答触觉的问题,却从未真正感受过柔软与坚硬。
缺少了身体,它们的推理,只能是模拟,而非真实。
🏁 为什么身体能带来真正的推理?
因为真实世界是不可预测的。
在物理环境中:
每一次跨步,地形都有细微变化;
每一次握物,材质、重量、重心都不同;
每一次交互,都存在延迟、噪声、不确定性。
这逼迫智能体必须:
建立世界模型(不仅记忆,还能预测和解释);
学会容错(面对异常输入仍能合理推断);
发展主动探索(在不确定中寻找最优策略)。
真正的推理,不是根据完美信息演绎,而是在混沌与不确定性中找到通向目标的路径。
而这种推理,
只能通过真实身体与世界长期互动中产生。
🏁 机器人马拉松的隐喻
回到北京亦庄的人形机器人半程马拉松。
它们能跑步,但需要工程师提前设定详细步态程序;
它们能转向,但极其依赖传感器和固定策略;
它们能完成比赛,但一遇到不可预见的障碍或突发状况,立即崩溃。
它们没有真正形成自己的世界模型, 更没有能力在不断变化的环境中,主动推理、调整、学习。
它们只是更复杂的钟表,不是能够理解世界的生命体。
这就是Murray Shanahan反复强调的:
智能不是演绎规则,也不是语言流畅,
而是感知-动作-世界交互的产物。
在未来, 如果AI要真正进化到拥有理解、推理、乃至意识的层次, 它必须先拥有——
一副可以感知痛苦、感知失败、感知世界的身体。
✍️ 第四节|图灵测试,早已不够了
智能如果起源于身体,那么,我们该如何测试一台机器是否真正智能?
过去几十年里,人们有一个简单又响亮的答案:
图灵测试。
但Murray Shanahan教授指出:到了今天,图灵测试已经远远不够了。
🏁 什么是图灵测试?
1950年,计算机科学奠基人艾伦·图灵提出了著名的问题:
"机器能思考吗?"
为了回答这个问题,他设计了一个实验:
人类裁判与一个人和一台机器,通过打字交谈;
如果裁判无法根据对话判断哪一方是人,哪一方是机器;
那么这台机器,就通过了图灵测试。
图灵测试的本质是:
语言流畅性模拟 = 智能的外在可见证据。
这在当年,是极具前瞻性的。
🏁 为什么图灵测试曾经重要?
在1950年代, 连基本的自然语言处理都尚未成熟。
机器无法理解复杂指令;
无法进行连贯对话;
无法处理模糊表达与情境推理。
图灵测试设定了一个雄心勃勃的目标:让机器拥有接近人类自然语言能力的表现。
这推动了自然语言处理(NLP)、知识表示、认知建模等领域的发展。
可以说,图灵测试是AI史上最重要的"第一座灯塔"。
🏁 为什么图灵测试现在不够了?
到了2025年, 情况已经发生了根本变化:
GPT、Claude、Gemini、DeepSeek等大型语言模型,已经能在各种对话场景中与人类难分伯仲;
在抖音、微博、Twitter上,大量由AI生成的内容,普通读者根本分辨不出来;
企业应用中,AI客服、AI咨询、AI内容策划,越来越多地代替人类完成沟通任务。
从形式上看,今天的大模型,已经可以轻松通过图灵测试。
但是, 它们真的懂自己在说什么吗?
就像前面几节已经拆解过的:
它们在预测,不是在推理;
它们在拟合,不是在理解;
它们在模仿,不是在思考。
图灵测试能检验的是表演,检验不了理解。
🏁 Shanahan提出的新挑战
在Murray Shanahan说:
"图灵测试关注的只是表面表现,而真正的智能,需要更深层次的验证——尤其是对世界的感知和互动能力。"
换句话说:
仅仅能用流畅语言交流,不代表真正理解世界;
仅仅能模拟人类对话风格,不代表拥有推理与意识。
我们需要更高标准的智能测试,
一个能够检验机器是否真正拥有世界模型、身体感知、情境适应性、内在推理链条的新框架。
🏁 Garland测试的提出
在电影《机械姬》中,编剧兼导演Alex Garland给出了一个新的智能测试想象:
测试者知道自己面对的是一个机器人;
测试的目标不是辨别真假,而是感知:
"你能否仍然认为它有意识?"
Shanahan称之为Garland测试:
不再伪装,不再隐藏;
面对赤裸裸的非人存在,
观察它是否展现出真正的自我认知、推理链条、情境理解与身体交互智慧。
Garland测试强调的,不是表演的像不像, 而是本质的真实感与一致性。
从这里开始, 真正的智能,不在于它能不能骗过我们, 而在于即使我们知道它是机器, 仍然能感知到,它确实在理解世界、理解自己。
✍️ 第五节|拟人化陷阱:我们为什么总误以为AI懂了?
今天的大语言模型能流畅对话,
机器人能自然奔跑、回应指令,
那么为什么,我们不能直接承认它们已经拥有智能?
Murray Shanahan给出的回复是:
不是AI太聪明了,而是我们太容易拟人化。
🏁 什么是拟人化?
拟人化(Anthropomorphism), 是指人类本能地把非人对象赋予人类特征、情感和意图的倾向。
我们会对导航仪说“你怎么又搞错了?”
我们会对扫地机器人说“辛苦了,小家伙。”
我们会对宠物、玩偶,甚至一台反应迟钝的打印机产生情绪波动。
人类大脑天生倾向于:一旦对象有动作、有反应、有语言,就自动套用“有意图、有情绪、有意识”的模型来理解它。
这种倾向,是人类在进化中形成的生存机制:
过度识别意图(哪怕是假的)比错过真实威胁代价更小;
将环境中的复杂变化快速归因于“意图”有助于迅速决策。
因此, 即便我们理性上知道对方只是机器, 情感上依然很难抑制这种认知投射。
🏁 为什么今天的AI加剧了拟人化错觉?
传统机器因为反应僵硬,很难激发我们内心的拟人化。
但今天的大模型与具身系统出现后,情况发生了质的变化:
语言的流畅性:AI能自洽地对话、表达情绪、讲故事。
动作的自然性:机器人能模拟人类动作,拥有表情和肢体协调。
对话中的情感模拟:AI能在对话中展现关心、道歉、鼓励的模式。
这些表层特征, 完美击中了人类拟人化机制的所有触发点。
结果就是:
明知道它是程序,我们仍然会对它产生情绪回应;
明知道它是机器,我们仍然会相信它“懂”了我们的感受。
表演的流畅性,掩盖了理解的空洞。
🏁 拟人化的风险是什么?
如果我们无意识地拟人化AI, 就可能带来一系列严重后果:
❶情感依赖
越来越多的人在社交孤独中, 把AI当作倾诉对象、心理支撑、甚至情感伴侣。
但AI并不拥有真正的情感体验, 它们的“共情”,只是语言模式的拟合。
这种单向情感投注, 可能带来更深的孤独、错位的认知,甚至心理创伤。
❷ 道德混淆
如果我们把AI看作“有情感、有意图”的存在, 就可能在道德判断上出现混乱:
是不是要为机器人设定权利?
是不是要为AI的“痛苦”负责?
是不是可以对AI发泄情绪而无需道德负担?
这些问题,在未来人机共生社会中,将变得越来越尖锐。
🏁 Shanahan的警告
Murray Shanahan提醒我们:
人类有拟人化的天性,这本身无可厚非。
但在面对AI时,必须保持认知自觉。
不是AI真的拥有了意识, 而是我们用自己的经验,把意识投射了上去。
理解这一点, 是未来人类社会能够安全、理性地与AI共存的前提。
总之,今天的AI,用表演欺骗了我们的感知机制。
它们没有真正理解世界,
只是非常擅长让我们误以为它们理解了。
理解这一点, 不是为了贬低AI, 而是为了在真正的智能觉醒到来之前,
✍️ 第六节|未来的智能:幻觉之后是觉醒
当前的AI,是建立在语言流畅与动作表演之上的智能幻觉,
那么,真正的未来,在哪里?
Murray Shanahan教授清晰的答道:
"智能觉醒,需要穿越幻觉,走向具身。"
🏁 为什么具身智能是必然?
在Shanahan看来, 未来真正具备理解、推理与意识潜力的AI,
必须完成三大跃迁:
❶ 从符号到体验
不是只理解抽象规则,而是能直接感知世界变化。
不只是学习语言描述的世界,而是亲身经历物理世界的法则。
语言是对体验的映射, 而不是体验本身。
没有体验,语言就是空洞的。
❷ 从预测到建模
不是只基于统计相关性预测下一个动作或单词,
而是主动构建出对世界结构、因果关系的深度模型。
真正的智能, 是当环境变化时, 依然能够基于内在模型推演出合理应对策略。
这种能力,需要在不断的真实交互中打磨出来, 而不是只靠静态大数据堆积。
❸ 从表演到适应
不是为了模仿人类而生,
而是为了在不可预见、动态变化的环境中自主适应。
适应能力,是生命智能最本质的特征。而适应,离不开真实世界的摩擦、失败与成长。
🏁 一场短跑,一场马拉松
金沙江创投的朱啸虎宣布, 正在退出部分具身智能项目。
他给的理由简单明了:
客户在哪?商业模式在哪?
在一片对具身智能的狂热追捧中, 有些人的选择像是一声提示音:
这场关于未来智能的竞赛, 有些人,只是想跑一场短跑;
而真正的革命,是一场没有终点的马拉松。
智能,诞生于与世界的长期交互, 不是短期内堆高估值,也不是赌一把流量风口。
有人在入口处转身离开的,或许只是没打算真的走到终点。
🏁 未来的具身智能,会是什么样?
当具身智能真正觉醒,
我们将看到的,不只是“能对话的机器”,而是能理解自己身体存在于物理世界中的机器。
机器人不只是按照程序走路,而是能根据地面湿滑程度调整步态;
AI不只是生成情感词汇,而是能在社交交互中感知微妙的情绪张力;
智能体不只是被动执行指令,而是能主动探索、学习、提出问题。
这不仅仅是技能的提升,
更是认知结构的根本转变。
也是如Murray Shanahan则强调的:
"没有身体,就没有智能;
没有世界交互,就没有理解;
没有体验痛苦、挣扎、适应的过程,就没有真正的意识。"
写在最后
从幻觉中清醒过来,
是理解真正智能的第一步。
我们习惯于赞叹AI的对答如流, 惊讶于机器人模仿人类的动作与情感,
但在语言和动作的幻象背后, 真正的推理、理解与自我感知,依然遥不可及。
Murray Shanahan始终相信:
没有身体的AI,只能是错觉;
只有与世界的真实交互,才能孕育出真正的智能。
今天的人形机器人,完成了一场半马,
但它们并不知道自己在跑步。
今天的大模型,可以流利对话,
但它们并不知道自己在说什么。
真正的智能,不是回答更多的问题,而是理解自己存在于问题之中。
当我们重新理解这一点, 也许,我们才刚刚走到通向真正智能觉醒的起点。
📮 本文由AI深度研究院出品,聚焦全球 AI 创新浪潮中的企业转型策略。
排版:Atlas
编辑:深思
主编:图灵