DeepMind CEO 哈萨比斯：不是一个模型，是 AI 的全面爆发

人机与认知实验室

2025-09-16 08:32科技领域创作者

问AI · DeepMind的AI全面爆发如何改变世界？

（DeepMind CEO哈萨比斯：谈AI的下一个十年）

诺奖、蛋白质、Gemini、Genie、抗癌新药。

这些词，并非来自不同领域的新闻，而是来自一个人，同一次对话。

2025 年 9 月 12 日，All-In Summit 2025 舞台，DeepMind CEO 戴米斯・哈萨比斯 (Demis Hassabis) 公开现身，全面阐述其战略布局：

从语言模型 Gemini，到世界模型 Genie，
从 AGI 路线，到科学引擎 AlphaFold，再到医疗公司 Isomorphic 的商业化路径。

短短 30 分钟，涉及 AI 的三个核心领域：认知 → 行动 → 治愈。

更关键的是，他传递的不是模型性能的单点突破，而是一个明确判断：我们正进入一个系统全面爆发的时代。

不是一个模型的迭代，而是模型、平台、场景、应用的协同爆发。

不是从 demo 到产品的线性推进，而是多个领域的并行突破。

这标志着 AI 发展的新阶段：不再是 ChatGPT 式的对话革命，而是 DeepMind 试图用世界建模、物理推理、药物设计，重新定义 AI 的边界与可能。

这场“AI 的全面爆发”，会改变什么，又留给我们什么机会？

第一节｜Gemini 不是助手，是多模态引擎

在这场对谈中，哈萨比斯谈得最多的，不是 Gemini 模型的参数和能力，而是它要进入的场景。

为什么场景如此重要？因为 Gemini 是多模态的，它能接受图像、音频、视频等任何类型的输入，并生成相应的输出。

这意味着什么？

意味着它不再只是一个聊天框里的模型，而是一个能观察世界、理解场景、给出回应的智能系统。

哈萨比斯给出的画面，是这样描述的：你可以拿着手机，对准你周围的环境，它就能理解你在看什么……它能在你走在街上时给出建议，或内置在 Google 地图里，为你提供帮助。

这不只是计划中的功能，Gemini Live 已经在实际应用了。

它不仅能读懂屏幕内容，还能识别摄像头里的物体、文字，甚至理解动作顺序。这和传统“对话助手”的最大不同是：

它开始看得见，听得懂，能联想。

这种多模态理解，是 Gemini 的重要底层能力：

当你指着桌上的两样东西说“把这个放进那个”，它能理解“这个”“那个”分别指什么；
当你问“这份简历哪里要优化”，它能看完页面内容，指出逻辑问题，而不只是关键词打分；
当你走进一家餐馆，它知道你在干什么，能主动给出推荐和提醒，而不是等你开口。

他们是在构建一个可以嵌入到现实生活中的智能工具。

Gemini 的价值不在于回答问题，而在于实时响应现实世界中的各种需求和任务。

这对整个 AI 应用的意义是：

不是用户迁就模型，而是模型贴近生活。

而这正是 DeepMind 把 Gemini 定位为 下一代用户界面 的原因：它不是下一代搜索，也不是下一个 Copilot。它正在被整合进 Gmail、Workspace、地图、搜索等每个产品内部。

它不只是一个模型，它是谷歌重新连接用户与信息的新桥梁。

而这，只是开始。

第二节｜Genie不止看图，还能生成世界

很多人第一次看到 DeepMind 的 Genie 模型演示视频时，都以为那是一个游戏预告。

但哈萨比斯马上解释：

“你看到的不是传统的游戏或视频，而是一个完全可操作的互动世界，全部由 Genie 生成。”

画面中，有房间、有角色、有光影，人用键盘控制角色在房间里移动、走到窗边、转身、回来。

但这一切并不是提前建好的游戏环境。它是 Genie 根据一句自然语言指令，临时生成的“世界”。更神奇的是，玩家看向的部分，才被生成；背后的区域，暂时还不存在。

哈萨比斯说：

“所有这些像素，都是实时生成的……这个世界的那一部分，在你看之前，是不存在的。”

这种实时生成能力背后，反映出 Genie 已经不只是会画图、做视频，而是真正开始理解空间、时间和物理规律。

传统的 3D 游戏世界，要靠程序员在引擎里逐一搭建场景、写入逻辑，比如 Unity、Unreal 引擎。但 Genie 做的是另一种事：

它通过看数百万段视频和游戏片段，自己学会了物体怎么动、水怎么流、人怎么转身……它在逆向理解这个世界。

它不是在画画，它是在模拟世界。

哈萨比斯强调：

“这不是 Photoshop 里的图层，也不是预先做好的动画片段……这些都是实时、完整、连续的模拟。”

这背后，其实是 DeepMind 想回答一个问题：

如果 AI 要理解人类世界，是否也应该能“自己构建一个世界”？如果我们给它语言、图像、声音，它是否能学会：物体怎么运动、空间怎么变换、人和物之间有什么互动？

而 Genie，就是 DeepMind 给出的第一个答案。

它的本质是 世界理解系统，而不是内容展示工具。

这让哈萨比斯深有感触。他在 90 年代做过游戏引擎，手动写过图形渲染和物理模型。如今AI能自动完成这些工作，还做得更好。

他说，这将是未来机器人、虚拟助手、交互娱乐、甚至科学模拟的底层基础。

想想看：

如果 AI 能“理解”你身处的房间，而不只是识别桌子；
如果它知道“你拿起水杯后，会把它放下”是一个自然动作；
如果它能“想象”接下来你可能往哪儿走、做什么事……

它就不再只是语言工具，而是能与你进行深度理解和协作的智能伙伴。

哈萨比斯的重点，不是 Genie 现在能做到什么，而是它开启了从静态内容到动态世界的可能性。

在他看来，这不只是 DeepMind 的研究成果，而是整个 AI 的发展方向。

对我们来说，这意味着：

AI 正在从回答工具，进化为能够建构、理解和操作环境的智能体。

第三节｜机器人不是硬件叠加，而是多模态能力的落点

“你可以直接对机器人说话，然后它动手去做。”

这不是电影情节，而是哈萨比斯在对谈里描述的真实实验场景：

“我们发布了一些 Gemini 机器人模型演示，实验室里有两只机械手，放在桌面上，可以和物体互动。你可以说：‘把黄色的放进红色的桶里’，它就能听懂、理解并执行。”

能做到这一点，是因为 Gemini 模型将语言、视觉、推理三种能力整合在一起。

这是什么意思？

意味着机器人未来不需要各自独立的 AI 系统，而是可以接入像 Gemini 这样的通用智能平台。更关键的是，这种通用平台带来的不再是简单的标签识别，而是具备真正的推理能力。

哈萨比斯举例：

“你可以说‘把它放回原处’，它就知道你指的是刚刚它拿起的那个东西，而且知道‘原处’是哪里。”

这说明， AI 真正开始理解前后关系、空间位置和指代词含义。

说到这里，主持人问了个关键问题：

这是否意味着，你们想做一个像 Android 那样的机器人操作系统？

哈萨比斯回应很直接：

确实，这就是我们正在探索的方向。

他的想法是，未来大多数机器人不再需要自己单独建模，而是能共享一套智能中枢系统：

就像手机装 Android；
机器人也装上 Gemini for Robot；
然后不同设备按自己用途调用指令、操作物体。

当然，这不是唯一路径。

哈萨比斯也提到另一种思路：模型和机器人深度整合成端到端设备，像苹果那样硬软件一体。

他说：

“两条路径我们都在做，一条是平台式，另一条是特定机器人和模型的深度绑定。”

至于未来主流是哪条，他没有定论。但他说了一句很关键的话：我们今天看到的，还只是前奏。机器人真正的爆发，可能还要几年，但它一定会来。

为什么还需要时间？

我们对如何构建机器人的理解能力，至今还没有完全掌握。通用模型需要更可靠、更稳定，也要更清楚自己能做什么、不能做什么。

同时，硬件也还有门槛。

机器人要真正大规模走进家庭、医院、商店、工厂，不光要聪明，还必须耐用、稳定、成本可控。

他说：

“你如果太早量产一种机器人，半年后就可能被新的方案淘汰。这种节奏太快，不适合一开始就全面铺开。”

主持人总结说：我们是不是还在机器人时代的 DOS 阶段（早期的简陋系统）？

哈萨比斯笑着说：也许是。但接下来的10年，会是科技的集中爆发期。

在这个爆发期到来之前，哈萨比斯的思路很清晰：与其纠结机器人长什么样，不如先让它们真正有用起来。

未来的重点不是造一个完美的人，而是让机器人适应我们已经为人类设计好的现实世界。

第四节｜AlphaFold 是起点，目标是新药

在整场对谈中，哈萨比斯最自豪的一件事，不是 AlphaGo 赢了棋王，也不是 Gemini 用上了手机。而是他拿到了诺贝尔奖。

重要的不是个人荣誉，而是AI第一次在科学研究中获得了权威认可。

这项成果叫 AlphaFold，一种能预测蛋白质结构的 AI 模型。它的能力是：只要给出蛋白质的氨基酸序列，它就能 “想象”出这个分子会折叠成什么立体结构。

过去这件事通常要靠实验室花上几年时间，AlphaFold 把它压缩到几分钟内完成，准确率也达到科学研究级别。

哈萨比斯回忆说：

他们把诺贝尔奖的登记册从保险柜里拿出来，我签上名字的时候，看到居里夫人、爱因斯坦、尼尔斯·玻尔。让 AI 在这本科学史册上留下印记，是我职业生涯的最高荣誉。

但他并没有止步于此。

因为哈萨比斯很清楚：蛋白质结构只是药物发现的第一步，真正要治病、救人，还要走一段很长的路。

于是他创办了 Isomorphic 实验室。

Isomorphic 正在构建一个 AI 药物设计引擎，希望将过去动辄 10 年、上亿美元投入的新药开发周期，缩短到几个月，甚至几周。

这不只是愿景，而是已经落地的项目。

Isomorphic 确认，他们已经与诺华、礼来等制药巨头建立合作，研发项目从三个药物靶点扩展到六个靶点，自主研发的药物项目也将进入临床前阶段。

这里的“靶点”，指的是药物要攻击或结合的人体蛋白。

过去发现一个有效靶点可能要花 5 年，Isomorphic 想用 AI 把它压缩到几周内完成。

他的目标，是把药物开发流程变成一套可重复、可升级、可移植的智能方法。

这套链路包括五个核心步骤：

预测结构：继续由 AlphaFold 提供分子结构图；
筛选结合位点：判断哪些地方能和化合物结合；
设计分子：AI 生成全新的、没被发现过的分子结构；
预测毒性与稳定性：避免有害副作用；
优先级排序和自动实验推荐：提高投入产出比。

他形容这就像要建一台科学版的搜索引擎——输入疾病，输出一套可能有效的药物方案。

这个系统的厉害之处在于能自我进化：

每发现一个有效分子，系统就能学习一次；每失败一次，也能告诉模型'什么不要再试'。这样，整个 AI 系统会越跑越准，越用越强。

Isomorphic 不是药厂，但它能让所有药厂研发得更快。

他们的商业模式很灵活：既可以把平台授权给传统制药公司，也可以自己孵化候选药物，成为一家 AI 驱动的药物公司。

主持人问他：“你们现在在什么阶段？”

哈萨比斯答：

“我们已经完成初步试验，预计将在未来一年内进入临床前阶段……真正用于患者治疗，可能还要5-7年，但我们希望大大缩短这个周期。”

他还特别提到：

“我们选择癌症和免疫疾病作为首批领域，不只是因为它们重要，更因为可以较快看到效果。”

这反映了他一贯的理念：

从技术突破转向实际应用，真正产生社会价值。

第五节｜模型还不通，AGI 差在哪？

很多人以为 AGI（通用人工智能）马上就要到了。大模型能写文章、做视频、生成图片，在某些领域表现甚至超过人类。

但哈萨比斯明确反驳了这种观点：

现在很多人说模型有“博士水平”，但这不是真的...

他说：

你换个问法，它可能连简单的高中数学都会错。

问题到底出在哪里？他点出了四个关键短板：

缺少真正的“推理能力”

哈萨比斯指出，现在的模型擅长记忆事实和解答问题，但难以独立开辟新的思路。

今天的 AI 没有真正的创造力，它还不能提出一个全新的假设，也不能像科学家那样，从不完整的信息中发现新规律。

他举了一个非常形象的例子：

“让现在的模型只掌握 1901 年的知识，然后看它能不能像爱因斯坦一样在 1905 年提出相对论。这才是检验 AGI 的标准。”

也就是说，模型要具备真正的推理能力，能够类比、联想、创新，而不只是对现有知识的排列组合。

2. 缺乏稳定的“一致性”

这一点，很多普通用户也感受过：

同一个问题，不同问法，模型的回答可能前后不一致，有时候甚至自相矛盾。

哈萨比斯说：

“一个真正聪明的系统，应该在所有输入方式下保持稳定表现。不能因为你用语音说了一遍，它就突然犯错。”

他说，这种跨模态一致性，今天的大模型还做不到。

3. 不会持续学习

现在的大多数模型，只能靠一次次离线训练提升能力，不会在日常互动中越用越聪明。

哈萨比斯点出这个问题：

“它们不会在线学习。我们还没解决模型怎么从新任务、新用户、新环境中不断更新自己的方式。”

这也是他为什么认为机器人还不够用的原因之一：今天的 AI，还不具备即时反应和即时修正的能力。

4. 缺少真正的“科学直觉”

他说，这一项最容易被忽视，但最重要。

伟大的科学家和普通科学家的区别，往往不是知识量，而是他们能够做出直觉判断。

他说，真正的聪明不是知识渊博，而是能够在不同领域之间发现共同点，并运用到新问题中。

也许是物理学里的一种图像，突然启发了你在生物学上的想法。这种能力，现在的 AI 还没有。

换句话说，AGI不等于大模型，而是能产生跨领域联想的思维方式。

哈萨比斯没有给出一个确切时间表，但他估计：我们可能还需要 5 到 10 年，才有可能做到这些。

他不是在唱反调，而是提醒行业：

目前我们见证的 AI 突破，主要是处理能力的提升，而真正的智能核心还没有到来。

他认为，真正的通用智能还需要几年关键突破。

AGI 不在概念里，在突破里。

结语｜不是模型更强，是能力跑通

从 Gemini 到 Genie，从机器人到 Isomorphic，哈萨比斯讲的不是某个新功能上线，而是一套清晰的路径：

语言是起点，理解是过程，行动是目标。

这条路径上，DeepMind 没有展示一个模型能做多少事，而是展示了：当模型进入场景、联通设备、靠近真实任务时，它会变成什么样的智能形态。

不是陪你聊天的助手，而是能观察世界、动手操作、辅助科研的智能系统。

他说的是一件更本质的事：

通用智能，不靠参数叠加，而靠能力组合。

AI 的全面爆发，不是从跑分榜单开始，而是从能不能真正“上手一件事”开始。

对国内企业来说，这意味着：

少讲技术领先，多问能不能落地；
别盯着参数，看看能力跑通了没有。

模型只是手段，路径才是门槛。

技术爆发已经开始，落地才刚开始。

行动的时间到了。

📮本文由AI深度研究院出品，内容整理自Demis Hassabis在All-In Summit 2025及Bloomberg Tech Europe的最新访谈。未经授权，不得转载。

排版：Atlas

编辑：深思

主编: 图灵