DeepMind CEO 哈萨比斯:不是一个模型,是 AI 的全面爆发

问AI · DeepMind的AI全面爆发如何改变世界?
图片

(DeepMind CEO哈萨比斯:谈AI的下一个十年)

诺奖、蛋白质、Gemini、Genie、抗癌新药。

这些词,并非来自不同领域的新闻,而是来自一个人,同一次对话。

2025 年 9 月 12 日,All-In Summit 2025 舞台,DeepMind CEO 戴米斯・哈萨比斯 (Demis Hassabis) 公开现身,全面阐述其战略布局:

从语言模型 Gemini,到世界模型 Genie,

AGI 路线,到科学引擎 AlphaFold,再到医疗公司 Isomorphic 的商业化路径。

短短 30 分钟,涉及 AI 的三个核心领域:认知 → 行动 → 治愈。

更关键的是,他传递的不是模型性能的单点突破,而是一个明确判断:我们正进入一个系统全面爆发的时代。

不是一个模型的迭代, 而是模型、平台、场景、应用的协同爆发。

不是从 demo 到产品的线性推进,而是多个领域的并行突破。

这标志着 AI 发展的新阶段:不再是 ChatGPT 式的对话革命,而是 DeepMind 试图用世界建模、物理推理、药物设计,重新定义 AI 的边界与可能。

这场“AI 的全面爆发”,会改变什么,又留给我们什么机会?

第一节|Gemini 不是助手,是多模态引擎

在这场对谈中,哈萨比斯谈得最多的,不是 Gemini 模型的参数和能力,而是它要进入的场景。

为什么场景如此重要?因为 Gemini 是多模态的,它能接受图像、音频、视频等任何类型的输入,并生成相应的输出。

这意味着什么?

意味着它不再只是一个聊天框里的模型,而是一个能观察世界、理解场景、给出回应的智能系统。

哈萨比斯给出的画面,是这样描述的:你可以拿着手机,对准你周围的环境,它就能理解你在看什么……它能在你走在街上时给出建议,或内置在 Google 地图里,为你提供帮助。

这不只是计划中的功能,Gemini Live 已经在实际应用了。

它不仅能读懂屏幕内容,还能识别摄像头里的物体、文字,甚至理解动作顺序。这和传统“对话助手”的最大不同是:

它开始看得见,听得懂,能联想。

这种多模态理解,是 Gemini 的重要底层能力:

  • 当你指着桌上的两样东西说“把这个放进那个”,它能理解“这个”“那个”分别指什么;
  • 当你问“这份简历哪里要优化”,它能看完页面内容,指出逻辑问题,而不只是关键词打分;
  • 当你走进一家餐馆,它知道你在干什么,能主动给出推荐和提醒,而不是等你开口。

他们是在构建一个可以嵌入到现实生活中的智能工具。

Gemini 的价值不在于回答问题,而在于实时响应现实世界中的各种需求和任务。

这对整个 AI 应用的意义是:

不是用户迁就模型,而是模型贴近生活。

而这正是 DeepMind 把 Gemini 定位为 下一代用户界面 的原因:它不是下一代搜索,也不是下一个 Copilot。它正在被整合进 Gmail、Workspace、地图、搜索等每个产品内部。

它不只是一个模型,它是谷歌重新连接用户与信息的新桥梁。

而这,只是开始。

第二节|Genie不止看图,还能生成世界

很多人第一次看到 DeepMind 的 Genie 模型演示视频时,都以为那是一个游戏预告。

但哈萨比斯马上解释:

“你看到的不是传统的游戏或视频,而是一个完全可操作的互动世界,全部由 Genie 生成。”

画面中,有房间、有角色、有光影,人用键盘控制角色在房间里移动、走到窗边、转身、回来。

但这一切并不是提前建好的游戏环境。它是 Genie 根据一句自然语言指令,临时生成的“世界”。更神奇的是,玩家看向的部分,才被生成;背后的区域,暂时还不存在。

哈萨比斯说:

“所有这些像素,都是实时生成的……这个世界的那一部分,在你看之前,是不存在的。”

这种实时生成能力背后,反映出 Genie 已经不只是会画图、做视频,而是真正开始理解空间、时间和物理规律。

传统的 3D 游戏世界,要靠程序员在引擎里逐一搭建场景、写入逻辑,比如 Unity、Unreal 引擎。 但 Genie 做的是另一种事:

它通过看数百万段视频和游戏片段,自己学会了物体怎么动、水怎么流、人怎么转身……它在逆向理解这个世界。

它不是在画画,它是在模拟世界。

哈萨比斯强调:

“这不是 Photoshop 里的图层,也不是预先做好的动画片段……这些都是实时、完整、连续的模拟。”

这背后,其实是 DeepMind 想回答一个问题:

如果 AI 要理解人类世界,是否也应该能“自己构建一个世界”?如果我们给它语言、图像、声音,它是否能学会:物体怎么运动、空间怎么变换、人和物之间有什么互动?

而 Genie,就是 DeepMind 给出的第一个答案。

它的本质是 世界理解系统,而不是内容展示工具。

这让哈萨比斯深有感触。他在 90 年代做过游戏引擎,手动写过图形渲染和物理模型。如今AI能自动完成这些工作,还做得更好。

他说,这将是未来机器人、虚拟助手、交互娱乐、甚至科学模拟的底层基础。

想想看:

  • 如果 AI 能“理解”你身处的房间,而不只是识别桌子;
  • 如果它知道“你拿起水杯后,会把它放下”是一个自然动作;
  • 如果它能“想象”接下来你可能往哪儿走、做什么事……

它就不再只是语言工具,而是能与你进行深度理解和协作的智能伙伴。

哈萨比斯的重点,不是 Genie 现在能做到什么,而是它开启了从静态内容到动态世界的可能性。

在他看来,这不只是 DeepMind 的研究成果,而是整个 AI 的发展方向。

对我们来说,这意味着:

AI 正在从回答工具,进化为能够建构、理解和操作环境的智能体。

第三节|机器人不是硬件叠加,而是多模态能力的落点

“你可以直接对机器人说话,然后它动手去做。”

这不是电影情节,而是哈萨比斯在对谈里描述的真实实验场景:

“我们发布了一些 Gemini 机器人模型演示,实验室里有两只机械手,放在桌面上,可以和物体互动。你可以说:‘把黄色的放进红色的桶里’,它就能听懂、理解并执行。”

能做到这一点,是因为 Gemini 模型将语言、视觉、推理三种能力整合在一起。

这是什么意思?

意味着机器人未来不需要各自独立的 AI 系统,而是可以接入像 Gemini 这样的通用智能平台。更关键的是,这种通用平台带来的不再是简单的标签识别,而是具备真正的推理能力。

哈萨比斯举例:

“你可以说‘把它放回原处’,它就知道你指的是刚刚它拿起的那个东西,而且知道‘原处’是哪里。”

这说明, AI 真正开始理解前后关系、空间位置和指代词含义。

说到这里,主持人问了个关键问题:

这是否意味着,你们想做一个像 Android 那样的机器人操作系统?

哈萨比斯回应很直接:

确实,这就是我们正在探索的方向。

他的想法是,未来大多数机器人不再需要自己单独建模,而是能共享一套智能中枢系统:

  • 就像手机装 Android;
  • 机器人也装上 Gemini for Robot;
  • 然后不同设备按自己用途调用指令、操作物体。

当然,这不是唯一路径。

哈萨比斯也提到另一种思路:模型和机器人深度整合成端到端设备,像苹果那样硬软件一体。

他说:

“两条路径我们都在做,一条是平台式,另一条是特定机器人和模型的深度绑定。”

至于未来主流是哪条,他没有定论。但他说了一句很关键的话:我们今天看到的,还只是前奏。机器人真正的爆发,可能还要几年,但它一定会来。

为什么还需要时间?

我们对如何构建机器人的理解能力,至今还没有完全掌握。通用模型需要更可靠、更稳定,也要更清楚自己能做什么、不能做什么。

同时,硬件也还有门槛。

机器人要真正大规模走进家庭、医院、商店、工厂,不光要聪明,还必须耐用、稳定、成本可控。

他说:

“你如果太早量产一种机器人,半年后就可能被新的方案淘汰。这种节奏太快,不适合一开始就全面铺开。”

主持人总结说:我们是不是还在机器人时代的 DOS 阶段(早期的简陋系统)?

哈萨比斯笑着说:也许是。但接下来的10年,会是科技的集中爆发期。

在这个爆发期到来之前,哈萨比斯的思路很清晰:与其纠结机器人长什么样,不如先让它们真正有用起来。

未来的重点不是造一个完美的人,而是让机器人适应我们已经为人类设计好的现实世界。

第四节|AlphaFold 是起点,目标是新药

在整场对谈中,哈萨比斯最自豪的一件事,不是 AlphaGo 赢了棋王,也不是 Gemini 用上了手机。 而是他拿到了诺贝尔奖。

重要的不是个人荣誉,而是AI第一次在科学研究中获得了权威认可。

这项成果叫 AlphaFold,一种能预测蛋白质结构的 AI 模型。 它的能力是:只要给出蛋白质的氨基酸序列,它就能 “想象”出这个分子会折叠成什么立体结构

过去这件事通常要靠实验室花上几年时间,AlphaFold 把它压缩到几分钟内完成,准确率也达到科学研究级别。

哈萨比斯回忆说:

他们把诺贝尔奖的登记册从保险柜里拿出来,我签上名字的时候,看到居里夫人、爱因斯坦、尼尔斯·玻尔。让 AI 在这本科学史册上留下印记,是我职业生涯的最高荣誉。

但他并没有止步于此。

因为哈萨比斯很清楚:蛋白质结构只是药物发现的第一步,真正要治病、救人,还要走一段很长的路。

于是他创办了 Isomorphic 实验室。

Isomorphic 正在构建一个 AI 药物设计引擎,希望将过去动辄 10 年、上亿美元投入的新药开发周期,缩短到几个月,甚至几周。

这不只是愿景,而是已经落地的项目。

Isomorphic 确认,他们已经与诺华、礼来等制药巨头建立合作,研发项目从三个药物靶点扩展到六个靶点,自主研发的药物项目也将进入临床前阶段。

这里的“靶点”,指的是药物要攻击或结合的人体蛋白。

过去发现一个有效靶点可能要花 5 年,Isomorphic 想用 AI 把它压缩到几周内完成。

他的目标,是把药物开发流程变成一套可重复、可升级、可移植的智能方法。

这套链路包括五个核心步骤:

  1. 预测结构:继续由 AlphaFold 提供分子结构图;
  2. 筛选结合位点:判断哪些地方能和化合物结合;
  3. 设计分子:AI 生成全新的、没被发现过的分子结构;
  4. 预测毒性与稳定性:避免有害副作用;
  5. 优先级排序和自动实验推荐:提高投入产出比。

他形容这就像要建一台科学版的搜索引擎——输入疾病,输出一套可能有效的药物方案。

这个系统的厉害之处在于能自我进化:

每发现一个有效分子,系统就能学习一次;每失败一次,也能告诉模型'什么不要再试'。这样,整个 AI 系统会越跑越准,越用越强。

Isomorphic 不是药厂,但它能让所有药厂研发得更快。

他们的商业模式很灵活:既可以把平台授权给传统制药公司,也可以自己孵化候选药物,成为一家 AI 驱动的药物公司。

主持人问他:“你们现在在什么阶段?”

哈萨比斯答:

“我们已经完成初步试验,预计将在未来一年内进入临床前阶段……真正用于患者治疗,可能还要5-7年,但我们希望大大缩短这个周期。”

他还特别提到:

“我们选择癌症和免疫疾病作为首批领域,不只是因为它们重要,更因为可以较快看到效果。”

这反映了他一贯的理念:

从技术突破转向实际应用,真正产生社会价值。

第五节|模型还不通,AGI 差在哪?

很多人以为 AGI(通用人工智能)马上就要到了。大模型能写文章、做视频、生成图片,在某些领域表现甚至超过人类。

但哈萨比斯明确反驳了这种观点:

现在很多人说模型有“博士水平”,但这不是真的...

他说:

你换个问法,它可能连简单的高中数学都会错。

问题到底出在哪里?他点出了四个关键短板:

  1. 缺少真正的“推理能力”

哈萨比斯指出,现在的模型擅长记忆事实和解答问题,但难以独立开辟新的思路。

今天的 AI 没有真正的创造力,它还不能提出一个全新的假设,也不能像科学家那样,从不完整的信息中发现新规律。

他举了一个非常形象的例子:

“让现在的模型只掌握 1901 年的知识,然后看它能不能像爱因斯坦一样在 1905 年提出相对论。这才是检验 AGI 的标准。”

也就是说,模型要具备真正的推理能力,能够类比、联想、创新,而不只是对现有知识的排列组合。

2. 缺乏稳定的“一致性”

这一点,很多普通用户也感受过:

同一个问题,不同问法,模型的回答可能前后不一致,有时候甚至自相矛盾。

哈萨比斯说:

“一个真正聪明的系统,应该在所有输入方式下保持稳定表现。不能因为你用语音说了一遍,它就突然犯错。”

他说,这种跨模态一致性,今天的大模型还做不到。

3. 不会持续学习

现在的大多数模型,只能靠一次次离线训练提升能力,不会在日常互动中越用越聪明。

哈萨比斯点出这个问题:

“它们不会在线学习。我们还没解决模型怎么从新任务、新用户、新环境中不断更新自己的方式。”

这也是他为什么认为机器人还不够用的原因之一:今天的 AI,还不具备即时反应和即时修正的能力。

4. 缺少真正的“科学直觉”

他说,这一项最容易被忽视,但最重要。

伟大的科学家和普通科学家的区别,往往不是知识量,而是他们能够做出直觉判断。

他说,真正的聪明不是知识渊博,而是能够在不同领域之间发现共同点,并运用到新问题中。

也许是物理学里的一种图像,突然启发了你在生物学上的想法。这种能力,现在的 AI 还没有。

换句话说,AGI不等于大模型,而是能产生跨领域联想的思维方式。

哈萨比斯没有给出一个确切时间表,但他估计:我们可能还需要 5 到 10 年,才有可能做到这些。

他不是在唱反调,而是提醒行业:

目前我们见证的 AI 突破,主要是处理能力的提升,而真正的智能核心还没有到来。

他认为,真正的通用智能还需要几年关键突破。

AGI 不在概念里,在突破里。

结语|不是模型更强,是能力跑通

从 Gemini 到 Genie,从机器人到 Isomorphic,哈萨比斯讲的不是某个新功能上线,而是一套清晰的路径:

语言是起点,理解是过程,行动是目标。

这条路径上,DeepMind 没有展示一个模型能做多少事,而是展示了:当模型进入场景、联通设备、靠近真实任务时,它会变成什么样的智能形态。

不是陪你聊天的助手,而是能观察世界、动手操作、辅助科研的智能系统。

他说的是一件更本质的事:

通用智能,不靠参数叠加,而靠能力组合。

AI 的全面爆发,不是从跑分榜单开始,而是从能不能真正“上手一件事”开始。

对国内企业来说,这意味着:

  • 少讲技术领先,多问能不能落地;
  • 别盯着参数,看看能力跑通了没有。

模型只是手段,路径才是门槛。

技术爆发已经开始,落地才刚开始。

行动的时间到了。



📮本文由AI深度研究院出品,内容整理自Demis Hassabis在All-In Summit 2025及Bloomberg Tech Europe的最新访谈。未经授权,不得转载。

排版:Atlas

编辑:深思

主编: 图灵