当整个硅谷沉浸在大语言模型的狂欢中时,这位图灵奖得主却选择了一条不同的道路。2024年底,65岁的杨立昆宣布离开工作12年的Meta,创立专注于“世界模型”的AI公司——这不仅是一位科学家的职业转折,更可能是人工智能发展方向的重大信号。
在接受播客节目《The Information Bottleneck》的专访中,65岁的杨立昆系统阐述了他对当前AI热潮的冷静审视:大语言模型的根本局限、世界模型的技术突破、智能安全的工程哲学,以及人类与机器智能的共生未来。他直言不讳地批评“大语言模型是条死胡同”,同时描绘了一个建立在预测与规划能力上的智能新范式。
从透露Meta内部研究方向的转变,到解析Wayve等竞争对手的技术路径,再到给出令人意外的学习建议,这位被称为“卷积网络之父”的科学家,正在用他职业生涯最大胆的一次冒险,向我们展示:AI的未来不在更多参数里,而在更深刻的理解中。
划重点
智能是稀缺资源:增加全球智能供给,是人类进步的底层逻辑。
大语言模型是“死胡同”:仅靠文本训练,永远无法实现人类水平AI 。
世界模型才是未来:智能的本质是预测与规划,而非生成像素 。
最难的是“狗级智能”:一旦突破,通向人类智能只剩“语言模块” 。
开放研究已死?Meta、谷歌转向封闭,杨立昆选择离开以坚持开源。
AI不必统治人类:统治欲是社会性产物,无需设计进机器。
警惕AI乐观浪潮:历史上有过至少六次“AGI将至”的幻觉。
别只学计算机:数学、物理、工程才是AI的“长寿知识”
以下为杨立昆最新专访精华内容:
01 65岁离职创业,只为开启未来智能
问: 你最近宣布在Meta工作12年后,将创办一家专注于世界模型的新公司“先进机器智能”(Advanced Machine Intelligence, AMI)。从大公司到从零开始创业,感受如何?
杨立昆: 我之前也联合创办过公司,但参与度没这么深。这次的特殊之处在于一个新现象:投资者对AI的巨大潜力抱有高度信心,愿意投入大量资金。这使得初创公司可以在成立初期专注于研究,这在过去是不可能的。以往,只有占据市场主导地位、拥有长远眼光的大公司(如AT&T的贝尔实验室、IBM、施乐的帕克研究中心,以及后来的微软研究院、谷歌研究院和Meta的FAIR)才有能力资助长期研究项目。
近年来,行业趋势再次转变。FAIR通过高度开放的策略,包括发表所有成果、开源一切(包括PyTorch等工具及众多研究原型),对AI研究生态产生了巨大影响,也促使谷歌等其他实验室变得更加开放。但过去几年,许多实验室开始转向封闭和保密,例如OpenAI和谷歌。因此,我认为我所专注的研究类型,现在更适合在Meta之外进行。
问:为何65岁了还要创业?
杨立昆:为人类文明增加智能供给,本质上是一项进步的事业。智能的稀缺性制约着整个物种与星球的发展,这解释了为何我们需要投入巨大的社会资源进行教育。因此,提升服务于人类乃至更广泛生态的智能总量,具有根本性的积极意义。尽管我们需以工程思维解决随之而来的安全与伦理问题,但这并非无法克服的障碍。
在我的职业生涯中,无论是教授身份还是研究实践,始终贯穿着一个核心理念:通过技术扩展智能的边界。让人变得更聪明,与让机器更有效地辅助人类,本质上是同一技术路径的不同应用场景。智能系统的开发与人类增强并非对立,而是同一枚硬币的两面——它们共享技术根基,共同指向一个更富智慧的未来。
问: AMI会公开发表其研究成果吗?
杨立昆: 在我看来,不发表成果很难称为真正的研究,因为你容易陷入自我欺骗。只有经过学界检验,才能确保研究的质量和可靠性。要求科研人员发表成果,能激励他们做出方法更严谨、结果更扎实的工作。此外,这对研究人员自身发展也有利,因为研究到产品应用的周期可能长达数年甚至数十年,如果在此期间他们无法与外界交流并获得认可,就很难持续投入长期且有突破性的工作。目前很多行业公司正在忽视这一点。
问: AMI只做研究,还是会开发产品?
杨立昆: 不仅是研究,我们会开发真正的产品。我们的目标是成为未来智能系统的主要供应商之一。我们认为,当前主流的大语言模型(LLM)或基于LLM的智能体系统,即使在语言任务上表现尚可,但也存在诸多局限。它们需要海量数据来模仿人类行为,且可靠性不足。
我认为正确的方向,也是我近十年来一直倡导的,是构建世界模型,即能够预测行动后果的AI系统,并通过规划来优化行动序列以实现目标。这是智能的核心组成部分。我们在纽约大学和Meta的相关项目中已经取得了快速进展,现在是时候将其变为现实。
02 主打世界模型:让AI学会预测,而不只是复述
问: 你认为实现这一目标的主要障碍是什么?为何它比大语言模型发展更慢?
杨立昆: 这是不同的方向。世界模型旨在处理高维、连续且噪声大的数据模态(如图像、视频),而大语言模型在这方面效率很低。对于这类数据,不能使用将数据离散化为符号标记的生成模型。实践证明这行不通。
有效的方法是学习一个抽象的表示空间,过滤掉输入中不可预测的细节(包括噪音),并在这个空间中进行预测。这正是联合嵌入预测架构(JEPA, Joint Embedding Predictive Architecture) 的核心思想。
我大约在二十多年前就确信,构建智能系统的正确途径是某种形式的无监督学习。早期,我们尝试训练自动编码器来学习表示,但当时的直觉有误:我们错误地认为表示必须包含输入的所有信息。后来,监督学习因数据量增大、网络训练技巧(如ReLU激活函数、归一化、残差网络 ResNet)的进步而取得显著成功,导致无监督学习思路一度被搁置。
直到2015年左右,我开始重新思考通往人类水平AI的路径,意识到依赖大量试错的强化学习方法样本效率极低。于是,我们重新聚焦于世界模型和规划。最初的尝试是训练系统在像素级别预测视频,但这非常困难,因为无法在如此具体的层面有效表示概率分布。
当前的解决方案,如扩散模型或我倡导多年的基于能量的模型,都是训练非确定性函数的方法。但根本的出路是:不在原始像素层面进行预测,而是在抽象表示层面进行预测。这引出了如何防止表示“崩溃”(即系统学习到无意义的恒定表示)的核心挑战。
我们早期通过对比学习方法部分解决了这个问题,但学到的表示维度有限。近年来,我们团队提出了如 Barlow Twins 和 VICReg 等方法,通过优化表示的信息含量和结构,在避免崩溃的同时学习到更好的抽象表示。我认为这是一套极具潜力的技术方向。
03 多模态优势:视频数据一小时,胜过文本千万言
问: 要实现进一步突破,你认为需要更多的计算资源,还是更好的算法?
杨立昆: 我认为可以换个角度看。训练一个性能良好的大语言模型,需要近乎整个互联网的文本数据(约30万亿个Token)。为了存储这些海量事实,模型需要巨大的参数量。
然而,如果以视频数据对比,训练顶级大语言模型所用的数据量,仅相当于约1.5万小时的视频,这只是YouTube上30分钟的上传量,或一个4岁孩子醒着时接收的视觉信息量。我们最新的视频模型V-JEPA训练了相当于一个世纪的公共视频数据,数据总量虽大,但冗余度也更高。
自监督学习恰恰需要数据中的冗余和结构来学习。现实世界数据(如视频)的结构远比文本丰富。因此,我断言仅通过训练文本永远不可能达到人类水平的AI。这是一个根本性的哲学辩论:AI应该基于对现实世界的理解,还是可以只停留在符号操纵层面?
问: 你如何定义理想化的“世界模型”?它需要像《星际迷航》中的“全息甲板”那样精确模拟所有细节吗?
杨立昆: 这是一个非常好的问题,它触及了核心分歧。许多人错误地认为世界模型就是一个细节完备的模拟器,比如当前的视频生成系统。但训练一个能生成逼真视频的系统,并不保证它学到了世界底层的抽象动态。
认为模型需要重现现实每一个细节的想法是错误的,甚至是有害的。以计算流体动力学(CFD)模拟飞机气流为例,它也是在抽象层面(将空间划分为网格,用向量表示速度、温度等)进行近似计算,而非模拟每一个空气分子。
我们理解世界的方式就是通过层层抽象。从量子物理、到原子分子、到细胞器官、到个体社会,每一层都忽略了下一层的无数细节,从而让我们能够进行更长期、更可靠的预测。科学本身就是建立在特定抽象层面的预测模型之上。
因此,世界模型应该是在抽象表示空间中的模拟器,它只模拟与现实相关的部分。例如,预测木星百年后的位置,只需要6个数字(位置和速度),而非其全部细节。
问: 你如何看待使用合成数据(如电子游戏数据)训练世界模型?是否会担心产生与真实世界不符的“怪癖”?
杨立昆: 这取决于抽象的层次。一个准确的机器人模拟器可以在力学层面很好地进行训练,然后通过少量现实适配就能工作。关键在于,许多我们认为理所当然的基本概念(如物体恒存性、重力),可以在非常抽象的层面上学到,与语言无关。
例如,即使在一个简单的2D俯视冒险游戏中,智能体也能学到“拥有钥匙才能开门”、“一个角色不能同时出现在两个地方”等基本逻辑和物理概念。当然,游戏中也包含非现实的设定(如瞬间传送),但这不影响学习那些通用的、抽象的原则。
问: 关于游戏AI,我们注意到商业游戏中的敌人AI在过去20年进步有限。你认为实验室的进展何时能真正影响玩家体验?
杨立昆: 我是游戏文化的参与者(我的三个儿子经营一家游戏设计工作室)。你提到的问题确实存在。尽管物理模拟已很精确,但游戏和动画制作是创造性工作,创作者需要对故事和角色行为保持控制,而当前的AI还难以满足这种精细控制的需求。我认为这将会到来,但创作者需要适应。
即使在规则简单的回合制游戏(如NetHack)中,当前最好的AI模型也表现不佳,以至于研究者不得不为AI简化游戏规则。这暴露了AI在不完美信息规划上的核心短板:面对未知地图和突发危险时,AI难以进行有效的长期探索与规划。
解决这类问题的经典AI方法,自1964年的跳棋程序到AlphaGo,都依赖两个核心部件:一个“棋感”网络,用于在巨量的可能行动中,智能地筛选出少数有希望的走法;一个“评估”网络,用于判断某个局面的优劣,以指导有限步数内的搜索。
这正是机器绝对超越人类的领域。人类大脑不擅长进行大规模的“树状”穷举搜索,而机器凭借强大的算力和精准的评估,在围棋这类完全信息游戏中已远超人类顶级水平。这揭示了一个关键矛盾:在需要抽象理解和应对不确定性的领域(如NetHack或现实世界),AI仍很笨拙;但在依赖纯粹计算和完美信息的领域(如围棋),机器早已让人类望尘莫及。因此,让AI学会在抽象层面进行推理与规划,是迈向更通用智能的关键一步。
04 AGI或最快五年达到狗类智能水平
问: 你对实现通用人工智能(AGI)的时间线有何预测?是乐观还是悲观?
杨立昆: 首先,“通用智能”这个概念本身意义不大。因为人类智能本身就是高度特化的,我们擅长进化赋予我们的任务,比如在现实世界中活动和社交,但在下棋或翻译上千种语言等方面远不如机器。
真正的目标是让机器在所有人类擅长的领域达到人类水平。这一定会实现,但不会突然发生,而是一个渐进过程。如果未来几年基于“世界模型”和“规划”等核心概念取得突破,最乐观估计,我们可能在5到10年内研发出接近人类或狗类智能水平的AI。
但更可能的是,我们会遇到尚未知晓的根本障碍,需要全新的理论突破,这可能将时间线拉长到20年或更久。不过,他坚信这个目标最终必将实现。
问:你认为AI从当前水平到狗类智能,会比从狗类智能到人类智能更容易吗?
杨立昆:不,我认为最难的是达到狗类智能。一旦实现了这个目标,你就掌握了构建智能所需的大部分核心模块。从灵长类智能进化到人类智能,主要增加的是语言能力,而语言处理只占大脑很小一部分,且进化时间相对较短。事实上,我们的大语言模型已经在某种程度上模拟了这种能力。真正的挑战在于构建类似人类前额叶皮层的世界模型,这才是智能的核心。
当然,随着AI能力的提升,我们必须严肃对待安全问题。当AI达到狗类智能水平时,它在某些感官能力(如嗅觉)上就能远超人类,更不用说可能具备的“超级说服力”。我亲身经历过有人受AI影响而产生极端行为的情况,也有高中生因为担心AI末日论而抑郁辍学。但技术发展总是伴随着权衡,就像汽车从最初的不安全发展到今天配备自动刹车系统,AI也将在工程演进中变得更加安全可靠。
问:你与杰弗里·辛顿、约书亚·本吉奥在AI安全方面的观点似乎有所不同?
杨立昆:我认为我们必须持续关注安全。以喷气发动机为例,最初的版本可能运行十分钟就会爆炸,但通过工程改进,现在我们可以安全地乘坐双引擎飞机跨越大洋。AI发展也会遵循相似的路径。我们将开始制造具有能动性、能规划、推理、有世界模型的系统,但它们的智能可能只有猫脑的水平(大约是人类的1/100)。然后我们会在其中加入护栏,防止它们采取明显危险的行为。
关键区别在于架构设计。我不认为通过对大语言模型进行微调就能确保安全,因为总有人能找到"越狱"的方法。我倡导的是从设计层面就构建安全:创建一个拥有世界模型、能够预测行动后果的AI系统,并在其优化目标中硬编码安全约束。比如家用机器人拿咖啡时,约束条件可以包括“不能伤害人类”、“需要时可请求让路”等。这样,安全不是事后的修补,而是系统固有的属性。
05 汪滔不是继任者 Meta正变封闭
问:能谈谈你在Meta的继任者吗?
杨立昆:需要澄清的是,并没有所谓的“继任者”。汪滔负责的是Meta整个AI研发与产品体系,管理着四个主要部门:FAIR(基础研究)、TBD Lab(前沿模型开发)、AI基础设施(软件基础设施)以及产品集成(将前沿模型变成人们可以使用的聊天机器人,整合到WhatsApp等)。我的角色始终是专注于长期研究的首席科学家,而我将很快离开Meta。目前FAIR正转向更侧重短期项目,为内部的大语言模型开发提供支持,这意味着Meta正变得相对封闭。
问:你如何看待其他进军“世界模型”领域的公司?
杨立昆:我对当前从事世界模型研究的公司有一些观察。首先,像Thinking Machines这样的公司在做什么,我并不完全清楚。而Physical Intelligence,他们的重点放在生成几何正确的视频上。也就是说,视频中的物体会保持一致性,不会在你视线移开再转回时突然改变。但这种方法本质上是生成式的,目标还是生成像素。我个人花了很长时间论证,我认为这是一个不太理想的方向。
我更认可Wayve(我在那里担任顾问)的做法。他们为自动驾驶构建世界模型,方法是先用VAE或VQ-VAE训练出一个表示空间,然后在这个抽象空间里做时间预测。我觉得他们“做对了一半,错了一半”:对的部分是在表示空间做预测,这很关键;但不够好的地方是,他们仍然需要通过重建(像素)来获得这个表示空间。我认为有更好的方法。不过他们的模型在实际中效果确实不错,算是这个领域的先行者。
英伟达内部也在讨论类似的方向,还有一家叫Sandbox AQ的公司,他们的CEO提出的“大定量模型”概念——也就是处理连续、高维、带噪声数据的预测模型——和我一直倡导的思路很接近。谷歌当然也一直在研究世界模型,主要走的是生成式路径。他们有个不错的项目叫Dreamer系列,方向是好的,不过负责人最近离开谷歌去创办自己的公司了。
问:如果20年后世界模型取得突破,我们的生活会变成怎样?
杨立昆:我希望我们能够找到构建智能系统的可靠方法,创造出能够增强人类能力的AI助手。它们不会“统治”我们,统治欲是人类社会性的产物,我们没有理由将其设计进AI中。我对此相当乐观。
06 学习那些不被算法淘汰的知识
问:对于刚进入AI领域的年轻人,你有什么建议?
杨立昆:学习那些“保质期”长的知识。我常开玩笑说,这些知识往往不在计算机科学领域。我自己本科是电气工程出身。扎实的数学基础(微积分、概率论、代数)、物理学的建模思维,或是工程学科中的控制理论、信号处理、优化方法,这些才是理解智能本质的关键。当然,你还需要掌握足够的编程能力。即使未来AI能辅助编程,理解计算原理和解决问题的能力仍然不可或缺。
问:你怎么看神经科学和机器学习之间的联系?很多想法有时是AI从神经科学借鉴,有时反过来,比如预测编码。
杨立昆:神经科学一直是我重要的灵感来源,关于视觉皮层的研究直接启发了卷积网络的设计。虽然在我之前就有很多人在神经网络中尝试这些想法,但真正重要的是找到了正确的训练方法。
我觉得神经科学的启发是多层次的。早期是微观的神经结构,现在是宏观的大脑架构,比如为什么大脑有专门负责记忆的海马体?这启发我们在AI系统中设计独立的记忆模块。
我相信未来会这样发展:我们先根据工程需求设计出新的神经网络架构,然后才发现我们实现的某些特性原来早已存在于大脑中。事实上,现在神经科学研究就已经在反过来用卷积网络作为理解人类感知的模型了。
不过我还要提醒一点:要警惕过度乐观的预言。当有人宣称AI将导致大规模失业时,你应该去听听经济学家的观点,真正的专家几乎没人会这么说。让AI应用真正落地、变得可靠,远比人们想象的要困难和昂贵。
AI历史上多次出现过至少六次类似的乐观浪潮。
20世纪50年代的感知机被预言十年内就能实现超级智能;80年代的专家系统和日本的“第五代计算机”计划,曾让“知识工程师”成为热门职业,但这些技术最终只在少数领域实用化。
今天人们认为大语言模型就能通向人类智能,这种错觉在我的职业生涯中已经见过三四次了。历史告诉我们,认为最新技术就能直接通往通用人工智能的想法是危险的,很多聪明人都曾陷入这个思维陷阱。
问:你认为这个领域最终会解决持续或增量学习的问题吗?
杨立昆:当然能。这本质上不是一个技术难题,而是一个工程权衡问题。担心"灾难性遗忘"是因为训练新任务会覆盖旧权重?实际上我们只需要微调一小部分参数。
我们现在通过自监督学习训练的视频模型(比如V-JEPA)已经展现了这种能力,先学习通用的视频表示,然后针对特定任务只微调一个小模块。甚至可以持续训练整个世界模型本身。
2005、2006年,我们为移动机器人构建的导航系统就已经实现了在线适应,一个卷积网络会在新环境中实时调整其高层表示。特别是当系统具备多模态感知能力时,持续学习会变得更加自然。我不认为这是不可逾越的挑战。(文/腾讯科技特约编译金鹿,编辑/晓静)