世界模型是什么
人类的五感和大脑容量极为有限,无法容纳真实世界的所有细节,至少是无法一次性容纳,因此把世界抽象简化为理想化的基本元素,摆放进大脑中,然后脑海中推演这些基本元素之间的相互关系,推测真实世界的潜在规律,然后把这些推测的潜在规律放回真实世界验证。在这个过程中,我们会根据真实世界对推测规律的反馈,来增加、删除和调整我们脑海中的基本元素,有些需要新增或者新发明(很多有用的数学概念和工具是纯粹的人类发明),有些需要抛弃(比如以太,比如燃素),有些基本元素需要调整,比如虚数概念起先认为是imaging想象的,后来发现其实是数平面上的二维坐标,完全是真实而非想象的。在调整后的理想化基本元素基础上,再次推断真实世界潜在规律,再次验证,如此迭代改善认识。
人类把真实世界抽象出来的理想化基本元素,以及人类臆想的这些基本元素的相互联系,就构成人类的世界模型。
形象上,完全可以把世界模型可视化为一张网络图,基本元素或者基本元素的群组是节点,节点之间相互联系就是规律。
理想化的基本元素比比皆是,比如直线,比如球体,比如圆,在现实世界中根本找不到,都是对现实世界的理想化。
对于人类臆想的基本元素之间的规律,人类基于这些臆想规律来做出推断。有些推断在现实世界中反馈为次次为真,或者在绝大多数情况下反馈为真。我们就认为,我们做出这些推断背后的臆想规律是真实的,这些臆想是有效的,不是单纯的臆想,而是获得客观世界的认可。
在以上过程中,如果把人类这个认知主体,替换成机器学习算法这个认知主体,让机器学习模型去抽象真实世界(真实世界是用输入数据表示的),得到理想化的基本元素,并推断理想元素之间的潜在规律,并根据这些潜在规律作出推断。进而根据这些推断在真实世界的反馈,来迭代改进机器学习模型。
这就是基于机器学习的世界模型。
图1 世界模型示意图,图片来自网络
世界模型的概念最早可追溯到20世纪90年代的强化学习领域,由Jürgen Schmidhuber实验室提出。
而影响较大的以“世界模型”命名的论文是Jürgen Schmidhuber于2018年发表在NeurIPS上的《Recurrent World Models Facilitate Policy Evolution》。该论文中的世界模型主要包含状态表征和转移模型,类比了认知科学中人脑的心理模型,其核心作用是反事实推理,即对数据中未见过的决策推理出结果。
状态表征,转移模型,反事实推理,三个概念详述如下。
特别是反事实推理,几乎可以说是世界模型的标志性识别特征,用来区别于其它模型。
1、状态表征指的是用合适的方式来描述系统在某一时刻的状况或特性。其实就是前面说的把真实世界简化为理想化的基本元素。它将系统的各种属性、变量等信息整合起来,形成一个能够代表系统当前状态的表示形式。状态表征的选择至关重要,它直接影响到后续对系统的分析、预测和控制。
其主要作用是信息简化,次要作用是用于模型输入,你不把世界表征为数据就无法输入给模型。
信息简化:系统往往具有复杂的特性和大量的变量,状态表征可以将这些信息进行简化和抽象,提取出关键特征,便于理解和处理。
模型输入:为后续的分析和建模提供基础,是各种预测、决策模型的重要输入。
表征的常见形式包括数值和符号:
数值向量:在机器学习和数据分析中,常将系统的各个特征用数值表示,组合成一个向量。例如,在股票市场分析中,可以用一个包含股票价格、成交量、市盈率等指标的向量来表征某只股票在某一时刻的状态。
符号表示:在知识表示和人工智能领域,用符号来表示系统的状态。比如,在棋类游戏中,用棋子的位置和状态等符号信息来表征当前棋局的状态。
2、转移模型描述的是系统状态随时间或其他因素的变化规律,即从一个状态转移到另一个状态的概率或规则。它反映了系统的动态特性,帮助我们理解系统是如何演变的。
其作用包括预测未来和制定决策(决策也是一种推断):
预测未来状态:根据系统当前的状态和转移模型,可以预测系统在未来某个时刻可能处于的状态。这在天气预报、交通流量预测等领域有重要应用。
决策制定:了解系统的状态转移规律有助于制定合理的决策。例如,在库存管理中,根据需求状态的转移模型来确定最优的库存水平。
3、状态表征和转移模型两者的关系
状态表征是转移模型的基础,只有准确地对系统状态进行表征,才能建立有效的转移模型。而转移模型则用于描述状态之间的变化,进一步深化对系统动态特性的理解。例如,在强化学习中,智能体需要对环境状态进行表征,然后根据状态转移模型来选择最优的动作,以实现特定的目标。
4、反事实推理是区别世界模型和其他模型的试金石
反事实推理(Counterfactual Reasoning)是一种通过构建与事实相反的假设性情景,探索因果关系和潜在结果的逻辑推理方法。它不仅是一种思维游戏,还在多个学科中用于分析因果关系、优化决策及情感调节。
我们常说“历史没有如果”,但反事实推理就是反既成事实的假设推理,“历史如果...会怎样”。
反事实推理的核心在于提出“如果没有采取既成路线……会怎样?”的问题,并基于已知事实构建一个假设条件改变后的虚拟世界,在这个世界中推测可能的结果。例如,当驾车回家时,实际选择了道路A,但发现非常耗时,于是猜测——如果走道路B回家时间是否会更短。这种“如果”的陈述形式即为反事实推理。
反事实推理需要依赖因果模型与概率论支持,以确保假设情景下的推断具有合理性。
世界模型不是什么
1、虽然世界模型要求涵盖范围尽可能广泛,但世界模型并不是需要涵盖整个世界,涵盖某一领域的小世界也是世界模型。“一花一世界,一树一菩提”,涵盖整个世界的模型太大了,几乎不可能作为单体存在,至少目前不可能存在。
任何一个领域的任何一个细分分支,都可以有自己的世界模型。
2、世界模型是动态模型,而非静态资料集。世界模型是根据动态输入进行动态输出的动态模型。全世界所有的书籍和论文不构成世界模型,因为无法接收输入处理输入。
3、世界模型并不是某一种特定的技术或者算法而是一种理念和方向。比如深度学习中的卷积神经网络(CNN)或是循环神经网络(RNN)。相反,它是一个综合的概念,旨在通过多种技术和方法的结合来实现对世界的理解。
4、不具备反事实推理的能力的模型不是世界模型。反事实推理可谓是世界模型的图灵测试,满足则是,不满足则不是。
原因在于,目前模型大都是有标注数据的监督学习的产物。用来训练模型的带标签数据,就是模型所认识的事实,模型就是在“学习”这些事实的内在对应关系。反事实推理则是要求,如果模型训练用的事实都不成立,问模型会发生什么事情,这个要求超越了这些模型的能力。
世界模型的主要实现路径
目前世界模型的主要实现路径如下:
1、基于多模态大模型统一理解与生成
将图像、文本和视频编码为一个离散空间,在多模态混合序列上从头开始联合训练一个 Transformer,以实现多模态的统一理解与生成,如智源研究院BAAI的Emu原生多模态世界模型,采用多模态自回归技术路径,使模型具备原生多模态能力,实现了图像、视频、文字的统一输入和输出。
图2 多模态大模型示意图,来自CSDN
多模态大模型的性能提升基本遵循 Scaling Law,效果随着数据量和参数量的扩大而提升,未来将不断挑战千亿参数乃至万亿参数,并且可能从稠密模型转向 MoE 架构,以获得更快的理解与生成速度。
2、基于强化学习
智能体在环境中进行试验和探索,通过与环境的交互不断接收奖励反馈信号,根据这些反馈调整自己的行为策略,以最大化长期累积奖励。在这个过程中,智能体逐渐学习到环境的状态转移规律和不同行为的价值,从而构建起对世界的模型。例如,机器人通过在实际场景中的不断尝试和学习,利用强化学习算法来构建关于自身运动、环境感知和任务完成情况之间关系的世界模型,以便更好地完成各种任务。
图3 强化学习示意图,图片来自网络
3、基于生成式模型
通过学习大量的数据来生成新的样本,从而捕捉数据中的潜在模式和结构。在世界模型的构建中,生成式模型可以用于生成逼真的图像、视频、文本等,以模拟现实世界的各种场景。例如,谷歌 DeepMind 致力于开发能够模拟物理世界的巨大生成式模型,通过整合多种数据模态,不仅生成逼真的图像和视频,还能预测未来的场景变化。
图4 GAIA-1自动驾驶生成式世界模型,也来自BAAI智源研究院
GAIA是一个能生成逼真驾驶场景的生成式世界模型,通过学习表示来捕获规律,通过生成样本来预测未来事件,为自动驾驶技术的训练提供了新的可能性。原始论文在:https://arxiv.org/abs/2309.17080
以上这些途径,为了达成反事实推理能力,不仅寄希望于模型能够捕获训练数据所代表的规律,还希望模型能补获潜在模式,也就是训练数据所代表的规律更深层次的规律meta law。
在自动驾驶领域,汽车企业通过构建世界模型来理解道路、交通和车辆等相关信息,实现更安全和智能的驾驶决策。也有企业致力于将视频生成提升到 4D 世界模型,赋予 AI 大模型对于 4D 空间的理解、生成、常识和推理的能力,实现 4D 空间中的交互和行动,走向通用空间智能。所谓4D 世界模型,意味着不仅要生成逼真的三维空间场景,还要准确地把握和生成时间维度上的变化,也就是三维物体的时间循序和时间速度,包括物体的运动、场景的动态演化等等。
世界模型和自动驾驶的关系
自动驾驶技术非常关注世界模型的发展,因为世界模型对自动驾驶的改善有如下用途:
1.数据生成与场景预测,生成未知场景就是在预测未知场景
世界模型能够通过学习真实世界的驾驶数据分布,生成多样化且逼真的驾驶场景视频。这些生成的场景不仅丰富了训练数据集,还特别有助于模拟那些在现实中难以采集到的长尾事件(如极端天气、突发事故等),从而提高自动驾驶系统的鲁棒性和适应性。具体步骤如下两步:
数据类型 | 描述 |
真实驾驶数据 | 自动驾驶车辆采集的实际驾驶数据,用于训练世界模型 |
生成场景数据 | 利用生成模型创建的虚拟驾驶场景,补充真实数据不足的问题 |
2.感知与动机-动作预测能力提升
基于世界模型所提供语义信息及对世界的理解力,自动驾驶模型的感知与预测能力有望得到显著提升。这意味着系统不仅能更好地识别周围环境中的物体(如车辆、行人、障碍物等),还能更准确地预测它们的行为意图。其实也就是猜局能力,猜测进一步行为的能力。现有驾驶世界模型DWM(Driving World Models)预测未来的潜在状态,与想象的环境进行高效交互,从而提升规划性能。驾驶世界模DWM是预测驾驶场景演化的关键技术,能够帮助自动驾驶系统感知、理解并与动态驾驶环境交互。例如,GAIA-1 通过 diffusion 解码器捕获驾驶场景中的时空动态和高层结构,DriveDreamer 扩展了条件 diffusion 框架,支持多模态控制和合成数据生成,这些都是 DWM 在自动驾驶领域的具体应用方式。
3.控制智能体行为,这主要是强化学习的领域
世界模型是一种基于神经网络的模型,可以将环境的状态、动作和奖励之间的关系建模,并用于控制智能体的行为。这使得自动驾驶系统能够根据当前环境状态选择最优行动策略。此外,世界模型还可以作为学习型模拟器,或是在基于模型的强化学习(RL)或规划中进行“如果-那么”思维实验的基础。
4.减少对人工标注数据依赖
传统方法通常需要大量的人工标注数据来训练自动驾驶系统,而世界模型可以通过自监督学习的方式减少这种依赖。具体来说,世界模型凭借自动驾驶车辆采集的大量实景视频数据,利用生成模型生成未来场景,并与真实的未来时刻数据对比构建损失函数,这样就可以不依赖于人工标注的数据进行训练。
5.世界模型作为端到端自动驾驶模型的新范式
在端到端自动驾驶模型的新范式下,人为规则的方法逐渐被削弱或者消失,AI系统需要完全自己去学习如何驾驶。世界模型在此过程中帮助系统从海量数据中提取有用底层规律并形成自主决策能力。
如前所述,世界模型其实还是一个高度动态的发展方向,是对现有人工智能技术的综合和扩大。世界模型希望足够巨大的训练数据和足够庞大参数的神经网络,能够依靠“涌现”来发现训练数据本身不能直接包含的更底层规律和模式。涌现的意思是,巨大数量的简单模式的叠加和组合,出现了远比简单模式来的复杂和高级的现象,比如生命的出现。对于涌现,我们只知道它存在,并在人工智能发展中,比如chatGPT中,观察到它的出现,但基本机制还在探索中。
图5 Jochen Fromm 对涌现的分类,来自智源社区
在高度竞争的车辆行业,在“话题就是流量”的自动驾驶世界,每家车企和供应商,要么主动拥抱,要么被动跟进,都或多或少在自身研发中引入世界模型的概念和实践。