自动驾驶，世界模型是唯一解？

C次元

2024-12-27 08:40发布于上海科技领域创作者

全文2604字，阅读约需8分钟，帮我划重点

划重点

01自动驾驶领域的世界模型被认为是实现真正爆发的关键，目前已有超过10个车企和自动驾驶公司提出这一概念。

02世界模型通过生成式大模型生成带有预测性质的视频数据，实现Corner Case多样化训练，以及采用强化学习的方法认识复杂驾驶环境。

03然而，世界模型的评估尚无量化标准，各家企业采用不同方法构建和评估世界模型。

04目前，行业共识认为自动驾驶实现的大前提不仅仅是像人，而是要超越人，真实世界的数据只能是无限接近人，而要超越人，世界模型是目前通往自动驾驶的唯一解。

以上内容由腾讯混元大模型生成，仅供参考

作者丨王小西

责编丨崔力文

编辑丨王越

用“造数据”的方式来创建一个“美丽新世界”，这个“唯一解”你同意吗？

在前一篇文章《开炒VLA，“端到端”过气了？》里，我们了解到一个新的概念“世界模型”。按照目前行业的理解，“端到端”的尽头，就是世界模型。

因为，自动驾驶光有端到端还不够。端到端的“黑盒子”特性，导致上限提高的同时拉低下限，存在“跷跷板效应”。无穷无尽的Corner Case，写不完的代码。就像我那篇文章说的，《“端到端”求L4，无异缘木求鱼》。

那么，如何解决这些问题？世界模型闪亮登场了。

开始喽

粗略统计一下，目前已经大约有超过10个车企和自动驾驶公司提出了世界模型。这里面，包括特斯拉、英伟达、蔚小理华、地绝元魔，以及一些内部在推进此事的企业。

那么，我们要问，什么是世界模型？它是如何生成的？又是如何运行的？

追溯一下，“World Models”（世界模型）最早出现在机器学习领域。

2018年，机器学习顶会NeurIPS收录的《Recurrent World Models Facilitate Policy Evolution》论文，以认知科学中人脑Mental Model来类比世界模型，认为mental model参与了人类的认知、推理、决策过程。其中，最核心的能力——反事实推理（Counterfactual reasoning），是一种人类天然具备的能力。

另外，PLAM掌上电脑创始人杰夫·霍金斯的《千脑智能》中，也介绍了人工智能领域中非常重要的“世界模型”概念。

时间到了2024年2月16日，著名的Open AI公司发布了震惊全世界的“文生视频”大模型Sora，它可以根据文本自动生成一段60秒的视频。这成为世界模型的一个具象体现。

而在人工智能领域，包括李飞飞的World Labs，谷歌DeepMind等企业都发布了世界模型。Yann LeCun的Mate FAIR团队还发布了导航世界模型，根据前一秒的导航信息实时生成下一秒的轨迹。

如今，业内的共识是，一旦这个技术成熟，自动驾驶将迎来真正的爆发。

虽然，国内汽车行业现在还在“卷”从“两段式”的端到端到“一段式”的端到端，但是，按照博世智能驾控中国区总裁吴永桥的说法，从两段式端到端逐步过渡到一段式端到端，最终实现世界模型的应用，这一路线图正逐渐成为业内共识。这是一条车端到云端的路。

而且，梳理一下自动驾驶技术的发展路线，就会发现一个非常有意思的事情。

所谓“功夫在诗外”，这几年所有对自动驾驶发展产生推动的技术都不源于自动驾驶，而是人工智能。这里面，从BEV+Transformer，占用网络OCC，到端到端，世界模型。就像那句话，“自动驾驶本质上是人工智能的一个具身智能体现。”

世界模型仿佛打开了一个全新的窗口和世界，这里面包括探路者特斯拉。

2023年，特斯拉自动驾驶负责人在CVPR上介绍了“通用世界模型”。该模型可以通过过往的视频片段和行动提示，生成“可能的未来”全新视频。

Wayve也在2023 年发布了GAIA-1模型，它可以依靠视频、文本和动作的输入生成逼真的视频，能够生成分钟级的视频以及多种合理的未来场景，帮助自动驾驶模型的训练和仿真。

2024年GTC大会上，英伟达也展示了世界模型领域的新进展：The Next Wave of AI: Physical AI。

而国内车企里面，蔚来比较领先。2023年NIO Day上，蔚来公布其正在自研世界模型。一年后7月27日的科技日上，蔚来智驾负责人任少卿发布中国首个智能驾驶世界模型NWM，释放出更多技术细节。

NWM模型是一个具有全量理解数据、长时序推演和决策能力的智能驾驶世界模型。它能够在100毫秒内推演出216种可能发生的场景，并寻找到最优决策。

11月底，商汤绝影举办了自己的第一个AI DAY，亮出名为“开悟”的世界模型，可生成仿真数据，与量产实车采集的真实数据结合，共同重建物理世界。商汤绝影CTO肖枫还直接说：“‘地大华魔’头部格局，已经是过去式了。”

世界模型有这么厉害？

世界模型怎么做？

小马智行CTO楼天城给了世界模型极高的评价，“世界模型是最重要的事情，没有之一。”

那么，自动驾驶领域，世界模型如何发挥作用？按照地平线的解释，世界模型的作用有两个：

一是通过生成式大模型生成带有预测性质的视频数据，实现Corner Case多样化训练；

二是采用强化学习的方法认识复杂驾驶环境，从视频输出驾驶决策。

而构建世界模型的办法也有两个：一个是凭空想象，“无中生有”；另一个，是根据现有信息完善信息，比如输入文本、图片、视频，生成更多更丰富的视频。

作为自动驾驶的“大杀招”，世界模型解决了两大难题，一个是3D重建的高成本、低效率，另一个就是仿真无法“还原”真实数据的问题。可以说，世界模型包含了仿真的部分内容，但是又完全高于仿真。

这也产生了一个疑问，世界模型是应该凌驾于真实数据之上，还是仅仅作为真实数据的补充？

小马智行CTO楼天城认为，依靠现有的真实数据只能让智驾系统无限接近人，只有世界模型数据才能构建出更复杂的世界，最终让训练出来的系统超越人。换句话说，就是“自动驾驶的安全必须高于人类才有意义”。

所以，必须要有高于人类驾驶行为的世界模型数据训练出来的系统，才能优于人类。按照这个表述，世界模型应该凌驾于真实数据之上。

不过，这样一来，世界模型好坏的评估就很难有个量化的准确办法。只能大致看世界模型的几项能力：准确性，多样性，可控性和泛化能力。

目前的现状，是没有标准解，八仙过海、各显神通。

比如，地平线提出了世界模型的两个长远价值：一是更准确的世界理解，帮助减少智驾系统的代码量、延迟、网络负载、错误率等。二是泛化能力，世界模型可以形成对复杂驾驶环境的通用理解，而非对输入的重复依赖。

按照地平线的实践，其提出的“交互式博弈”，核心在于通过生成数据驱动实现模拟学习和强化学习。为了避免机器对数据的重复模仿，它必须要学会主动理解数据。这时候世界模型就承担了“系统教练”的角色，指导系统到底该怎么开。

而商汤绝影的“开悟”世界模型，基于商汤20 EFLOPS的云端算力，可以做到“（视频生成）时间最长为150秒、分辨率可达1080P、视角可以实现11V”。也即是，通过“实车道路采集+世界模型生成”双轮驱动，实现Corner Case数据生成。

商汤绝影认为这个难度很大，行业普遍都是生成1V或6V视角的视频，开悟直接干到11V，而且同时生成的视角画面越多，要保持时空一致性就更难，还要克服鱼眼视角的畸变。

至于特斯拉和元戎启行的思路，则是用一套系统覆盖两种商业模型，辅助驾驶和Robotaxi。然后用数据训练的方式不断提升系统的能力上限，这种逻辑下世界模型更像是现实世界数据的补充。

按照圆周智行的说法，目前的一个行业共识，是自动驾驶实现的一个大前提不仅仅是像人，而是要超越人。因之，真实世界的数据只能是无限接近人，而要超越人，世界模型是目前通往自动驾驶的唯一解。

那么，用“造数据”的方式来创建一个“美丽新世界”，这个“唯一解”你同意吗？

王小西

比天空更辽阔的

阅读