世界模型大跨越，特斯拉FSD回归中国或有望

鑫椤智驾

2025-03-28 17:17发布于上海

特斯拉FSD入华后，效果不佳，主要原因是没有机会拿到中国的道路数据，无法因地制宜地训练，而其用以训练的网上公开道路信息又数量较少。解决这一问题的方法在于：1）拿到中国国内的道路数据；2）世界仿真模拟有较大进展，能延展、覆盖更多道路可能、极端情况，以及自设定、适应其它国家规则。

前者涉及到政治博弈，虽然有消息称特斯拉正深度接触阿里，希望其为FSD落地提供GPU数据中心服务，但因FSD落地本身涉及政治博弈，落地时间恐怕还有得磨；但后者——世界仿真模拟，在近期有了较大突破，或助力特斯拉FSD可线上训练，回归国内智驾圈，并表现得更好。

2025年3月26日，Wayve发布其生成世界模型GAIA-2，在GAIA-1的基础上进一步拓展，增加了不同国家/地区的地理场景生成，现实场景的极端情况扩展，以及Corner Case的自我构建，从而扩大对驾驶极端情况、关键场景的训练，以助力智驾的最终效果。

具体来说，Wayva GAIA-2 这次在世界模型的生成上有几个大的进步：

1. 它是视点包含五个摄像头，前左，前右，后左，后右，以及中间主摄，并且，这些摄像头的视点可以保证时空一致性；

2. 地理覆盖范围包括英、美、德，同时可调整一些关于智驾的关键参数，如自车动作变量（如速度、转向曲率）、环境（天气、一天中的时间），以及道路配置（如可行驶车道数量、限速、人行道、十字路口等），这种高细节控制能生成很多极端情况、CornerCase，让智驾训练更易于提升能力。

延申到世界模型生成上，则包括基于真实数据的延申、自定义Corner Case，以及探索未知问题等三个方面。

1. 基于真实世界数据的延申

这包括两个方面：1）合成多个国家/地区的不同时段、天气、道路类型的驾驶场景；2）对驾驶日志延申，作全民的极端情况和罕见事件的验证。

比如在1）中，通过GAIA-2可以重现英国的左侧交通、美国的独特道路标志，以及德国的欧洲车道标记；也可以调节时间和天气，模拟黎明、中午、夜晚，晴天、雨天、雾天的不同情况，并作无缝过渡，对于常见的雨雪雾天气驾驶，有较大裨益。

并且，因为这些驾驶场景逼真、丰富，且可精确控制，GAIA-2 就能减少对大量、特定位置的真实世界数据收集的依赖，加速测试和验证的工作流程，让智驾系统便于进入不同的国家/地区，并在常规和极端情况下都有训练以保证其稳定运行。

GAIA-2 生成的多样性场景示例，包括英、美、德等，且光照和天气条件不同图源：Wayve官网

2）则更关注对驾驶日志进行延申。驾驶日志能够提供从常见到罕见的交通情况，但是，每条日志都只能提供事件的单一实现，比如在某种情况下驾驶者怎样做比较好，并让智驾系统基于此学习。但是，这也意味着如果条件有变化，现实数据就不足以进行全面验证，而GAIA-2可以探索情况在不同条件下智驾可能如何展开，从而提升测试覆盖率和模型稳定性。

只调整天气和光照条件的增强真实场景，并保持其他所有关键驾驶功能不变图源：Wayve官网

超车场景：顶行为真实世界场景，余行为基于此场景生成的版本图源：Wayve官网

变车道场景：顶行为真实世界场景，余行为基于此场景生成的版本图源：Wayve官网

隧道场景：顶行为真实世界场景，余行为基于此场景生成的版本图源：Wayve官网

2. 自定义Corner Case

GAIA-2 从两个维度提升世界模型里车与环境交互的能力，1）针对给定动作生成观察结果；2）生成精准、可控的高风险场景，从而解决安全关键场景的长尾问题。

1）针对给定动作生成观察结果

这个功能是目前世界模型生成里比较少见的，即GAIA-2 可以根据车的动作（如刹车、让行、掉头等）生成多样化、符合情境的视频序列，让车的行驶动作变得必要又适当。

这个的作用主要是以行动为条件，生成可以系统地、可拓展地探索场景空间，提高验证效果，而且把智驾系统放到一个丰富的行动驱动观察里，从而在类似现实世界的驾驶条件下支持更稳健、安全和一致的行为。

开车场景。对于任何给定的动作，生成的视频都会捕捉该动作可能发生的所有可能背景。图源：Wayve官网

掉头场景图源：Wayve官网

2）解决安全关键场景的长尾问题

安全关键事件，比如近距离碰撞、突然切入和紧急制动，这些场景很重要、不可少，但在现实中的驾驶日志里比较少见，因此，GAIA-2 是通过实现精确、受控的高风险场景生成来解决这个问题，在GAIA-2 的世界模型里，可以明确定义每个代理的位置、运动和交互，也可以主动模拟碰撞前的情况、紧急操作（比如急刹车），甚至是超出分布的行为（比如漂移或突然出现障碍物）。

这样生成的场景可重复、受控，而且可以涵盖现实世界数据集中代表性不足的关键极端情况。通过在受控环境中将系统暴露在这些环境下，GAIA-2 可以对故障安全行为进行严格验证，并在真正上路前就建立智驾系统的一种弹性。

GAIA-2 给出的是a）操纵自车产生危险；b）影响其它代理产生危险情况的一些场景，便于在这种【可控】极端场景下训练和优化智驾算法。

操纵自车产生危险，去靠近对面车道的汽车图源：Wayve官网

操作其它代理产生危险情况，以便训练智驾系统里的自车反应图源：Wayve官网

3. 用分布式能力探索未知场景

分布外（OOD）条件，比如看不见的城市、道路类型、摄像头配置或者交通模式对于智驾的实际部署也很重要。

因为GAIA-2 是在多样化的数据集上训练的，而且这些数据集在不同地区、车辆平台和环境因素之间存在差异，所以使其能够生成一些完全全新、不寻常的驾驶场景，这样就可以测试AV模型在领域转变下的稳定性，让智驾系统可以更有通用性和弹性。

泛化到分布外的森林场景，这些生产上场景完全超过普遍训练集的场景图源：Wayve官网

泛化到分布外的沙丘场景图源：Wayve

总的来说，Wayve GAIA-2 进一步增强了驾驶场景的多样化，无论是国家/地区、天气、时段的设置，还是光亮的调整，都使得世界模型的训练能容纳更多可能。此外，随着光影/场景可设计的变化，以及对自车/其它代理的设置，都使得它可以自己实现Corner Case的设定，从而让智驾系统对Corner Case有更多的预训练，在真实世界场景中遇到时，能予以解决。

当世界模型仿真模拟发展到接近于真实世界的趋势下，其所带来的优势也是显而易见的，比如1）它能实现一种大规模的、可重复的测试，数据集可以做到无穷多和无穷大；2）不用过于担心道路数据的成本和风险，这一点对当下的特斯拉FSD回归中国非常重要；3）因线上训练，总得来说智驾系统的迭代周期更快，开发人员可以系统探测和解决模型弱点，以增强模型在现实中的智驾效果。

世界模型在今年的发展很快，Wayve的仿真模拟场景/Corner Case的覆盖率增加很多，同时苹果16亿公里全仿真数据的性能也超过人类真实数据，这能让我们在【销量/真实数据】的智驾技术迭代的单一维度之外可以看到别的可能。在此之前，因为端到端的智驾技术路线收束，最终的决胜点只在于销量和真实数据，那么，销量头部的企业才能进入牌桌，但当仿真技术进步，智驾技术可以通过仿真训练而进步，其实是给技术领先、但销量/智驾上车量的企业给出更多机会，在这洗牌期给他们留下更多可能的余地。