世界模型大跨越,特斯拉FSD回归中国或有望

图片


特斯拉FSD入华后,效果不佳,主要原因是没有机会拿到中国的道路数据,无法因地制宜地训练,而其用以训练的网上公开道路信息又数量较少。解决这一问题的方法在于:1)拿到中国国内的道路数据;2)世界仿真模拟有较大进展,能延展、覆盖更多道路可能、极端情况,以及自设定、适应其它国家规则。


前者涉及到政治博弈,虽然有消息称特斯拉正深度接触阿里,希望其为FSD落地提供GPU数据中心服务,但因FSD落地本身涉及政治博弈,落地时间恐怕还有得磨;但后者——世界仿真模拟,在近期有了较大突破,或助力特斯拉FSD可线上训练,回归国内智驾圈,并表现得更好。


2025年3月26日,Wayve发布其生成世界模型GAIA-2,在GAIA-1的基础上进一步拓展,增加了不同国家/地区的地理场景生成,现实场景的极端情况扩展,以及Corner Case的自我构建,从而扩大对驾驶极端情况、关键场景的训练,以助力智驾的最终效果。


图片


具体来说,Wayva GAIA-2 这次在世界模型的生成上有几个大的进步:


1. 它是视点包含五个摄像头,前左,前右,后左,后右,以及中间主摄,并且,这些摄像头的视点可以保证时空一致性


2. 地理覆盖范围包括英、美、德,同时可调整一些关于智驾的关键参数,如自车动作变量(如速度、转向曲率)、环境(天气、一天中的时间),以及道路配置(如可行驶车道数量、限速、人行道、十字路口等),这种高细节控制能生成很多极端情况、CornerCase,让智驾训练更易于提升能力。


延申到世界模型生成上,则包括基于真实数据的延申、自定义Corner Case,以及探索未知问题等三个方面。


1. 基于真实世界数据的延申


这包括两个方面:1)合成多个国家/地区的不同时段、天气、道路类型的驾驶场景;2)对驾驶日志延申,作全民的极端情况和罕见事件的验证。


比如在1)中,通过GAIA-2可以重现英国的左侧交通、美国的独特道路标志,以及德国的欧洲车道标记;也可以调节时间和天气,模拟黎明、中午、夜晚,晴天、雨天、雾天的不同情况,并作无缝过渡,对于常见的雨雪雾天气驾驶,有较大裨益。


并且,因为这些驾驶场景逼真、丰富,且可精确控制,GAIA-2 就能减少对大量、特定位置的真实世界数据收集的依赖,加速测试和验证的工作流程,让智驾系统便于进入不同的国家/地区,并在常规和极端情况下都有训练以保证其稳定运行。


图片

GAIA-2 生成的多样性场景示例,包括英、美、德等,且光照和天气条件不同 图源:Wayve官网


2)则更关注对驾驶日志进行延申。驾驶日志能够提供从常见到罕见的交通情况,但是,每条日志都只能提供事件的单一实现,比如在某种情况下驾驶者怎样做比较好,并让智驾系统基于此学习。但是,这也意味着如果条件有变化,现实数据就不足以进行全面验证,而GAIA-2可以探索情况在不同条件下智驾可能如何展开,从而提升测试覆盖率和模型稳定性

图片

只调整天气和光照条件的增强真实场景,并保持其他所有关键驾驶功能不变 图源:Wayve官网


图片

超车场景:顶行为真实世界场景,余行为基于此场景生成的版本 图源:Wayve官网


图片

变车道场景:顶行为真实世界场景,余行为基于此场景生成的版本 图源:Wayve官网


图片

隧道场景:顶行为真实世界场景,余行为基于此场景生成的版本 图源:Wayve官网


2. 自定义Corner Case


GAIA-2 从两个维度提升世界模型里车与环境交互的能力,1)针对给定动作生成观察结果;2)生成精准、可控的高风险场景,从而解决安全关键场景的长尾问题。


1)针对给定动作生成观察结果


这个功能是目前世界模型生成里比较少见的,即GAIA-2 可以根据车的动作(如刹车、让行、掉头等)生成多样化、符合情境的视频序列,让车的行驶动作变得必要又适当。


这个的作用主要是以行动为条件,生成可以系统地、可拓展地探索场景空间,提高验证效果,而且把智驾系统放到一个丰富的行动驱动观察里,从而在类似现实世界的驾驶条件下支持更稳健、安全和一致的行为。


图片

开车场景。对于任何给定的动作,生成的视频都会捕捉该动作可能发生的所有可能背景。图源:Wayve官网


图片

掉头场景 图源:Wayve官网


2)解决安全关键场景的长尾问题


安全关键事件,比如近距离碰撞、突然切入和紧急制动,这些场景很重要、不可少,但在现实中的驾驶日志里比较少见,因此,GAIA-2 是通过实现精确、受控的高风险场景生成来解决这个问题,在GAIA-2 的世界模型里,可以明确定义每个代理的位置、运动和交互,也可以主动模拟碰撞前的情况紧急操作(比如急刹车),甚至是超出分布的行为(比如漂移或突然出现障碍物)。


这样生成的场景可重复、受控,而且可以涵盖现实世界数据集中代表性不足的关键极端情况。通过在受控环境中将系统暴露在这些环境下,GAIA-2 可以对故障安全行为进行严格验证,并在真正上路前就建立智驾系统的一种弹性。


GAIA-2 给出的是a)操纵自车产生危险;b)影响其它代理产生危险情况的一些场景,便于在这种【可控】极端场景下训练和优化智驾算法


图片

操纵自车产生危险,去靠近对面车道的汽车 图源:Wayve官网


图片

操作其它代理产生危险情况,以便训练智驾系统里的自车反应 图源:Wayve官网


3. 用分布式能力探索未知场景


分布外(OOD)条件,比如看不见的城市、道路类型、摄像头配置或者交通模式对于智驾的实际部署也很重要。


因为GAIA-2 是在多样化的数据集上训练的,而且这些数据集在不同地区、车辆平台和环境因素之间存在差异,所以使其能够生成一些完全全新、不寻常的驾驶场景,这样就可以测试AV模型在领域转变下的稳定性,让智驾系统可以更有通用性和弹性。


图片

泛化到分布外的森林场景,这些生产上场景完全超过普遍训练集的场景 图源:Wayve官网


图片

泛化到分布外的沙丘场景 图源:Wayve


总的来说,Wayve GAIA-2 进一步增强了驾驶场景的多样化,无论是国家/地区、天气、时段的设置,还是光亮的调整,都使得世界模型的训练能容纳更多可能。此外,随着光影/场景可设计的变化,以及对自车/其它代理的设置,都使得它可以自己实现Corner Case的设定,从而让智驾系统对Corner Case有更多的预训练,在真实世界场景中遇到时,能予以解决


当世界模型仿真模拟发展到接近于真实世界的趋势下,其所带来的优势也是显而易见的,比如1)它能实现一种大规模的、可重复的测试,数据集可以做到无穷多和无穷大;2)不用过于担心道路数据的成本和风险,这一点对当下的特斯拉FSD回归中国非常重要;3)因线上训练,总得来说智驾系统的迭代周期更快,开发人员可以系统探测和解决模型弱点,以增强模型在现实中的智驾效果


世界模型在今年的发展很快,Wayve的仿真模拟场景/Corner Case的覆盖率增加很多,同时苹果16亿公里全仿真数据的性能也超过人类真实数据,这能让我们在【销量/真实数据】的智驾技术迭代的单一维度之外可以看到别的可能。在此之前,因为端到端的智驾技术路线收束,最终的决胜点只在于销量和真实数据,那么,销量头部的企业才能进入牌桌,但当仿真技术进步,智驾技术可以通过仿真训练而进步,其实是给技术领先、但销量/智驾上车量的企业给出更多机会,在这洗牌期给他们留下更多可能的余地