1.英伟达GTC 2025上,理想汽车和元戎启行展示了最新智驾方案VLA,旨在提升城市高阶体验。
2.VLA模型具有思维链,推理能力增强,可以更接近人类驾驶员的习惯。
3.然而,VLA仍面临实时响应能力和长尾工况下的挑战。
4.为此,理想汽车和元戎启行分别采用了自监督训练、稀疏化等技术来解决难题。
5.除智驾领域外,VLA模型还可应用在其他智能产品中。
以上内容由腾讯混元大模型生成,仅供参考
近日,英伟达GTC 2025正式开幕。
首日,作为国内高阶智驾的主要代表,理想汽车和元戎启行都带来了其最新智驾方案介绍,即VLA。
此外,元戎启行同步展示了公司的最新战略布局RoadAGI,并发布道路通用人工智能平台——AI Spark。
左:理想汽车贾鹏《VLA:迈向自动驾驶物理智能体的关键一步》
右:元戎启行周光《从智能驾驶到AGI:下一代自动驾驶技术的演进》
01.为什么要做VLA
作为国内为数不多高阶智驾方案供应商,元戎启行在过去的时间里量产超过了4万辆车。今年预计推出超10款车型,目标为20万辆,年中即量产VLA。明年目标为50万辆。随着规模的扩大,元戎启行发现当前端到端无法解决的痛点,于去年9月开始VLA研发工作,进一步提升城市高阶体验。
对比来看,周光认为VLA的优势主要在三个方面。
一是所有的组件都会被标记化,同时兼容LLM模型,支持Scaling Law。
二是VLA模型拥有思维链,推理能力增强。比如在应对复杂路况的时候,可以通过识别道路标识来进行判断,是否进行路线调整,速度调整。并且VLA推理步骤还可以实现透明化,支持长时序的推理能力,这在自动驾驶中非常重要。同时通过强化学习进行后训练,判断是否符合物理规则。
三是VLA可以更接近人类驾驶员的习惯。
理想汽车则主要对比当前已经量产的快慢系统,即视觉语言模型VLM+端到端E2E。理想汽车在此技术上推出车位到车位的高阶智驾功能。
对于快慢系统,贾鹏提到目前主要有四大痛点。
一是两者均为独立的系统,虽然通过异步联合训练,两者可以协同工作。但两者运行的频率并不相同,整体的联合训练非常困难。
二是理想汽车采用的是开源的VLM模型,其采用了大量互联网内容进行训练,但在3D空间理解方面存在不足。虽然理想汽车进行了一定优化,但其上限存在一定短板。
三是受制于自动驾驶芯片带宽、算力,无法通过继续提升参数量来优化VLM体验。
四是在如今Transformer架构下,难以处理人类驾驶行为的多模态性。
因此,元戎启行和理想汽车模型的重点都放在了VLA模型上。
02.VLA架构解析
此前NE时代已经针对元戎启行VLA架构进行过阐述,详情请见《2025智驾VLA上车,元戎启行率先抢跑》,本文不再详细展开。
理想MindVLA中所有的模块都是全新设计,并非只是简单的将E2E和VLM模型简单的结合在一起,这也就意味着快慢系统不能归结为VLA。在MindVLA中,3D空间编码器通过语言模型和逻辑推理结合在一起后给出合理的驾驶决策,并输出一组对周围环境和自车驾驶行为的编码,即action token,最终通过diffusion进一步优化出最佳的行驶轨迹。整个模型的推理过程均发生在车端,并且做到实时运行。
理想汽车MindVLA,来源:GTC2025
贾鹏从6个关键技术点详细的介绍了MindVLA的设计和训练过程,包括其3D推理空间理解能力是如何获得的,如何从零设计和训练语言模型使其具备驾驶知识和推理能力,diffusion时如何与语言模型结合在一起的,以及如何解决VLA在车端芯片的实时推理。
在解决3D表征方面,理想汽车发现3D高斯是一个极其优良的中间表征,不仅具备出色的多尺度3D表达能力,同时还可以承载丰富的语义,更重要的是可以通过RGB进行自监督训练,从而利用海量的真实数据获得一个优秀的3D表征。
具体来看,理想汽车采用的是自监督训练得到高斯表征,从而解决3D表征难题。之后,为了解决让LLM增加具备3D空间理解能力,理想汽车在模型的预训练阶段加入大量的相关数据。
为了应对车载芯片算力和内存带宽受限的难题,理想汽车在全新的模型中通过稀疏化来解决。稀疏化可以实现模型容量扩容的同时,不会大幅度增加推理负担。
贾鹏介绍,理想汽车通过两个维度实现稀疏化。一是采用了MoE架构,通过多个专家实现模型扩容,从而保证参数量不会大幅增加。而是引入了稀疏注意力进一步提升稀疏化率,提升端侧的推理效率。同时贾鹏提到,在新的基座模型训练中,理想汽车重点去寻找最佳数据配比,融入大量的3D数据和自动驾驶相关的图文数据,并减少了文史类数据的比例。
最后为了进一步激发模型的3D空间理解和推理能力,理想汽车加入了未来帧的预测生成和稠密深度的预测等训练任务,从而训练模型去学习人类的思考过程,并自主切换快思考和慢思考。
在慢思考模式下,模型会经过思维链CoT再输出action token,为了提升实时性,理想汽车采用了固定且简短的CoT模板。在快思考模式下,模型则不需要经过CoT就可以直接输出action token。
另外,理想Mind VLA还有一个亮点,在于多模态交互,即用户可以直接与模型进行对话,从而实现指令下达。为了实现该功能,理想汽车利用diffusion将action token解码成最终的驾驶轨迹。在diffusion模型中,理想汽车不仅生成自车的轨迹,还预测其他车辆和行人的轨迹。此外,借助diffusion模型还可以根据外部的条件输入改变生成结果,比如用户可以通过直接说理想同学开快点或者开慢点,来实现行车速度的改变。
对于diffusion模型生成效率低的问题,理想汽车采用基于常微分方程的ode采样器大幅加速的diffusion生成过程,使其在2-3步内就可以生成稳定的轨迹。
03.VLA的挑战是什么
首先是实时响应的能力。贾鹏直言,想让VLA实现超过10fps的推理速度还是存在很大挑战的。周光则展示了元戎启行响应的时间,采用Thor芯片时,其响应频率可达到5fps,基于下一代英伟达芯片可以达到20fps。
元戎启行VLA实时响应能力,来源:元戎启行
另外是在长尾工况下,VLA存在不符合人类价值观的问题。为了解决这个问题,理想汽车增加了后训练的阶段,尽可能对齐人类驾驶员的行为。数据来源一方面是大量的人类驾驶员数据,另一方面来自于理想汽车NOA的接管数据。
此外便是数据。VLA模型的强化学习高度依赖良好的交互环境,目前基于3D的游戏引擎方式,场景真实度不足。
为了解决这个问题,元戎启行优先使用真实的数据,尤其是关键临界态的数据。为此,元戎启行打造了一个闭环数据链路,从数据脱敏、回流、清洗到模型训练的全流程,可以做到以周为单位。
元戎启行数据链路,来源:GTC 2025
理想汽车的做法是结合场景重建和生成两种方式,贾鹏解释道,之所以同时使用两种数据,是因为纯生成模型具有良好的泛化能力,但可能出现不符合物理规律的幻觉。而纯重建模型由于依托真实数据呈现3D场景,数据真实性毋庸置疑,但在大视角变换下可能出现空洞和幻觉。两者结合则有可能实现优势互补。
从VLM+E2E的双系统到目前提出的VLA模型,高阶智驾所用的算法模型依旧在快速发展。作为一种新的模型架构,VLA不仅可以应用在智驾领域,还可以应用在其他智能产品中。元戎启行在本次分享中便展示了以一台无人驾驶配送小车,除完成运输外,还可以将快递放至快递柜中。
当然,当前VLA模型的应用还存在诸多挑战,而率先量产的企业,也将在短期内实现技术领先。