自动驾驶中的VLA热,喧嚣背后的冷思考

问AI · VLA落地面临哪些关键挑战?
图片

【摘要】“视觉-语言-行动模型(VLA)”正在成为自动驾驶领域的新热词。

然而,在这片喧嚣背后,博世智能驾控中国区总裁吴永桥、Momenta创始人曹旭东以及宇树科技创始人王兴兴等都对其提出了质疑。

一年前,“端到端”还被捧为万能解法,如今VLA又横空出世,很难保证明年会不会有新的热词取代VLA。

但可以确定的是,现有的各种理论架构已经远超实际落地的成果,思考当前阶段的稳落地,可能才是重中之重。

以下为正文:

01

2025年是不是VLA元年?

2025年7月29日,理想i8带着“首款搭载VLA司机大模型”的标签闪亮登场。

公司创始人李想放言“VLA能够解决全自动驾驶,至于VLA是否是效率最高的方式还要打个问号,但现阶段VLA是能力最强的架构。”

在这场发布会上,近四分之一的时间是在描绘VLA大模型的宏伟蓝图。

理想之外,长城奇瑞极氪小鹏零跑等车企均在全力推进VLA模型的研发和落地。这样的热潮业内并不少见,高速NOA、城区NOA、端到端等名词出现时,业内很快便会出现一场类似的热潮,如今的热点叫VLA。

然而另一边,WAIC上博世智能驾控中国区总裁吴永桥却给VLA泼了一盆冷水。他直言“VLA短期难以落地,需3-5年等待适配大模型的芯片”。

2025年8月9日,宇树科技创始人王兴兴在世界机器人大会上也相继提出了不看好VLA的观点。

王兴兴直言,他对目前大火的VLA技术路线持有一定的怀疑态度。他甚至认为,“这是一个相对傻瓜式的架构”。

“VLA元年”的真理与虚火之间,到底还有多少距离? 

02

从端到端到VLA

要理解VLA的价值,需要先理清智能驾驶的技术演进脉络。

在VLA之前,行业普遍追逐的技术模型是端到端大模型,主要分为模块化端到端和一段式端到端。

模块化端到端保留了人工设计的模块接口,虽然效率大幅提升,但是需要单独优化各个模块,在信息传递时也存在一定损耗,实际是一种“伪端到端”。

一段式端到端则使用单一神经网络,直接将传感器获取的数据映射为控制指令执行,减少了信息传递的损耗,是真正的“端到端”。特斯拉FSDV12便是一段式端到端的典型,代码量从30万行锐减至2000行。

但是,端到端也有很大的弊端,即“黑箱特性”,即端到端大模型的决策过程缺乏可解释性,以及面对极端场景时易出现不可预测的行为。

在这样的背景下,学者提出了VLA大模型,清华大学车辆与运载学院助理研究员颜宏伟认为,VLA是端到端的“智能增强版”。

VLA的核心突破在于引入“思维链”,通过语言模型让决策推理可以被解释,仿佛人类一样从“观察”到“思考”,最后“行动”。

例如在潮汐车道上,VLA能结合视觉信号与文本指令判断车道的可用性,还会通过转向灯与其他车辆进行交互;在环岛场景中,VLA能生成多个步骤规划。

相比于传统端到端大模型仅能输出单步控制指令,VLA这种“多模态深度融合”的能力,更具备难以企及的泛化性与处理复杂场景的能力。

至此,一个问题很自然的出现了:国内不少公司在端到端领域尚未做到完全体,突然“成熟”的VLA显得太快了,快到让很多人质疑架构的成熟度以及实际的落地效果。

如果只是对比不同架构理想情况下的价值,业内对技术路线的认可度大概率是一致的。

因此,讨论VLA,就无法绕过落地难易度。

03

VLA的现实鸿沟

2024年,VLA概念刚被提出时,行业基本持观望态度。2025年,随着以头部新势力为代表的车企将其列入宣传和研发的重点行列中,行业逐渐卷入一场新的技术热潮,甚至有人将其推上“自动驾驶下一代核心技术”的神坛。

但博世智能驾控中国区总裁吴永桥的顾虑无法回避,“首先,多模态大模型的特征对齐很难实现(视觉、语言、动作)”。

众所周知,VLA的核心逻辑是让视觉(如摄像头捕捉的路况)、语言(如驾驶员的语音指令)、动作(如方向盘转动幅度)在统一语义空间中“对话”。

但不同模态的数据特征天差地别:图像是像素矩阵,语言是符号序列,动作是物理参数。

要实现将它们精准映射、实现跨模态理解,还需对技术发展提出更高的要求。

“其次,多模态的数据获取和训练也十分困难。”

车企宣传中,VLA能实现语音、手势、眼神的“全场景识别”,但支撑这些功能的海量数据从何而来?

不同人种的语音语调、千差万别的手势习惯、复杂光线下的眼神变化……没有覆盖足够多真实场景的数据集,所谓的“丝滑体验”都需要更加实际的效果保障。

更关键的是,自动驾驶数据涉及安全隐私,采集、标注以及脱敏的成本极高,短期内难以积累到支撑VLA大规模应用的量级。

“最重要的一点,VLA模型要部署在智驾芯片上,才能实现行车安全以及驾驶高度拟人化,模型规模必须要做到7B-10B左右。但目前市面上几乎所有的三方智驾芯片都不是专为大模型的计算而设计的,带宽相对较小,仅3B的模型布置在Thor芯片,频率很难做到10赫兹。”

要实现行车安全与高度拟人化,VLA模型参数量需达到7B-10B(百亿级),且刷新频率需稳定在10赫兹以上。

当下主流智驾芯片多是3年前立项,并非为大模型计算设计,想要满足实时性要求仍有挑战。

除了吴永桥提出的三大难题,Momenta创始人曹旭东的表态也颇具代表性,他提出“VLA是好方向,但只是锦上添花。”

他直言,VLA本质是在“视觉+行动”的自动驾驶核心逻辑中,增加了“语言”这一信息输入维度,技术难度并非不可逾越;

其二,VLA对系统安全性的提升最多仅10倍,而实现L4级自动驾驶的规模化落地,需要100倍甚至1000倍的安全跃升,VLA显然力不从心。

不约而同的,两位专家得出了相似的结论:当下更应深耕“端到端+强化学习”。

通过海量真实数据构建仿真环境,用“奖励-惩罚”机制让模型自主学习安全与高效驾驶,这种方式能实现安全上限更大幅度的提升,是更务实的破局路径。

而在VLA的老本行,智能机器人行业中,宇树创始人王兴兴毫不客气地给出评价:“VLA是相对傻瓜式的架构,我持怀疑态度。”

他认为,VLA对真实世界交互的“数据质量要求”本质上无法满足——物理世界的不确定性(如光线变化、物体变形)远远超过模型训练中的理想场景。

即便尝试在VLA基础上叠加强化学习(RL),效果仍显不足。

“本质还是架构问题,VLA太简单了,撑不起复杂物理交互的需求。”在他看来,机器人需要的是能处理模糊性、适应性更强的“智能架构”,而非简单拼接视觉、语言与行动的“缝合模型”。

国际机器人联合会技术委员会主席亚历山大·维尔则在机器人大会上更直白地讲起了VLA模型在技术上的局限,主要包括7个方面,分别是:无记忆能力;感知缺陷;动作缺失;物体混淆;成功率偏低;语言理解缺陷;反馈缺失。

图片

与此同时,维尔还指出,VLA模型训练成本高昂,在不含训练数据制备成本的前提下,也会达到数千万美元。

04

尾语

一年前,“端到端”还被捧为万能解法,如今VLA又横空出世,很难保证明年会不会有新的热词取代VLA。

但可以确定的是,现有的各种理论架构已经远超实际落地的成果,思考当前阶段的稳落地,可能才是重中之重。

VLA确实为自动驾驶的“拟人化”提供了新可能。但行业也需要保持清醒,弯道超车并不是法宝,当真正能支撑大模型的芯片落地,当足够多的真实数据积累完成,当多模态对齐的技术瓶颈被突破,VLA自然会从锦上添花成长为重要支柱。