元宵节前一天,小鹏汽车召开了一场发布会,用很大的篇幅介绍第二代VLA辅助驾驶系统,并宣布即将向用户大规模推送,同时在全国门店开启试驾。
关于第二代VLA,我之前已经写过两次(可参考这篇)和(这篇)。
它最本质的变化,是将原本用于推理车辆轨迹的AI模型,升级为一个原生的多模态大模型。这个模型可以直接输入图像、车辆状态等多种物理信息,并生成车辆行驶轨迹,从而实现更好的驾驶表现。
何小鹏对这套系统寄予厚望,甚至在发布会PPT上直接写下:“开启自动驾驶的DeepSeek时刻”。
从用户好理解的角度来说,这样的类比确实比较直观。
但如果从行业发展的角度来看,我认为第二代VLA最大的意义,并不只是一次性能升级,而是为汽车走向Agent化奠定了基础。
从这个角度来看,它更像是汽车行业的一个 OpenClaw时刻。
一、智能汽车迎来质变
自2013年特斯拉推出Model S以来,智能汽车这场变革浪潮已经持续了十多年。
在这十多年里,汽车确实取得了很大的进步:
辅助驾驶从最早的车道居中(LCC),发展到高速领航,再到今天的城市领航;车机系统从单一大屏进化为拥有音乐、视频甚至办公软件的生态系统;电动车续航也从200—300公里提升到如今的600甚至1000公里。
但如果回头看,会发现这些变化更多是量变,而不是质变。
人与汽车之间的关系并没有发生根本变化。驾驶依然主要由人类完成,车辆只是提供辅助。
而随着AI大模型的出现,在2026年这个时间点,汽车行业终于迎来了发生质变的可能。
像特斯拉这样的行业领先企业,其实已经给出了一个方向:让汽车变成一个智能体(Agent)。
这一点和最近在电脑端爆火的Agent(例如OpenClaw),以及手机端的Agent助手(例如豆包手机)非常类似。
人与智能设备的交互方式正在发生变化:用户只需要表达意图,大模型就能够理解需求,将任务拆解并自动执行。
未来的汽车智能体,其实也是类似的逻辑。
例如用户上车之后,不一定需要输入具体导航地址。你只需要说一句:
“去老地方”、“去办公室”、“先去买杯咖啡,再去我妈家”。
系统就可以理解你的意图,规划路线,并直接调用智驾系统完成整个出行任务。
但与手机和电脑相比,汽车实现Agent化的难度要大得多。
原因在于:汽车虽然也能听歌、看视频、订外卖,但它最核心的能力始终是完成从A点到B点的出行任务。
因此,汽车Agent真正的技术门槛,其实不在于VLM(视觉语言模型)。这一类大模型已经被科技公司做得非常成熟,很多车企都可以调用。
真正困难的,是自动驾驶能力本身。
而传统辅助驾驶系统,很难支撑汽车Agent能力,主要体现在几个方面:
第一,泛化能力不足。系统在遇到没有见过的场景时容易出错,因此很难实现稳定的任意A到B出行,用户需要频繁接管。
第二,缺乏全场景能力。高速、城市、停车场往往由不同系统负责,在切换时体验容易出现断裂。
第三,规则系统上限很低。传统辅助驾驶依赖大量规则。当遇到新问题时,只能不断增加规则修补。但现实世界的复杂度是无限的,规则永远写不完,而且规则越多,系统反而越容易出现新的问题。
第四,端到端系统缺乏语义理解。虽然现在的端到端模型在驾驶表现上已经很不错了,但本质上只是学习“视频画面→车辆轨迹”的映射关系,并不真正理解现实世界。
而如果要实现汽车Agent,智驾系统和VLM必须共享对世界的理解。
例如用户说:“在右前方第二台红色卡车后面停下来。”系统必须理解哪一辆是“第二台红色卡车”,然后据此执行动作。传统端到端系统很难做到这种语义级理解。
二、VLA奠定汽车Agent基础
正是因为看到了汽车Agent的发展方向,何小鹏才会如此重视第二代VLA的研发。
只有基于AI大模型、完全数据驱动的新一代辅助/自动驾驶技术,才能真正与VLM系统打通,让汽车实现智能体化。
小鹏在2025年10月底对外宣布了第二代VLA。然后到3月初本次发布会,宣布第二代VLA将进行大规模推送,并且还要在3月11日于全国732家门店开启用户试驾体验。
这其实是一个非常重要的信号:说明这套系统的泛化能力已经达到量产级别。
正因如此,在发布会上,何小鹏才花了很多时间去讲各种长尾场景。
例如在没有道路标识、没有铺装道路的农村土路上(如下图),车辆不仅可以正常行驶,还能自动避坑;在城区和高速道路上,也可以识别并绕行各种异型车辆与障碍物。
这些案例其实都在说明一件事:系统已经能够处理大量复杂的长尾场景。
系统不需要在不同场景之间切换不同模块或规则模式,它天生就是一个全场景的统一系统。
发布会上还有一个非常值得注意的场景:查酒驾。
车辆识别到前方警察执勤,并理解这是查酒驾场景,于是主动在警察旁边停车。驾驶员完成酒精检测后,车辆自动继续行驶。
这个案例非常关键,因为它说明系统具备对现实世界的语义理解能力。
正如前面所说,智驾系统要和VLM大模型打通的前提,就是双方必须共享对世界的理解。
而查酒驾这个场景,正好说明第二代VLA已经具备这种能力。
需要注意,目前一些车型已经开始具备简单的Agent能力,比如:
用户口述目的地,车辆自动导航然后开启辅助驾驶开过去;在辅助驾驶状态下,用户说一句“右前方停一下”,车辆也可以执行这个动作。
那么当未来大家都逐渐接近汽车智能体的时候,竞争核心其实只剩下两点:
第一,驾驶能力。
从A点到B点的过程中,要综合考虑安全性、流畅性、通勤效率三大核心要素,即能安全丝滑且高效的把车开到目的地。
第二,全场景能力。
从A点到B点的过程中,往往会涉及城区、高速收费站、地下车库等多种场景。如果系统不能无缝覆盖这些场景,用户也不会买单。
因为要全场景,所以这次发布会上,还有两个非常关键的细节值得注意。
第一个是P档起步能力。
何小鹏强调,第二代VLA可以在车辆处于P档时直接启动辅助驾驶。用户上车之后就可以让车辆直接起步(目前还有一些小限制,比如前车距离)。
但方向已经非常明确,就是上车即可开启自动驾驶,这其实正是汽车Agent应该具备的能力。
第二个是漫游功能。
在没有目的地的情况下,也可以直接开启辅助驾驶,让车辆在园区或城市道路中自行漫游。
这个能力其实非常关键。
因为只有解决了起步能力和漫游能力,系统才能真正实现任意A到B的无缝衔接。
例如用户上车后说一句“带我去某个地方”,车辆自动起步并完成行程。
如果途中用户改变想法,也可以取消导航,车辆进入漫游状态,等用户重新给出目的地后再继续前往。
因此,自动漫游其实是实现汽车Agent的重要功能节点。
三、未来十年竞争逻辑变了
在这次发布会上,何小鹏提到一个细节。
2025年3月的时候,他一度非常痛苦,因为当时看不到辅助驾驶能够走向L4的可能。
如果这一步无法突破,那么未来十年汽车行业的竞争,可能仍然停留在续航、外观、配置等传统维度。
只有当辅助驾驶能够与VLM大模型打通之后,汽车才会发生真正的质变。
到那个时候,汽车智能体和传统汽车之间的差距,将像喷气式飞机与螺旋桨飞机之间的代际差距一样。
而特斯拉十几年前掀起的智能电动汽车浪潮,本质上就是希望用新一代智能汽车对传统机械汽车进行代际竞争。
正是看到了这种趋势,何小鹏当年才决定躬身入局。
十年之后,他认为这个代际变化的时刻终于到来了。在发布会上,他引用了一个类似阿姆斯特朗登月时的名言:
“这是小鹏汽车的一小步,却是智能汽车行业的一大步。”
这句话其实表达的是:第二代VLA带来的,是汽车研发逻辑的质变。
从这一刻开始,车企研发的不再只是“电动汽车+智能功能”,而是要去构思如何打造一个汽车智能体。
而要实现汽车智能体,至少需要三种能力:
1、原生多模态大模型的研发能力。2、数据闭环能力(从数据采集到数据挖掘到训练能力)。3、终端芯片的研发能力。
前两个能力大家说的比较多,但第三个能力往往容易被忽略。
汽车是一个高实时系统,并且会在地下、郊区、高速公路等各种环境出没,网络不稳定。哪怕是VLM,具备本地推理能力,也能大幅提升体验。
从这个角度看,自研芯片会成为AI汽车公司的一个必备能力。
而判断自研芯片的性能,不能只看纸面数据,因为还存在一个算法利用率的概念。如果算法利用率更高,即使纸面算力较低,实际表现也可能更好。
官方用“延迟”来解释这一点:当算法利用率提升时,推理速度会更快,系统整体延迟也会降低。
这就是为什么何小鹏最近在发布会上不断在强调:通用模型、云端算力以及自研芯片这些概念——因为这都是打造汽车智能体最核心的底层能力。
过去几年,很多车企都在说要转型为AI公司。但到了2026年这个时间点,这件事终于开始变得具体。
OpenClaw让我们看到了电脑端Agent的可能;豆包手机让我们看到了手机端Agent的可能。
而汽车端的Agent,也已经呼之欲出。
未来车企之间的竞争,本质上将围绕一个问题展开:谁能真正打造出汽车智能体。