智驾地图迎来第二春。
2022年下半年,智驾行业开始弥漫一股去高精地图的趋势;2023年,随着彼时还是华为车BU CEO的余承东振臂一呼,业内去高精地图的呼声达到高潮。时至今日,“无图NOA,全国都能开”的宣传口号已经成为车企们的通用词汇,高精地图早已被人们遗忘在角落。
尤其这两年软硬件技术的双向提升也让业内在“去高精地图”上有了更多底气。
首先是网络模型提取特征能力提升。相比于基于规则和小模型的智驾方案,智驾进入BEV+Transformer+OCC和端到端阶段,智驾方案的环境感知和运动规划能力都得到提升;
其次,目前的智驾传感器方案至少采用6V+方案,相比传统的单目方案拥有更大的信息输入量,并且比多目后融合的精度更高,错误更少,感知能力明显提升。
此外,端到端大模型的实时运行能力提升了系统效率,地平线征程6等高算力芯片可以提供更多的算力和算子支持。系统的承载和表达能力更强了,也就无形中提高了它的上限能力。
这些都加速了行业“去高精地图”的步伐。
端到端带来的“假象”
端到端技术到来让业内“去高精地图”的底气达到高潮。2023年,小鹏汽车率先提出“全国都能开,有路就能开”的口号。随后,华为也迅速跟进,提出只要有导航地图的地方都能开。今天,几乎所有头部车企在宣传标语上都实现了“全国都能开”。
2023年下半年,华为高阶智驾在乡间小道丝滑穿行的小视频在网络疯传。彼时端到端能力已经在发挥作用,无图智驾能力得到落地验证。这也让车企们坚信,脱离高精地图,智驾的表现更加得心应手。
何小鹏甚至激进地表示,未来不上端到端和大模型的车企将会很快出局。《圆周智行》粗略统计,截至目前,已经有超过20+头部车企和智驾公司布局端到端方案。
然而,端到端极高的上限能力几乎“骗了”所有人,让大家很容易忽视其下限也低的既定事实。
仔细分析会发现,事情并没有表面看到的那么简单。自动驾驶技术的本质是“输入信息的有效性+模型特征提取的高效性。”
前者由传感器数量和模态决定。端到端网络结构下,特征提取能力由训练数据的质量和数据场景覆盖决定。但传感器实时探测数据,具有探测距离、分辨率、动态范围等性能约束,及光照、拥堵、遮挡及信号丢失等场景约束。这就很难保证实时感知信息的准确性。
智驾系统一般是先在云端离线训练模型,然后再下放到车端。但是在智驾车放量数据回传接管场景前,离线模型学习到的都是大量的常规数据,异常场景所需要的先验信息少。
如果要大批量量产,又有不同城市规则及更多复杂场景的大量场景需要模型覆盖。
离线训练数据,实时感知与复杂场景数据都无法保证。这就使得端到端的上限提升的同时,下限也更低了。
而上文提到的无图智驾能力就是一个典型的“假象”。乡间小道属于低速,小范围,拓扑简单场景。这些场景下,OCC很容易构建出精确的3D语义空间,同时简单车道及路网的轨迹预测更准确,加上被限定在局部小范围,他车轨迹干扰小,路径规划就相对简单。不仅如此,低速进一步降低了系统延迟,带来更好的路径规划时空精度,有点像静态泊车场景。看起来好像解决了无图带来的精度问题,一旦场景复杂度提升,速度提升,无图端到端的表现就需要重新评估。
换言之,低速场景的表现并不能作为车企脱离高精地图能够实现更好智驾的佐证。
端到端需要行业
重新评估智驾地图的价值
喧闹之下,Momenta创始人曹旭东,地平线创始人余凯都曾对行业发出过警惕,端到端上限高,但下限也低,尤其one model属于一体化端到端架构,属于典型的黑盒方案,具有不可解释性,在安全上存在极大的漏洞。
我们先来看这样一个事实,即便在端到端技术架构下,头部车企的智驾产品今天依然面临很多问题,包括但不限于“进出环岛与连续变道、环岛识别成丁字路口错误降速、中间车道异常掉头、转弯时压线侵入非机动车道、掉头时路线选择错误侵入导流区进入对向车道逆行、左转红灯未识别或无车道级拓扑闯灯掉头、出隧道后多种类型道路的汇出场景走错道路”。
根本原因在于,这些场景都是采用SD地图与BEV感知融合来呈现道路规则和拓扑关系,无法实现准确的感知推理。需要具有时空属性的先验信息给予支撑,端到端无法依靠有限的离线训练能力推算出来这些东西。同时,这也需要模型具有极强的泛化能力,而模型训练主要受制于离线训练数据的质量和分布无法实现这些效果。
于是,朗歌科技副总经理李战斌得出这样一个结论,无图端到端技术给车企带来的是一种过渡性优势,这种优势会在25年上半年消退。而要继续提升用户的智驾体验,具有车道级拓扑和属性的智驾地图高质量数据会成为竞争关键。
解题的关键就在于智驾地图,智驾地图拥有高质量的时空先验信息,通过embedding(嵌入式)方式进入Transformer,增强端到端的感知预测能力。它可以向大模型输入实例化的场景提示信息,感知得到地图的时空实例化的注意力增强,实时增强模型输出更为准确和全局最优的智驾规控信息。
智驾地图不仅可以作为真值离线训练模型,也可以作为仿真地图,生成4D训练样本,更可以作为前融合的时空先验知识,提升端到端的在线推理能力。智驾地图作为先验知识输入Transformer后,通过embedding,地图数据方式以Q,K,V输入到Cross attention(交叉注意力),作为一种模态,通过attention来增强端到端自动驾驶的感知、规控及安全兜底网络或策略。
按照历史的经验回溯,更能清楚地发现其中存在的问题。为了提升智驾体验,整个行业经历了两次大的算法升维。
第一次是从单目感知与多模块的规则化到分阶段的模型化,实现了经验驱动到海量数据驱动的模型开发范式的变化,引入了大量的先验数据学习,及多目BEV与OCC的出现,实时感知信息量也增大;这个阶段大概是在2023年以前。简单说来,就是最早期的rule-based到后来的数据驱动。
接下来就是2023年开启的分段式模块化到渐进式端到端及双系统范式,系统一采用一体化模型,主要信息来源是BEV特征的时序化及anchor(锚点)实例的初始化输入,系统2更多的在于复杂场景的领航引导信息,相比系统一的效果明显减弱。系统1的信息丢失率减少,上限得到提升。两者都需要实时推理,这又回到了上文提到的问题,感知信息不准确对推理结果造成的影响。导致端到端的下限很低。
有意思的是,两次技术革命的发起者都是特斯拉,然后国内车企迅速将这些技术推向高峰。
外界知道双系统最早是理想汽车上半年首次提出来,但从效果上看,双系统加持下,理想的智驾依然存在很多问题。
在整个行业进入大算力芯片和端到端/世界模型的背景下,如果传感器输入的信息不足,那么欠定/非线性情况凸显,无效解大量增加,导致端到端的下限很低,再增大芯片算力与模型复杂度是无效浪费。这时候要做的就是提高输入环境信息的有效性。智驾地图就是不二之选。
然而,一个矛盾的问题摆在图商们面前,传统智驾方案在使用地图时需要将逐个地图元素通过规则开发的方式应用在路径规划等模块中,而端到端最大的特点就是降低规则开发的诉求。
这里我们来看看朗歌科技在实战中找到的经验。今年6月,CVPR 2024国际自动驾驶挑战赛中,朗歌科技在无图智驾赛道夺冠,击败来自10个国家和地区的120支队伍,斩获创新奖和全国冠军奖。
传统基于规则和小模型的后融合方式在使用智驾地图时存在感知和地图两者分别错误或缺失时信谁的问题。而在端到端时期,智驾地图可以以非监督信息嵌入,作为query,或者key与value,这两种方式输入。
我们先来看第一种,SD地图特征作为key与value输入。例如朗歌参赛的LG-map多模态方案,在有 SD 地图的场景下,LGMap 沿着 SD 中的每个矢量均匀采样固定数量的点,经过正弦位置编码之后,使用 BEVFormer 的方式,将 bev query 分别对 SD 地图特征和来自视觉输入的特征做交叉注意力。SD地图特征作为key和value向量,通过交叉注意力计算,和相机特征融合,得到最终的BEV特征。之所以这样编码,在于SD信息为道路信息,缺少车道级内容,作为检索信息来增强感知更为合适。
第二种,智驾地图特征作为初始化query输入。输入智驾轻地图HQ,每个智驾地图元素编码成一个query,即query的值初始化为地图元素的几何位置和类别,与bev feature通过交叉注意力网络来实现多模态信息的融合。这种“智驾地图+智驾端到端前融合”输入方式能够带来几个明显的好处:
1、将地图先验信息以非规则的模型化方式输入到网络中,与端到端模型降低规则开发的诉求一致;
2、基于地图增强的query与BEV感知特征,端到端和渐进式端到端都获得先验知识的增强,提高模型下限和智驾用户体验;
3、更新后的query通过map decoder,输出前融合后的局部更新地图,通过数据闭环回传,提升云端众包建图质量和效率,促进车云协同的周天智能体系飞轮的快速运转。
余凯和曹旭东都有一个基本共识,城市NOA会在3-5年内迎来大规模爆发,端到端是一个很好的抓手,但要保证智驾的安全和体验有质的飞跃,行业需要重新评估智驾地图的价值。