图片来源:CVPR 2024自动驾驶国际挑战赛
CVPR 2024 Autonomous Grand Challenge Track Mapless Driving无图智驾算法比赛吸引了120个团队参赛,共提交了729份算法,算是规模很大的比赛了。并非智能驾驶不需要高精度地图,相反,智能驾驶离不开高精度地图,但高精地图成本高、更新慢、覆盖面窄、政策限制多,诸多因素叠加导致高精地图在很多城市缺失。为解决这个问题,不是放弃高精地图,而是在线重新生成高精度地图,这就是无图智驾算法比赛的任务。
图片来源:小米论文Leveraging SD Map to Assist the OpenLane Topology
左边是一个标准地图的示例,当然还包括红绿灯、车道线以及道路标志。右边是一个对应的高精度地图的真值,比赛的任务就是创造一个模型,输入左边的图像以及有限的道路细节,生成右边的高精度地图。
比赛基于OpenLaneV2数据集进行,任务是检测车道线和交通元素(红绿灯、道路标牌等),并且预测车道之间、车道与交通要素之间的拓扑关系,在线建立局部高精度地图。比赛第一名是吉利旗下的朗歌科技,成立于2021年,是吉利汽车公司100%控股的汽车智能化服务商 ,致力于打造高精地图与标精地图融合的OneMap生产体系,面向各类地图应用场景提供产品。小米第二,博世是第四或第三,带*是指未参加最终的官方排名,需要指出博世有两个团队参加了比赛,还有一个团队是第八名。其他知名企业还有AMD和滴滴。
OpenLaneV2数据集是上海AI实验室、OpenDrive实验室和华为诺亚方舟实验室联合打造的数据集。它还有一个名字就叫OpenLane-Huawei,其最大特色是加入了场景理解,有助于端到端自动驾驶的测试。
图片来源:论文OpenLane-V2: A Topology Reasoning Benchmark for Unifed 3D HD Mapping
图片来源:论文OpenLane-V2: A Topology Reasoning Benchmark for Unifed 3D HD Mapping
OpenLane V2的场景语义理解,有点像看图作文。OpenLane V2的原始数据采集来自Argoverse 2和nuScenes 。这个或许是最大缺点,其原始数据都来自美国和新加坡的城市,包括迈阿密、匹兹堡、华盛顿、奥斯汀、底特律、波士顿和新加坡,这些都是中小城市,交通不算复杂,中国的交通远比这些城市复杂的多。
OpenLane V2与V1相比,V2提供的是车道中心线的3D标注,而V1提供的是车道分割线3D标注。此外,还提供了交通标志(交通灯和路标)及其属性的2D框标注,和车道中心线之间以及车道中心线与交通要素之间的拓扑关系标注。数据集的首要任务是场景结构感知和推理,这需要模型能够识别周围环境中车道的可行驶状态。该数据集的任务不仅包括车道中心线和交通要素检测,还包括检测到的对象的拓扑关系识别。数据集定义了OpenLane-V2 Score (OLS),该指标为各个子任务指标的平均值:
其子任务包括3D 车道检测,任务定义如下:从覆盖整个水平 FOV(视场角-Field Of View) 的多视图中检测带方向的3D车道中心线,用平均精度表示。交通标志检测,要求同时感知交通要素(交通灯和路标)的位置及其属性。与典型的2D检测数据集相比,挑战在于由于室外环境的大规模,交通要素的尺寸很小,与典型的多分类2D检测任务类似。
识别拓扑关系:给定多视图图像,该模型学习识别车道中心线之间以及车道中心线与交通要素之间的拓扑关系。最相似的任务是图领域的连通性预测,其中顶点是给定的,模型只预测边。在数据集的例子中,模型的顶点和边都是未知的。因此,首先需要检测车道中心线和交通要素,然后建立拓扑关系。
2024年的比赛相比2023年增加了标准地图即SD地图的数据。
朗歌科技算法的整体架构
图片来源:朗歌的论文是LGmap: Local-to-Global Mapping Network for Online Long-Range Vectorized HD Map Construction。
朗歌科技算法的整体架构如上图,包含六个主要组件,一个配备了SVT的图像特征骨干网,主要做BEV,朗歌科技选择了ViT-L大模型做骨干网。一个分层时域混合,即HTF。一个统一的instance分割与检测,一个交通元素检测,朗歌选择的是YOLO V8和YOLO V9做模型集成。一个lane-lane拓扑即LLT,一个lane-TE拓扑即LTT。
输入图片首先经过Image Backbone,提取特征,得到PV(perspective view)特征。经过论文提出的SVT,转为BEV特征。所谓SVT,就是同时使用前向投影方法英伟达的Lift-Splat-Shoot(LSS)和反向投影方法BEVFormer进行特征转换。LSS部分,使用激光雷达点云提供的深度作为监督。在BEVFormer部分,在SD map的polyline采样固定数量的点,编码成sinusoidal embedding,与图像特征进行交叉注意力。利用深度信息和SD地图的先验知识,弥补了前向稀疏特征表示的局限性。
有两个并行的decoder,分别是instance-wise detection decoder和segmentation decoder,其中前者负责输出待检测的目标,而后者起辅助作用,加快收敛。
图片来源:论文 LGmap: Local-to-Global Mapping Network for Online Long-Range Vectorized HD Map Construction。
考虑时序信息,提升远距离建图的准确性。提出HTF,实际是将数据流和数据堆叠结合的方式。所谓数据流是指RNN的范式,将信息通过内存进行传递;而堆叠就是直接将信息拼接。RNN方式不利用GPU加速,堆叠方式增加了计算量,实际上应该以堆叠为主。
LLT采用了北京理工大学、旷视科技、中国科技大学、澳门大学联合提出的TOPOMLP算法。
TOPOMLP算法框架
图片来源:论文TOPOMLP: A SIMPLE YET STRONG PIPELINE FOR DRIVING TOPOLOGY REASONING。
朗歌科技的算法包含大模型和双重投影,消耗算力惊人,一般都是用8张英伟达A100显卡,朗歌科技是用了16张英伟达A100显卡做试验。
接下来看小米的,论文题目Leveraging SD Map to Assist the OpenLane Topology。
小米未给出整体框架,因为整体框架已经固化,对于业内人士而言比较熟悉,整体框架和朗歌科技非常接近,只不过小米在BEV投影上没有花费太多力气,直接选择了BEVFormer。整体框架一般是这样:首先,经过图像骨干网提取特征,再转化为透视特征,再经过BEVFormer得到BEV 特征。小米选择的BEVFormer是2022年初南京大学、上海AI实验室和香港大学联合提出的,其图像骨干网通常是韩国人的VoVNet-99,这个参数大约是9600万,和朗歌的ViT-L高达2.23亿的参数相比比较吃亏(小米也有用InternImage-b做骨干网,参数1.13亿,性能略低于ViT-L。基于BEV feature,建立一个SD地图编码器来提取SD地图的特征。接下来经过Lane解码器得到lane的检测结果。
小米的编解码器架构
图片来源:小米论文《Leveraging SD Map to Assist the OpenLane Topology》
小米主要在标准地图编解码环节下功夫,首先将标准地图看成无数条线组成的多边形线条,每个线条取N个点,并按正弦曲线进行编码嵌入,这实际就是transformer的token输入。
p(,)表示polyline上采样点坐标,j表示维度的索引, d表示编码维度,T表示temperature scale。temperature 中文意思是“温度”,从ChatGPT开始引入。温度参数通常用于一种叫做“softmax”概率分布的算法中,该算法被广泛应用于生成式模型中,包括机器翻译、自然语言处理和图像生成等领域。
在softmax算法中,温度参数用于调整生成结果的熵值。熵是信息论中用于表示信息不确定性的一种量度,如果熵值越高,表示结果的不确定性也就越大。温度参数通过控制生成结果的熵值,可以使结果更加多样化或更加确定性。笔者推测小米会设定的比较低。一个one-hot向量 K用于编码lane类型。最后,所有的采样点的positional embedding(就是上面公式的sinusoidal embeddings)和lane的类别embedding拼接起来,得到N * d+K维度的SD map polyline编码。先用一个线性 layer调整模型维度,再输入transformer编解码器。在SDMap Encoder里,先做一次自注意力矩阵乘法,再做一次交叉注意力矩阵乘法,k, v是BEV 特征,BEV特征增强了SD地图的特征。小米选择用LaneSegNet提出的Lane Attention操作。
图片来源:小米论文《Leveraging SD Map to Assist the OpenLane Topology》
解码器架构如上图,上下文嵌入和编码位置嵌入作为query(即图上的Q)输入Lane Decoder,先进行一个自注意力,再接一个Lane注意力与BEV 特征进行交互,再接一个交叉注意力跟SD地图嵌入进行交互。
LaneSegNet是复旦大学、OpenDrive实验室、清华大学和上海交通大学联合提出的,是第一个基于端到端的Lane级在线地图生成模型。
LaneSegNet模型管线
图片来源:论文LaneSegNet: Map Learning with Lane Segment Perception for Autonomous Driving。
无图智能驾驶领域基本上没啥可创新的,框架基本确定,基础工作高校都已经完成了,所以前三名的成绩相差非常微小,第二名与第三名DET成绩相差仅仅是0.0004,接下来的工作不外乎更改骨干网或者增加注意力计算稠密度,这两者都会导致算力和存储带宽需求增加,落地困难进一步加大。尽管如此,这还是学术圈的,产业界要进化到这一步至少还得3年,博世之类的产业界选手技术能力并非真的低下,而是他们着眼于落地,尽量缩小计算规模和存储带宽的需求,因此成绩不太好看。
免责说明:本文观点和数据仅供参考,和实际情况可能存在偏差。本文不构成投资建议,文中所有观点、数据仅代表笔者立场,不具有任何指导、投资和决策意见。