在BEV感知兴起之前,自动驾驶感知任务大部分基于2D感知。2D感知的输入为一张图像,输出为图像空间中的检测和分割结果,其真值是通过在图像空间中使用2D标注技术而获得的。2D标注由专业的标注人员通过特定的工具在图像上进行绘制而完成的,这种方式非常直接,但是其标注效率低、人力成本高。
图1 2D图像标注演示
由于2D图像数据缺少深度信息,无法反映场景的真实结构,因此实际自动驾驶系统中往往还会使用3D数据。3D数据的真值需要使用3D标注技术获得。由于3D标注介于2D标注和4D标注之间,其通常是基于单帧的点云进行边界框标注,其难点在于3D标注工具的开发。
虽然3D数据很好地反映了单帧的场景结构,但是实际自动驾驶车辆行驶过程中,周围环境往往是具有时序的,仅有3D信息无法很好地满足感知需求。随着BEV感知技术的兴起,4D标注技术应运而生,其用于标注具有时序的3D数据,即4D标注=3D标注+时序。
4D标注是什么?
BEV感知算法的输入为具有时序的视频数据,输出为时序信息,例如跟踪、预测、速度、加速度等,其训练数据不仅依赖于3D位姿标注数据,还需要包含时序信息。因此,4D标注不仅需要标注3D空间中的静态目标,还需要标注具有时序信息的动态目标,它是一项为输出3D空间中具有时序信息的任务提供真值的技术。
4D标注的大致流程以下图为例,其输入为来自6个周视相机的图像,在3D空间中重建道路环境并且进行标注,将标注结果投影到图像上以判断标注结果是否精确。对于动态目标,首先在单帧中标注3D边界框,然后在时域上对其进行跟踪以获得动态目标的额外属性。
图2 4D标注演示
4D标注在自动驾驶中的作用
上文简单阐述了4D标注的大致流程,下面我们对其在自动驾驶中的作用进行介绍。
2.1 为各种感知任务提供真值
4D标注可以为各项行车和泊车感知任务提供训练和评测的真值,例如分割、freespace、库位检测和3D跟踪等。在生成真值的过程中,4D标注其实在构建一套云端的高精度自动驾驶系统。
图3 各项行车和泊车感知任务
2.2 作为数据闭环中的关键模块
4D标注是数据闭环中的关键模块,整个智能驾驶系统包括终端和云端。
终端负责量产模型部署和影子模型部署。通过对终端获取的原始数据加密传输给云端,云端进行一系列数据操作,包括端侧问题挖掘、4D标注、自动化模型训练、OTA升级等,将最终生成的模型部署到终端上,从而实现整个数据闭环。
图4 整个数据闭环流程
2.3 用于仿真中的场景库构建
4D标注过程中对场景中静态和动态目标重建以构建场景库,包括构建静态局部地图以及获取动态目标及其属性。这些场景库可以根据某些规则进行合成,例如将新的车辆加入已有的背景环境中,不仅可以生成新的真值数据,还能进行仿真测试。通过4D标注构建场景库的方式可以生成真实感的数据,从而解决感知仿真问题。
图5 场景库构建过程
2.4 用于自动驾驶单环节/端到端测试
自动驾驶系统中通常包含感知、定位、决策规划和控制等算法模块。
对于感知算法,可以通过4D标注生成的真值数据直接进行测试;
对于定位算法,输入感知结果和地图,输出车辆位姿信息;
对于决策规划算法,输入感知和定位结果以及地图,输出车辆轨迹;
对于控制算法,输入车辆轨迹,输出车辆控制指令。
由于所有输入信息都可以通过4D标注获得,因此可以对单环节进行测试,当然也可以进行端到端测试。
图6 单环节/端到端测试
特斯拉于2021年提出了4D标注技术框架,其整体上分为两部分。一部分采用真实数据进行标注,另一部分通过仿真数据来标注,采用“以真身采集数据标注为主,仿真数据为辅”的策略。
在真实数据标注方面,与传统对单帧图像进行标注不同,Tesla直接对一段clip进行标注作为训练样本,每个clip包含所有传感器信息,例如多相机图像、IMU、GPS、里程计等。云端大模型对这些数据进行预处理操作,例如语义分割、深度估计和光流跟踪等。然后,使用这些clip来重建道路静态环境。由于一段clip在其对应位置处无法完整地重建道路环境,因此将多辆车在该位置处的clip或者同一辆车在不同时刻在该位置处的clip进行聚合,以获得该位置处完整局部区域的静态重建结果。对于动态重建而言,根据语义分割和深度估计结果,可以获得车辆的初始3D空间,然后基于光流跟踪,生成时序的标注结果。
图7 特斯拉真实数据标注
在仿真数据标注方面,通过对真实数据进行重建以及对重建结果进行真实感渲染,以生成仿真结果。仿真数据标注的目的是为真实场景难以采集或者难以标注的情况生成真值,例如高速上出现宠物(难以采集)或者城区出现密集行人(难以标注)。
图8 特斯拉仿真数据标注
4D标注涉及的技术栈
4D标注是一项复杂且综合性的技术,涉及到SLAM、三维重建、离线大模型、NeRF等诸多技术栈。
使用激光雷达SLAM(例如LIO-SAM)实现激光点云建图,为4D标注提供场景3D数据;
使用SFM实现纯视觉的稀疏点云构建和相机位姿估计,也能够通过视觉的方式为4D标注提供场景3D数据;
使用定位技术能够实现对静态标注结果的复用;
使用NeRF能够实现三维重建或者真实感渲染,从而为corner case生成真实感的仿真数据;
使用多传感器融合技术来提供车辆位姿先验信息,从而为SFM提供尺度信息,并且也能提高激光SLAM的鲁棒性;
使用世界模型提供通用的语义信息;
使用激光雷达感知进行跨传感器的真值生成,例如将激光雷达生成的3D检测结果作为视觉的真值。
图9 4D标注涉及的技术栈
总而言之4D标注技术非常重要,其提供的真值数据是感知的基石,只有充分了解数据的特性,才能够理解算法模型的底层原理。