+关注

手机看

微信扫一扫，随时随地看

万字了解 BEV 感知算法

智驾人六耳

2025-03-17 16:30发布于上海

+关注

来源:汽车电子与软件 | 首图:网络 | 作者:易显维、虞凡

全文 1W+ 字，预计阅读 55-60 分钟

本文节选自《自动驾驶BEV感知算法指南》第一章，将带领读者快速了解BEV感知算法，涵盖解决的问题、常见范式、分类与不足。

#01

BEV算法解决的问题

在自动驾驶和智能交通系统中，车辆需要准确、全面地感知其周围环境以做出安全、有效的决策。例如，当一辆自动驾驶汽车行驶在繁忙的城市街道上时，它必须能够同时检测到前方的行人、侧方的车辆，以及远处的交通信号灯等多种信息，检测结果如图1-1所示。这些信息可能来自车上的多个传感器，如前置摄像头、激光雷达（LiDAR）和毫米波雷达等。

图 1-1 目标检测效果

然而，由于这些传感器类型和安装位置的多样性带来了几个问题，例如图1-2为特斯拉的摄像头安装方式。下面具体了解下这些问题。

图 1-2 特斯拉摄像头安装方式

问题1：单个摄像头成像中存在尺度不统一问题。

在机器视觉和自动驾驶技术的研究中，数据集的质量无疑占据着举足轻重的地位。nuScenes数据集以其丰富性和多样性，在自动驾驶领域中独树一帜。这一宝贵资源为我们提供了海量的多模态传感器数据，其中包括了高清的相机图像、精确的激光雷达点云数据、详尽的GPS定位信息，以及IMU（惯性测量单元）数据等。这些数据的全面性和互补性，对于自动驾驶算法的训练与验证来说，具有不可或缺的价值。

然而，在深入挖掘和分析这些数据时，我们会遇到一些引人深思的视觉现象。以图1-3为例，图中近处的白色车辆与远处的黑色车辆形成了鲜明的对比：近处的白色车辆在视觉上显得异常庞大，而远处的黑色车辆则相对微小。

这一现象实际上揭示了一种人们常常会遇到但可能并未深究的视觉错觉——“近大远小”，也被称为“透视错觉”。这种错觉源于我们人类的视觉感知系统的一种固有特性：当观察物体时，离观察者越近的物体会被感知得越大，反之则越小。这是因为我们的眼睛和大脑在处理接收到的视觉信息时，会不自觉地根据物体与观察者的相对距离来调整对物体大小的感知。然而，这种自然的调整过程并不总是准确无误的，因此便产生了这种视觉错觉。

在自动驾驶算法的研发过程中，如何有效处理这种透视错觉成为一项至关重要的任务。为了确保自动驾驶系统的安全性和可靠性，算法必须能够精确地感知和理解道路环境中的每一个物体，无论这些物体距离车辆的远近。为了实现这一目标，研究者们巧妙地运用了多传感器数据融合技术。通过综合处理来自相机、激光雷达等不同传感器的数据，算法能够更为精确地估算出物体的实际位置和大小，从而在一定程度上纠正因透视错觉而产生的感知偏差。

此外，为了进一步消除透视错觉对自动驾驶算法的影响，研究者们还会对图像进行一系列的预处理和特征提取操作。例如，透视变换技术被广泛应用于将图像中的物体投影到一个统一的平面上，从而使得不同距离的物体在图像中具有相同的大小比例。这一技术有效地消除了透视错觉带来的大小感知差异。同时，算法还会提取物体的颜色、形状、纹理等关键特征，以辅助系统更准确地识别和理解道路环境中的各种物体。这些预处理和特征提取操作不仅提高了自动驾驶算法的感知精度，也为其在实际道路环境中的安全运行提供了有力支持。

图 1-3 透视变换技术

①　CAM_FRONT_LEFT：左前拍摄

②　Prediction：预测结果

③　Ground Truth：实际标注（真值）

④　CAM_FRONT：正面拍摄

⑤　CAM_FRONT_RIGHT：右前拍摄

问题2：不同的传感器捕捉到的数据往往具有不同的视角、分辨率和表示形式。存在用什么方式和什么样的坐标系融合多种传感器的信息的问题。

在自动驾驶技术中，不同的传感器捕捉到的数据具有截然不同的特性和表现形式。这些传感器数据不仅在视角上有所差异，还在分辨率和信息呈现方式上大相径庭。

以摄像头为例，它能够捕捉到丰富的颜色和细腻的纹理信息，这对于物体识别和场景理解至关重要。然而，摄像头的视角相对受限，通常只能捕捉到镜头前方的场景，而且它对光照条件极为敏感。在光线不足或过曝的环境下，摄像头的性能可能会大幅下降，导致图像质量不佳或信息丢失。

另一方面，激光雷达（LiDAR）则以其精确的三维空间信息捕捉能力而著称。激光雷达通过发射激光并测量反射回来的时间来计算物体的距离和位置，从而构建出三维点云数据。这些数据为自动驾驶系统提供了宝贵的空间感知能力，使得车辆能够精确地感知周围环境并作出相应的驾驶决策。然而，激光雷达的数据相对稀疏，尤其是在远距离或物体表面反射率较低的情况下，可能无法捕捉到足够的信息。此外，激光雷达数据本身并不包含颜色信息，这在一定程度上限制了其对环境的全面感知能力。

如何将摄像头和激光雷达等不同来源、不同形式的数据有效地整合和利用起来，成了自动驾驶领域亟待解决的问题。为了实现这一目标，研究者们探索了多种数据融合方法。例如，他们可能会利用深度学习技术来提取摄像头图像中的语义信息，并将其与激光雷达的点云数据进行对齐和融合。这种方法能够充分利用两种传感器的优势，提高自动驾驶系统的感知精度和鲁棒性。

如图1-4所示，该图展示了nuScenes数据集中一个典型场景的图像数据和点云数据。从图像数据中，我们可以清晰地看到道路、车辆、建筑物等元素的颜色和纹理细节；而点云数据则为我们提供了场景中物体的精确三维位置和形状信息。通过有效地融合这些数据，自动驾驶系统能够获得更加全面和准确的环境感知能力，从而为实现安全、高效的自动驾驶奠定坚实基础。

BEV算法提供了一个统一的坐标系，使得不同类型的传感器数据可以在同一个空间中进行处理和融合。

图 1-4 nuScenes数据集中一个场景的图像数据和点云数据

问题3：远处的目标物体被遮挡的问题。

在自动驾驶的视觉感知系统中，远处目标物体被遮挡是一个普遍存在的问题。这种情况在图像数据中尤为明显，因为二维图像无法提供深度信息，导致前后物体在图像上可能重叠。

以图1-5为例，当我们根据nuScenes数据集中的标记框将不同目标物体框选出来时，可以明显看到多个标记框重叠在一起。这种重叠现象直接反映了在摄像头捕获的图像数据中，远处的物体被近处的物体遮挡。这种遮挡不仅会影响自动驾驶系统对远处物体的准确识别，还可能导致系统对道路环境的误判，从而引发安全问题。

为了解决这个问题，研究者们采取了多种策略。一方面，他们利用激光雷达等传感器提供的三维空间信息来辅助图像数据的解析，通过数据融合技术提高系统对遮挡物体的感知能力。另一方面，他们也在算法层面进行改进，例如引入深度学习模型来预测和补偿遮挡部分的信息，或者通过多帧图像的时序分析来推测被遮挡物体的运动轨迹和状态。

远处目标物体被遮挡是自动驾驶技术中一个具有挑战性的问题。但通过结合多种传感器数据和先进的算法技术，我们可以有效地提高自动驾驶系统对这一问题的处理能力，从而确保系统的安全性和可靠性。

图 1-5 nuScenes数据集标记框绘制结果

BEV感知算法的出现，正是为了应对自动驾驶中复杂环境感知的难题。其核心思想是将来自不同视角、不同类型的传感器数据，如摄像头图像、激光雷达点云等，统一转换并集成到一个共同的鸟瞰图表示空间中。在这个鸟瞰图空间中，所有物体都按照其实际地理位置被投影到一个统一的平面上，进而消除了由传感器视角差异和数据格式不一致所带来的困扰。

图 1-6 nuScenes数据集某场景俯视图效果

图1-6展示了nuScenes数据集中某场景的俯视图效果，生动地体现了BEV算法的强大功能。在这个俯视图里，我们可以看到之前提到的三个关键问题都得到了较好的解决。图中，自动驾驶汽车正驶向一个繁忙的十字路口，前置摄像头捕获了前方的行人和车辆，而激光雷达则精确地描绘了周围环境的三维结构。

通过应用BEV算法，这些原本分散、异构的传感器数据被巧妙地融合到了一张鸟瞰图中。这张图不仅提供了一个全面、准确的环境模型，还使得各种道路使用者，如行人、车辆，以及重要的道路标记等关键信息一目了然。在这个模型中，每一个元素都按照其真实世界的地理位置被精确标注，为自动驾驶汽车的决策系统提供了无可比拟的便利。

这种全面的环境感知能力，对于自动驾驶汽车来说至关重要。它不仅能够提升车辆对周围环境的理解深度，还能大幅增强自动驾驶系统在复杂交通场景中的反应速度和决策准确性。因此，BEV感知算法已然成为自动驾驶技术中不可或缺的一环，为自动驾驶汽车的安全、高效行驶提供了坚实的技术支撑。

问题4：特征提取模块和下游模块兼容性问题。

在自动驾驶技术的实际应用中，特征提取模块与下游模块的兼容性问题一直是技术实现的难点之一。传统上，不同的传感器在提取特征时，往往以其自身的位置为基准设定坐标系，这导致了不同传感器提取的特征之间缺乏统一的参照标准，难以直接对接至下游的算法模块。然而，BEV算法的出现，为这一问题提供了有效的解决方案。

BEV算法之所以能够解决兼容性问题，主要得益于其输出格式与下游模块之间的高度兼容性。在自动驾驶系统中，预测模块需要全面而准确地了解当前环境中的动态物体，以便预测它们未来的行为。同时，规划模块则需要一个全局的、统一的视角来制定最优的行驶路径。BEV算法生成的鸟瞰图不仅包含了丰富的环境信息，还以统一的坐标系为基准，使得预测模块和规划模块能够直接、高效地利用这些信息。

以一个具体的场景为例，当自动驾驶汽车在繁忙的交叉路口行驶时，前置摄像头可能捕捉到行人过街的图像，而侧置摄像头则捕捉到正在靠近的其他车辆。在这种情况下，BEV算法能够将这两个不同视角的图像融合到一个统一的鸟瞰图中。这个鸟瞰图不仅清晰地展示了行人和其他车辆的位置和状态，还提供了一个全局的、统一的视角，使得预测模块能够准确地预测它们未来的运动轨迹。规划模块则可以利用这个鸟瞰图，结合其他交通信号信息，为自动驾驶汽车制定一条安全、高效通过交叉路口的路径。

问题5：处理传感器感知的重叠区域的问题。

在自动驾驶系统中，多个摄像头同时覆盖某些区域是常见的情况。然而，这也带来了一个问题：目标在这些重叠区域可能会被重复检测或视野被裁剪，导致感知结果的准确性和稳定性受到影响。针对这一问题，BEV算法通过其全局视角的处理方式提供了有效的解决方案。

BEV算法能够将来自不同摄像头的感知结果进行有效的整合和去重。当多个摄像头同时捕捉到同一个目标时，BEV算法能够识别这些重复的检测结果，并将它们整合为一个准确、唯一的表示。这种处理方式不仅提高了对重叠区域目标的感知精度，还确保了感知结果的稳定性和可靠性。

以一个具体的场景为例，在一个具有前后两个摄像头的自动驾驶汽车中，当两个摄像头同时捕捉到前方的同一辆汽车时，如果不进行处理，这辆汽车可能会在鸟瞰图中被重复显示两次。然而，通过BEV算法的处理，这两个摄像头的感知结果被有效地整合到一起，并在鸟瞰图中只显示一次这辆汽车。这样的处理方式不仅提高了对重叠区域目标的感知精度，还确保了感知结果的稳定性和可靠性，为自动驾驶汽车的安全行驶提供了有力保障。

#02

BEV感知算法的常见范式

为了赋予自动驾驶感知算法以直观的环境表示，从而实现上文提及的各种优势，BEV算法被广泛应用于自动驾驶系统中。BEV算法通过一种一般化的处理范式，将车辆周围环境的信息进行高效整合与呈现，为自动驾驶车辆的决策和规划提供了有力支持。以下将详细介绍这一范式的关键步骤。

（1）数据获取

在这一步，车辆会利用多种传感器，如摄像头和激光雷达，来捕捉周围环境的信息。摄像头可以捕获图像数据，提供丰富的颜色和纹理信息；而激光雷达则生成点云数据，精确测量物体与车辆之间的距离和位置。

这些传感器被精心布置在车辆周围，以确保能够捕捉到全方位的环境信息。通过结合图像和点云数据，算法能够更全面地理解车辆周围的环境。

（2）特征提取

一旦收集到原始数据，算法会进行预处理和特征提取。图像数据的处理可能包括去噪、增强和标准化等步骤，以突出重要的视觉特征，如边缘和纹理。

点云数据的处理可能涉及点云的滤波、分割和特征计算，以提取出形状、大小、密度等关键特征。这些特征对于后续的目标检测和场景理解至关重要。

（3）BEV视角转换

BEV视角转换是整个算法的核心部分。它的目标是将从各个传感器获得的不同视角的数据统一转换到一个俯视角下。

在这个过程中，算法需要考虑传感器的内外参数、车辆姿态以及环境的三维结构，以确保转换的准确性和一致性。通过BEV转换，车辆周围的环境被重新映射到一个统一的二维平面上，从而大大简化了后续的处理和分析任务。

（4）多模态特征融合

在BEV空间中，来自不同传感器的特征需要进行有效的融合。这一步骤旨在结合图像和点云数据的互补性，以提高整体感知的准确性和鲁棒性。

特征融合可以采用多种方法，如简单的叠加、加权平均或更复杂的深度学习模型。通过融合处理，算法能够充分利用多种数据源提供的信息，对周围环境进行更全面、准确的理解。

（5）具体的感知任务执行

在融合后的BEV特征图上，算法可以执行各种具体的感知任务。这些任务通常包括目标检测、跟踪、语义分割等。由于BEV表示提供了直观且统一的环境视图，因此这些任务在BEV空间中变得相对容易实现。

例如，目标检测算法可以在BEV特征图上搜索并定位感兴趣的目标（如车辆、行人等），而跟踪算法则可以利用连续帧之间的信息对目标进行持续跟踪。这些感知结果对于自动驾驶系统的决策和规划至关重要。

通过以上步骤，BEV算法为自动驾驶车辆提供了一个全面且直观的环境表示方法。这种方法不仅简化了感知任务的处理流程，还提高了整体感知的准确性和鲁棒性。

#03

BEV算法的分类

鉴于BEV算法的核心在于其独特的视角转换，特别是通过BEV 视角为自动驾驶提供了直观且全面的环境表示，这使得BEV算法相比其他视图视角的算法具有显著优势。为了更系统地理解BEV算法的技术框架，笔者参考了大量相关文献，并根据视角转换模块所采用的不同技术方法，将BEV算法归纳为4个主要类别：基于单应性的方法、基于深度估计的方法、基于多层感知机的方法以及基于Transformer的方法。通过这种分类方式，我们可以清晰地看到BEV算法体系的整体架构和各个组成部分之间的关联，如图1-7所示。这样的分类有助于更深入地了解和研究BEV算法的不同实现方式及其优缺点。

图 1-7 透视图和鸟瞰图视角转换的算法分类

3.1 基于单应性的方法

单应性是指两个平面之间的映射关系，刻画了某平面上的点如何通过特定变换映射至另一平面，单应矩阵常用来表达两张图像间共同平面上点的变换关系。将PV转换为 BEV 的传统方法是利用两个视图之间固有的几何投影关系。它的核心是利用地面上的物理映射关系来桥接两个视图。这个转换过程通常会用到IPM方法。

这里简单介绍一下IPM方法。BEV算法中的IPM方法，即逆透视映射（Inverse Perspective Mapping），是一种将车载相机捕获的图像从透视视角转换为鸟瞰视角的技术。这种方法通过几何变换，能够将道路和车辆等物体在图像中的畸变进行校正，生成更准确的车辆行驶环境二维平面图，为自动驾驶和智能车辆导航提供重要支持。

IPM方法引入了附加的约束，即逆映射点位于水平面上，从而实现了从透视图图像到顶视图图像的变形。变换首先通过应用相机旋转单应性进行预处理或后处理，然后进行各向异性缩放。单应性矩阵可以从相机的内外参中导出。

然而，基于IPM的方法在很大程度上依赖于地面是一个平面的假设，这可能导致在检测地平面上方的物体时出现困难。为了解决这一问题，一些方法开始融入更多的语义信息以减少失真。例如，某些方法利用语义信息将透视图中的物体足迹转换为BEV中的对应表示，从而遵循了单应性隐含的“地面是一个平面”的假设。由于正面视图和鸟瞰图之间存在明显的差异和变形，因此单纯依赖IPM往往无法生成完全无失真的BEV图像或语义图，GAN（生成对抗网络）因此被引入用于提高生成的BEV特征或图像的真实性。基于GAN的方法能够有效地减轻图像的失真现象，并增强3D检测的准确性。基于单应性的方法依赖于透视视图与鸟瞰视图之间的地面物理映射关系，通过简单的矩阵乘法实现图像转换，同时结合语义信息和GAN技术提高转换质量。

3.2 基于深度估计的方法

深度信息在将2D像素和特征提升到3D空间的过程中十分重要。因此，基于深度预测的透视图到俯视图转换方法成为解决这一问题的新趋势。在评估这些方法时，我们需要考虑视图转换的方法、深度监督的包含以及如何与基于IPM的方法集成。

基于深度的透视视图空间到俯视图变换主要有两种策略：基于点的视图变换和基于体素的视图变换。基于点的方法利用深度估计将像素转换为3D空间中的点云，虽然相对简单且能集成成熟的深度估计和3D检测技术，但在数据安全和训练部署方面存在缺陷。另一方面，基于体素的方法通过离散化3D空间并构建规则结构来进行特征转换，它们在大规模场景结构信息的覆盖上更为有效，并且与端到端的视图转换学习范式兼容。如图1-8所示，展示了基于点的方法将2D图像像素转换为伪激光雷达，并使用基于激光雷达的方法进行3D物体检测的过程。

①　Stereo/Mono images：立体/单色图像

②　Depth map：深度图

③　Pseudo LiDAR：伪激光雷达

④ （a）Pseudo-LiDAR pipeline：伪激光雷达处理流程

⑤　Dense Pseudo-LiDAR point cloud：稠密伪激光雷达点云

⑥　Sparse LiDAR Point Cloud：稀疏激光雷达点云

⑦　KNN graph：K最近邻图

⑧　Depth Correction：深度校正

⑨ （b）Pseudo-LiDAR++ for more accurate depth estimation：增强型伪激光雷达（以更准确估计深度）

图 1-8 基于点的方法将2D图像转换为伪激光雷达，并使用基于激光雷达的方法进行3D物体检测

在预测深度分布方面，不同的方法对应不同的策略。一些方法假设特征沿射线均匀分布，而另一些则明确预测深度分布并使用该分布构建3D特征。BEVDet方法进一步推动了基于深度的透视图到俯视图转换的研究。该方法遵循了LSS（详见4.1.4节）的范式，并创新性地提出了一种专门用于BEV上的多视图相机3D检测的框架。这个框架精心设计了4个关键组件：图像视图编码器、视图变换器、BEV编码器和检测头。通过这些组件的协同工作，BEVDet实现了从原始图像到精确BEV的转换，并进行了高效的3D检测。有关BEVDet的详细内容见5.1.1节。

除了单目深度估计，立体匹配在多视图设置下能够更为准确地预测深度信息，进一步提升了预测精度。在早期的多视图设置研究中，为了实现全覆盖并减少摄像机数量，相邻视图间通常设置大量的重叠区域。然而，这种做法导致深度估计更加依赖单目理解，增加了估计的复杂性。相比之下，基于BEV的方法在多视图感知方面具有一定优势，尤其在双目设置下，深度估计的表现更为突出。近年来的双目方法创新性地利用平面扫描表示进行立体匹配和深度估计，通过精巧地从平面扫描特征体积中采样体素和BEV特征，实现了更为精确的3D检测。

基于深度的方法通过利用深度信息将2D像素和特征提升到3D空间，从而实现更精确的视图转换和3D检测，进一步提高了算法的性能和效率。

3.3 基于多层感知器的方法

基于多层感知器的方法利用多层感知器作为复杂的映射函数，将输入映射到不同模态、维度或表示的输出，以实现从透视视图到BEV视图的转换。

为了消除相机校准设置中的继承感应偏差，一些方法采用MLP来学习相机校准的隐式表示。例如，VPN视图解析网络（视图解析网络）选择了两层MLP，利用了全局感受野的需求，通过“关注-映射-重塑”的过程将每个PV特征图转换为BEV特征图，然后添加来自不同相机的所有特征图以进行多视图融合。PON（Pyramid Occupancy Networks，金字塔占用网络）则是基于网络对于垂直上下文将特征映射到BEV的需求，如图1-9所示，利用特征金字塔提取多个分辨率的图像特征，使用MLP沿高度轴折叠图像特征并沿深度轴扩展来执行视图变换。

图字翻译：

①　Image features：图像特征

②　Collapse along height axis：沿高度轴折叠

③　Bottleneck features：瓶颈特征

④　Expand along depth axis:沿深度轴展开

⑤　Polar BEV features:极性BEV特征

⑥　Resample to cartesian:重新采样为笛卡尔

⑦　Birds-eye-view features:鸟瞰图二维特征

⑧　Semantic occupancy grid map:语义占用网格图

⑨　Topdown network：自上而下网络

⑩　Multiscale dense transformers：多尺度密集transformers

⑪　Feature pyramid：特征棱锥体

⑫　ResNet-50 backbone network：ResNet-50骨干网

⑬　Input image：输入图像

⑭　Image feature：图像特征

图 1-9 PON按列将透视图特征转换为俯视图特征

基于MLP的方法利用多层感知器作为映射函数，实现了视图间的转换，为自动驾驶等应用提供了重要的感知能力。

3.4 基于Transformer的方法

除了上述方法外，Transformer也是将透视图映射到俯视图的出色解决方案。

基于Transformer的方法通过设计一组BEV查询，结合其位置编码，利用BEV查询和图像特征间的交叉注意力执行视图变换。Tesla是第一个使用Transformer将透视图特征投影到 BEV平面上的公司。

根据查询的粒度，这些方法可分为基于稀疏查询、基于密集查询和基于混合查询三类。基于稀疏查询的方法可以产生稀疏感知结果，适用于以对象为中心的感知任务，但在密集感知任务中面临挑战。而基于稠密查询的方法在三维空间或BEV空间中预先分配空间位置，通过查询和图像特征间的交互实现密集BEV表示，支持多种下游任务。基于稀疏查询的方法虽在对象检测中表现出色，但其3D表示缺乏几何结构意义，不适用于密集预测任务；而密集查询能为BEV空间提供丰富表示，但大量查询导致计算负担沉重，要求注意力机制更高效。

DETR3D是一种典型的基于Transformer的方法。它基于稀疏查询，专注于多摄像机输入的3D检测，通过基于几何的特征采样过程取代交叉注意力，并使用校准矩阵将参考点投影到图像平面上，实现对应的多视图多尺度图像特征的采样，以进行端到端的3D边界框预测。有关DERT3D的详细介绍见6.2.2节。

在Transformer中，交叉注意力表现出与数据相关的特性，其加权矩阵会受到输入数据的影响。这种对数据的依赖使得Transformer在表达上更加丰富，但同时也增加了训练的难度。另一方面，由于交叉注意力是排列不变的，Transformer需要借助位置编码来区分输入的序列顺序。

基于Transformer的方法能够利用注意力机制和位置编码实现视图转换，为感知提供有效的解决方案。为了实现进一步提升算法性能，越来越多的方法开始尝试将3D几何约束引入基于Transformer的透视图到俯视图转换框架中，以增强网络对空间关系的感知能力，提高转换效率和准确性。

根据输入模态划分，BEV算法可以分为以下三种类型：

基于图像的BEV算法：这类算法主要依赖视觉传感器，如相机，获取的图像数据。它们将多个视角的图像序列转换为BEV特征，并进行感知，如输出物体的3D检测框或俯视图下的语义分割。这类算法充分利用了视觉感知的丰富语义信息，但可能受到深度测量准确性的限制。

基于激光雷达（Lidar）的BEV算法：激光雷达传感器可以提供准确的深度信息和结构信息，因此这类算法能够构建更精确的BEV特征。然而，激光雷达的数据获取距离有限，且其点云数据比图像数据更稀疏。

基于多模态的BEV算法：这类算法融合了来自不同传感器的信息（如视觉传感器、激光雷达、毫米波雷达等），以构建BEV特征。这种融合可以取长补短，充分利用各种传感器的优点，弥补各自的不足。

#04

BEV算法的不足

前文详细介绍了BEV算法相比其他视图空间视角算法的优势。然而，根据实践经验总结，BEV算法在以下4个方面仍存在不足之处。

（1）Transformer的部署问题

在BEV算法的视角转换方法中有一类代表方法是使用Transformer模型作为视角转换的算法模块。Transformer模型虽然在许多任务上表现出色，但在部署方面确实存在挑战。这种模型通常需要大量的计算资源，使得在一些资源受限的环境中，如边缘设备上，部署变得困难。此外，对于跨传感器融合，需要处理不同传感器数据的时间和空间对齐问题，这也增加了部署的难度。因此，开发更轻量、更易于部署的模型是一个重要的研究方向。

（2）感知距离问题

BEV算法，其原点设定在车辆本体的中心，这种设置本质上构建了一种以自我为中心的感知框架。在这种框架下，车辆的所有感知和决策都围绕其自身进行。然而，这种自我中心的感知方法在BEV空间中的表达效率并不高。

具体来说，当使用体素（Voxel）作为空间的基本表达单元时，会面临一个显著的问题：大部分体素并不包含对车辆决策有用的信息。这些“空白”或“无效”的体素不仅占用了存储空间，还在计算过程中消耗了不必要的计算资源，从而导致了整体效率的降低。

为了解决这一问题，研究者们正在探索多种可能的解决方案。其中，一个直观且有效的方法是采用更为高效的数据表示方法。例如，可以只关注那些包含有用信息的体素，而忽略其余的无效部分。这种方法需要对数据进行预处理，以识别和提取出关键信息，但其优点是可以显著减少后续处理的数据量，从而提高效率。

另一种方法是采用更紧凑的数据结构来存储和处理体素信息。这种数据结构可以更有效地利用存储空间，并在计算过程中减少不必要的资源消耗。例如，可以使用稀疏矩阵或压缩技术来表示体素数据，从而在不损失信息的前提下提高存储和计算效率。

（3）BEV的有限覆盖距离

BEV算法虽然在自动驾驶等领域为环境感知和理解提供了直观且有效的手段，但其本身存在一个固有的限制：其通常只能覆盖车辆周围有限的距离。这一局限性主要源于其表示方式和计算资源的限制。具体来说，由于BEV是将三维空间投影到二维平面上进行表示，因此随着距离的增加，空间分辨率逐渐降低，使得远处的物体难以被准确感知和识别。

为了扩大BEV的感知范围并克服其局限性，可以考虑采用多尺度的表示方法。这种方法将空间划分为不同的尺度，并在每个尺度上进行独立的表示和处理。通过这种方式，可以实现对远处物体的有效感知，同时保持对近处物体的精细表示。具体而言，对于远处的物体，可以采用较粗的尺度进行表示和处理，以节省计算资源并提高处理速度；而对于近处的物体，则可以采用较细的尺度进行精确感知和识别。

此外，为了进一步提高计算效率，可以在不同的尺度上进行空间稀疏化。这意味着在每个尺度上，只关注那些包含有用信息的部分，而忽略其余的无效或冗余信息。通过这种方式，可以显著减少需要处理的数据量，并降低计算复杂度和资源消耗。同时，通过合理地选择稀疏化的策略和方法，还可以在不损失关键信息的前提下实现高效的空间表示和处理。

（4）稀疏化模型的部署问题

稀疏化模型通过减少模型中的冗余参数，可以显著降低计算量和存储需求，为实际应用带来诸多优势。然而，如何有效地部署这些稀疏化模型并充分发挥其性能优势，仍然是一个具有挑战性的问题。

在硬件方面，传统的计算硬件（如CPU和GPU）并不是为稀疏计算而设计的，因此在处理稀疏化模型时可能无法充分利用其稀疏性带来的计算优势。为了解决这个问题，一种可能的解决方案是采用专门的硬件设计，以适应稀疏计算的模式。例如，可以设计专门的稀疏矩阵乘法器或稀疏计算加速器，以更高效地处理稀疏化模型中的计算任务。这种专门的硬件设计可以针对稀疏化模型的特点进行优化，从而显著提高计算效率和能源效率。

在软件方面，也可以考虑采用一系列优化方法来充分利用稀疏性带来的计算优势。例如，可以使用动态调度算法来优化稀疏计算任务的分配和执行顺序，以确保计算资源得到最有效地利用。此外，还可以采用稀疏感知的编译器和优化器来自动调整稀疏化模型的计算图和执行策略，以进一步提高计算效率。

另外，对于稀疏化模型的部署，还需要考虑与其他系统组件的兼容性和协同工作问题。例如，需要与操作系统、驱动程序、运行时库等进行良好的交互和配合，以确保稀疏化模型能够在各种实际应用场景中顺利运行并取得最佳性能。

#05

本章小结

本章综合介绍了在自动驾驶核心领域扮演关键角色的BEV感知算法。该算法能整合多源异构传感器数据至统一鸟瞰视图，实现全面、连贯的环境感知，解决数据多样性与不一致性问题。

BEV算法优势明显：与下游任务模块无缝对接，促进多传感器高效融合，提升感知精确度与鲁棒性，尤其利于纯视觉系统，并有效整合重复信息，增强目标识别的准确性和稳定性。实践中，BEV算法展现了几何变换、深度学习等多种实现范式，依据具体实现途径，可分为基于单应性、深度估计、多层感知器及Transformer等方法，各具特色与应用场景。

尽管优势显著，BEV算法面对四大挑战：Transformer模型部署难度高，特别是在资源有限环境下的计算与存储负担；感知范围受限，影响全面环境监测；稀疏模型的有效实施尚需技术突破；以及处理体素数据时效率低下，造成资源浪费。目前，研究人员正积极寻求策略以克服这些挑战，推动BEV算法性能与实用性的持续进步。

联系 & 声明

进交流群

号主六耳

知识星球

声明：除文内特殊声明外，本公众号内所有文章编写或转载的目的仅用于学习和交流，不予以商用，不代表本号观点及立场。本公众号内资讯及正文引用图片均由个人公众号 ADS 智库六耳基于官网或公开信息梳理或引用。本公众号所引用及转载内容版权均归原作者所有，凡是注明来源 “ XXX ADS 智库 ” 或作者为 “ XXX 六耳、XXX ADS 智库 ” 的文章转载或引用时请注明来源 ADS 智库。若有版权或其他任何问题请联系六耳（微信号：adas_miao ），本号将及时处理。

，安排一下？

免责声明：本内容来自腾讯平台创作者，不代表腾讯新闻或腾讯网的观点和立场。