全面了解端到端自动驾驶的研发现状、挑战与策略应对

智驾最前沿

2024-11-23 08:40发布于江苏

涵盖了如何采用大型基础模型和数据引擎的更广泛影响。我们相信，这一研究领域及其提供的大规模高质量数据可以显着推进该领域的发展。

可解释性

可解释性有助于人类理解端到端模型的决策过程、感知故障和输出的可靠性，因此，可解释性在自动驾驶中起着至关重要的作用。它使工程师和研究人员能够更好地测试、调试和改进系统，从社会角度提供性能保证，增加用户信任，促进公众接受。然而，实现端到端自动驾驶模型（通常被称为黑匣子）的可解释性具有挑战性。

给定训练有素的自动驾驶模型，一些事后 X-AI（可解释的人工智能）技术可以应用于学习模型以获得显着图。显着图突出显示模型主要依赖于视觉输入进行规划的特定区域。然而，这种方法提供的信息有限，其有效性和有效性难以评估。相反，我们专注于直接增强模型设计可解释性的自动驾驶框架。我们将在下面的图6中介绍每个类别的可解释性。

图 6：不同形式的可解释性总结

5.1 注意力可视化

注意力机制通常提供一定程度的可解释性。可以应用学习的注意力权重来聚合中间特征图中的重要特征。学习注意力权重以自适应地组合来自不同对象区域或固定网格的 ROI 池化特征。NEAT迭代聚合特征来预测注意力权重并细化聚合特征。最近，Transformer注意力机制在许多自动驾驶模型中得到了普遍应用。采用Transformer注意力块来更好地聚合来自传感器输入的信息，注意力图显示输入中用于驾驶决策的重要区域。在 PlanT 中，注意力层处理来自不同车辆的特征，为相应的动作提供可解释的见解。与事后显着性方法类似，虽然学习到的注意力图可以提供一些关于模型焦点的直接线索，但它们的忠实度和实用性仍然有限。

5.2 可解释的任务

在深度驾驶模型中，输入最初被编码为中间表示以供后续预测。因此，许多基于IL的工作通过将潜在特征表示解码为其他有意义的信息来引入可解释性，例如语义分割，对象检测，可供性预测，运动预测和注视图估计。尽管这些方法提供了可解释的信息，但大多数仅将这些预测视为辅助任务，对最终的驾驶决策没有明确的影响。一些通过将这些输出用于最终驾驶动作，但它们仅用于执行额外的安全检查。

5.3 成本学习

基于成本学习的方法与传统的模块化自动驾驶系统有一些相似之处，因此表现出一定程度的可解释性。NMP和 DSDNet 结合检测和运动预测结果构建成本量。P3 将预测的语义占用图与舒适度和交通规则约束相结合来构建成本函数。采用各种表示形式对采样轨迹进行评分，例如概率占用和时间运动场、紧急占用和自由空间。安全性、舒适性、交通规则以及基于感知和预测输出的路线等因素都被明确包含在内来构建成本量。

5.4 语言可解释性

可解释性的一个方面是帮助人类理解系统，因此自然语言是实现此目的的合适选择。生成 BDD-X 数据集，将驾驶视频与描述和解释配对。他们还提出了一种带有车辆控制器和解释生成器的自动驾驶模型，并强制两个模块的空间注意力权重保持一致。BEEF提出了一个解释模块，融合预测轨迹和中间感知特征来预测决策的理由。也有引入了一个名为 BBD-OIA 的数据集，其中包括驾驶决策的注释和高密度交通场景的解释。最近，ADAPT 提出了一种基于 Transformer 的网络，根据 BBD-X 数据集中的驾驶视频来联合估计动作、叙述和推理。鉴于多模态和基础模型的最新进展，我们相信，进一步将语言与自动驾驶模型相结合有望实现卓越的可解释性和性能。

5.5 不确定性建模

不确定性是解释模型输出可靠性的定量方法。由于规划结果并不总是准确或最佳，因此设计者和用户必须识别不确定的情况以进行改进或必要的干预。对于深度学习来说，有两种类型的不确定性：任意不确定性和认知不确定性。任意不确定性是任务固有的，而认知不确定性是由于有限的数据或建模能力造成的。对端到端自动驾驶系统的不确定性进行了定量评估，可以有效利用模型中的某些随机正则化来执行多个前向传递作为样本来测量不确定性。然而，多次前向传递的要求在实时场景中是不可行的。RIP建议通过专家似然模型集合来捕获认知不确定性，并汇总结果以执行安全规划。关于建模任意不确定性的方法中明确预测了驾驶行为/规划和不确定性（通常用方差表示）。根据预测的不确定性，从多个输出中选择不确定性最低的输出，生成建议行动的加权组合。VTGNet不直接使用不确定性进行规划，但证明对数据不确定性进行建模可以提高总体性能。目前，预测的不确定性主要与硬编码规则结合使用。有必要探索更好的方法来建模和利用自动驾驶的不确定性。

5.6 因果混乱

驾驶是一项表现出时间平滑性的任务，这使得过去的动作可以可靠地预测下一个动作。然而，使用多个帧训练的方法可能会过度依赖此快捷方式，并在部署过程中遭受灾难性失败。这个问题在一些作品中被称为模仿问题，是因果混乱的表现，即访问更多信息会导致性能更差。LeCun 等人最早报道了这种效应，他们使用单个输入帧进行转向预测，以避免这种推断。尽管很简单，但这仍然是当前最先进的模仿学习方法中的首选解决方案。不幸的是，使用单帧的缺点是无法提取周围运动体的速度。因果混乱的另一个来源是速度测量，如下图 7 显示了汽车等红灯的示例。

图 7：模仿学习中的因果混乱

汽车的速度与制动动作高度相关，因为汽车正在等待许多速度为零且动作为制动的帧。仅在交通信号灯从红色变为绿色的单帧处，这种相关性才会被打破。实际上，汽车当前的动作与低维虚假特征（例如速度或汽车过去的轨迹）密切相关。端到端模型可能会抓住它们，导致因果混乱。

使用多个框架时，有多种方法可以解决因果混淆问题。ChauffeurNet通过在 BEV 中使用中间视觉抽象来解决这个问题。一种抽象是自我代理的过去，而其他抽象不包含此信息。在训练期间，自我代理过去的动作以 50% 的概率被丢弃。然而，为了使这种方法有效地工作，需要显式的抽象。有研究者试图通过训练预测自我代理过去行为的对抗模型，从学习到的中间瓶颈表示中消除虚假的时间相关性。这导致了最小-最大优化问题，其中模仿损失最小化，而对抗性损失最大化。直观地说，这训练网络从中间层消除自己的过去。这种方法在 MuJoCo 中效果很好，但无法扩展到复杂的基于视觉的驾驶。第一个致力于驱动复杂性的是建议增加训练损失中关键帧的权重。关键帧是发生决策更改的帧（因此无法通过推断过去来预测）。为了找到关键帧，他们训练了一种策略，仅以自我代理的过去作为输入来预测动作。PrimeNet通过使用集成来提高与关键帧相比的性能，其中单帧模型的预测作为多帧模型的附加输入给出。后又有用动作残差而不是动作来监督多帧网络。OREO将图像映射到表示语义对象的离散代码，并将随机丢弃掩码应用于共享相同离散代码的单元。这在 Confounded Atari 中很有帮助，因为之前的操作会呈现在屏幕上。在自动驾驶中，可以通过仅使用激光雷达历史（具有单帧图像）并将点云重新对齐到同一坐标系来避免因果混乱的问题。这会删除有关自车运动的信息，同时保留有关其他车辆过去状态的信息。

近二十年来，模仿学习中的因果混乱一直是一个持续的挑战。近年来，人们投入了大量精力来研究这个问题。然而，这些研究使用了经过修改的环境，以简化因果混淆问题的研究。在最先进的设置中显示性能改进仍然是一个悬而未决的问题。

鲁棒性评测

6.1 长尾分布

长尾分布问题的一个重要方面是数据集不平衡，其中少数类别占大多数，而许多其他类别只有有限数量的样本，如下图8（a）所示。

图 8：稳健性方面的挑战

与数据集分布差异相关的三个主要泛化问题，即长尾和正常情况、专家演示和测试场景以及位置、天气等领域的转移。这对模型泛化到各种环境提出了巨大的挑战。有多种方法通过数据处理来解决这个问题，包括过采样，欠采样和数据增强。此外，基于加权的方法也常用于缓解数据集不平衡问题。

研究通过对抗性攻击以数据驱动的方式生成安全关键场景。有用贝叶斯优化被用来生成对抗场景。学习碰撞将驾驶场景表示为构建块上的联合分布，并应用策略梯度 RL 方法来生成风险场景。AdvSim修改代理的轨迹，同时仍然坚持物理合理性，以导致失败并相应地更新 LiDAR。最近的工作提出了一种通过可微运动学模型使用梯度来解决安全关键扰动的优化算法。

一般来说，有效生成涵盖长尾分布的现实安全关键场景仍然是一个重大挑战。虽然许多工作关注模拟器中的对抗场景，但更好地利用现实世界数据进行关键场景挖掘和对模拟的潜在适应也至关重要。此外，系统、严格、全面、现实的测试框架对于评估这些长尾分布式安全关键场景下的端到端自动驾驶方法至关重要。

6.2 协变量平移

行为克隆的一个重要挑战是协变量转变。专家策略的状态分布和经过训练的代理策略的状态分布不同，当经过训练的代理部署在看不见的测试环境中或当其他代理的反应与训练时间不同时，会导致复合错误。这可能会导致受过训练的代理处于专家训练分布之外的状态，从而导致严重的失败。

图 8 (b) 给出了一个示例。DAgger（数据集聚合）是克服这个问题的常用方法。DAgger 是一个迭代训练过程，在每次迭代中推出当前训练的策略来收集新数据，并使用专家来标记访问过的状态。通过添加如何从不完美的策略可能访问的次优状态中恢复的示例，丰富了训练数据集。然后在增强数据集上训练该策略，并重复该过程。然而，DAgger 的一个缺点是需要一位可用的专家在线查询。

对于端到端自动驾驶，通过结合 DAgger 和基于 MPC 的专家。为了减少不断查询专家的成本并提高安全性，SafeDAgger 通过学习估计当前策略与专家策略之间偏差的安全策略来扩展原始 DAgger 算法。只有当偏差较大时才会询问专家，在那些危险的情况下专家就会接手。MetaDAgger将元学习与 DAgger 结合起来，聚合来自多个环境的数据。LBC采用DAgger对数据进行重采样，使得损失较高的样本被更频繁地采样。在 DARB中，对 DAgger 进行了一些修改以适应驾驶任务。为了更好地利用故障或安全相关样本，它提出了多种机制，包括基于任务、基于策略以及基于策略和专家的机制，来对此类关键状态进行采样。它还使用固定大小的重播缓冲区进行迭代训练，以增加多样性并减少数据集偏差。

6.3 域适配

在端到端自动驾驶的背景下，长尾分布问题尤为严重。数据集不平衡在驾驶数据集中尤其成问题，因为大多数典型的驾驶都是重复且无趣的，例如，在许多帧中沿着车道行驶。相反，有趣的安全关键场景很少发生，但本质上是多种多样的。为了解决这个问题，一些工作依赖于手工制作的场景来在模拟中生成更加多样化和有趣的数据。LBC 利用特权代理来创建以不同导航命令为条件的假想监督。LAV 认为，虽然用于数据收集的自车很少有容易发生事故的情况，但其他智能体可能经历过一些安全关键或有趣的情况。因此，它包括其他智能体的轨迹进行训练，以促进数据多样性。

领域适配（DA）是一种迁移学习，其中目标任务与源任务相同，但领域不同。在这里，我们讨论源域有可用标签而目标域没有标签或可用标签数量有限的场景。域随机化也是一种简单有效的技术，用于在模拟器中进行 RL 策略学习的模拟到真实的适应，并进一步适用于端到端自动驾驶。它是通过随机化模拟器的渲染和物理设置来实现的，以覆盖训练过程中现实世界的可变性，并获得具有良好泛化能力的训练策略。

如图8（c）所示，自动驾驶任务的领域适应包含几种情况。这里需要注意的是，上述情况经常重叠。

①　模拟到真实：用于训练的模拟器与用于部署的现实世界之间存在巨大差距。

②　地理位置到地理位置：不同的地理位置具有不同的环境外观。

③　天气变化：由雨、雾和雪等天气条件引起的传感器输入变化。

④　昼夜：传感器输入的照度变化。

⑤　传感器与传感器之间：传感器特性可能存在差异，例如分辨率和相对位置。

VISRI等人使用翻译网络将模拟图像映射到真实图像，并使用分割图作为中间表示。强化学习代理根据翻译后的模拟图像进行训练。通过图像翻译器和鉴别器实现域不变特征学习，将两个域的图像映射到公共潜在空间。类似地，LUSR 采用循环一致 VAE 将图像投影到由特定领域部分和通用领域部分组成的潜在表示中，并在此基础上学习策略。UAIL 通过将不同天气条件下的图像分解为可区分的风格空间和与 GAN 共享的内容空间来实现天气到天气的适应。在SESR 中，从语义分割掩模中提取类解缠结编码，以减少模拟器中的图像与现实世界之间的域差距。

目前，通过源目标图像映射或域不变特征学习进行模拟到真实的适应是端到端自动驾驶的焦点。其他领域适应案例，例如地理到地理或天气到天气的适应，是通过训练数据集的多样性和规模来处理的。由于激光雷达已成为一种流行的驾驶输入方式，鉴于当前的工作主要集中在基于图像的自适应上，因此还必须设计适合激光雷达特性的特定自适应技术。此外，应注意交通人员的行为和模拟器与现实世界之间的交通规则差距，因为当前的方法仅关注图像中的视觉差距。通过 NeRF 等技术将现实世界的数据纳入模拟则是另一个有前途的方向。

未来趋势

考虑到所讨论的挑战和机遇，本文列出了未来研究的一些关键方向，这些方向可能会在该领域产生更广泛的影响。

7.1 零样本和少样本学习

自动驾驶模型最终不可避免地会遇到超出训练数据分布范围的现实场景。这就提出了一个问题：我们是否可以成功地将模型适应一个看不见的目标领域，其中可用的标记数据是有限的甚至没有。将这项任务形式化为端到端驾驶领域并结合零样本/少样本学习文献中的技术是实现这一目标的关键步骤。

7.2 模块化端到端规划

模块化端到端规划框架优化多个模块，同时优先考虑下游规划任务，其具有可解释性的优势，某些行业解决方案（Tesla、Wayve 等）也涉及类似的想法。在设计这些可微感知模块时，会出现一些关于损失函数选择的问题，例如用于对象检测的 3D 边界框的必要性、占用表示是否足以检测一般障碍物，或者选择 BEV 分割相对于车道的优势静态场景感知的拓扑。

7.3 数据引擎

大规模、高质量数据对于自动驾驶的重要性怎么强调都不为过。建立具有自动标记管道的数据引擎可以极大地促进数据和模型的迭代开发。自动驾驶的数据引擎，特别是模块化的端到端规划系统，需要借助大型感知模型，以自动的方式简化高质量感知标签的标注过程。它还应该支持挖掘困难/极端情况、场景生成和编辑，以促进数据驱动评估。促进数据的多样性和模型的泛化能力。数据引擎将使自动驾驶模型能够不断改进。

7.4 基础模型

语言和视觉大型基础模型的最新进展对社会的各个方面产生了重大影响。大规模数据和模型能力的利用释放了人工智能在高级推理任务中的巨大潜力。微调或即时学习的范式、自监督重建或对比对形式的优化以及数据流水线等都适用于端到端端自动驾驶领域。然而，直接语言模型注入自动驾驶代理似乎在两个目标的不同目标之间不一致。自主代理的输出通常需要稳定且准确的测量，而语言模型中的生成序列输出旨在表现得像人类，而不管其准确性如何。开发大型自动驾驶模型的一个可行解决方案是训练一个视频预测器，该视频预测器可以以 2D 或 3D 方式对环境进行长期预测。为了在规划等下游任务上表现良好，大型模型的优化目标需要足够复杂，超出帧级感知。

7.5 车对万物（V2X）

遮挡和超出感知范围的障碍物是现代计算机视觉技术的两个基本挑战，这甚至会给人类驾驶员在需要对交叉代理做出快速反应时带来很大困难。车对车（V2V）、车对基础设施（V2I）和车对一切（V2X）系统为解决这个难题提供了有前景的解决方案，来自不同观点的信息补充了自车盲点。这些系统见证了多智能体场景信息传输机制的进步，可以提供一种解决方案来实现自动驾驶车辆之间的高级决策智能。

总结

本文对端到端自动驾驶系统的研发现状进行了全面分析，涵盖了端到端自动驾驶的动机、路线图、方法论、挑战和未来趋势。重点介绍了几个关键挑战，包括多模态、可解释性、因果混乱、稳健性和世界模型等。此外，我们还讨论了基础模型和视觉预训练方面的当前进展，以及如何将这些技术整合到端到端驾驶框架中。端到端自动驾驶面临着巨大的机遇和挑战，基于端到端研发现状的基本方法，通过拥抱快速发展的基础模型和数据引擎的努力，并强调了广泛的关键挑战提出有希望的解决方案，最终针对智能汽车打造多面智能体是我们这代人可以完全预见的。

-- END --

声明：内容源自焉知汽车，文中观点仅供分享交流，不代表本公众号立场，如涉及版权等问题，请您告知，将及时处理！