端到端在自动泊车的应用

欢迎关注下方公众号阿宝1990,本公众号专注于自动驾驶和智能座舱,每天给你一篇汽车干货,我们始于车,但不止于车。


与城市环境的复杂性和高速公路驾驶的风险相比,停车场景的特点是低速、空间有限和高可控性。这些特点为在车辆中逐步部署端到端自动驾驶能力提供了可行的途径。最重要的是自动泊车对时间不敏感,而自动驾驶帧率至少要做到15Hz以上。这样就对存储和算力需求降低很多。


图片


上海交通大学的五位学生发表了一篇端到端自动泊车的论文:《ParkingE2E: Camera-based End-to-end Parking Network from Images to Planning》,比较接近落地,由于是学术研究,这些学生没有得到汽车产业界的支持,因此他们仍然使用了传统PC,论文里只是含糊地说用了英特尔的UNC小型台式机或者叫Mini PC。实际UNC性能千差万别,一般是英特尔9代或9代以上的CPU,也有用12代笔记本电脑低功耗CPU的,16GB或16GB以上的内存。这样的电脑CPU算力仍然是英伟达Orin的2-4倍,AI能力自然很低,但有强大的CPU支撑,整体上处理AI任务时,差不多近似或略超英伟达Orin的性能。换句话说,这个可以用英伟达Orin来实现,具备落地的可能性。


流程如下图。


图片

图片来源:网络


有一点需要指出,找寻停车位目前最佳或主要传感器仍然是超声波,视觉还是不如超声波雷达,因此论文中省略了车位寻找这一过程,论文应该是使用了AUTOWARE开源无人驾驶系统,这是日本名古屋大学开发的基于ROS2的开源无人驾驶系统,主要用于科研。其中导航和可视化模块是RVIZ。论文直接用RVIZ模块选定车位。


使用端到端神经网络Nθ来模仿专家轨迹进行训练,定义数据集为:


图片


轨迹索引 i∈[1,M],轨迹点索引 j∈[1,Ni],相机索引 k∈[1,R],RGB图像 I,轨迹点 P 和目标停车位 S。重新组织数据集为:


图片

图片


其中 Q 表示预测轨迹点的长度,R 表示 RGB 相机的数量。端到端网络的优化目标如下:


图片


其中 L 表示损失函数。


以 RGB 图像和目标停车位作为输入。所提出的神经网络包括两个主要部分:输入编码器和自回归轨迹解码器。通过输入 RGB 图像和目标停车位,将 RGB 图像转换为 BEV 特征。然后,神经网络将 BEV 特征与目标停车位融合,并使用 Transformer 解码器以自回归方式生成下一个轨迹点。


图片

图片来源:《ParkingE2E: Camera-based End-to-end Parking Network from Images to Planning》


多视角 RGB 图像被处理,图像特征被转换为 BEV(鸟瞰图)表示形式。使用目标停车位生成 BEV 目标特征,通过目标查询将目标特征和图像 BEV 特征融合,然后使用自回归的 Transformer 解码器逐个获得预测的轨迹点。


图片

图片来源:《ParkingE2E: Camera-based End-to-end Parking Network from Images to Planning》


在 BEV 视图下对输入进行编码。BEV 表示提供了车辆周围环境的俯视图,允许自车检测停车位、障碍物和标记。同时,BEV 视图提供了不同驾驶视角下一致的视点表示,从而简化了轨迹预测的复杂性。


相机编码器:在 BEV 生成流程的开始,骨干网使用 EfficientNet 从 RGB 输入中提取图像特征


图片


各个尺寸EfficientNet性能对比

图片

图片来源:网络


上图是各个尺寸EfficientNet性能对比,最高性能是6600万参数,准确率84.3%,不过1200万参数也达到了81.6%,这也说明CNN并不适合Scaling Law,此外CNN模型参数少,并不意味着计算量就一定低。


LSS算法

图片

图片来源:英伟达


受英伟达LSS启发,学习图像特征的深度分布,LSS是英伟达2020年提出的一种经典的自下而上的构建BEV特征的3D目标检测算法,通过将图像特征反投影到3D空间生成伪视锥点云,通过EfficientNet算法提取云点的深度特征和图像特征并对深度信息进行估计,最终将点云特征转换到BEV空间下进行特征融合和后续的语义分割任务。也是国内最常见的BEV算法,典型代表就是地平线。


图片



并将每个像素提升到 3D 空间。


然后,将预测的深度分布ddep与图像特征Fimg相乘,以获得具有深度信息的图像特征。通过相机的外部和内部参数,将图像特征投影到 BEV 体素网格中,生成相机特征。


图片


为了将目标停车位与相机特征 Fcam 对齐,根据指定的停车位位置在 BEV 空间生成目标热图作为目标编码器的输入。随后,使用深度 CNN 神经网络提取目标停车位特征 Ftarget 以获得与 Fcam相同的维度。在训练期间,目标停车位由人类驾驶轨迹的终点确定。通过在 BEV 空间对齐相机特征 Fcam和目标编码特征 Ftarget ,并使用目标特征通过交叉注意力机制查询相机特征,可以有效地融合两种模态。位置编码确保了在将特定 BEV 位置的特征关联时,相机特征和目标特征之间的空间对应关系得以保持。使用 Ftarget 作为查询,相机特征 Fcam 作为Key和Value,并采用注意力机制,获得融合特征 Ffuse。


编码器方面,轨迹序列化将轨迹点表示为离散标记。通过序列化轨迹点,位置回归可以转换为标记预测。随后利用 Transformer 解码器以自回归方式预测轨迹。BEV 特征作为Key和Value,而序列化序列作为查询,使用 Transformer 解码器以自回归方式生成轨迹点。在训练期间,在序列点中添加位置嵌入,并通过掩码未知信息来实现并行化。在推理过程中,给定 BOS 做开始标记,然后 Transformer 解码器按顺序预测后续点。然后将预测的点追加到序列中,重复此过程直到遇到 EOS终止标记或达到指定的预测点数。


控制过程中,以 t0 表示停车开始时刻,使用端到端神经规划器基于当前时刻 t0 到当前时刻 t 的相对姿态 egot0→t 来预测路径 Tt0=Nθ′(It0,S)。目标转向角 Atar可以通过后轮反馈(RWF)方法获得,表达式如下:


图片


根据来自底盘的速度反馈 Vfeed 和转向反馈 Afeed,以及设置的目标速度 Vtar 和计算出的目标转向 Atar,使用级联 PID 控制器实现横向和纵向控制。生成新的预测轨迹后,Tt0 和 egot0→t被重置,消除了在整个车辆控制过程中依赖全局定位的必要性。


图片


作者设置了四种不同类型的停车场作为测试和训练,有室内,有全开放,有两侧和单侧。


图片

图片来源:网络


通过在RViz界面软件中使用“2D-Nav-Goal”来选择目标停车位,如上图,每次只能选一个。靠IMU获取起始位姿,将以起始点为原点的世界坐标转化为车辆坐标。模型接收来自环视摄像头的当前图像和目标停车位,以自回归方式预测后续n个轨迹点的位置。将预测的轨迹序列发布到 RViz 进行可视化显示,让用户更直观看到泊车过程,为用户增加信心。控制器根据路径规划结果、自车姿态和反馈信号来操控车辆,将车辆停放到指定的停车位中。值得注意的是,目标点和预测轨迹点的坐标在车辆坐标系中表示,确保轨迹序列和BEV特征在一致的坐标基础上表达。这种设计还使整个系统独立于全局坐标系。


关于神经网络的细节,BEV特征的大小为200×200,对应实际空间范围x∈[−10m, 10m], y∈[−10m, 10m],分辨率为0.1米。在Transformer解码器中,轨迹序列化的最大值Nt为1200。轨迹解码器生成长度为30的预测序列,实现了推理精度和速度的最佳平衡。使用PyTorch框架,神经网络在NVIDIA GeForce RTX 4090 GPU上训练,batch size为16,总共训练时间约为8小时,使用了40,000帧数据。测试数据包括大约5,000帧。


图片


测试结果如上,L2距离(L2 Dis.)指的是预测轨迹和真实轨迹航点之间的平均欧几里得距离。这个指标评估模型推理的精确度和准确性。Hausdorff距离(Haus. Dis.)指的是两个点集之间的最小距离的最大值。这个指标从点集的角度评估预测轨迹与真实轨迹的匹配程度。傅里叶描述符差异(Four. Diff.)可以用来测量轨迹之间的差异,值越低表示轨迹之间的差异越小。这个指标使用一定数量的傅里叶描述符将实际和预测轨迹表示为向量。


图片

  • 停车成功率(PSR)描述的是自车成功停放在目标停车位的概率。

  • 无车位率(NSR)未能在指定停车位停放的失败率。

  • 停车违规率(PVR)指的是车辆轻微超出指定停车位但没有阻碍或妨碍相邻停车位的情况。

  • 平均位置误差(APE)是自车成功停放时目标停车位置与自车停止位置之间的平均距离。

  • 平均方向误差(AOE)是自车成功停放时目标停车方向与自车停止方向之间的平均差异。

  • 平均停车得分(APS)是通过综合评估停车过程中的位置误差、方向误差和成功率来计算的。得分在0到100之间分布。 


这个试验有个缺点,那就是停车位的寻找可能会影响自动泊车。在RViz上,停车位只是一个坐标点。但在真实场景中,停车位可能不是一个清晰的坐标点,超声波雷达或视觉找到停车位,需要确定几何中心为关键坐标点,这个需要全局定位。而这种端到端自动泊车似乎很难做全局定位,特别是地下停车场。


端到端和传统算法比,地下停车场和双侧停车场仍然是难点,违规率超过了50%,这完全无法接受,这也表明纯粹端到端很难应用,必须添加人工规则,单侧停车场表现还不错。纯粹从算力和存储带宽看,自动泊车领域用端到端没有难度。


免责说明:本文观点和数据仅供参考,和实际情况可能存在偏差。本文不构成投资建议,文中所有观点、数据仅代表笔者立场,不具有任何指导、投资和决策意见。


《2024-2025年端到端自动驾驶产业研究报告》目录

页数:330


01

端到端自动驾驶技术基础

1.1 端到端自动驾驶术语与概念

1.2 端到端自动驾驶介绍及发展现状

端到端自动驾驶产生的背景

端到端自动驾驶产生的原因:商业价值

端到端与传统架构的区别(1)

端到端与传统架构的区别(2)

端到端架构演变

端到端智驾进展1

端到端智驾进展2

一段式端到端与两段式端到端的对比

主流一段式/分段式端到端系统性能参数对标

端到端自动驾驶引入多模态模型的意义

端到端规模化量产的痛点与解决方案(1)

端到端规模化量产的痛点与解决方案(2)

端到端系统的进展与挑战


1.3 端到端自动驾驶经典案例分析

商汤UniAD

商汤UniAD技术原理及架构

地平线VAD技术原理及架构

地平线VADv2技术原理及架构

VADv2的训练

DriveVLM技术原理及架构

理想汽车采用MoE—混合专家架构

MoE和STR2

E2E-AD模型SGADS

E2E主动学习ActiveAD案例

端到端自动驾驶系统基于基石大模型开发


1.4 Foundation Models 基石大模型

1.4.1 基石大模型介绍

端到端系统的核心— Foundation Models 基石大模型

基石大模型之一LLM大语言模型:在自动驾驶应用举例

基石大模型之二Vision Foundation(1)

基石大模型之二Vision Foundation(2)

基石大模型之二Vision Foundation(3)

基石大模型之二Vision Foundation(4)

基石大模型之三多模态基石大模型(1)

基石大模型之三多模态基石大模型(2)

1.4.2 基石大模型之多模态大模型

多模态大模型发展与简介

多模态大模型 VS 单模态大模型(1)

多模态大模型 VS 单模态大模型(2)

多模态大模型技术全景图

多模态信息表示

1.4.3 基石大模型之MLLM模型

多模态大语言模型(MLLM)

多模态大语言模型的架构及核心组件

多模态大语言模型—主流模型

多模态大语言模型在自动驾驶中的应用


1.5 VLM模型&VLA模型

VLM(Vision-Language Model)视觉语言模型应用

VLM(Vision-Language Model)视觉语言模型发展历史

VLM(Vision-Language Model)视觉语言模型架构

视觉语言模型在端到端自动驾驶中的应用原理

VLM在端到端自动驾驶中的应用

从VLM→VLA

VLA模型

VLA原理

VLA模型的分类

EMMA 自动驾驶多模态模型核心功能


1.6 世界模型

世界模型关键定义及应用的发展

世界模型基本架构

世界模型—虚拟训练数据的生成

世界模型—特斯拉 World Model

世界模型—英伟达

InfinityDrive:打破世界模型的时间限制


1.7 端到端E2E-AD运动规划模型对比分析

几类产业界和学术界经典模型对比分析

Tesla:感知决策全栈一体化模型

Momenta:基于BEV空间的端到端规划架构

Horizon Robotics 2023:基于BEV空间的端到端规划架构

DriveIRL:基于BEV空间的端到端规划架构

GenAD生成式E2E模型


1.8 具身语言模型 ELM

具身语言大模型加快端到端方案落地

具身语言大模型应用场景

具身语言大模型局限性与积极影响


02

端到端自动驾驶的技术路线和发展趋势

2.1 端到端自动驾驶的技术趋势

趋势一

趋势二

趋势三

趋势四

趋势五

趋势六

趋势七


2.2 端到端自动驾驶的市场趋势

主流端到端系统厂商方案布局现状一览

Adas tier 1 端到端系统厂商方案布局对比分析(1)

Adas tier 1 端到端系统厂商方案布局对比分析(2)

其他自动驾驶公司端到端系统厂商方案布局对比分析

主机厂端到端系统方案布局对比分析(1)

主机厂端到端系统方案布局对比分析(2)

国内主流主机厂各子品牌NOA与端到端落地进程表对比1

国内主流主机厂各子品牌NOA与端到端落地进程表对比2

国内主流主机厂各子品牌NOA与端到端落地进程表对比3

国内主流主机厂各子品牌NOA与端到端落地进程表对比4


2.3 端到端自动驾驶团队建设

端到端大模型对公司组织架构的影响(1)

端到端大模型对公司组织架构的影响(2)

国内主机厂端到端自动驾驶团队构建(1)

国内主机厂端到端自动驾驶团队构建(2)

国内主机厂端到端自动驾驶团队构建(3)

国内主机厂端到端自动驾驶团队构建(4)

国内主机厂端到端自动驾驶团队构建(5)

国内主机厂端到端自动驾驶团队构建(6)

国内主机厂端到端自动驾驶团队构建(7)

端到端自动驾驶供应商的团队构建(1)

端到端自动驾驶供应商的团队构建(2)

端到端自动驾驶供应商的团队构建(3)

端到端自动驾驶供应商的团队构建(4)


03

端到端自动驾驶供应商研究

3.1 MOMENTA端到端

Momenta公司简介

Momenta一段式端到端方案(1)

Momenta一段式端到端方案(2)

Momenta端到端规划架构

Momenta一段式端到端量产赋能无图化城市NOA规模化落地

Momenta高阶智驾量产客户与端到端量产客户


3.2 元戎启行端到端

元戎启行产品布局与战略部署

元戎启行端到端布局历程

元戎启行端到端方案与传统方案的区别

元戎启行端到端方案实施进度

元戎启行端到端VLA模型解析

元戎端到端定点量产项目及VLA模型特点

元戎启行引入分层提示令牌

元戎启行端到端训练方案

元戎启行DINOv2在计算机视觉领域的应用价值

元戎启行自动驾驶VQA任务评价数据集

元戎启行HoP与华为得分对比


3.3 华为端到端

华为车BU发展历程

华为ADS  端到端理念与感知算法

华为ADS 3.0(1)

华为ADS 3.0(2):端到端

华为ADS 3.0(3):ASD3.0 VS. ASD2.0

ADS 3.0端到端方案落地案例(1)

ADS 3.0端到端方案落地案例(2)

ADS 3.0端到端方案落地案例(3)

华为多模态LLM端到端自动驾驶方案

端到端测试—VQA任务

华为DriveGPT4架构

华为端到端训练方案示例解析

华为DriveGPT4的训练分为两个阶段

华为DriveGPT4与GPT4V的对比


3.4 地平线端到端

地平线公司简介

地平线主要合作伙伴

地平线端到端Super Drive高阶智能驾驶及优势

地平线Super Drive 架构及技术原理

地平线征程6系列芯片携手Horizon SuperDrive™全场景智能驾驶解决方案

地平线智驾系统Senna(大模型+端到端)

地平线智驾系统Senna核心技术及训练方式

地平线智驾系统Senna核心模块


3.5 卓驭科技端到端

卓驭科技简介

卓驭科技研发与生产

卓驭两段式端到端解析

卓驭一段式可解释端到端解析

卓驭科技端到端量产客户


3.6 英伟达端到端

英伟达简介

英伟达自动驾驶解决方案

英伟达DRIVE Thor芯片

NVIDIA为自动驾驶打造的基础平台

NVIDIA新一代车载计算平台

NVIDIA最新发布端到端自动驾驶框架Hydra-MDP

NVIDIA 自研搭建模型架构


3.7 Bosch端到端

博世智驾中国战略布局(1)

基于端到端发展趋势,博世智驾启动组织架构变革

博世智能驾驶算法演进路线规划


3.8 百度端到端

百度Apollo简介

百度在智能驾驶领域的战略布局

百度两段式端到端

两段式端到端技术架构量产车型

百度汽车云3.0从三方面赋能端到端系统


3.9 商汤绝影

商汤绝影公司简介

商汤绝影发布UniAD端到端解决方案

DriveAGI:新一代自动驾驶大模型及其优势

DiFSD:商汤绝影打造的模拟人类驾驶行为的端到端自动驾驶系统

DiFSD:技术解读


3.10 轻舟智航

轻舟智航公司简介

“轻舟乘风”高阶智驾解决方案

轻舟智航端到端布局

轻舟智航端到端布局优势


3.11 Wayve

Wayve 公司简介

Wayve 自动驾驶 AV 2.0优势

Wayve世界模型GAIA-1体系结构

Wayve世界模型GAIA-1—Token

Wayve世界模型GAIA-1—生成效果

Wayve LINGO-2模型


3.12 Waymo端到端

Waymo发布多模态端到端模型EMMA

EMMA解析:多模态输入

EMMA解析:将驾驶任务定义为视觉问答问题

EMMA解析:引入思维链推理加强可解释性

EMMA模型的局限性


3.13 极佳科技端到端方案

极佳科技公司简介

极佳科技世界模型DriveDreamer

极佳科技世界模型DriveDreamer 2

极佳科技DriveDreamer4D


3.14 光轮智能

光轮智能公司简介

光轮智能核心技术

光轮智能的核心技术栈

光轮智能数据标注和合成数据


04

主机厂端到端自动驾驶布局分析

4.1 小鹏汽车端到端智驾布局

小鹏端到端系统(1):架构

小鹏端到端系统(2):智驾模型

小鹏端到端系统(3):AI+XNGP

小鹏端到端系统(4):组织变革

小鹏汽车的数据采集、标注和训练


4.2 理想汽车 端到端智驾布局

理想端到端方案(1)

理想端到端方案(2)

理想端到端方案(3)

理想端到端方案(4)

理想端到端方案(5)

理想端到端方案(6)

理想端到端方案:实现L3级别自动驾驶

理想端到端方案:开始构建完整大模型

理想技术布局:数据闭环


4.3 特斯拉 端到端智驾布局

特斯拉2024 AI发布会解读

特斯拉AD算法发展历程

2023-2024特斯拉端到端进程梳理

特斯拉AD算法发展历程(1)

特斯拉AD算法发展历程(2)

特斯拉AD算法发展历程(3)

特斯拉AD算法发展历程(4)

特斯拉AD算法发展历程(5)

Tesla:感知决策全栈一体化模型核心要素

特斯拉“端到端”算法

特斯拉世界模型

特斯拉数据引擎

Dojo超算中心


4.4 零一汽车端到端智驾布局

零一汽车公司简介

零一汽车基于大模型的端到端自动驾驶系统(1)

零一汽车基于大模型的端到端自动驾驶系统(2)—数据训练

零一汽车端到端驾驶系统优势


4.5 吉利&极氪端到端智驾布局

吉利ADAS技术布局:吉利星睿智算中心(1)

吉利ADAS技术布局:吉利星睿智算中心(2)

吉利ADAS技术布局:吉利星睿智算中心(3)

星睿AI大模型

吉利智能驾驶大模型技术的应用

极氪端到端系统:两段式方案

极氪正式发布端到端Plus

极氪端到端系统Plus解析

极氪端到端系统量产车型举例


4.6 小米汽车端到端智驾布局

小米汽车公司简介

小米通过端到端技术实现车位到车位的全场景智能驾驶

小米道路大模型通过道路拓扑自建高精地图

小米新一代HAD接入端到端系统

小米端到端技术路线


4.7 蔚来汽车 端到端智驾布局

蔚来重组智驾研发团队,组织架构上面向端到端系统

蔚来从模型化到端到端,世界模型是下一站

蔚来世界模型端到端系统

蔚来智能驾驶架构 NADArch 2.0

蔚来端到端全研发阶段工具链

蔚来世界模型想象重建能力及群体智能

蔚来仿真器 NSim

蔚来软硬协同能力不断加强,迈向端到端系统时代


4.8 长安汽车 端到端智驾布局

长安集团品牌布局

长安端到端系统(1)

长安端到端系统(2)

端到端系统量产车型


4.9 奔驰汽车 端到端智驾布局

奔驰全新“纯视觉方案无图L2++全场景高阶智驾功能”

奔驰全新自研的MB.OS系统

奔驰与Momenta的合作


4.10 奇瑞汽车端到端智驾布局

奇瑞大卓智能简介

奇瑞汽车端到端系统发展规划