端到端智驾研究:理想如何从智驾追随者成为领先者

全文7367字,阅读约需21分钟,帮我划重点

划重点

01理想汽车发布《2024-2025年端到端自动驾驶产业研究报告》,展示了端到端自动驾驶的技术路线和发展趋势。

02端到端自动驾驶可分为全局式和分段式两种,全局式性能更好但部署成本极高,分段式部署成本相对较低。

03目前,端到端自动驾驶研究主要分为两类:模拟器研究和现实数据研究,其中模拟器研究主要模仿学习。

04除此之外,多家合作伙伴与理想汽车开展端到端模型的研发合作,如DriveVLM、STR2、DriveDreamer4D等。

05理想汽车通过采用混合专家架构、世界模型等技术,实现了端到端自动驾驶的规模化量产。

以上内容由腾讯混元大模型生成,仅供参考

欢迎关注下方公众号阿宝1990,本公众号专注于自动驾驶和智能座舱,每天给你一篇汽车干货,我们始于车,但不止于车。

佐思汽研发布《2024-2025年端到端自动驾驶产业研究报告》。


端到端自动驾驶有全局式(一段式)和分段式(两段式)两种,其中全局式端到端思路清晰,研发成本远低于分段式,无需任何人工标注数据集,依赖谷歌、META、阿里和OpenAI等开发的多模态大模型。站在这些科技巨人肩上,性能比分段式端到端要好不少,但部署成本极高。


分段式的感知阶段仍然使用传统的CNN骨干网提取特征,在路径规划阶段使用端到端,性能虽然不如全局式,但部署成本比全局式端到端要低。这里的部署成本低是相对的,与目前主流的传统BEV+OCC+决策树相比,分段式的部署成本还是很高的。


全局式端到端的代表:WAYMO的EMMA

图片

图片来源:Waymo


全局式端到端的代表有Waymo的EMMA,直接输入视频,没有骨干网,核心就是多模态大模型。分段式端到端的代表有UniAD。


分段式端到端的典型代表:UniAD整体架构

图片

图片来源:论文《Planning-oriented Autonomous Driving》


以能否得到反馈为标准,端到端自动驾驶的研究主要分为两类:一类是在模拟器比如CARLA中进行,规划的下一步指令可以被真实的执行;第二类主要是在已经采集的现实数据上进行端到端研究,主要是模仿学习,参考UniAD。端到端自动驾驶目前都是开环的,不能真正看到自己的预测指令执行后的效果。由于不能得到反馈,开环自动驾驶的测评很受限制,现在文献中常用的两种指标包括L2距离和碰撞率。

  • L2 距离:通过计算预测轨迹和真实轨迹之间的L2距离来判断预测轨迹的质量
  • Collision Rate碰撞率: 通过计算预测轨迹和其他物体发生碰撞的概率,来评价预测轨迹的安全性


端到端自动驾驶最吸引人之处是性能提升潜力大,最早的端到端是UniAD,这是2022年底的论文,L2距离高达1.03米,2023年底就大幅提升至0.55米,2024年底进一步升到0.22米。地平线是端到端领域最活跃的公司之一,其技术发展路径也显示出了端到端路线整体的演进路径。UniAD出来之后,地平线立刻提出理念与UniAD接近的VAD,性能远超UniAD。这之后地平线转向全局端到端,第一个成果是HE-Driver,参数量比较大,然后是最近的Senna,参数量有所缩小,也是目前性能最佳的端到端方案之一。


Senna模型

图片

图片来源:《Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving》


部分端到端系统的核心仍然是传统算法BEVFormer,BEVFormer默认使用了车辆CAN总线信息,这里面包含了与自车速度,加速度,转向角相关的信息,这些都是显性的,对路径规划影响很大。这些端到端系统仍然需要监督训练,大量的人工标注就不可缺少,这让数据成本很高,再有既然借鉴了GPT的理念,为何不直接用LLM?于是有了理想汽车的DriveVLM。


下图是理想DriveVLM的模型pipeline,主要包括场景描述、场景分析、层级规划三个主要模块设计。


图片

图片来源:《DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models》


DriveVLM场景描述模块的功能主要分为两部分——环境描述和关键物体识别。其中,环境描述主要是对共性的驾驶环境的描述,比如天气和道路状况等;关键物体识别则是为了找出对于当前驾驶决策产生较大影响的关键物体。环境描述共包括以下四个部分:天气、时间、道路类型、车道线状况。


区别于传统自动驾驶感知模块将所有待检测物体都检出,DriveVLM 专注于识别当前驾驶场景中最有可能影响自车驾驶决策的物体,称之为关键物体,因为全部都检出会消耗量算力。得益于理想汽车累积的海量自动驾驶数据的预训练以及开源的大模型,VLM相较传统3D目标检测器能够更好的检出长尾的关键物体,比如路面杂物或者非常见动物等。


对于每个关键物体,DriveVLM会分别输出其语义类别c和对应的2D目标框b。预训练来自NLP大模型领域,因为NLP用的标注数据很少,很昂贵,预训练首先利用海量的未标注数据训练,找到语言结构特征,然后再利用prompt做标签,微调来解决具体的下游任务。


DriveVLM彻底放弃了BEVFormer这种传统算法做核心,只用多模态大模型。理想汽车DriveVLM使用阿里Qwen-VL大模型,参数量高达97亿,输入清晰度选择448*448这种最低清晰度,用英伟达Orin做推理运算。


理想汽车如何从高端智驾追随者成为领先者?



2023年初,理想汽车在NOA大战中还是一个落后者,但2023年开始全力投入高阶自动驾驶研发后,2024年经过多次NOA版本升级,到2024年11月底率先推出车位到车位全场景自动驾驶,从而成为高阶智驾(NOA)量产的领先者。


回顾理想汽车端到端智驾的发展历程,除了自身数十万用户提供的数据支持外,还与多家合作伙伴开展端到端模型的研发合作。DriveVLM就是理想汽车和清华大学合作推出的。


除了上面提到的DriveVLM,理想汽车还与上海期智研究院、复旦大学等推出STR2,与极佳科技、中国科学院自动化研究所等单位提出DriveDreamer4D,与清华大学合作推出MoE方案等。


MoE混合专家架构


为了解决大模型参数太多,计算量太大的弊病,理想汽车与清华大学合作,采用了MoE即混合专家架构。混合专家(Mixture of Experts,简称MoE)是一种集成学习方法,它通过将多个专业化的子模型(即“专家”)组合起来,形成一个整体模型。每一个“专家”都在其擅长的领域内做出贡献。而决定哪个“专家”参与解答特定问题的,是一个称为“门控网络”的机制。每个专家模型可以专注于解决特定的子问题,而整体模型则能够在复杂的任务中获得更好的性能。混合专家方法适用于处理大规模数据集,能够有效地应对数据量巨大和特征复杂的挑战。这是因为它可以并行处理不同的子任务,充分利用计算资源,提高模型的训练和推理效率。


混合专家MoE架构

图片

图片来源:《Generalizing Motion Planners with Mixture of Experts for Autonomous Driving》


STR2路径规划方案


STR2是一种基于Vision Transformer(ViT)和混合专家(MoE)架构的运动规划方案,由理想汽车联合来自上海期智研究院、复旦大学等高校机构的研究人员共同开发。
  • STR2专为自动驾驶领域设计,以提升在复杂和少见交通情况下的泛化能力。
  • STR2 是一种先进运动规划器,它通过结合Vision Transformer(ViT)编码器和混合专家(MoE)因果变换器架构,实现了对复杂交通环境的深度学习和有效规划。
  • STR2的核心思路是利用MoE架构在训练过程中通过专家路由来解决模态崩溃和奖励平衡问题,从而提高模型在未知或少见情况下的泛化能力。


PDM-Hybrid 和 STR2 路径规划方案对比

图片

图片来源:《Generalizing Motion Planners with Mixture of Experts for Autonomous Driving 》


DriveDreamer4D世界模型


2024年10月底,极佳科技联合中国科学院自动化研究所、理想汽车、北京大学、慕尼黑工业大学等单位提出DriveDreamer4D。
  • DriveDreamer4D 利用世界模型作为数据引擎,基于真实世界的驾驶数据合成新轨迹视频(例如变道场景)。
  • 同时,DriveDreamer4D 可以为驾驶场景提供丰富多样的视角(包括变道、加速和减速等)数据,以增加动态驾驶场景下的闭环仿真能力。
  • 总体结构框如图所示,轨迹生成模块(NTGM)用于调整原始轨迹动作,如转向角度和速度,以生成新的轨迹。这些新轨迹为提取结构化信息(如车辆 3D 框和背景车道线细节)提供了全新的视角。
  • 随后,基于世界模型的视频生成能力,并利用更新轨迹后得到的结构化信息作为控制条件,可以合成新轨迹的视频。最后,原始轨迹视频与新轨迹视频相结合,进行 4DGS 模型的优化。


基于视频的轨迹生成和 4D 重建系统

图片

图片来源:《DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation》


《2024-2025年端到端自动驾驶产业研究报告》目录

页数:330


01

端到端自动驾驶技术基础

1.1 端到端自动驾驶术语与概念

1.2 端到端自动驾驶介绍及发展现状

端到端自动驾驶产生的背景

端到端自动驾驶产生的原因:商业价值

端到端与传统架构的区别(1)

端到端与传统架构的区别(2)

端到端架构演变

端到端智驾进展1

端到端智驾进展2

一段式端到端与两段式端到端的对比

主流一段式/分段式端到端系统性能参数对标

端到端自动驾驶引入多模态模型的意义

端到端规模化量产的痛点与解决方案(1)

端到端规模化量产的痛点与解决方案(2)

端到端系统的进展与挑战


1.3 端到端自动驾驶经典案例分析

商汤UniAD

商汤UniAD技术原理及架构

地平线VAD技术原理及架构

地平线VADv2技术原理及架构

VADv2的训练

DriveVLM技术原理及架构

理想汽车采用MoE—混合专家架构

MoE和STR2

E2E-AD模型SGADS

E2E主动学习ActiveAD案例

端到端自动驾驶系统基于基石大模型开发


1.4 Foundation Models 基石大模型

1.4.1 基石大模型介绍

端到端系统的核心— Foundation Models 基石大模型

基石大模型之一LLM大语言模型:在自动驾驶应用举例

基石大模型之二Vision Foundation(1)

基石大模型之二Vision Foundation(2)

基石大模型之二Vision Foundation(3)

基石大模型之二Vision Foundation(4)

基石大模型之三多模态基石大模型(1)

基石大模型之三多模态基石大模型(2)

1.4.2 基石大模型之多模态大模型

多模态大模型发展与简介

多模态大模型 VS 单模态大模型(1)

多模态大模型 VS 单模态大模型(2)

多模态大模型技术全景图

多模态信息表示

1.4.3 基石大模型之MLLM模型

多模态大语言模型(MLLM)

多模态大语言模型的架构及核心组件

多模态大语言模型—主流模型

多模态大语言模型在自动驾驶中的应用


1.5 VLM模型&VLA模型

VLM(Vision-Language Model)视觉语言模型应用

VLM(Vision-Language Model)视觉语言模型发展历史

VLM(Vision-Language Model)视觉语言模型架构

视觉语言模型在端到端自动驾驶中的应用原理

VLM在端到端自动驾驶中的应用

从VLM→VLA

VLA模型

VLA原理

VLA模型的分类

EMMA 自动驾驶多模态模型核心功能


1.6 世界模型

世界模型关键定义及应用的发展

世界模型基本架构

世界模型—虚拟训练数据的生成

世界模型—特斯拉 World Model

世界模型—英伟达

InfinityDrive:打破世界模型的时间限制


1.7 端到端E2E-AD运动规划模型对比分析

几类产业界和学术界经典模型对比分析

Tesla:感知决策全栈一体化模型

Momenta:基于BEV空间的端到端规划架构

Horizon Robotics 2023:基于BEV空间的端到端规划架构

DriveIRL:基于BEV空间的端到端规划架构

GenAD生成式E2E模型


1.8 具身语言模型 ELM

具身语言大模型加快端到端方案落地

具身语言大模型应用场景

具身语言大模型局限性与积极影响


02

端到端自动驾驶的技术路线和发展趋势

2.1 端到端自动驾驶的技术趋势

趋势一

趋势二

趋势三

趋势四

趋势五

趋势六

趋势七


2.2 端到端自动驾驶的市场趋势

主流端到端系统厂商方案布局现状一览

Adas tier 1 端到端系统厂商方案布局对比分析(1)

Adas tier 1 端到端系统厂商方案布局对比分析(2)

其他自动驾驶公司端到端系统厂商方案布局对比分析

主机厂端到端系统方案布局对比分析(1)

主机厂端到端系统方案布局对比分析(2)

国内主流主机厂各子品牌NOA与端到端落地进程表对比1

国内主流主机厂各子品牌NOA与端到端落地进程表对比2

国内主流主机厂各子品牌NOA与端到端落地进程表对比3

国内主流主机厂各子品牌NOA与端到端落地进程表对比4


2.3 端到端自动驾驶团队建设

端到端大模型对公司组织架构的影响(1)

端到端大模型对公司组织架构的影响(2)

国内主机厂端到端自动驾驶团队构建(1)

国内主机厂端到端自动驾驶团队构建(2)

国内主机厂端到端自动驾驶团队构建(3)

国内主机厂端到端自动驾驶团队构建(4)

国内主机厂端到端自动驾驶团队构建(5)

国内主机厂端到端自动驾驶团队构建(6)

国内主机厂端到端自动驾驶团队构建(7)

端到端自动驾驶供应商的团队构建(1)

端到端自动驾驶供应商的团队构建(2)

端到端自动驾驶供应商的团队构建(3)

端到端自动驾驶供应商的团队构建(4)


03

端到端自动驾驶供应商研究

3.1 MOMENTA端到端

Momenta公司简介

Momenta一段式端到端方案(1)

Momenta一段式端到端方案(2)

Momenta端到端规划架构

Momenta一段式端到端量产赋能无图化城市NOA规模化落地

Momenta高阶智驾量产客户与端到端量产客户


3.2 元戎启行端到端

元戎启行产品布局与战略部署

元戎启行端到端布局历程

元戎启行端到端方案与传统方案的区别

元戎启行端到端方案实施进度

元戎启行端到端VLA模型解析

元戎端到端定点量产项目及VLA模型特点

元戎启行引入分层提示令牌

元戎启行端到端训练方案

元戎启行DINOv2在计算机视觉领域的应用价值

元戎启行自动驾驶VQA任务评价数据集

元戎启行HoP与华为得分对比


3.3 华为端到端

华为车BU发展历程

华为ADS  端到端理念与感知算法

华为ADS 3.0(1)

华为ADS 3.0(2):端到端

华为ADS 3.0(3):ASD3.0 VS. ASD2.0

ADS 3.0端到端方案落地案例(1)

ADS 3.0端到端方案落地案例(2)

ADS 3.0端到端方案落地案例(3)

华为多模态LLM端到端自动驾驶方案

端到端测试—VQA任务

华为DriveGPT4架构

华为端到端训练方案示例解析

华为DriveGPT4的训练分为两个阶段

华为DriveGPT4与GPT4V的对比


3.4 地平线端到端

地平线公司简介

地平线主要合作伙伴

地平线端到端Super Drive高阶智能驾驶及优势

地平线Super Drive 架构及技术原理

地平线征程6系列芯片携手Horizon SuperDrive™全场景智能驾驶解决方案

地平线智驾系统Senna(大模型+端到端)

地平线智驾系统Senna核心技术及训练方式

地平线智驾系统Senna核心模块


3.5 卓驭科技端到端

卓驭科技简介

卓驭科技研发与生产

卓驭两段式端到端解析

卓驭一段式可解释端到端解析

卓驭科技端到端量产客户


3.6 英伟达端到端

英伟达简介

英伟达自动驾驶解决方案

英伟达DRIVE Thor芯片

NVIDIA为自动驾驶打造的基础平台

NVIDIA新一代车载计算平台

NVIDIA最新发布端到端自动驾驶框架Hydra-MDP

NVIDIA 自研搭建模型架构


3.7 Bosch端到端

博世智驾中国战略布局(1)

基于端到端发展趋势,博世智驾启动组织架构变革

博世智能驾驶算法演进路线规划


3.8 百度端到端

百度Apollo简介

百度在智能驾驶领域的战略布局

百度两段式端到端

两段式端到端技术架构量产车型

百度汽车云3.0从三方面赋能端到端系统


3.9 商汤绝影

商汤绝影公司简介

商汤绝影发布UniAD端到端解决方案

DriveAGI:新一代自动驾驶大模型及其优势

DiFSD:商汤绝影打造的模拟人类驾驶行为的端到端自动驾驶系统

DiFSD:技术解读


3.10 轻舟智航

轻舟智航公司简介

“轻舟乘风”高阶智驾解决方案

轻舟智航端到端布局

轻舟智航端到端布局优势


3.11 Wayve

Wayve 公司简介

Wayve 自动驾驶 AV 2.0优势

Wayve世界模型GAIA-1体系结构

Wayve世界模型GAIA-1—Token

Wayve世界模型GAIA-1—生成效果

Wayve LINGO-2模型


3.12 Waymo端到端

Waymo发布多模态端到端模型EMMA

EMMA解析:多模态输入

EMMA解析:将驾驶任务定义为视觉问答问题

EMMA解析:引入思维链推理加强可解释性

EMMA模型的局限性


3.13 极佳科技端到端方案

极佳科技公司简介

极佳科技世界模型DriveDreamer

极佳科技世界模型DriveDreamer 2

极佳科技DriveDreamer4D


3.14 光轮智能

光轮智能公司简介

光轮智能核心技术

光轮智能的核心技术栈

光轮智能数据标注和合成数据


04

主机厂端到端自动驾驶布局分析

4.1 小鹏汽车端到端智驾布局

小鹏端到端系统(1):架构

小鹏端到端系统(2):智驾模型

小鹏端到端系统(3):AI+XNGP

小鹏端到端系统(4):组织变革

小鹏汽车的数据采集、标注和训练


4.2 理想汽车 端到端智驾布局

理想端到端方案(1)

理想端到端方案(2)

理想端到端方案(3)

理想端到端方案(4)

理想端到端方案(5)

理想端到端方案(6)

理想端到端方案:实现L3级别自动驾驶

理想端到端方案:开始构建完整大模型

理想技术布局:数据闭环


4.3 特斯拉 端到端智驾布局

特斯拉2024 AI发布会解读

特斯拉AD算法发展历程

2023-2024特斯拉端到端进程梳理

特斯拉AD算法发展历程(1)

特斯拉AD算法发展历程(2)

特斯拉AD算法发展历程(3)

特斯拉AD算法发展历程(4)

特斯拉AD算法发展历程(5)

Tesla:感知决策全栈一体化模型核心要素

特斯拉“端到端”算法

特斯拉世界模型

特斯拉数据引擎

Dojo超算中心


4.4 零一汽车端到端智驾布局

零一汽车公司简介

零一汽车基于大模型的端到端自动驾驶系统(1)

零一汽车基于大模型的端到端自动驾驶系统(2)—数据训练

零一汽车端到端驾驶系统优势


4.5 吉利&极氪端到端智驾布局

吉利ADAS技术布局:吉利星睿智算中心(1)

吉利ADAS技术布局:吉利星睿智算中心(2)

吉利ADAS技术布局:吉利星睿智算中心(3)

星睿AI大模型

吉利智能驾驶大模型技术的应用

极氪端到端系统:两段式方案

极氪正式发布端到端Plus

极氪端到端系统Plus解析

极氪端到端系统量产车型举例


4.6 小米汽车端到端智驾布局

小米汽车公司简介

小米通过端到端技术实现车位到车位的全场景智能驾驶

小米道路大模型通过道路拓扑自建高精地图

小米新一代HAD接入端到端系统

小米端到端技术路线


4.7 蔚来汽车 端到端智驾布局

蔚来重组智驾研发团队,组织架构上面向端到端系统

蔚来从模型化到端到端,世界模型是下一站

蔚来世界模型端到端系统

蔚来智能驾驶架构 NADArch 2.0

蔚来端到端全研发阶段工具链

蔚来世界模型想象重建能力及群体智能

蔚来仿真器 NSim

蔚来软硬协同能力不断加强,迈向端到端系统时代


4.8 长安汽车 端到端智驾布局

长安集团品牌布局

长安端到端系统(1)

长安端到端系统(2)

端到端系统量产车型


4.9 奔驰汽车 端到端智驾布局

奔驰全新“纯视觉方案无图L2++全场景高阶智驾功能”

奔驰全新自研的MB.OS系统

奔驰与Momenta的合作


4.10 奇瑞汽车端到端智驾布局

奇瑞大卓智能简介

奇瑞汽车端到端系统发展规划