都在夸端到端,到底有哪些缺点?

全文2061字,阅读约需6分钟,帮我划重点

划重点

01端到端技术重构了自动驾驶的技术栈,使数据成为驱动自动驾驶模型迭代的基础养料,但同时也存在一些缺点。

02随着智驾里程的增长和自动驾驶系统能力的提升,训练数据量将不断增长,端到端时代的数据规模比海量更海量。

03然而,端到端自动驾驶系统在安全下限方面存在缺点,需要规则代码或安全网络兜底作为过渡阶段。

04目前,自动驾驶数据闭环消耗的不仅仅是训练算力,还包括推理算力,模型训练阶段消耗训练算力,训练之前的数据标注消耗推理算力。

05为了提高安全性能,部分车企在端到端方案中加入了与安全相关的网络,如本能安全网络和类人类安全网络。

以上内容由腾讯混元大模型生成,仅供参考

图片
端到端催熟了智能驾驶体验,处于智驾领域绝对头部领先身位的小鹏汽车成功翻身,足以证明端到端的巨大优点。
但是,被国内车企吹上天的端到端也一些不容忽视的缺点。


万事万物大都既有优点也有缺点,很多东西都是一把双刃剑!
端到端重构了自动驾驶的技术栈,算法的全面AI化,使得数据成为驱动自动驾驶模型迭代的基础养料。
从此,自动驾驶系统在一定程度上摆脱了传统范式下有多少人工就有多少智能的尴尬,也杜绝了算法工程师有意无意埋一些bug的做法。
天道昭昭,人心可鉴,在裁员四起、人心惶惶的大背景下,理解一下程序员们养bug自重的无奈吧。
图片
在给定参数量和模型架构的前提下,自动驾驶模型的能力完全取决于训练的数据规模有多大、数据的质量有多高、分布性有多么丰富。
在规则+算法的范式下,自动驾驶系统尚有部分知识来自于人工设定的规则,到了完全转向数据驱动的端到端范式之后,自动驾驶系统全面模型化,系统压缩的所有驾驶知识完全来自训练数据。
这就意味着,到了端到端时代,自动驾驶系统训练的数据规模比海量更加海量了。
iPhone大屏化之后,宣称“Bigger than bigger”,比逼格更逼格,华为引入全向防撞系统之后,宣称“比安全更安全”,大家借此体会一下啥叫比海量更海量吧。
图片
随着智驾里程的增长以及自动驾驶系统能力的提升,训练的数据量当然也会不断增长。
如果非要刻舟求剑的话,蔚来截至今年4月份的视频训练量为1,000万个clips,小鹏截至今年9月份的视频训练量为2,000万个clips,特斯拉那么恐怖的训练算力,至少5,000万个clips。
图片
以上说的只是训练素材的数量单位,还得考虑训练频次和模型的迭代速度。
就跟学霸们通过反复刷题提升成绩一样,模型也是通过反复地训练这些数据,才把驾驶知识训练到模型的参数里面的。
特斯拉每天迭代一个小版本,假设需要训练20个频次,每天就得训练10亿个clips!


科学分析有两种方式:定量分析和定性分析。
比海量更海量属于定性分析,它可以给你一种模模糊糊的感觉,你尽可以根据自己的立场宣泄对端到端或褒或贬的情绪,不过,最终还是得进行定量分析,用真实的数据做严谨的对比。
看数据,特斯拉每天用5,000万个clips训练模型20个轮次,相当于训练10亿个clips,训练算力有限,FSD模型迭代的速度就会减慢,特斯拉将“训练算力”推高到100E的核心原因就在这里。
图片
这个100E其实不只包括训练算力,还包括推理算力,更为准确的说法是训推一体的AI算力。
随着数据标注工具推理能力的增加,过去主要依靠人工实现的数据标注工作逐渐得以自动化实现,数据标注效率大大提升了。
不过,和模型需要一遍又一遍地训练一样,训练素材的精标结果也需要一遍一遍地刷出来,其结果就是,自动驾驶数据闭环中的自动标注过程需要消耗的推理算力也大大增加了。
图片
也就是说,目前的自动驾驶数据闭环消耗的绝不仅仅是训练算力,还包括推理算力,模型训练阶段消耗训练算力,训练之前的数据标注消耗推理算力,用的是不同的服务器。
之所以还在继续沿用训练算力这么一个术语,主要原因是是历史沿袭的约定俗成,而且大部分人还没有及时更新认知。
图片
和分模块时代主要在感知层面打标签不同的是,到了决策层也要模型化当然也要做数据标注的端到端时代,视频训练片段的数据标注工作大大增加了。
这就意味着,端到端视频训练片段的数据标注工作量非常巨大。
特斯拉买英伟达H100做训练,自家的Dojo做推理,玩的那叫一个溜!
图片
而本土车企不只是训练算力不足,捉襟见肘的推理算力更是被端到端需要的海量数据标注工作打了个措手不及!


最近大火的《黑神话 悟空》告诉我们一个深刻的道理;人生在世,最可怕的就是执念。
自动驾驶领域就有一拨人,始终心怀消灭激光雷达的执念。
图片
他们始终认为,随着视觉神经网络训练数据的增加、参数的加大、模型的优化,最终可以消灭激光雷达。
端到端方案出现之后,由于消除了大量的冗余模块,实现了计算资源的集约化使用,端到端自动驾驶系统的参数量得以翻番。
视觉神经网络能力迎来大幅度提升,他们更是觉得拿到了尚方宝剑,认为摄像头可以将激光雷达斩于马下了。
图片
其实,端到端和纯视觉与多传感器融合之争没有什么关联关系,即便是传统的分模块方案,拿掉激光雷达后,也可以拿节省下来的计算资源提高视觉神经网络的参数量和性能上限。
之所以说端到端不排斥激光雷达,落脚点还是在安全上面。
激光雷达可以提供感知冗余,提升自动驾驶系统的安全,传统端到端方案中的规划控制网络也需要规则兜底,来弥补安全下限低的缺点。
一个是感知冗余,一个是规控冗余,想一想,这里面是不是有个大哥不说二哥的道理。
技术的发展存在跷跷板效应,上限高固然是端到端方案的优点,下限低也是它的缺点。
正如Mobileye揭示的那样,端到端方案在常规场景下具备更加优雅不怂、淡定从容的驾驶风格,可以实现更加舒适的驾驶体验,但在非常规场景下,这种优雅不怂很可能转成急躁冒动,带来安全风险。
图片
华为在它的分段式端到端网络中,加入了与其PDP预测决策规划网络并行的本能安全网络,很好地诠释了“安全就是最大的豪华”的理念。
图片
比亚迪也在它的分段式端到端方案BAS3.0中加入了类人类安全网络,端到端负责诗与远方,类人类安全网提供安全兜底保障。
图片

如果说数据训练和标注工作量巨大是甜蜜的烦恼的话,安全下限低便是端到端真正的缺点了。
在更好的训练范式出现之前,以规则代码或安全网络兜底是不可避免的中间阶段,某些车企的OneModel端到端听听就得了,切莫当真!