“端到端”是不是撕开完全自动驾驶的那道裂缝?
流量/声量这么大,大家都创造条件上,
特斯拉的FSD V12 Beta,又是它第一个
小鹏汽车的端到端算法,升级了Xnet和Xbrain模型
华为ADS 3.0,GOD网络和PDP网络为核心
百度Apollo ADFM
辣应该是的光吧,至少是在聚光灯下的。
说是曙光/微光,是因为这道光真的能照进来的话。
可能意味着:最终世界模型的路,真有可能走通。
一个可解释的一端式端到端,性能表现类人类、稳定、可靠的话。
确实是一道微光。
和现在搭积木(场景),以量取胜的自动驾驶相比。
端到端最大的区别在于。
有一点点摸到,直接理解物理世界的那道坎。
就像,看剧,不需要字幕组:
直接生吞物理世界这个“生肉”
是生吞,全量的、瞬息万变的、包含小概率事件的现实世界。
怎么生吞的:
“端到端”是通过一个单一的神经网络模型直接从传感器输入到控制输出。
这样能简化多个模块之间的复杂交互和信息传递过程。误差积累也就少了,计算效率也提升了。
对比现在传统的架构:用分模块的方法,将感知、预测、规划和控制等任务分别由不同的算法模块处理,每个模块之间通过接口传递数据。
虽然降低了开发难度,但容易导致信息传递损耗、误差累积以及计算延时。
可以快速的搭起下限不低的自动驾驶,但是天花板隐隐也就在上头了。
而端到端架构则通过深度学习模型直接处理原始传感器数据。
关键,衍生出了全局优化和泛化的能力
所以,端到端,是隐隐摸到
高度抽象以后,有自主思维能力的自动驾驶?
但为什么是隐隐摸到,能不能生吞现实世界?
八戒吃人生果那样可不行。
得可解释,这是目前最大的难题。
目前也有一些方案来攻克可解释性
多模态大模型:
牛津大学提出的RAG-Driver通过使用多模态大模型的上下文学习,提供人类可理解的解释,增强自主决策的可信度和透明度。类似于给代码写一个阅读性很强的文档?
从算法建模前、中、后三个阶段插手:
在算法模型建模前、建模中与建模后三个阶段赋予模型从始至终的可解释性。类似于,每一个模块都“打印”出来,做过程检验?但,这与一段式端到端是不是背离的。
但是底层的,需要超量的高质量数据及仿真/实车验证。
要靠时间,不能压缩的时间。
希望,这道光快点照进来吧。