理想用端到端一夜改写智驾排名:半年全切换,全场景无图自己开

全文3827字,阅读约需11分钟,帮我划重点

划重点

01理想汽车完成了端到端智驾系统的千人内测,预计本月底将全面覆盖所有MAX车型用户。

02该端到端智驾系统采用特斯拉One Model结构,无图NOA驾驶体验与智能车参考介绍的6.0版本相差无几。

03除此之外,理想端到端智驾系统还包括视觉语言模型VLM,用于补充端到端模型的认知能力。

04理想汽车每年用在训练上的费用为10亿人民币,未来这个数字会上升到10亿美金。

05理想认为,未来智能驾驶的关键变量将是算力,端到端模型与VLM模型可能会在一定程度上融合。

以上内容由腾讯混元大模型生成,仅供参考

一夜间,理想也端到端了。

智能车参考获悉,本月理想完全自研的端到端智驾系统,已完成千人内测。

顺利的话,不用等到年底就会全面覆盖所有MAX车型用户。

图片

这是理想第一次公开端到端上车进展,从之前尾随追赶华为、小鹏,一举实现齐头并进,效率惊人。

技术上还更加纯粹:One Model,没有任何对旧技术体系的妥协或改良。

更加惊人的是,理想自动驾驶研发一号位郎咸朋告诉我们,整个技术路线的切换、上车验证、量产准备,只用了半年时间

能用吗?敢用吗?智能车参考率先替大家体验了一番。

理想做出了什么样的端到端

在体验之前,理想智驾产品经理特意向我们介绍了测试路线的“含金量”:

路线是选定好的,围绕理想位于北京顺义的研发中心,全程20多公里大约40分钟。

远离市中心但工厂企业很多,晚高峰仍然拥堵。城市、乡村、人车混行等等场景都有,完全真实。

虽然路线选定,但场景下变量随机。

整体体验下来,顺义路况还是比北京市区轻松得多,没有严重的堵车、加塞,车道线清晰度和路面宽度也比市区好得多:

图片

良好路况下理想端到端的体验,几乎和智能车参考前两天为大家介绍的理想6.0“无图NOA”,没有太大区别。

但在特定的复杂工况和博弈场景下,端到端优势就十分明显了。

比如在一个左转路口,旁车道的车突然抢跑别车:

图片

理想端到端系统,采取了快打方向、紧急避险动作,而不是突然刹停提示接管。

“避让”显然是比“刹停退出”更安全、更负责任的行为,而且也符合人类司机在相同情况下的会采取的行动。

再比如,路上我们遇到了一辆停在路上下客的公交车,而同时,对向车道又有一辆驶来的大卡车。

理想端到端给我们秀了一把“艺高人胆大”,直接在两个大车夹缝中完成了一次极限穿越

图片

对于可通行空间的精准判断和车控的细腻程度,已经超越了人类老司机。

但这样的策略是否必要?会不会给用户带来不必要的心理压力?可能还需要再斟酌讨论。

理想的解释是,现在的端到端还在测试,驾驶行为的偏好取向还要更多数据和测试反馈来决定,不代表量产实际情况。

第三个让人印象深刻的场景,是在一条主干道和乡村小路的右转博弈:

图片

挑战是多方面的,首先这是个直角弯,对于大型SUV来说操作空间十分有限。其次路面有很大的坡度,车辆俯仰会影响传感器的朝向和数据质量。

最困难的还是同时和两轮车、三轮车、货车、行人等等目标的博弈:

图片

整个过程沉着冷静,没有任何多余的刹车、加速或是方向调整。

理想特别强调了“拟人”的优势:没用端到端的智驾,也有概率能通过,但博弈过程可能是“前倨后恭”,想过又不敢过,整个过程反复刹车、提速。

最后再来看一个十分有趣的场景。

路过学校时,理想同学会给用户播报“现在路过学校,速度降至XX”。类似的,对于路上可能会影响驾驶行为的突发事件,理想同学现在都会播报。

图片

难道是背后用高精地图开天眼?

NoNoNo,这其实是理想端到端智驾的独特优势:

车端2个系统,一个是端到端AI司机,另一个是视觉语言模型VLM

端到端负责感知、决策、规划,是AI司机的主体。并且理想端到端不同于华为、小鹏,采用更直接的One Model结构,不分层

输入传感器数据,直接输出自车行驶轨迹。

One Model典型玩家是特斯拉,国内的商汤绝影UniAD也选择了这条路线,同样也走到了量产前夜。

至于VLM,本质是一个多模态大模型,作用是智能驾驶“点读机”,哪里不会点哪里,利用大语言模型的认知能力理解场景,输出另外一条行驶轨迹给端到端模型参考修正。

图片

为啥要这么做?理想解释因为端到端模型尽管直接学习人类成熟驾驶经验,但黑盒决策过程不为人知。对于目标的错检漏检,以及幻觉问题难以通过直接调参解决。

所以要加这么一个“点读机”,以及适当的强化学习手段来规范端到端模型的行为。

总结一下,理想用半年时间干出了这样一套即将量产的端到端智驾技术:

最大的不同点是没用国内主流的多段式结构,而是和特斯拉One Model一样一步到位,而且也是国内量产进度最快的。

但理想和特斯拉不同的点又在于,选择用语言模型为基础的多模态模型作为认知能力的补充,和小鹏、蔚来、商汤等等玩家相同。

以及还有一点,端到端模型参数量4-5亿,VLM总参数量22亿,完全能在现有Orin芯片的理想各个MAX车型上实现车端部署

理想怎么做端到端

简要的说,理想端到端“方法论”有三个组成部分:

一是找对老师,二是理顺架构,三是舍得砸钱。

理想自己形容新的智驾技术体系为一快、一慢

图片

快的是端到端模型本身,应对实时驾驶任务;慢的则是VLM大模型,用来学习常识,应对未知路况,比如潮汐车道等等。

分别来自两个“老师”:端到端摸着特斯拉过河,VLM则取法谷歌机器人系统 RT-1 和 RT-2。

这是理想认为的现在最可行的端到端量产模式,集各家之长。

自己是“踩在巨人的肩膀上”,躲了前人掉过的坑,才能在半年内完成端到端技术切换和量产准备。

理想尤其强调了特斯拉的先驱作用,FSD在V12之后各个版本展现出的实力,和快速进步迭代的能力,让理想几乎没有什么犹豫,果断选择One Model路线。

更长远的影响,是特斯拉的数据理念,理想从2019年就开始实践了。

李想去年曾坦白在智驾方面投入不足:早期因为要活下去,而把主要资源投在了产品、制造、渠道等等方面,智驾研发长期都是拮据状态。

智驾一号位郎咸朋更详细地解释了一下:所谓“没资源”,主要是没有足够的预算挖人才搞算法

所以早期理想用Mobileye方案,后来又用地平线+三方供应商方案等等,那时的智驾团队更像是一个“甲方”或项目交付团队。

但在有限资源制约下,李想和郎咸朋依然达成共识:算法可以徐徐图之,但数据能力必须提前建立起来。

所以在2019年开始交付的第一代理想ONE,团队特意在Mobileye的传感器旁边多放了一个摄像头,用来收集和分析问题。相应的,完成了一整套数据采集、挖掘、标注、训练的工具链。

一个例子,郎咸朋透露目前理想智驾训练数据的人工标注占比,已经不到1%。每年节约大约三四百亿的成本(人工标注一帧约10元)

数据积累和研发体系建设上很早,这是理想端到端“一夜间”上车交卷的核心。

图片

理顺架构始于去年下半年的理想战略会,明确研发和量产交付一起做,一个技术体系,无论是早期的NPN还是去年底的无图NOA,研发团队都是先在封闭区域短时间做验证,一个区域跑通就立马往外扩,同步加上安全兜底策略。

随着测试范围扩大,理想会逐步加入用户测试,实际上此时研发团队的角色和交付团队重叠了。

舍得砸钱,郎咸朋说目前理想每年用在训练上的费用为10亿人民币,未来这个数字会上升到10亿美金。

所以10亿仅仅是入场券,企业有健康的营收利润,保持每年数十亿的持续投入,才是端到端出成果的前提——“幸好理想的业务十分健康”。

换句话说,车卖得多,钱也多,以及还有另一层优势:数据足够多

郎咸朋认为这是理想回应一切对于质疑的终极答案。

理想为什么要做

理想端到端有两个模型,所以现在出现两种质疑声音。

首先是融合图像、语言多数据类型的大模型,理想能不能做好?

之前有国内知名AI玩家质疑过车企或者纯自动驾驶团队,没有通用性大模型的落地实践经验,靠开源模型永远实现不了端到端自动驾驶的认知能力。

换句话说,除非你一直搞通用AI大模型,否则你就很难搞好那个端到端“点读机”。

把这个问题抛给理想,他们的回应是这样的:

对于垂类应用来说,通用AI领域的多模态模型借鉴意义没那么大,唯一相通的其实就只有预训练的部分。

但再往后怎么训练,怎么加自动驾驶的知识而还不影响大模型常识,我们更有优势。因为我们有足够多的数据。反而是他们可能有点天真了

第二种质疑,来自All in端到端的友商,同样被我们抛给理想智驾负责人。

刚刚布道完端到端的何小鹏提了两个观点,首先是端到端应该是渐进式的,一步跳到One Model不可靠,以及他还说“车多数据多,也不一定能做好”。

对于分段式和One Model之争,郎咸朋认为肯定是One Model更好,但理想的技术路线切换不存在什么“飞跃”,而是实践后得出的认知。

图片

去年,理想先后验证了高速NOA的有图路线、NPN(地图先验信息)、通勤NOA,最后又改成现在6.0的无图NOA(BEV+Transformer),在一年时间内快速试错:

从高速NOA到城市NOA,发现高精度图依赖不得,于是决定走NPN线,只在复杂路口用地图先验信息。后来NPN百城推进过程中,又发现大量二三线小城,效果远不如北上广这样的一线城市,解决不了问题,于是开始探索彻底去图的方案。

6.0无图NOA就是在这样的背景下诞生的。其实和小鹏华为在推的“分段式”端到端一本质相同,也是感知、决策、规控几个模型串起来,各个模块采用数据驱动。

但无图NOA落地过程中,理想又发现了新的问题。那就是只要还有规则存在,就永远有不符合人类驾驶习惯风格的行为,在用户看来,就是“开得不好”。

这个时间节点是今年年初,理想内部迅速统一了认识:

只有One Model端到端才能完全按照人类的习惯去学习驾驶。

虽然有技术切换的成本,有组织管理上的代价,但对于理想来说是值得的,也能负担得起。

为什么要做端到端,为什么走了这么多弯路才开始做端到端,以及为什么能这么快出结果,理想和盘托出。

图片

至于端到端是不是解决自动驾驶终极问题的灵丹妙药,理想和大部分从业者看法并不同。

理想认为,仅靠端到端实现不了无人驾驶,因为目前为止,端到端模型本身解决的还是corner case问题,只不过方式从以前的写规则变成了喂数据。

真正制约自动驾驶发展的,是模型的认知能力,是大模型本身的规模

所以理想认为,智驾未来的关键变量其实是算力,只有车端算力足够大,才能把大模型频率跑的足够高、延迟足够低。

一旦大模型的响应时延满足自动驾驶安全需要,端到端模型本身和“外挂”VLM模型会出现融合的趋势,理想现在已经在做相关预研工作…这是一条特斯拉也不曾探索过的路线。

未来终局会是什么样,中间又会有些变数?

现在下结论太早,最快也要到英伟达的1000TOPS“芯皇”Drive Thor量产上车,答案才会逐渐清晰。

— 联系作者 —

智能驾驶2023年度评选结果

在经过广泛征集、专业推荐,以及智能车参考垂直社群的万人票选后,智能车2023年度评选结果正式发布。涵盖三类奖项:

· 十大智能车领军人物

· 十大智能车产品

· 十大智能车技术方案

在汽车工业迎来百年未有之大变局时,我们希望能以此提供智能维度的参考和注脚。

其中,十大智能车产品是:

<< 左右滑动查看更多 >>


—  —

智能车参考】原创内容,未经账号授权,禁止随意转载。

点这里👇关注我,记得标星,么么哒~