换道超车,理想智驾今年要成为“绝对头部”

全文3428字,阅读约需10分钟,帮我划重点

划重点

01理想汽车创始人李想强调智能驾驶是公司的主要战略,希望2024年成为智驾绝对头部。

02该公司推出端到端+视觉语言大模型(VLM)的技术架构,旨在支持L3级自动驾驶产品开发。

03与特斯拉相比,理想汽车认为自己的智驾方案更具优势,因为所有技术都是自主研发。

04然而,切换技术方案也带来成本,包括组织管理、算力储备和人才需求等方面的挑战。

05随着智能驾驶竞争的升级,未来三四年或将见证头部玩家的惨烈淘汰赛。

以上内容由腾讯混元大模型生成,仅供参考

图片

作者 | 邱锴俊

编辑 | 章涟漪

每周都发周销量榜的理想汽车,真的是沉溺于“低质量内卷”不可自拔吗?
创始人李想还不至于这么昏聩。
高水平的商战,以认知为前提,再考验落地能力和速度。
李想对于汽车行业的认知和长期策略,都是打“明牌”的——自成立以来,李想就不停对内对外讲述理想汽车的战略。在2023年初,李想将公司愿景调整为:2030年,成为全球领先的人工智能企业。
理想不仅“卷”周销量,而且“”智驾。
2023年9月的理想汽车战略会,李想强调“第一件事是明确智能驾驶是公司的主要战略。”理想智能驾驶副总裁郎咸朋说,自此之后,“公司(智驾)的执行和动作上明显就加速了很多。”
理想汽车决策和执行本来就快,在智驾技术方案上,更是“喜新厌旧”。就在无图城市NOA刚刚推送之际,理想汽车日前又启动新一版智驾的千人内测。
正在内测的这一版智驾系统,和已经量产推送的版本,在技术架构上完全不同。理想汽车正在测试的智驾方案,采用的是端到端(E2E)+视觉语言大模型(VLM)的技术架构。这一架构是理想汽车首创。
图片
特别是端到端的系统,是One-Model一个模型,与当前国内多家企业采用的分段式(比如感知端到端+决策端到端)不同,从输入信息到输出行驶轨迹,都是由模型自主决策,不含任何程序员写的规则。
8月2日,在和《电动汽车观察家》等媒体的交流中,郎咸朋和理想智能驾驶技术研发负责人贾鹏,表达了对这一新架构的强烈信心。凭借这一架构,理想汽车希望完成两个目标:超越和引领。
所谓超越,郎咸朋表示,理想汽车在2024年要成为智驾绝对头部。
所谓引领,理想汽车要在今年底或明年初,向用户批量交付推送有监督的L3级自动驾驶。这个时间表,要比几乎所有对手都要早。
端到端、VLM的具体方案,已经超越了我们能够判别的知识范畴。但是,我们不妨来看看,这个“低质量内卷”公司,所说的逻辑到底通不通。
01
从智能驾驶到自动驾驶
7月,理想汽车刚刚向ADS Max用户全量推送了“全国都能开”的无图NOA。
这是一个智驾产品。
但是,理想汽车的“端到端+VLM”新架构,被清晰地定义为:全新自动驾驶架构。
其含义是,这一架构将足以支持开发L3(有需要时驾驶员要接管)、L4(无需接管的自动驾驶)级自动驾驶产品,而不仅仅是当前L2+,或者所谓L2.5、L2.999……的智能驾驶辅助系统。
话先不说那么远,现在千人内测版的理想智驾,也是采用这一架构,能做到什么?
在对参与测试的用户,理想汽车给出了当前版本的一些亮点。

图片

从中,我们可以归纳出几个特点。
对于端到端的架构,完全以模型学习代替规则,克服了规则无法覆盖所有场景的决策难题,使得该系统具备了路边起步、环岛通行、U型弯掉头、合流拥堵时博弈的能力。
图片
比如,“千人内测”版对于环岛、超车的处理能力提升,就在于系统对于老司机驾驶数据(采集自理想车主)的学习,其中到底运用了老司机掌握的哪些技巧和规则,端到端的不可解释属性,让工程师和使用者都无从得知。但是,它就是开得更好了。
郎咸朋举了一个例子。
“我什么时候超车变道?是前面车压我30公里时速、还是20公里的时候?……在某个速度条件下,旁边有实线我变不变?旁边有车我变不变?后边来车变不变?……这么举例子的话,是无穷无尽的,这就表示一旦用(规则)这种方式去做自动驾驶的话,能力边界是显而易见的。”
但是,端到端通过学习老司机超车的数据,可以更拟人、更快速的超车决策。
另外,端到端的方案,还提升了智能驾驶的体验。以规则为主的智驾系统中,未必会去覆盖一些小场景,比如坑洼路面、夜晚无灯道路,因为需要单独为此写一个规则。但对于端到端系统,自动学习了老司机的处理方式,做出减速等预防性措施,无需用规则来覆盖所有的体验提升场景。
对于VLM视觉语言大模型,则是通过视觉模型的训练,让驾驶系统更能理解车辆周边的信息。
图片
比如,“千人内测”版智驾已经能够识别公交限行时段(目前只识别有路标的,路面车道内文字识别有待更新),另外对于施工路段、学校路段,也都能够识别,并且自动降速,并且通过语音和UI提醒驾驶员。
值得一提的是,VLM不是“看见”一个修路路标,就会提示。在《电动汽车观察家》对“千人内测”版车型的简单试驾中,我发现系统还会辅以其他一些信息,才会“推测”是修路路段。不过,也出现了,仅有一辆工程车停靠在路边,就提示在修路的情况。
总体而言,目前理想汽车端到端+VLM的架构,做到什么水平?
贾鹏给出了一个直接的判断,理想汽车智驾的技术架构,只落后特斯拉半年。
他介绍说,从特斯拉开始发布FSD V12.3版本开始,理想汽车智驾团队就定期去美国测试。“基本都是连续一周一直在开,然后西海岸东海岸都试过,(半年的差距)这是总体我们自己总结下来的。”
当然,理想汽车“千人路测”版端到端+VLM架构的智驾,还处在较早阶段,按照此前理想数个版本的更新节奏,在“万人路测”以及正式全量推送之前,理想汽车还会对这一系统做持续的升级。其功能和体验,还会持续增加。
正式版何时推送?
郎咸朋答“还需要一点时间,主要看模型迭代的速度。”
他补充说,“我们经过一些评估,它的体验,它的稳定性,它的安全性都已经达到了标准”之后,就会推送。
从理想汽车无图NOA的迭代速度看,进展会很快。无图NOA的千人内测,从5月10日开始内测,7月15日就全量推送,用时仅两个月。
而且,郎咸朋也确认,今年底到明年初,有监督的L3级自动驾驶就将量产推送,那么在此之前,一个更低功能版本的端到端+VLM架构的智驾,无疑就会全量推送。
02
不抄作业,所有题都做一遍
比拼起智驾来,理想汽车确实不是车企里面的“学霸”。
而且,回溯理想汽车的智驾技术路线,短短3年内,已经尝试了好几个方案,好像在不停抄作业:从高精地图方案,到NPN(神经先验网络),再到无高精地图方案,再到如今的端到端+VLM。

图片理想汽车智能驾驶副总裁郎咸朋

郎咸朋表示,理想汽车不是为了端到端而做端到端,如果是为了做端到端,“特斯拉早就做了,我们应该直接做就好了”。
“我们不是一个专门follow(跟随)别人的一个公司,我们有自己的对这个技术和对产品的本质的理解。”他表示,理想汽车的智驾方案迭代,是“把技术全都做完一遍之后,遇到问题解决问题的一个实事求是的过程。”
郎咸朋说,用高精地图做完高速NOA之后,紧接着做城市NOA,就发现城市没有高精地图了。“我们去分析一下,只有在复杂路口这些场景下,可能还是对图需求量高一些。”因此,理想汽车提出了NPN(神经先验网络),来代替高精地图。但是,他们发现,北上广深做得还可以,因为车多量大,一些偏远一点的城市车不那么多了,数据迭代就有问题。
“(城市NOA)做到百城规模之后,才发现它确实解决不了问题……我们就理解到一点,从本质上看,无论是轻图还是重图,它最大的问题是只要你用图你就做不了全国。”郎咸朋说。
于是,理想汽车坚决地切换了无高精地图的方案。
“现在为什么要做端到端?无图的问题是,还是有规则,并不符合人类驾驶习惯、风格,那么用户其实要的是什么?用户要的是非常拟人的老司机的驾驶的体验……如果我不摒弃现在无图这套技术的话……永远做不到拟人,那我就上端到端。”郎咸朋说。
虽然技术方案老变,但是郎咸朋认为,这是一个很正常的思路,遇到问题的时候看问题的本质,然后发现解决方案就坚决地去执行它。
如此快速地切换技术方案,无疑有切换的成本。“这里边有一些组织管理上的代价,但是我觉得对于我们做的事情都是值得的,这是我们理想的一个优势,这种组织的效率管理的执行能力的一个优势。”
03
智驾竞争升级
每家企业都可以做辅助驾驶,但“不是每家企业都能做自动驾驶。”
郎咸朋表示,到了人工智能时代,就拼两点:一是足够多的高质量的数据,二是与之相匹配的充足的算力的集群。
在数据方面,郎咸朋接受,从2019年交付第一辆车开始,理想汽车就开始积累数据,并且搭建数据平台。而且,后续理想L系列“都是套娃”,对自动驾驶有极大的好处,所有的摄像头规格和安装的位置都是一致的,虽然说有细微长短的差别,但是数据就能完全复用。
在这次的端到端+VLM架构中,理想汽车就从自己的车主当中,筛选出了评分90分以上、占比仅3%的司机的数据,“投喂”给模型进行训练。
在算力储备方面,理想汽车拥有15000张等效英伟达A100、A800 的算力,一年费用达到10亿人民币级别。
“但是我们预估将来花费要到每年10亿美金。”郎咸朋说,“如果你一年拿不出10亿美金来去做训练的话,可能会在将来的自动驾驶竞争当中被淘汰。”
郎咸朋这个说法类似于马斯克。他曾表示,如果有人想要在Dojo项目(特斯拉的端到端模型训练项目)上复制特斯拉,那么他要在用于训练的算力上花费数十亿美元。
在智驾人才方面,需求也会不一样。
从规则改为模型训练之后,会大大减少人的使用。
郎咸朋和贾鹏表示,现在新招聘的很多智驾员工,不是此前做智驾辅助系统的,而是很多学习大模型的校招生。
他们的表述,和蔚来汽车小鹏汽车的表态类似。
蔚来汽车的智驾负责人任少卿表示,此前的智驾方案不是端到端的,有很多个模块,各有团队,有做模型,有写代码的,但做了端到端之后,各模块的人没必要单独设置。
小鹏汽车董事长何小鹏也表示,规则时代,人才的密度决定了方案的高度,但是AI时代,人才的高度决定了方案的高度。
“从端到端开始,大家真正用人工智能的方式去做自动驾驶了,我相信或早或晚,头部玩家一定都会做这个方向的。”郎咸朋说。
智能驾驶或自动驾驶这一轮的技术范式迭代,不是所有人都能跟得上。
谁是“剩者”?也许接下来的三四年,我们就能见证这一惨烈而注定要发生的淘汰赛。