直觉智驾、本能智驾、监督式智驾涌现,「端到端」扎堆落地呼唤L3放行

全文4427字,阅读约需13分钟,帮我划重点

划重点

01端到端技术在智能驾驶领域越来越受欢迎,各大车企纷纷宣布量产消息,如特斯拉和小鹏。

02智己汽车成为国内首个官宣落地“一段式端到端”的车企,采用纯视觉+端到端大模型的高阶智驾方案。

03然而,端到端技术在安全性方面存在不确定性,国内车企在数量和AI训练算力方面与特斯拉相比仍有较大差距。

04专家认为,分段式的端到端方案模型是比较合理的技术路线,先做到感知的端到端,在规控算法上保留安全准则模型。

05随着端到端技术的逐步落地,L3级智能驾驶的落地已经迫在眉睫,监管层需要适当时刻放行L3,为这个产业真正解绑。

以上内容由腾讯混元大模型生成,仅供参考

图片


“端到端”在质疑声中纷纷落地,智驾头部玩家几乎都赶在了2024年末官宣了端到端的量产消息。同时直觉智驾、本能智驾、监督式智驾、交互式智驾等越来越多的智驾新名词开始涌现,这些都是市场端在向监管端发出消息:L3放行已刻不容缓。

文丨智驾网 金山
编辑 | 浪浪山上的小猪妖

临近2024年底,“端到端”的量产应用成为高阶智驾领域热度最高的话题。

以城市领航辅助为代表的高阶智驾功能,从2023年的初现端倪,再到2024年的大规模落地,如今已经成为各大车企争夺高阶智驾话语权的焦点。

而高阶智驾发展到今天的L2+级别,想要再上一个台阶达到L3级甚至更高,原有技术在面对复杂多变的城市道路时就显得有点吃力了。

于是,“端到端”成了智驾领域最近一个阶段被高频提及的关键词。

目前,官方宣布已经落地端到端技术的车企越来越多,全球层面的第一个是特斯拉,国内的第一个是小鹏

图片

今年3月,特斯拉推出了FSD系统的V12版本,该版本宣称删除了几十万行的人工规则代码,采用了端到端自动驾驶解决方案。

今年7月底,小鹏宣布向全球用户全量推送AI天玑系统XOS 5.2.0版本,该版本采用了国内首个量产端到端大模型,官方宣称其高阶智驾系统提升到了“全国都好用”的水平。

在8月开幕的2024成都车展上,极越宣布PPA智驾升级为百度ASD,采用“纯视觉+端到端大模型”的高阶智驾方案在极越07上实现首搭。

虽然更多的车企还没有实现量产落地,但也在紧锣密鼓地进行端到端技术的研发。蔚来在年中成立了大模型团队,小米也将智驾技术研发团队的感知与规控两个部门合二为一。

8月初,梅赛德斯-奔驰则在上海研发中心宣布,全新一代自动驾驶系统的“无图”L2++城市领航辅助已经开始测试,并且应用了端到端大模型。

而在10月末,又有两个新势力品牌官宣了端到端落地的消息。

图片

10月23日,理想汽车宣布全新一代双系统智能驾驶解决方案“端到端+VLM视觉语言模型”正式全量推送。

到10月28日,智己汽车宣布IM AD 3.0率先完成从“最像人”到“有直觉”的断代式进化,为智驾系统率先注入人工智能生成的“直觉”——基于智己汽车与Momenta联合打造的“一段式端到端直觉式智驾大模型”。

至此,智己正式加入端到端阵营,并成为国内第一个官宣落地“一段式端到端”的车企。

01.

“直觉”智驾与“一段式端到端”

究竟什么是端到端?这是高阶智驾进入端到端时代首先要理清的概念。

所谓的“端到端”,一端是传感器,包括摄像头、激光雷达等,它们就像眼睛一样承担输入环境信息的作用;另一端是行驶轨迹,也就是系统接收了来自传感器的信息后,会输出规划轨迹,从而控制车辆按照轨迹行驶。

图片

以往,传统的智能驾驶系统采用的是模块化模型,将感知、预测、规划分别为三个独立的模型。每个模型的技术栈差异较大,处于下游的规划模型需要依赖工程师编写大量代码去制定行驶规则。在模块化的技术架构下,信息的传递会出现减损,系统的维护难度大,无法从容应对复杂路况。 

端到端大模型则截然不同,将感知、预测、规划三个模型融为一体,无需程序员编写冗长的代码去制定规则,而是用海量数据去训练系统,赋予机器自主学习、思考和分析的能力。端到端模型不会出现信息传递减损,能够更好地处理复杂的驾驶任务。

这就是我们常说的系统具备了学习能力,可实现“边看边开”,从而拥有了应对复杂场景的能力。

按照智己官方的说法,IM AD 3.0能以更接近人脑结构的思考方式,生成本能反应主导的直觉决策能力,可以能像人类思维一样做出瞬间预判,具备“十年老司机”的直觉驾驶体感。

图片

这个所谓的“直觉”,其实就是端到端技术的核心价值——打破传统架构中模块化方案的解决思路,不再依赖人工编写的规则,让感知信息能够更加无损地参与到每一次的路径规划,输出更加类人的驾驶策略。

因此,智己提到的这个“直觉”,其实也不算是新概念,而是对端到端技术最恰当的一种比喻。

据官方介绍,智己IM AD 3.0让智能汽车首次拥有了综合分析道路环境全局信息的能力,尤其在应对突发状况时,能够“脑补”出看不见、看不全的路况信息,像人类高级思维一样可以做出瞬间预判,即人们通常所说的“直觉”或“下意识反应”。

图片

在具体场景方面,智己在发布会上展示了测试视频,可见IM AD3.0能够礼让盲区横穿的行人、可以绕行水坑等特殊障碍物;在面对人车混流的无保护左转场景时,能够像老司机一样老练博弈,而不再原地傻等;在错综复杂的路口,即使面对无中线、超宽车等看不清的路况,也能流畅通行。

智己还表示,IM AD3.0已经可以做到“全国都好开,全场景都敢用”。

图片

其实从端到端技术的落地时间来讲,智己并不算快,但此次官宣还有一个看点,那就是“一段式端到端”的落地,这让智己成为国内首个实现这一技术上车的车企。

当前,端到端大模型基本都采用分模块智驾结构,也就是所谓的“两段式”架构,分别为感知的端到端和规控的端到端,二者各自独立。

为智己提供智驾方案的科技企业Momenta CEO曹旭东表示,在两段式端到端中,感知的端到端一定需要这个物体对于人来说是比较好定义的,这样的话才能够很好地搜集训练数据,以及学习和验证。但是对于复杂的通用障碍物,比较难在感知的端到端里面做定义的,规控的端到端就无法收到对应的输入,进而忽视掉重要的感知信息,做出一些误判的驾驶行为。

图片

“一段式端到端大模型”则取消了分模块智驾结构,将感知与规划整合进一个大模型,通过数据飞轮提供的海量优质数据,训练一个完整的神经网络,分析全局信息、隐含信息,学习优秀的人类驾驶行为,从原始数据输入到规划路径输出,形成了类似人脑的高级思维“直觉”反应。

曹旭东表示,一段式端到端的好处是感知的端到端和规控的端到端联系在一起,哪怕未定义的物体出现,在感知大模型的帮助下,仍然会做出合理避让。

为了解决一段式端到端方案前期下限低的问题,Momenta的端到端模型采用了短期记忆和长期记忆的训练逻辑。其中,短期记忆的训练周期是以“天”为级别的,好的数据和好的方法得到验证之后再进入长期记忆的模型学习。

图片

这是一个类似于人类大脑进行学习的逻辑,当一个新的数据进来,它会先进入短期记忆,等到数据和方法被验证之后,才会进入长期记忆去学习。

根据官方数据,这套智己与Momenta联合打造的“一段式端到端大模型”在“长短期记忆模式”架构的助力下,将模型训练成本节省了10-100倍,同时还大幅提升了迭代速度。

02.

“端到端”到底难在何处?

虽然官宣落地端到端的车企越来越多,但无论是在研发端,还是在市场端,业内人士对端到端的观点及判断并不一致。

8月16日,在第四届沈阳智能网联汽车挑战赛上,同济大学汽车学院教授朱西产表示:“特斯拉的端到端、人工智能让自动驾驶更加成为可能,端到端被特斯拉带火了,国内的车企都在说端到端。但现在,谁宣布端到端量产上车了,他的这个车你就别买。”

图片

而在此一周之前,华为终端董事长、智能汽车解决方案BU董事长余承东评价特斯拉FSD到:“其商用版本进步非常大,上限挺高,但下限也很低。我们去测试,路上停着静止不动的白色货车,不减速就直接撞过去了,还有绿色的货车,也是不减速就去撞。”

根据朱西产的解读,端到端大模型虽然能够提供强大的泛化能力,但是在安全性方面存在不确定性。国内车企在数量和AI训练算力方面与特斯拉相比还有较大差距,所以近两年端到端量产上车的可能性不大。因为大模型需要的高算力还很难在车端布置,并且大模型目前也很难解决“长尾难题”。

所谓“长尾难题”,就是指在自动驾驶过程中那些发生概率较低、但种类繁多的特殊场景所带来的潜在风险。这些问题涵盖各种零碎、极端的情况和难以预测的人类行为,例如:带有凸出货物的卡车、打伞的行人、倒在路中央的树木,以及异形车辆、乱穿马路的行人和自行车、雨雪等极端天气、极暗的行车环境等。

图片

同样是在8月初,极越CEO夏一平也曾表达了对端到端技术的看法。

他表示:“端到端很难一蹴而就,我不认为现在市场上有任何一家是端到端,绝对不可能的,这个世界上现在没有人是端到端,不要吹这个牛。特斯拉目前还是分段式的,真正端到端、完全视觉看到直接做执行还很难。要知道,这背后的验证模型是巨大的投入。”

夏一平所提到的巨大投入,就是端到端大模型量产的最大难点——它的完善需要巨额的训练数据积累,由此带来的人力、物力和财力的消耗也是非常可观的。

以特斯拉为例,仅仅建设超算中心就花费了40亿美金,而端到端大模型越完善,也将意味着参数越多、数据越多,其中还包括图片和视频数据。

图片

在数据采集方面,目前车企纷纷依靠用户的车辆采集数据,销量越大也意味着数据越丰富。据业内人士预测,谁的销量先破100万辆,谁就有可能在智能驾驶采集数据方面率先取得突破,而特斯拉在美国市场已经销售了170多万辆,它在数据积累上的体量是目前任何一个品牌都很难达到的。

朱西产认为,根据国内车企目前在智能驾驶开发的数据能力和AI训练算力,先做到感知的端到端,在规控算法上保留安全准则模型,这种分段式的端到端方案模型是比较合理的技术路线。

以当前的情况来看,已经官宣落地的“端到端”大概率都是这个模式。

图片

据极越官方表示,百度在AI和自动驾驶领域拥有超过十年时间、超过1500亿资金的持续投入,基于L4级自动驾驶大模型Apollo ADFM打造了ASD。Apollo的L4级自动驾驶里程已经超过1亿公里,并建立了超5.5EFLOPS的高算力训练集群,可以实现模型的高效训练和快速迭代。

在这一点上,智己与Momenta宣布“模型训练成本节省了10-100倍,并大幅提升了迭代速度”其实与之意思相同,那就是强调数据训练效率提升,已经积累到了可以支持端到端落地的量级。

而至于小鹏、理想等品牌,目前尚未针对数据训练给出详细的解读信息。

03.

L3量产只差临门一脚

随着端到端大模型的陆续落地,智能驾驶突破现有的L2级“限制”已经迫在眉睫了。

智己在宣布“一段式端到端直觉式智驾大模型”量产上车的时候,也同步官宣了“同时具备L2、L3、L4级智能驾驶量产能力”的消息。

图片

按照官方公布的信息,智己的L2+级高阶辅助驾驶已在全国范围内开通全系车型“无图城市NOA”;欧洲市场的L2+道路测试也已启动;L3级自动驾驶已进入量产倒计时,智己在今年6月入选了全国首批“L3准入及路试联合体名单”,预计将于2026年正式具备L3级自动驾驶方案的量产条件;预计将在年内获得首批“L4级无驾驶人道路测试牌照”,实现无人驾驶车率先上路。

智己表示,在随着L3、L4级自动驾驶相关法律法规的逐步出台,智己将最快落地全行业最领先的自动驾驶体验。

比智己更早一点官宣的是华为,余承东在2024世界智能网联汽车大会上表示,预计ADS 4.0将于2025年推出,将实现高速L3级自动驾驶商用及城区L3级自动驾驶试点。

而像小鹏、理想、蔚来、极越等具备了高阶智驾能力的品牌,其实也已经具备了突破L2级的技术积累,他们的智驾系统在功能上距离允许“脱手”也只差法规的松绑而已了。

图片

因此,L3级智能驾驶的落地,已经到了只差临门一脚的时刻。

在6月15日举办的中国汽车蓝皮书论坛上,华为智能汽车解决方案BU CEO靳玉志表示,汽车智能驾驶已经在L2级停留了太长时间,L3级自动驾驶技术在高速公路等场景的应用已经较为成熟,应该尽快允许商用。

虽然法规究竟何时可以“解绑”尚未可知,但端到端技术的逐步落地和持续完善无疑将起到助推作用。

对于L3的放行,智驾网曾多次表示,可以分步实现,沿承从代客泊车、高速NOA、再到城市封闭道路NOA,最终到完成城市NOA的一个逐步放开的顺序。

而对于所谓历史性的事故责任主体从驾驶者向车企的转换,应遵循经济救济原则,引入代客泊车险、高速NOA险种等措施,用经济的方式解决责任主体的风险问题。

今年随着端到端的落地,直觉智驾、本能智驾、监督式智驾这新些的智驾名词,事实上都是强调高阶智驾来到一个新的阶段,而对于消费者而言,就是特定场景下,车辆已可以实现比人类驾驶员更好的表现。

那么监管层,需要适当时刻放行L3,为这个产业真正解绑。

【关注智能汽车,关注智驾网视频号】

图片