理想汽车的智能驾驶为什么迭代如此之快?

全文2141字,阅读约需7分钟,帮我划重点

划重点

01理想汽车通过端到端技术和视觉语言行动模型的创新应用,明确了智能驾驶发展的战略路径。

02公司计划在2024年初实现5EFLOPS算力,配合超10亿公里的高质量行驶数据,解锁端到端+VLM的落地可能。

03理想汽车的智能驾驶产品迭代分为三个阶段:有监督驾驶阶段、L3自动驾驶阶段和L4门票争夺战。

04为此,理想汽车需积累2000万Clips的视频训练数据,相当于50亿至100亿公里的驾驶数据规模。

05同时,公司在激光雷达的坚持上为其带来了安全性方面的优势,但也需在成本与市场竞争中寻找平衡点。

以上内容由腾讯混元大模型生成,仅供参考

能汽车出品


理想的AI talk从传播来看是非常成功的,如果说第一天讲硅基家人和理想同学有一些抽象的话,那么这次围绕智能驾驶,这个车企争夺市场份额和提升用户体验的核心战场,理想非常具体地解释了整个迭代的路径。


理想汽车通过端到端(End-to-End)技术和视觉语言行动模型(VLM)的创新应用,明确了智能驾驶发展的战略路径,同时对L3及以上级别自动驾驶、激光雷达等技术的核心观点进行了深刻解读。


我们将从理想智能驾驶开发的技术战略、产品迭代路径以及对行业未来发展的思考等角度进行分析,以洞悉其在智能驾驶领域的布局及潜在挑战。


图片

Part 1

理想智能驾驶的开发过程与战略


图片

我们首先要清楚,李想本人对智能驾驶领域的研发理念是非常明确的,从基础的智能辅助驾驶功能起步,通过逐步优化和数据驱动,迈向全场景自动驾驶。 


AI 技术浪潮来袭,理想敏锐捕捉到变革契机,决心以端到端结合 VLM 的架构重塑智能驾驶体验,真正缓解用户长途驾驶疲劳。


备注:这里的问题很清楚,解决了一个Corner Case(极端情况),又出现三个其他的Corner Case。你们一辈子都在解决Corner Case,解决不完。


当然端到端技术的导入并非一蹴而就。


在前期准备阶段,理想组建超 200 人的专项团队,开展多轮模型训练。当第一版端到端模型上车实测,效果惊艳 —— 短短月余训练成果远超过往三年,响应速度更是传统多步骤模型的数倍。


端到端技术摒弃复杂的多模块衔接流程,采用单一模型处理感知、决策、控制,极大提升效率与拟人化操作表现,比如在路口避让突发状况时,动作更敏捷自然。VLM(视觉语言行动模型)则为智能驾驶增添理解与交互维度。


它类比人类视觉认知与语言逻辑协同机制,让车辆不仅 “看清”,更能 “读懂” 路况场景,配合端到端架构,把智能驾驶从预设规则的桎梏中解放,开启数据驱动的自适应进化模式。


理想汽车在 2024 年初算力达到 5EFLOPS ,配合超 10 亿公里的高质量行驶数据,解锁端到端 + VLM 的落地可能。


● 端到端(E2E)+VLM的技术框架,这种技术路径的优势在于:


◎ 快速迭代与规模效应:理想的端到端技术依赖One Model(单模型)来处理复杂驾驶场景,通过深度学习与大规模数据训练显著提升系统反应速度。


相比传统的规则驱动方法,该技术减少了复杂的模块间交互,使得性能上限大幅提升。


李想指出,“端到端+VLM训练一个月的进步,超过了过去三年的工作成果。”


◎ VLM(视觉语言行动模型)的核心价值:VLM作为理想技术体系的关键创新点,通过融合视觉、语言理解和动作决策能力,模拟人类驾驶的逻辑思维。


与单纯的端到端技术相比,VLM的引入使系统具备对未见场景的适应能力,尤其在极端案例(Corner Case)处理中表现突出。


理想锚定 L4 级自动驾驶这一远期目标布局当下。李想直言,冲击 L4 需 500 万辆以上规模的车辆在路上收集数据、掌握 VLA 基础模型自主研发能力,以及雄厚资金招募顶级人才、扩充算力。


当下推进端到端 + VLM,是为积累数据、打磨技术、培育人才,攒下冲击 L4 的 “入场券”,先在 L3 阶段凭借更智能的产品收割市场青睐与数据反哺。


● 理想的智能驾驶产品迭代分为三个阶段:


◎ 有监督驾驶阶段:实现从车位到车位的全场景覆盖,包括小区道路、泊车场景、高速公路等。此阶段通过OTA升级将端到端+VLM推向量产车型。


◎ L3自动驾驶:预计在2025年实现,目标是综合接管里程(MPI)达到500公里,形成用户认可的自动驾驶体验。


◎ L4门票争夺战:以长期数据积累、算力储备和顶尖人才为核心,通过实现规模化的500万辆级别车辆部署进入高级自动驾驶赛道。


为达到500公里MPI的目标,需积累2000万Clips的视频训练数据,相当于50亿至100亿公里的驾驶数据规模。同时,理想通过扩展算力资源,在硬件支持上为大模型训练与推理提供保障。


Part 2

理想对L3/L4自动驾驶

的理解与产品布局


图片

● L3自动驾驶:路径清晰


理想对L3的定位明确,即以端到端+VLM的技术体系实现用户场景中的“解放双手”功能,核心逻辑在于通过高质量数据训练与算法优化提升MPI,确保用户体验的连续性与安全性。


郎咸朋表示,2025年L3的实现基于以下两点:


◎ 端到端+VLM模型的持续优化:在现有技术框架上进行深度迭代,提升系统应对复杂场景的能力。


◎ 全场景覆盖的产品形态:理想AD Max已实现城市、高速一体化的自动驾驶体验,为L3功能奠定了基础。


● L4自动驾驶:条件与挑战


李想认为,L4自动驾驶的核心在于“拿门票”,需要满足以下三大条件:


◎ 大规模车辆部署:500万辆以上的车辆在路上跑,形成数据闭环与规模效应。


◎ 核心算法能力:自主掌控VLM等基础模型的研发与优化。


◎ 资源投入:足够的资本支持顶尖人才招募及算力建设。


理想还明确了L4的决胜点在于电动化、智能化的协同发展,以及技术、产品与用户信任的全面成熟。


● 激光雷达的坚持与应用


特斯拉的“无激光雷达”路径不同,理想选择保留激光雷达以增强安全性,在中国夜间驾驶的特殊环境下,激光雷达的200米无光感知能力显著提升了AEB(自动紧急制动)的可靠性。


这种技术路线的选择反映了理想对家庭用户安全性的重视,同时也展现了其产品差异化策略。



小结

理想汽车在智能驾驶领域的战略路径清晰,依托端到端+VLM的技术体系以及全场景覆盖的产品形态,正在逐步迈向L3乃至L4的高阶自动驾驶目标,实现这一目标的关键在于数据积累、算力扩展与人才储备的持续投入。


同时,理想在激光雷达的坚持上为其带来了安全性方面的优势,但也需在成本与市场竞争中寻找平衡点。在电动化与智能化的双重战场上,理想深知L4是最终的胜负手。


通过明确技术路线、强化产品能力并聚焦用户体验,理想有望在智能驾驶时代中占据领先地位,这场竞争的最终赢家仍需时间去检验。