端到端是面子，含模量是里子——智驾公司的生死线

圆周智行

2026-03-26 14:21发布于四川

问AI · 含模量如何决定智驾系统的真实进化能力？

谁在真正进化，谁在假装聪明。

智驾行业卷到今天，能卷的指标几乎都被卷遍了。

卷激光雷达线数，卷芯片算力，卷端到端、VLA、世界模型。每个季度都有新词冒出来，每场发布会都有新故事可讲。

但就在这堆眼花缭乱的参数和概念背后，千里科技提出了一个完全不同的指标——含模量。他们认为，这才是判断智驾公司真实水平的底牌，是所有显性指标背后被忽略的底层指标。

所谓含模量，是指智驾全栈流程中，由AI模型驱动的模块占比。

听起来有点抽象？我们把它拆开来看。

智驾的全流程——从数据采集、感知、预测、规划、控制，到数据挖掘、仿真评测，其实是一个极长的链条。其中的每一个模块，既可以由人工规则完成，又可以由AI模型完成。在传统架构里，这些环节仍然大量依赖人工手写的规则和算法。而含模量衡量的就是：这个链条上，到底有多少环节已经被AI模型接管。

说得更直白一点：一个智驾系统里，到底有多少部分是真的在靠AI自己思考、自己迭代，而不是靠工程师一行一行代码堆出来的？

这不是一个能写在参数表里的指标，但它决定了所有你能感受到的东西：车开起来丝不丝滑，遇到陌生场景会不会“罢工”，是“新手”还是“老司机”。

要理解含模量为什么如此关键，首先得搞懂一个概念：梯度回传。

这是大模型训练中最底层的机制：输入数据 → 模型预测 → 对比真实结果 → 计算损失函数。差异越大，损失函数越大。训练的目标，就是通过反向传播调整参数，让损失函数降到最低。不断重复这个过程，让模型越来越准，这也是模型自我进化的核心机制。

把这套机制放到智驾上：摄像头、雷达监测到行人和障碍物，输出一个驾驶决策。如果这个决策和人类老司机的正确驾驶行为有偏差，系统就给自己“扣分”，然后触发梯度回传，重新调整参数，直到做出正确决策。

整个过程就像客服反馈，做得不好就改进，不断把损失函数降到最低，不需要人工干预，模型自己就能越跑越聪明。

但要让这套机制真正跑通，有一个巨大的障碍需要先清除掉——多传感器的数据冲突。

各类传感器的数据格式五花八门。激光雷达是点云信息，毫米波雷达是波状信息，摄像头是像素信息。它们各自有独立的成像算法，独立做感知。当两者对同一个场景的判断冲突时，比如激光雷达说前方有障碍物，相机说没有。系统该怎么办？

传统做法是人工手写规则：“这种情况听激光雷达的，那种情况听相机的。”这听起来很合理，但问题在于：现实世界的场景是无限的，而规则是有限的。每遇到一个新场景，就要写一条新规则。规则越写越多，系统越来越复杂，但永远有写不到的Corner Case——因为现实世界的场景是无限的。

更重要的是，这种架构天然割裂了梯度回传。因为规则是人工定的，数据无法直接参与决策，模型也就无法自我进化。写到后面，系统就变成了一座永远在加高的违章建筑。

而高含模量的系统，用的是另一套打法：把不同传感器的信息统一成同一种格式。比如 OCC 算法，用网格判断空间是否被占据，遇到障碍物时，不纠结于识别物体到底是“塑料袋”还是“石头”，只判定有没有障碍物。统一格式之后，全部灌进同一个大模型，让模型自己判断该怎么开。

系统不再需要纠结“到底该听谁的”，因为所有信息在进模型之前就已经对齐了。数据进来了，模型输出了，偏差被捕捉了，参数更新了，一个完整的闭环就形成了。

在这条路上，特斯拉是一个绕不开的参照系。

特斯拉的 FSD 系统，是高含模量的活样板。有黑客拆解过特斯拉 FSD 端侧芯片，发现其是由多个小网络模块组成，看似是割裂模块拼接，但实际上这些小模块都能向主决策模型回传特征与信息，在统一框架下协同推理、整体对齐。它不是传统意义上分段拼接的“端到端”，而是真正统一的智能系统。

它的运作逻辑也非常简单：8个摄像头，纯视觉，数据格式统一。视频流被切分成统一的Token，输入一个大模型。模型最终只输出两个参数：速度和转向。摄像头每秒能产生海量 Token，数据量极大。上下文越多，计算量和显存占用就越高。但特斯拉能在这种极限条件下实现高效处理与极简输出，堪称“真・大脑”。

特斯拉能做到这一点，难度极高。车端需要在极短时间内完成统一表征、模型推理、决策输出，对芯片、显存带宽、算法效率的要求都是天花板级别。再加上在仿真环境里跑海量Corner Case，让模型自己“见过”所有场景。这套体系，不是靠堆人堆规则能堆出来的。

如果把特斯拉看作高含模量的标杆，那么行业里的大多数企业，走的是另一条完全不同的路。

现阶段行业还在大量使用手工规则，所谓一段式、两段式大多是噱头。自动标注、仿真训练，大部分还在靠手写规则。有些模块很难模型化，或者模型化效果不如人工精准。很多车企吹嘘数据量庞大，但大量都是平稳驾驶的无效数据；靠人工筛选、标注，效率极低、成本极高，即便对外宣传“全自动标注”，行业远未成熟。

这也呈现出产品体验的差异：特斯拉决策一气呵成，边减速边转向连贯流畅；而规则主导的系统，常常出现卡顿、犹豫——因为每遇到一个场景，系统都要在无数条规则里“查找答案”，决策延迟不可避免。

这不是某一家公司的问题，而是整个行业在拥抱“含模量”这个概念之前的普遍现状。

正如Momenta曹旭东所言，智驾真正的核心竞争力不在于单点算法，而在于架构整合能力，即把多个算法整合成合力。相比于混合技术路线(Rule-based+ 深度学习)，纯端到端架构能带来更强的飞轮效应，迭代速度更快。

这一切指向的正是含模量背后的本质——系统是否具备自成长能力。

规则系统是加法：每多一个Corner Case，工程师多写一条规则。人力成本线性增长，但场景是无限的，永远追不上。

模型系统是指数：每多一批高质量数据，模型泛化能力可能跃升一个台阶。只要数据量够大、算力够强、含模量够高，效果会持续增长。这就是大语言模型的Scaling Law，也被普遍认为是自动驾驶领域的Scaling Law。

长期来看，坚持数据驱动、放弃规则堆砌的厂商，会形成技术代差。

“含模量”撕开了智驾行业最隐秘的伤口——最终能活下来的，一定是那些能“长”出大脑的公司。