1.小鹏汽车自动驾驶负责人李力耘表示,公司正在研发720亿参数的基座模型,相当于主流VLA模型的35倍。
2.为此,小鹏构建了10EFLOPS的算力,相当于一个万卡集群,算力的利用率长期保持在90%以上。
3.小鹏汽车基座模型负责人刘博士首次分享了研发基座模型的技术细节,包括云端模型工厂、数据基础设施等方面的创新。
4.通过知识蒸馏技术,小鹏汽车将大型复杂模型的知识迁移至小型高效模型,以平衡模型性能与计算效率。
5.此外,小鹏汽车还尝试将模型的参数量从20亿提升到70亿,以进一步提升强化学习能力。
以上内容由腾讯混元大模型生成,仅供参考
小鹏把 Deepseek 的“知识蒸馏”技术用到了车上。
文 | 王妍琦
编辑 | 王海璐
小鹏把 DeepSeek 的 “知识蒸馏” 技术用到了智能驾驶车上。
在小鹏汽车 AI 技术分享会上,小鹏汽车自动驾驶负责人李力耘表示,小鹏正在研发 720 亿参数的基座模型,相当于主流 VLA 模型的 35 倍。
为此,小鹏构建了 10 EFLOPS 的算力,相当于一个万卡集群,算力的利用率长期保持在 90% 以上。
小鹏的基座模型研发始于 2024 年下半年,面向 L4 级自动驾驶研发。这套模型基于开源的 LLM 模型,经过预训练、强化学习,形成一个超大参数的模型,然后“蒸馏”为一个参数较小的模型部署到车端。
知识蒸馏作为一种模型压缩方法,将大型复杂模型(教师模型)的知识迁移至小型高效模型(学生模型),以平衡模型性能与计算效率。DeepSeek 通过强化学习与知识蒸馏技术融合,实现了大模型到小模型的能力迁移。小鹏汽车把类似技术应用到了智能驾驶领域。
李力耘表示,小鹏汽车用于训练基座模型的视频数据量已达 2000 万 clips,预计今年增至 2 亿 clips。作为对比,今年 2 月理想汽车发布的 AD Max V13 模型基于 1000 万 clips 训练数据。
在技术分享会上,小鹏汽车基座模型负责人刘博士(化名)对《云见Insight》等媒体首次分享了研发基座模型的技术细节,以下为演讲实录(经整理):
打造云端模型工厂
为了做基座大模型,我们从去年开始搭了一座工厂,叫 “小鹏云端模型工厂”。我们在云端训练一个超大规模的基座模型,之后通过后训练、强化学习、模型蒸馏等技术,生产一个端侧模型,我们把它叫做 XVLA,再部署到车端。
云端模型工厂在新的 AI 时代下提升了整体的迭代效率,尤其是在全球化的环境下,一定需要快速生产出不同模型,部署到不同环境中。
我们去年开始搭建自己的 AI 模型,搭建了万卡规模的计算集群,通过不停的优化,把整体集群利用率保持在 90% 以上,最高的时候甚至达到 98%。
我们整个 GPU 的 SM 利用率也已经达到了一线 AI 企业的水平。整个云端的工厂通过这样的迭代方式,5 天到 1 周之内完成一轮迭代,甚至有一些单独的车间,比如靠端侧的车间会达到一天两次的迭代速度。
通过打造这样一个数据的基础设施,我们的数据处理能力和效率,在业界应该属于领先水平。整个基座模型,目前用了 2000 万 Clips 的视频数据去做训练,预计在今年年内会达到 2 亿 Clips。
相比于传统的大语言模型,多模态的模型训练瓶颈,不仅仅是 GPU 本身的利用率和算力池,更重要的是数据读取和获取的瓶颈。因此我们重新设计了顶层的能力,进一步提高了模型在训练过程中的数据生产能力,提升了模型训练的速度,这是和传统大模型非常不同的一点。
软件 3.0 时代
因为有这样一个工厂,让小鹏率先进入了软件 3.0 的时代,过去我们处在软件 1.0 时代,靠大量代码去完成一行一行的逻辑。10 年前,兴起第一波 AI,进入了软件 1.5 时代。
软件 2.0 大概是在 5、6 年前提出来的,强调的是模型基础软件,通过数据和神经网络定义的软件。那时候以数据为中心,不停迭代算法。端到端的 NGP 及各种端到端的模型,基本上都采用这样的方式。
到了软件 3.0 阶段,云端的大模型以及不同的需求,给我们带来一个挑战,就是能不能有一种更有效的方式去迭代新的模型,产生新的能力。在基座模型时代,需要构建一个能产生 AI 能力的工厂,就是用一个模型生成一个模型,这就是我们所谓的软件 3.0 时代(基座模型时代)。
平庸的学生,处理不了极端场景
在云端,我们可以不计成本地训练出一个足够聪明、泛化能力极强的模型,在训练过程中,使用少量数据并且提高模型的参数量。在后续阶段,也可以通过强化学习,让模型学会快速高效完成动作,并且具备极强的泛化能力,可以处理一些极端场景。
极端场景能力,在自动驾驶里是非常重要的一部分。比如撞车,事故,包括 L2 经常出现的接管,这也是自动驾驶 L2 逐渐迈向 L3 和 L4 主要的难点和工作。这些极端场景对于自动驾驶来说非常重要,但是又没有所谓的确定数据。如果按照传统的车端小模型训练方式,那就要不断通过模仿学习,永远不可能学到这个能力。它会限制自动驾驶模型的上限。
比如说应对不安全事故,我们没办法通过人驾数据得到有效的成功避免事故的轨迹数据,所以没办法让基于模仿学习的小模型学到这个。另外,由于小模型能力的上限比较低,就像一个比较平庸的学生,再怎么去做难题练习册,也不太可能产生更强的能力,提高分数。
我们采取更为彻底的解决方案,在云端通过训练一个大规模的预训练模型,加上强化学习,得到一个足够强大的超级教师,再配上一个优秀学生,去完成整个链路,这是所谓 3.0 时代的模型工程。
到目前为止,我们已经经历了几个阶段。我们已经开始训练一个 720 亿参数模型,相比之下,主流的 VLA 模型主要在 1B-2B 之间,参数量至少可以达到 35 倍。
训练出的模型,通过后装上车验证
云端模型训练取决于几个要素,其中最重要的一个是算力,一个是数据。我们构建了万卡集群,有 10 EFLOPS 算力,以及不停在提高的利用率。另外,过去这段时间,我们在海量数据上,重新去搭建了底层基础设施,在数据上层的规模和训练过程当中,整个数据的带宽、吞吐量都取得了非常重要的一些提升。
过去一年,我们整个数据上传的带宽扩大了 22 倍,在训练过程当中,多模态数据的解码和读取带宽提升 15 倍,再结合一些联合优化 GPU、CPU 的性能以及网络 IO 的优化方案,我们可以让大模型的速度整体提升 5 倍左右。
所以要探索 ScalingLaw(规模法则),没有完善的 Infra 是不可能做到的。整个 ScalingLaw 在大语言模型阶段,无论是 Traning time Scaling 还是 Test Time scaling,都得到了比较好验证。但是,在走向物理的时候,还有一定距离。真实物理世界的 AI 模型需要的数据量、怎么运用大语言模型,这也正是我们过去积累的主要优势之一。
我们相信 ScalingLaw 在自动驾驶领域会产生巨大的效益。我们在 Infra 层面的提效和加速以及大规模的数据积累,在过去一年,通过大量的实验,在 10 亿、30 亿、70 亿、720 亿参数上都看到非常明显的 ScalingLaw 效果。而且随着参数规模越大,模型的能力越强。
我们可以持续从物理世界获取数据、得到反馈,再反过来不停提升模型的性能,最后成为小鹏基座模型在过去这段时间里最强的一个原动力。
有了这个模型之后,我们还做了一件事情,就是想看看在理论上训练出来并且验证的模型,在真实物理世界的效果怎么样。所以我们通过后装的算力改装,大模型可以直接上车。幸运的是,这个模型能实现直接控车,不需要任何的规则,不需要兜底,能完成一些基础能力的提升。
比如,在刹车主动绕行上这些功能上,会显得更加丝滑和果断,反映出了非常好的连续性。在安全和舒适上会有比较大的提升。同时,在不需要任何规则的情况下,我们也能看到识别起行的时候有了非常好的效果。像转弯和掉头的时候,能避让对向过来的车辆,实现安全驾驶,并且非常舒适。最近,我们看到可以更有效地导航以及选路的能力。
ScalingLaw 远远没走到头
最近大家听到了另外一个主要的趋势,就是强化学习。比如 ChatGPT o1、o3,以及 DeepSeek R1 的模型,都是通过强化学习 , 不停激发上限。但另一方面,只有当你拥有足够强大的基础模型,才能让后训练充分激发模型能力,产生更强的泛化作用。
如果基础模型本身的能力受到限制,强化学习没有办法进一步提升模型的上限,这也是最近大家逐渐去收敛的一个共识。如在自动驾驶领域里,没有一个很强的基础模型,强化学习最终只会成为一个多条动作的选择器,而不会产生更强的能力激发。
我们相信 Traning 阶段的 ScalingLaw 远远没有走到头。在过去一段时间,我们尝试将模型的参数量从 20 亿提升到 70 亿,现在训练的 720 亿,整个训练的数据从最早的百万级到千万级,到现在两千万,年底即将达到 2 个亿。因为有这样的数据和模型,我们可以持续提升预训练阶段模型的性能上限,从而支持更强大的强化学习,去激发模型的泛化性和处理常规场景问题。
模仿学习不能达到 L3,强化学习才行
其实最近有很多问题,一是现在的模仿学习或者端到端,能不能攻向 L3 和 L4。我们的模仿学习,可以学的更拟人,更丝滑,但没办法实现更高级别的自动驾驶。
L3、L4,像刚才提到的,更多的需要解决的是车辆的事故。但出了事故之后,没有合理的数据可以用来做模仿学习。而强化学习可以通过最大化泛化能力找到一个可行解,或者降低风险最可能的一个路径、动作和约束,泛化到未知的场景。
有了这样的一个基础,我们可以将强化学习产生的中间步骤和推理过程,用到预训练阶段,去提升强化学习能力。同时,我们也可以通过类似的模型或者蒸馏的方式,降低模型产生的偏差。
3 个奖励机制
我们是怎么去建立强化学习这套系统的?强化学习系统最重要的模块是如何获得奖励模型,奖励模型主要来自三个不同方面:
一、奖励函数(Reward Function)。我们用最简单的规则来作为奖励函数,并且在强化学习上取得了很好的效果,其实这也是非常简单直接的。比如说开车的动作,有非常强的约束,这些约束包括合规、舒适、安全,这些都是非常容易被定义成反系统的规则,有人说我们在规则时代的负担很重,事实上,我们通过这样的方式,把这些规则和经验运用到 AI 模型时代,成为一个心智生产力。你在规则的积累,反而成为大模型、强化学习从 0-1 的基础。
二、奖励模型(Reward Model)。奖励模型会提供更连续、泛化、更多维的奖励信息给到强化学习。人类的接管数据和市场反馈数据,区分奖励模型。它可以进一步提高模型的泛化能力,因为我们获得了在规则上很难直接描述和建模的一些奖励模型。
三、世界模型(World Model)。这也是最新工业界和学术界研究的一个重点,包括我们的友商也做了很多工作,也取得了不错的进展。目前这部分工作主要集中在使用世界模型作为仿真器,提供更泛化的长期能力,从而解决端到端系统里的闭环问题。端到端最大的问题,是没有办法通过传统的闭环仿真去做验证,这有很大的真实性问题。
世界模型的第一个应用,是把它当做一个仿真器,去模拟整个车变化了位置和视角之后的样子。但我们认为一个好的世界模型不仅仅是一个模拟器,更重要的是要构建一个闭环系统,比如据模型产生的动作输入,模拟出真实的场景,生成其他智能体的响应,从而构建一个闭环的网络。
举个例子,当我们的车看到前面有一辆车,选择绕行,对面的车辆看到这个情况,不应该按照原来的方式产生碰撞,而是做出相应的动作去规避。世界模型更像是一个生成式的想象系统,首先是如何去理解这个世界,如何去完成动作。
所以我们认为,世界模型本身也是基座模型的一个扩展,不应该单独去做.这是我们整个强化学习过程中主要的三个模型。第一部分是向我们提供了第一批原始生产力,并且快速打通系统,也是最直接的驾驶所需要的能力。第二部分是使用数据建立更好的奖励模型。第三部分就是建立一个完整的世界模型。