商汤绝影王晓刚：智驾高端局，决战在云端

Xauto报告

2024-11-29 07:30汽车领域创作者

全文2756字，阅读约需8分钟，帮我划重点

划重点

01商汤科技联合创始人、首席科学家王晓刚表示，智能驾驶行业需要有效分工，提升交付资源和效率，才能在竞争中脱颖而出。

02商汤绝影已与超30家车企合作，覆盖100多款车型，预计到2024年底，量产交付累计超350万辆。

03王晓刚认为，数据基础设施的竞争成为关键，强大的算力基础设施是商汤绝影的底气。

04为此，商汤绝影打造了三大量产智驾解决方案，包括基础智驾方案、覆盖全场景的高阶智驾，以及端到端量产智驾方案。

05同时，商汤绝影通过实车采集+仿真生成来进行数据收集，利用「开悟」世界模型生成高质量视频数据。

以上内容由腾讯混元大模型生成，仅供参考

/// 不要重复造轮子，有效分工才能长久发展。

作者：肖莹 Andy

智能驾驶整体上离盈利还有一定的距离。

当项目少、车型少的时候，大家可能会有竞争关系，未来几年，尤其是发展势头比较好的主机厂，会有大量要量产交付的车型，那么提升交付资源，提升交付效率就会变成更重要的事。

也就是说，在交付过程中，如果各方面资源和数据工具链没有对齐，往往会造成重复的投入，谁将来能够提升效率，有高性价比的交付，谁就能够走得更远。

11月27日，商汤科技联合创始人、首席科学家，商汤绝影CEO王晓刚在接受媒体访谈时，提到上述观点。

作为一家立足汽车赛道的AI公司，商汤绝影给自己的标签是「丰沛算力 +垂类大模型能力+高质量数据+丰富量产经验」。

基于这样的定位，商汤绝影一直在巩固自己的长板。

目前，商汤绝影已经与超30家车企合作，覆盖100多款车型，预计到2024年底，量产交付累计超350万辆。

在智能座舱方面，商汤绝影的座舱AI软件市场份额连续5年位列行业第一，座舱大模型产品已上车小米SU7、智己、LEVC L380等车型。

在智驾领域，智驾量产方案已落地3个品牌6款车型（哪吒GT、哪吒S、昊铂GT、埃安LX Plus、红旗金葵花国雅、一汽红旗EH7），量产端到端智驾方案AD Ultra，预计会在2025年四季度交付。

数据基础设施正成为智驾竞争的关键

自动驾驶研发范式正在从规则驱动向数据驱动转变，这就需要完善的数据闭环，因此数据基础设施的竞争成为关键。

王晓刚谈到，端到端的核心，不一定是软硬一体或垂直整合，而是数据，谁离数据最近，谁的数据基础设施最强，谁能把这些数据基础设施铺到主机厂，谁在未来发展和竞争当中就有主动权。

强大的算力基础设施，一直是商汤的底气。

商汤拥有超5.4万块GPU，总算力规模高达20EFLOPS。对比来看，华为目前投入的智驾算力是7.5EFLOPS。理想汽车今年在算力资源的投入也是特别有决心的，目前的算力储备是6.83EFLOPS，预计年底能到10EFLOPS。小鹏汽车的规划则是2025年云端的算力会达到10EFLOPS以上。

因此，目前来看，商汤的算力水平在国内妥妥的是TOP 1的位置。

这样的算力水平和特斯拉对比的话，也还是会有差距。按照特斯拉规划，到2024年年底，其超算中心的总算力将达到100EFLOPS。

也是基于这一点，王晓刚一直在呼吁，在数据基础设施这块，大家不要做重复性的投入，有分工有合作才能可持续地发展，才有可能追赶上特斯拉。

王晓刚表示，自动驾驶的投入是巨大的，但有很多是重复性的投入，数据基础设施就是很大一项，没有进行对齐，所以会出现成本高的问题。

大家本身是互相竞争、互相取代的关系，这种模式是不可持续的。要找到自己的定位，形成有效的合作，而不是恶性竞争和取代的关系，这样才能够达到共赢共生，长久持续的发展。

在智驾方向，商汤绝影打造了三大量产智驾解决方案，包括基础智驾方案、覆盖全场景的高阶智驾，以及基于UniAD打造的端到端量产智驾方案。

基于地平线J6E和J6M两个平台，绝影打造了AD Pro和AD Max两个量产智驾方案，其中AD Max能够实现城区无图NOP，J6平台的智驾方案预计明年二季度量产交付。

同时，绝影基于UniAD打造的量产端到端智驾方案AD Ultra，预计会在明年四季度交付。它是一段式端到端的智驾方案，无高精度图，无激光雷达，仅需1个毫米波雷达和11个摄像头，以及200+TOPS的车载算力支持。

实车采集+仿真生成是数据训练必然趋势

依靠采集车、量产车等所提供的数据，越来越难以满足端到端智驾持续成长和迭代的需求，通过大模型生成仿真数据，用「真实数据+仿真数据」的合成数据训练是必然趋势。

商汤绝影也正是通过实车采集+仿真生成来进行数据收集。目前绝影智驾研发中20%的数据，都是由「开悟」世界模型生成。

王晓刚介绍，在一块A100 GPU上，世界模型平均每天可以生产的数据，相当于100台路测车的数据采集能力，或500台量产车回传有效数据的效率。

世界模型最基础也是最核心的能力是生成高质量视频数据，高质量数据的关键在于“真实”。

基于多模态大模型打造的「开悟」世界模型，能够理解真实世界的物理规则、交通规则，生成的视频数据也更加逼真。

「开悟」生成的场景视频，时间最长为150秒、分辨率可达1080P、视角可以实现11V，是行业首个可以同时完成上述指标的智驾世界模型。

150秒的长时生成，生成视频的时间越长，需要的算力越多，模型前后时空一致的难度也就越大。

在时空一致性方面，目前行业基本都是生成1V或6V视角的视频，而「开悟」选择直接挑战目前的最高难度，生成11V多视角时空一致的视频。

同时，生成的视角画面越多，要保持时空一致性就更难，还要克服鱼眼视角的畸变。

「开悟」能够提供元素级别的精细控制，定制编辑长尾场景。可以根据自然语言，精准可控地生成场景，可以随时把晴天变成雨天，也可以快速精准改变场景中的交通要素。

凭借「开悟」世界模型强大的泛化能力，商汤绝影打造了端到端智驾场景集，覆盖的各类天气、光照条件、道路类型和动静态交互的场景种类达1024类，构建了千万级的场景库，2025年将会向全行业开放。

座舱大模型迎来新的突破窗口

这两年，AI展现出的惊人生长力，智能汽车被认为是AI落地、突破最好的载体。商汤绝影在产品战略上，座舱和智驾在同步进行布局。

在前两天举办的AI DAY上，绝影首发了座舱大模型「A New Member For U」（你的家庭新成员），就是让车机不仅仅是被动服务你的助手，它还能给你提供主动关怀，就像家庭成员一样，对你嘘寒问暖。

这样的能力实现，离不开多个模型的协同工作，包括原生流式多模态大模型，它能够综合理解文本、图像、音频、视频、3D等信息模态，包括人的表情、语气等，做到全场景的多模态感知。

感知之后，它还需要进行深度理解和推理思考，具备理解世界、理解人类的能力。

除此之外，要成为「家庭新成员」，汽车必须要有「记忆」。对人类来说，记忆很重要，因为它是认知功能的核心，也是情感的基础和连接的纽带。

商汤绝影打造了国内首个「车载类人记忆框架」，与人类的记忆机制非常相似，包括临时记忆、长期记忆和场景记忆三部分，三者结合让系统实现类人的记忆能力。

此外，商汤绝影还打造了能够持续推理的Always-on运行框架，能够将多模态感知到的信息与各种记忆相结合，进行高效的处理和反馈，做到时刻感知需求，主动为用户服务，「新成员」的系统数据延迟控制在1毫秒以内。

谈到座舱大模型的突破，王晓刚认为有两方面非常重要。

一方面是流式多模态大模型的出现，以前人机交互是视频的信号和语音信号分开处理，最后做一个简单的链接。

到今年5月份，OPEN AI GPT-4o第一次出现流式多模态，它展示的人机交互的方式和流畅度，全方位的感知人的语音和图像的状态，给了行业非常大的启发。

另外一方面，座舱大模型需要一直跑在芯片上，只有一直跑在终端芯片上，它才能够理解、了解、提取车辆过去一定时间里发生的这些细微的事情。

这跟在云端处理不一样，云端处理是只有你发起请求的时候，它才会对你进行响应，而New Member要求主动式互动。

这一点来看，就需要有更强的终端芯片来支持运行，今年明年出现的算力平台也会给这个行业带来比较大的转机。

目前，商汤绝影的持续运行框架已广泛在车载芯片平台上完成部署适配，包括英伟达、高通、联发科等，可快速将技术落地应用在市场上的绝大部分车型。

Xauto报告

欢迎添加作者微信

查看原图 504K