商汤绝影王晓刚:智驾高端局,决战在云端

全文2756字,阅读约需8分钟,帮我划重点

划重点

01商汤科技联合创始人、首席科学家王晓刚表示,智能驾驶行业需要有效分工,提升交付资源和效率,才能在竞争中脱颖而出。

02商汤绝影已与超30家车企合作,覆盖100多款车型,预计到2024年底,量产交付累计超350万辆。

03王晓刚认为,数据基础设施的竞争成为关键,强大的算力基础设施是商汤绝影的底气。

04为此,商汤绝影打造了三大量产智驾解决方案,包括基础智驾方案、覆盖全场景的高阶智驾,以及端到端量产智驾方案。

05同时,商汤绝影通过实车采集+仿真生成来进行数据收集,利用「开悟」世界模型生成高质量视频数据。

以上内容由腾讯混元大模型生成,仅供参考

图片


/// 不要重复造轮子,有效分工才能长久发展。


作者:肖莹 Andy


智能驾驶整体上离盈利还有一定的距离。


当项目少、车型少的时候,大家可能会有竞争关系,未来几年,尤其是发展势头比较好的主机厂,会有大量要量产交付的车型,那么提升交付资源,提升交付效率就会变成更重要的事。


也就是说,在交付过程中,如果各方面资源和数据工具链没有对齐,往往会造成重复的投入,谁将来能够提升效率,有高性价比的交付,谁就能够走得更远。


11月27日,商汤科技联合创始人、首席科学家,商汤绝影CEO王晓刚在接受媒体访谈时,提到上述观点。


作为一家立足汽车赛道的AI公司,商汤绝影给自己的标签是「丰沛算力 +垂类大模型能力+高质量数据+丰富量产经验」。


基于这样的定位,商汤绝影一直在巩固自己的长板。


目前,商汤绝影已经与超30家车企合作,覆盖100多款车型,预计到2024年底,量产交付累计超350万辆。


在智能座舱方面,商汤绝影的座舱AI软件市场份额连续5年位列行业第一,座舱大模型产品已上车小米SU7智己LEVC L380等车型。


在智驾领域,智驾量产方案已落地3个品牌6款车型哪吒GT哪吒S昊铂GT埃安LX Plus、红旗金葵花国雅、一汽红旗EH7),量产端到端智驾方案AD Ultra,预计会在2025年四季度交付。


图片



01

数据基础设施正成为智驾竞争的关键



自动驾驶研发范式正在从规则驱动向数据驱动转变,这就需要完善的数据闭环,因此数据基础设施的竞争成为关键。

王晓刚谈到,端到端的核心,不一定是软硬一体或垂直整合,而是数据,谁离数据最近,谁的数据基础设施最强,谁能把这些数据基础设施铺到主机厂,谁在未来发展和竞争当中就有主动权。

强大的算力基础设施,一直是商汤的底气。

商汤拥有超5.4万块GPU,总算力规模高达20EFLOPS。对比来看,华为目前投入的智驾算力是7.5EFLOPS。理想汽车今年在算力资源的投入也是特别有决心的,目前的算力储备是6.83EFLOPS,预计年底能到10EFLOPS。小鹏汽车的规划则是2025年云端的算力会达到10EFLOPS以上。

因此,目前来看,商汤的算力水平在国内妥妥的是TOP 1的位置。

这样的算力水平和特斯拉对比的话,也还是会有差距。按照特斯拉规划,到2024年年底,其超算中心的总算力将达到100EFLOPS。

也是基于这一点,王晓刚一直在呼吁,在数据基础设施这块,大家不要做重复性的投入,有分工有合作才能可持续地发展,才有可能追赶上特斯拉。

王晓刚表示,自动驾驶的投入是巨大的,但有很多是重复性的投入,数据基础设施就是很大一项,没有进行对齐,所以会出现成本高的问题。

大家本身是互相竞争、互相取代的关系,这种模式是不可持续的。要找到自己的定位,形成有效的合作,而不是恶性竞争和取代的关系,这样才能够达到共赢共生,长久持续的发展。

在智驾方向,商汤绝影打造了三大量产智驾解决方案,包括基础智驾方案、覆盖全场景的高阶智驾,以及基于UniAD打造的端到端量产智驾方案。

基于地平线J6E和J6M两个平台,绝影打造了AD Pro和AD Max两个量产智驾方案,其中AD Max能够实现城区无图NOP,J6平台的智驾方案预计明年二季度量产交付。

同时,绝影基于UniAD打造的量产端到端智驾方案AD Ultra,预计会在明年四季度交付。它是一段式端到端的智驾方案,无高精度图,无激光雷达,仅需1个毫米波雷达和11个摄像头,以及200+TOPS的车载算力支持。


02

实车采集+仿真生成是数据训练必然趋势



依靠采集车、量产车等所提供的数据,越来越难以满足端到端智驾持续成长和迭代的需求,通过大模型生成仿真数据,用「真实数据+仿真数据」的合成数据训练是必然趋势。

商汤绝影也正是通过实车采集+仿真生成来进行数据收集。目前绝影智驾研发中20%的数据,都是由「开悟」世界模型生成。

王晓刚介绍,在一块A100 GPU上,世界模型平均每天可以生产的数据,相当于100台路测车的数据采集能力,或500台量产车回传有效数据的效率。

图片


世界模型最基础也是最核心的能力是生成高质量视频数据,高质量数据的关键在于“真实”。

基于多模态大模型打造的「开悟」世界模型,能够理解真实世界的物理规则、交通规则,生成的视频数据也更加逼真。

「开悟」生成的场景视频,时间最长为150秒、分辨率可达1080P、视角可以实现11V,是行业首个可以同时完成上述指标的智驾世界模型。

150秒的长时生成,生成视频的时间越长,需要的算力越多,模型前后时空一致的难度也就越大。

在时空一致性方面,目前行业基本都是生成1V或6V视角的视频,而「开悟」选择直接挑战目前的最高难度,生成11V多视角时空一致的视频。

同时,生成的视角画面越多,要保持时空一致性就更难,还要克服鱼眼视角的畸变。

「开悟」能够提供元素级别的精细控制,定制编辑长尾场景。可以根据自然语言,精准可控地生成场景,可以随时把晴天变成雨天,也可以快速精准改变场景中的交通要素。

凭借「开悟」世界模型强大的泛化能力,商汤绝影打造了端到端智驾场景集,覆盖的各类天气、光照条件、道路类型和动静态交互的场景种类达1024类,构建了千万级的场景库,2025年将会向全行业开放。


03

座舱大模型迎来新的突破窗口



这两年,AI展现出的惊人生长力,智能汽车被认为是AI落地、突破最好的载体。商汤绝影在产品战略上,座舱和智驾在同步进行布局。

在前两天举办的AI DAY上,绝影首发了座舱大模型「A New Member For U」(你的家庭新成员),就是让车机不仅仅是被动服务你的助手,它还能给你提供主动关怀,就像家庭成员一样,对你嘘寒问暖。

图片


这样的能力实现,离不开多个模型的协同工作,包括原生流式多模态大模型,它能够综合理解文本、图像、音频、视频、3D等信息模态,包括人的表情、语气等,做到全场景的多模态感知。

感知之后,它还需要进行深度理解和推理思考,具备理解世界、理解人类的能力。

除此之外,要成为「家庭新成员」,汽车必须要有「记忆」。对人类来说,记忆很重要,因为它是认知功能的核心,也是情感的基础和连接的纽带。

商汤绝影打造了国内首个「车载类人记忆框架」,与人类的记忆机制非常相似,包括临时记忆、长期记忆和场景记忆三部分,三者结合让系统实现类人的记忆能力。

此外,商汤绝影还打造了能够持续推理的Always-on运行框架,能够将多模态感知到的信息与各种记忆相结合,进行高效的处理和反馈,做到时刻感知需求,主动为用户服务,「新成员」的系统数据延迟控制在1毫秒以内。

谈到座舱大模型的突破,王晓刚认为有两方面非常重要。

一方面是流式多模态大模型的出现,以前人机交互是视频的信号和语音信号分开处理,最后做一个简单的链接。

到今年5月份,OPEN AI GPT-4o第一次出现流式多模态,它展示的人机交互的方式和流畅度,全方位的感知人的语音和图像的状态,给了行业非常大的启发。

另外一方面,座舱大模型需要一直跑在芯片上,只有一直跑在终端芯片上,它才能够理解、了解、提取车辆过去一定时间里发生的这些细微的事情。

这跟在云端处理不一样,云端处理是只有你发起请求的时候,它才会对你进行响应,而New Member要求主动式互动。

这一点来看,就需要有更强的终端芯片来支持运行,今年明年出现的算力平台也会给这个行业带来比较大的转机。

目前,商汤绝影的持续运行框架已广泛在车载芯片平台上完成部署适配,包括英伟达、高通、联发科等,可快速将技术落地应用在市场上的绝大部分车型。

Xauto报告



欢迎添加作者微信