1.人工智能科学家李飞飞发布了首个空间智能项目成果——用单张静态图片生成3D世界的AI产品,为自动驾驶带来新的可能性。
2.谷歌旗下人工智能研究机构DeepMind发布了能够“图生世界”的新型模型Genie 2,可实时生成交互式的三维场景。
3.世界模型在自动驾驶领域的应用仍处于早期阶段,但有望成为一条新的数据供给范式,为端到端模型突破现有能力上限提供更多可能。
4.然而,世界模型在自动驾驶领域的应用仍面临诸多挑战,如缺乏长时序预测、高分辨率高精度、模型多视一致等特性。
5.未来,世界模型带领自动驾驶驶向终点的路依然漫长,可能率先用于机器人等领域。
以上内容由腾讯混元大模型生成,仅供参考
图生世界
自动驾驶新机涌现
“AI教母”、华裔科学家李飞飞筹资2.3亿美元所构建的大世界模型(Large World Model,LWM)可以通过一张图片便生成一个3D游戏世界。李飞飞等人联合创办的空间智能公司World Labs的内部人士表示,一旦生成,该3D世界就会进行实时渲染,且用户可通过模拟景深效果、模拟滑动变焦的方式精准控制。此外,用户还可改变其中物体颜色,动态调整背景光影,在场景中插入其他对象等。
值得一提的是,与此前大多数生成模型不同,LWM可直接预测3D场景而非像素。因此,场景在人移开视线再回来时不会发生变化,并遵循基本的3D几何物理规则。李飞飞表示,LWM仅仅是World Lab的第一步,后续公司还将把场景设计融入AR、机器人、自动驾驶等场景中。
无独有偶,谷歌旗下人工智能研究机构DeepMind不久前同样发布了能够“图生世界”的新型模型Genie 2。据悉,Genie 2可根据用户输入的文本描述和图像,实时生成交互式的三维场景。DeepMind表示,Genie 2可以生成具有不同视角的连贯世界,如第一人称视角和等距视角,持续时间可达1分钟。在生成过程中,Genie 2还可模拟物体交互、动画、光照、物理反射以及非玩家角色(NPC)的行为。
李飞飞曾表示,实现通用人工智能(AGI)的关键一环是空间智能,尽管Sora模型可以实现文生视频,但就本质而言,它仍属于平面二维模型,没有三维立体理解能力。只有通过空间智能,才能看到世界、感知世界、理解世界并让机器人做事,从而形成良性闭环。聚焦汽车产业,空间智能究竟能给带来何种影响?
对此,商汤绝影高级总监武伟告诉记者,李飞飞空间智能模型主要有两大亮点。第一,该模型将世界模型的范式从文生视频拓展到文生4D空间,即3D+时序可交互;第二,时序上的空间一致性得到了很好的保持,具备一定的空间记忆能力。在该负责人看来,该技术能够应用于自动驾驶的闭环仿真测试。利用空间智能范式能够在线生成多样化的3D空间且实时交互,在端到端仿真Worldsim(人为预设场景)上是一条有希望的新路径。
多方涉足
世界模型潜力无穷
作为构建空间智能的核心,世界模型自然备受关注。早在2018年,世界模型的概念便开始被广泛提及。南京大学人工智能学院教授俞扬曾指出,世界模型的核心作用是进行反事实推理,即在模型中模拟和推理出在现实世界中未见过的决策结果。能在模型中推理和预测并由此迅速做出决策,这无疑对自动驾驶领域有着极强吸引力,不少车企、自动驾驶企业因此开始涉足世界模型。
2023年,特斯拉在CVPR 2023上便介绍了通用世界模型,该模型可通过过往的视频片段和行动提示,生成“可能的未来”全新视频。同年,蔚来汽车在NIO Day上表示其正在自研世界模型。一年之后,2024年7月,蔚来汽车发布中国首个智能驾驶世界模型NWM(NIO World Model)。据介绍,NWM能够在0.1秒内推演出216种车辆可能发生的轨迹,并寻找出最佳决策。作为生成式模型,NWM还具有强大的生成能力,只需将3秒钟的驾驶视频作为Prompt(提示),就能生成长达120秒的视频。
随后,2024年8月,地平线推出全场景智能驾驶解决方案HSD,其核心突破便在于创新的端到端世界模型。据地平线介绍,该模型不仅让车辆具备了全面的环境感知能力,更使车辆能够像经验丰富的驾驶员一样,理解并预测周围世界的动态变化,从而做出更为合理和高效的驾驶决策。
2024年11月,在2024“绝影实力AI DAY”上,商汤绝影“开悟”世界模型正式亮相。据介绍,开悟世界模型可生成仿真数据,与量产实车采集的真实数据结合,共同重建物理世界。依托多模态大模型技术和大装置算力集群的基建,该世界模型是业内首个同时满足11V空间一致、2.5分钟长时序、1080P高分辨率和多模态可控的世界模型。
进入2025年,世界模型的热度依然不减。1月7日,英伟达在CES 2025上推出Cosmos世界模型,专为理解物理世界打造,可预测和生成“物理感知”的视频。英伟达表示,Cosmos的数据来自2000万小时的真实世界人类互动、环境、工业、机器人和驾驶数据。目前,已有Wayve、Uber等多家企业承诺在各种用例中使用Cosmos,从视频搜索和策划到为自动驾驶汽车构建AI大模型。
“现阶段看到的多是基于视觉的世界模型,通过图像来生成、预测世界三维场景。”中国科学院雄安创新研究院研究员、认知智能重点实验室副主任黄武陵表示,在基于视觉方式(端到端)实现的自动驾驶方案中,世界模型主要有三大潜在价值。
前路未明
“终极方案”尚待时日
“世界模型是在下一阶段用来超越人类的,但是它对于当下的核心意义究竟是什么,目前并不能看得明晰。”智驾领域专家苏辉认为,自动驾驶实现的前提是要超越人,而真实世界的数据只能无限接近于人。从这一角度出发,世界模型确实具有重大意义。不过,就当下来看,世界模型仍然存在较大难点,发展世界模型到底要解决自动驾驶哪些问题,仍然没有准确答案。
苏辉表示,目前看来,世界模型似乎只能作为辅助,不能单纯依靠它进行自动驾驶训练。在自动驾驶的早期阶段,应主要依赖真实数据。后期可能会出现世界模型中训练的情况或者大模型教稍小一些模型的情况。“感知的基础模型应该需要在真实数据下训练完成,如量产的BEV、OCC算法大多采用这种模式。”苏辉告诉记者,随着技术不断发展,大模型未来会像人类一样,对感知环境的真实度并不敏感,可以在不太逼真但3D结构正确的环境中学习驾驶策略,正如人类在驾驶模拟器里面练习开车。然而,世界模型的思路恰恰与之相反,其3D结构无法保障,但逼真程度很高,当下意义并不大。
另外,黄武陵指出,现有已发布的世界模型前提是基于视觉(端到端)实现自动驾驶方案,仍存在以下几点问题:第一,基于2D图像生成的三维空间缺乏自动驾驶特定场景下所需的3D空间的精准度要求;第二,现有世界模型缺乏长时序的预测,预测是否适用于极端场景也需要进一步进行验证。除长时序预测之外,世界模型高分辨高精度、模型多视一致、模型可控等特性同样需要进一步实现及验证;第三,现有世界模型对环境空间的建模缺乏各类交通参与者的随机性学习,而现实世界的交通复杂度恰恰更来自于各类交通参与者随机、多样的行动。“基于交通场景分层理论,未来生成式的世界模型要能够覆盖世界多样性,能够基于知识驱动的方式实现更多层面的交通场景覆盖,其所生成和预测的场景才有价值。”他说道。
目前,世界模型在自动驾驶领域的应用仍处于早期阶段。武伟表示,依托于海量的数据采集或数据回流,自动驾驶端到端大模型在模型泛化性上获得了长足进步。
不过,在模仿学习的框架下,也遇到了数据质量要求高、长尾数据比例低等发展制约因素。而世界模型可成为一条新的数据供给范式,提供大量平衡的困难样本数据,为端到端模型突破现有能力上限提供更多可能。以开悟世界模型为例,通过多模态大模型,开悟世界模型可支持多样化的自动驾驶场景及Corner case的可控生成。目前商汤绝影基于1024类场景,能够泛化出更多的平行世界,打造了千万级的生成场景库,预计2025年对行业开放。
面向未来,世界模型带领自动驾驶驶向终点的路依然漫长。“就像之前的元宇宙,世界模型是用于未来的技术,持续发展是必然的,但世界模型更可能率先用于机器人等领域。自动驾驶最大的难点是它工作在世界范围,就像预期功能安全中所提到的一样,未知场景需要通过在实际道路上长期运行来发现。”苏辉称。
文:张奕雯 编辑:黄蓓 版式:李沛洋