谷歌基础世界模型Genie迎来升级:一键生成绚丽的3D世界

划重点:

  1. 谷歌DeepMind团队发布了基础世界模型Genie的升级版,它仅需一张提示图像就能生成丰富多样的3D世界。

  2. Genie 2能够模拟出动作可控、极具可玩性的逼真3D虚拟世界,帮助训练和评估通用AI智能体。

  3. 无论是智能体的行为逻辑,还是环境的生成能力,研究团队认为Genie 2都存在着巨大的提升空间。

图片

今年2月份,谷歌DeepMind团队隆重推出了全新人工智能基础世界模型Genie。与过往专注于世界构建的传统模型有所不同,Genie为用户提供了前所未有的交互体验,支持用户借助文本、合成图像、照片乃至草图等手段,创造出可玩性强的交互式环境和可控的虚拟世界。

随着2024年步入尾声,谷歌DeepMind团队再度发力,于北京时间12月4日深夜发布了Genie的升级版Genie 2。以下是该团队所发博文:

图片

01 构建通用AI智能体的无限训练环境

今天,我们隆重介绍Genie 2,这是一款基础世界模型,能够生成各类动作可控、极具可玩性的3D环境,专为训练和评估通用AI智能体而设计。仅需一张提示图像,Genie 2便可通过人类或AI智能体使用键盘及鼠标输入进行操控。

图片

人工智能研究领域,游戏始终扮演着举足轻重的角色。凭借其引人入胜的特质、独特的挑战组合以及可量化的进步指标,游戏成为了安全测试与推动人工智能能力发展的理想平台。

图片

事实上,自我们团队成立以来,游戏始终是谷歌DeepMind研究的核心。从早期与雅达利合作,到AlphaGo和AlphaStar取得突破性进展,再到与游戏开发者携手探索通用智能体的研究,游戏始终贯穿于我们的研究历程。然而,训练更多通用AI智能体一直受限于传统瓶颈,即缺乏足够丰富且多样化的训练环境。

正如我们所展现的,Genie 2能够为未来的智能体提供无限的新世界课程,以供其进行训练和评估。此外,我们的研究还为创新工作流程中的原型交互体验铺平了道路。

02 基础世界模型的新能力:生成3D世界

过去,世界模型的应用往往局限于对特定领域的建模,其范围相对狭窄。而在Genie 1中,我们已初步探索了一种生成多样化2D世界的方法。今天,我们推出了Genie 2,它代表着世界模型领域的一次重大飞跃。Genie 2不仅延续了前代的优势,更在此基础上实现了向3D世界的拓展。

Genie 2作为一个先进的世界模型,其核心价值在于能够模拟出极具真实感的虚拟世界。在这个世界中,用户可以自由地采取各种行动,如跳跃、游泳等,并实时观察到这些行动所带来的后果。Genie 2是在大规模视频数据集上的训练的。与其他生成模型相比,Genie 2在规模上展现出了诸多令人瞩目的新能力,包括对象交互、复杂的角色动画、精确的物理模拟,以及对其他智能体行为的建模与预测。

为了更直观地展示Genie 2的强大功能,我们提供了一系列人们与Genie 2互动的示例。在每个示例中,我们都使用了Imagen 3(GDM最先进的文本到图像模型)生成的单个图像作为提示,引导Genie 2创造出对应的虚拟世界。这意味着,用户只需在文本中描述他们心目中的理想世界,然后选择最喜欢的想法进行渲染,即可轻松进入这个新创建的世界进行互动,或者让AI智能体在其中接受训练或评估。

在互动过程中,用户或智能体可以通过键盘和鼠标操作来提供指令,而Genie 2则会根据这些指令模拟出下一个观察结果。值得注意的是,Genie 2能够在极短的时间内(通常在一分钟内)创造出连贯且一致的世界,且大多数示例都能持续10-20秒,为用户提供了充足的探索空间。

动作控制

Genie 2具备出色的动作控制能力,能够精准地识别用户通过键盘输入的指令,并智能地响应所采取的行动。例如,当用户在键盘上按下方向键时,Genie 2能够迅速识别并移动场景中的角色(如人形机器人),而不是其他非移动元素(如树木或云朵)。

图片

图注:从上到下分别为:一个可爱的人形机器人在树林中穿梭、穿梭到古埃及的人形机器人、以第一视角在紫色星球上活动的人形机器人、阁楼公寓里的机器人通过第一视角展示其在狭小空间中的场景

生成虚拟体验

图片

Genie 2的另一个强大功能是能够从相同的起始框架生成不同的行动轨迹。这意味着,我们可以模拟并训练智能体在不同情境下的虚拟体验。通过展示同一帧起点下人类玩家采取的不同动作,我们可以观察智能体如何适应并学习这些多样化的行动路径。

长视界记忆

图片

Genie 2还具备出色的长视界记忆能力。它能够记住那些暂时消失但在后续场景中重新出现的世界元素,并在它们再次出现时准确地呈现出来。

长视频生成与新内容创造

图片

Genie 2能够动态地生成新的可信内容,并能够在短时间内(如一分钟内)维持一个一致且生动的虚拟世界。

多样化环境

Genie 2具备创造多样化视角的能力,能够轻松生成第一视角、等距视角以及第三视角的驾驶视频。

复杂的三维结构

图片

Genie 2已经掌握了构建复杂3D视觉场景的技能,能够呈现出逼真且富有层次感的虚拟世界。

对象可视性与交互模拟

图片

Genie 2能够精确地模拟各种物体之间的相互作用,包括气球破裂、门开启以及炸药桶的发射等场景。

角色动画

图片

Genie 2擅长为不同类型的角色制作独特的动画效果,使每个角色都栩栩如生。

NPC建模与交互

图片

Genie 2不仅能够为其他智能体(NPC)进行建模,还能与它们进行复杂且流畅的交互。

物理效果模拟

图片

图片

图片

Genie 2在模拟物理效果方面表现出色,能够真实还原水的流动、烟雾的弥漫以及重力的影响等自然现象。

照明效果模拟

图片

Genie 2擅长模拟单点照明和定向照明效果,能够根据不同的场景需求调整光线,营造出更加逼真的视觉效果。

反射

图片

Genie 2不仅能够精准模拟反射现象,还能呈现开花效果和彩色照明。

从真实世界图像到虚拟世界的无缝转换

图片

Genie 2能够以现实世界的图像为提示,模拟出风中摇曳的草叶或波光粼粼的河水,实现了从真实到虚拟的无缝转换。

快速原型创建

图片

Genie 2在快速创建交互体验原型方面同样表现出色。研究人员可以利用Genie 2迅速搭建起各种新环境,用于训练和测试嵌入的AI智能体。

通过结合Imagen 3生成的图像提示,Genie 2能够模拟出驾驶纸飞机、龙、鹰或降落伞等截然不同的体验,并为这些化身制作出生动且流畅的动画。

得益于Genie 2强大的out-of-distribution泛化能力,概念艺术和图纸能够轻松转化为完全互动的环境。这使得美工和设计师能够以前所未有的速度创建原型,从而引导环境设计的创作过程,并加速研究的整体进度。

在这里,我们展示了由概念艺术家创作的研究环境概念的例子:

图片

AI智能体在世界模型中的动态活动

借助Genie 2的高效环境创建能力,我们的研究人员能够迅速为AI智能体构建出丰富多样的训练场景,并生成智能体在训练阶段未曾遭遇的评估任务。以下是我们与游戏开发商携手打造的SIMA智能体实例,该智能体能够依据单个图像提示,遵循Genie 2合成的隐形环境指引行动。

imagen3生成第一张图像

图片

提示内容:“一张第三人称开放世界探索游戏的截图。画面中的玩家是一位正深入森林探险的冒险家。左侧是一座带有红门的房屋,右侧则是蓝门房屋。摄像机位于玩家身后,营造出强烈的沉浸感与逼真效果。”

SIMA智能体被精心设计为能够遵循自然语言指令,在3D游戏世界中完成一系列挑战。在本例中,我们利用Genie 2构建了一个包含红蓝两扇门的3D环境,并向SIMA智能体发出指令,要求其依次打开这两扇门。在此过程中,SIMA通过键盘和鼠标的输入来控制游戏角色,而Genie 2则负责生成游戏画面中的每一帧。

指令执行实例

图片

提示:“打开蓝色的门”,“打开红色的门”

此外,我们还可以借助SIMA智能体来评估Genie 2的性能。通过指示SIMA环顾四周并探索房屋后方,我们测试了Genie 2在生成连贯环境方面的能力。

图片

提示:“转身环顾四周”以及“前往房屋后方探索”

尽管当前的研究仍处于其发展的初级阶段,无论是智能体的行为逻辑,还是环境的生成能力,都存在着巨大的提升空间。但我们坚信,Genie 2平台为解决安全训练嵌入智能体所面临的结构性问题提供了切实可行的路径。同时,它也为实现通用人工智能(AGI)所需的广泛适用性和高度通用性奠定了坚实的基础。

imagen3生成第二张图像

图片

提示内容:“这是一幅电脑游戏的画面截图,描绘了一个粗糙的石头洞穴或矿井的内部景象。画面以第三人称摄像机的视角呈现,摄像机位于玩家角色的上方,并向下俯瞰着角色。玩家角色是一位手持利剑的骑士。在骑士的视线前方,有三个拱形石门,供骑士选择通过。穿过第一个石门,我们可以窥见一条隧道,隧道内生长着奇异的绿色植物和散发着柔和光芒的花朵。第二个石门内,则是一条由钉在洞穴壁上的带刺铁板构成的走廊,这条走廊通向远方一抹不祥的光芒。透过第三个石门,我们能看到一组粗糙的石阶,它们引领着探索者前往一个未知而神秘的目的地。”

智能体的探索指令

图片

提示:“上楼” ,“去植物所在的地方” ,“去中间的门”

03 扩散世界模型:Genie 2的未来愿景

Genie 2是一个自回归潜在扩散模型,已经在一个庞大的视频数据集上接受了训练。在自动编码器的帮助下,视频中的潜在帧被精准地提取出来,并传递给了一个Transformer动态模型——这一大型神经网络架构的核心部分,它采用了与大语言模型相似的因果掩码进行深度训练。

图片

在推理阶段,Genie 2展现出了其独特的自回归采样能力,它能够逐帧地捕捉单个动作与过去的潜在帧之间的微妙联系,从而生成出连贯且生动的视频内容。为了进一步提升动作生成的可控性,我们还引入了显式分类器(Classifier-free Guidance)技术。

在这篇博文中,我们展示的示例是由一个尚未经过精细打磨的基础模型所生成的,旨在向大家呈现Genie 2所具备的无限可能性。尽管这些示例在输出质量上可能略显粗糙,但我们已经成功开发出了一个实时播放的蒸馏版模型,它能够在保持实时性的同时,为大家带来更为流畅和连贯的视觉体验。

04 负责任地开发我们的技术

在技术的研发过程中,我们始终秉持着负责任的态度。Genie 2所展现出的基础世界模型在创建多样化3D环境和加速智能体研究方面的巨大潜力,让我们深感振奋。然而,我们也清楚地认识到,这个研究方向仍然处于其发展的初级阶段。因此,我们期待着在未来的研究中,能够继续在通用性和一致性方面不断提升Genie的世界生成能力。

与SIMA等智能体研究相辅相成,我们的研究正朝着一个更加宏伟的目标迈进——构建更加通用和智能的人工智能系统和智能体。这些系统和智能体将能够理解并安全地执行各种复杂任务,从而为在线和现实世界中的人们提供更为便捷、高效和智能的服务。(腾讯科技特约编译金鹿)