研究人员提出扩散变换器模型,打造交互式开放世界游戏视频新范式

近年来,生成模型在图像和视频生成领域取得了显著进展,这些技术已经在设计、广告、动画和电影等创意领域得到了广泛应用。

受此启发,研究人员开始探索将生成模型应用于游戏产业,尤其是开放世界游戏。

开发开放世界游戏原型是一项资源密集且成本高昂的工作。由于此类游戏环境复杂、动态事件多样、角色各异,生成新颖且连贯的内容具有挑战性。

随着对这些环境中现实互动和行为的需求增加,复杂性也随之上升。

在这一背景下,来自香港科技大学中国科学技术大学、中国科学院合肥物质科学研究院和香港中文大学的研究团队推出了 GameGen-X,这是首个专为生成和交互控制开放世界游戏视频而设计的扩散变换器模型。

日前,相关论文发表在预印本平台 arXiv 上。

图片图丨相关论文(来源:arXiv)

据论文介绍,该模型通过模拟丰富的游戏引擎特性,如创新角色、动态环境、复杂动作和多样事件,实现了高质量的开放域生成。

更重要的是,它具备交互式控制能力,能够基于当前片段预测以及改变未来内容,来实现对游戏玩法的模拟。

为了实现这一愿景,研究团队首先从零开始收集和构建了开放世界视频游戏数据集(OGameData)。

这是目前最大的、用于开放世界游戏视频生成和控制的数据集,包含超过 100 万个多样化的游戏视频片段,这些片段来自 150 多个游戏,并配有 GPT-4o 生成的信息丰富的说明文本。

OGameData 的特殊之处在于其精细的标注体系,视频片段都配有结构化的、高密度的文本描述。这种细致的标注不仅确保了训练数据的质量,也为模型提供了更丰富的学习素材。

图片图丨 OGameData 的收集和处理(来源:arXiv)

数据集被系统地分为多个子集,包括 OGameData-GEN 用于训练基础生成模型,侧重于生成连贯的游戏内容,而 OGameData-INS 则针对指令调优和交互控制任务进行了优化。

研究团队还开发了一套完整的数据处理流程,涵盖了收集、清洗、分割、过滤和结构化标注等环节。考虑到游戏领域的特殊性,他们结合了 AI 技术和人类专家的智慧。

在数据收集阶段,研究人员特别注重选取最小化用户界面元素的游戏画面,这确保了生成内容的纯粹性和通用性。

通过 PyScene 和 TransNetV2 等工具进行场景检测,团队将视频分割成适当长度的片段,并采用多个先进模型进行筛选和标注,确保了数据集的高质量和多样性。

图片图丨实际生成结果对比(来源:arXiv)

GameGen-X 的训练过程可以分为两个阶段:基础模型预训练和指令调优。

在第一阶段,模型通过文本到视频生成和视频延续任务进行预训练,使其具备长序列、高质量开放域游戏视频生成能力。

为了实现交互控制,研究团队还设计了 InstructNet 来整合游戏相关的多模态控制信号专家。

在指令调优阶段,只更新 InstructNet 而冻结预训练的基础模型,这确保了在获得交互控制能力的同时,不会损失生成内容的多样性和质量。

图片图丨训练框架概览(来源:arXiv)

具体来说,GameGen-X 结合了基础模型和 InstructNet 的双重架构。

基础模型负责生成高质量的游戏内容,而 InstructNet 则提供多模态交互控制能力,使玩家能够影响生成内容的延续,真实地模拟游戏体验。

为了有效处理视频中的时空冗余信息,研究团队引入了 3D 时空变分自动编码器进行视频压缩,使模型能够高效地处理高分辨率和长序列的视频内容,显著提升了处理效率。

在视频生成和交互控制方面,GameGen-X 采用了创新的掩码时空扩散变换器。该结构的独特之处在于,其巧妙地结合了空间注意力、时间注意力和交叉注意力机制,能够根据文本提示高效地生成游戏视频。

图片图丨 GameGen-X 模型架构(来源:arXiv)

通过精心设计的堆叠配对空间和时间块,每个块都配备了交叉注意力和相应的空间或时间注意力,使模型能够同时捕捉空间细节、时间动态和文本引导信息,从而生成高度连贯和真实的游戏场景。

为了实现真正的交互控制,研究团队在 InstructNet 中创新性地采用了多模态专家系统。

这个系统能够处理多种类型的控制信号,包括结构化文本指令、键盘输入和视频提示等。

实验测试结果显示,与其他具有开放领域生成能力的模型相比,GameGen-X 在生成新颖领域游戏视频剪辑方面表现优异。

GameGen-X 在 Fréchet 初始距离(Fréchet Inception Distance)、Fréchet 视频距离(Fréchet Video Distance)、文本-视频对齐(Text-Video Alignment)和用户偏好(User Preference)等多个指标上均优于其他模型。

在控制指标方面,GameGen-X 的角色动作成功率为 63.0%,环境事件成功率为 56.8%,远远超过 OpenSora-Plan1.2 等其他模型。

图片图丨性能对比(来源:arXiv)

总的来说,GameGen-X 展示了生成模型作为传统渲染技术辅助工具的潜力,有效地将创意生成与交互能力结合在一起。

这一研究为游戏内容设计和开发开辟了新的范式,为未来更自动化、数据驱动的游戏开发方法提供了新的可能性。

参考资料:

https://arxiv.org/pdf/2411.00769v1

运营/排版:何晨龙