AI游戏开发距离我们还有多远?


图片

图片

谷歌率先推出纯 AI 游戏开发大模型 GameNGen

图片

来源|新财富 产业研究院

图片
图片

01


谷歌、Jabali、腾讯接连发布

基于Diffusion架构的游戏 AI 开发工具

谷歌发布了一篇论文“Diffusion Models Are Real-time Game Engines”(《扩散模型是实时的游戏引擎》),提出了一种 GameNGen的游戏生成大模型开发团队展示了一款复杂的视频游戏《DOOM》(毁灭战士),可以在神经网络上(Stable Diffusion v1.4 的增强版本)实时运行,同时实现与原始游戏相当的视觉质量。虽然不是精确的模拟,但神经模型能够执行复杂的游戏状态更新,例如计算弹药、攻击敌人、破坏物体、打开门等。


这是第一个完全由神经模型驱动的游戏引擎,可以高质量地在长轨迹上与复杂环境进行画面的实时交互。


论文的第二章对问题进行了定义:一个游戏可以由游戏状态游戏画面玩家操作集这三类信息组成。游戏状态包括角色血量、装备、地图、敌人等所有影响游戏进程的信息;游戏画面就是游戏屏幕上显示的二维图片;玩家操作集就是移动、射击等玩家所有可能进行的操作。此外,为了让游戏运行,还需要两类游戏机制:如何根据游戏状态生成当前游戏画面的渲染机制;如何根据游戏状态和当前玩家操作更新下一时刻游戏状态的逻辑机制


本工作的创新点在于首先设计了一个强化学习Agent来玩DOOM游戏。该Agent能够记录自己的操作以及游戏当前帧、下一帧的画面,从而形成了大量的数据集。


产业界对于谷歌GameNGen的评价也存在有分歧,观点集中在讨论当前基于强化学习构建的大模型是否能够真正意义上取代当前成熟的游戏引擎。但不可否认的是,GameNGen 确实是向端到端的AI游戏开发上进行了探索。


图片


Jabali推出基于自然语言提示词的 2D 游戏开发工具


北美科技创业公司 Jabali 也于GameNGen 发布后的不久内推出了同名的游戏引擎,并模仿 Midjourney 在Discord社群进行部署,当前正在进行封闭测试相比于GameNGen,Jabali的即时可用性要强得多,因为他就类似于目前的文生文、文生图AIGC工具一样,提供端到端、可定制的 AI 原生引擎,允许使用者输入概念,来直接得到功能齐全的游戏。


从当前产品效果来看,Jabali 更适用于一些小型的AI游戏,也不可能像GameNGen那么强大,根据视频演示,它目前只能生成一些最基础的2D游戏,例如文字冒险游戏、三消游戏。Jabali在架构上更接近于集成了代码+美术资源+文案的一体化开发工具,通过自然语言文字进行驱动。


图片


腾讯GameGen-O:专用于开放世界的可交互的游戏视频


腾讯在9月14日发布了专为生成开放世界视频游戏设计的大模型 GameGen-O。GameGen-O 的核心技术基于扩散变换器模型,结合了时间序列和空间建模能力,专为处理和生成高质量的游戏视频内容而设计。


该模型的训练数据来自于从互联网上收集了 32,000 个原始视频,每个视频的长度从几分钟到几个小时不等。通过专家对这些视频进行了细致的识别和过滤,最终产生了大约 15,000 个可用视频。然后,通过场景检测将选定的视频平铺成片段。由此构建了OGameData的数据集。


模型的训练过程分为基础预训练和指令微调两个阶段:


  • 基础预训练:通过大规模的开放世界游戏数据集(OGameData)进行文本到视频的预训练。该模型的整体架构采用堆叠时间 DiT 块和空间 DiT 块的原理。开发者通过利用掩蔽注意力机制,赋予了 GameGen-O 文本到视频生成和视频延续的双重功能。



图片


  • 指令调优:GameGen-O 在基础预训练的视频连续性能力的基础上,新增了一个分支 InstructNet,用于控制连续性的内容。InstructNet 旨在接受各种多模态输入,包括结构化文本、操作信号和视频提示。在 InstructNet 分支的调优过程中,以当前内容为条件,从而在多模态控制信号下建立当前片段内容与未来片段内容之间的映射关系。在推理时,GameGen-O 允许用户基于当前片段连续生成和控制下一个生成的片段。



图片


该模型能够实现:

角色生成:模型可以根据用户的文本提示生成各种游戏角色,包括人类、动物或幻想生物。


动态环境生成:它能创建动态的游戏环境,如城市、森林、沙漠等,并适应不同的天气和时间变化。


复杂动作生成:支持生成角色的复杂动作,如战斗、驾驶、飞行等,提供更真实的互动体验。


事件生成:模型还能生成游戏中的各种事件,包括天气变化、自然灾害、敌人袭击等。


交互式控制:用户可以通过文本指令、操作信号或视频提示来控制游戏内容,实现实时交互。


按住A镜头向左

按住D镜头向右

图片
图片

02


行业对于游戏AIGC发展当前存在分歧

复盘整个游戏的 AIGC 发展已经经历了从文案到美术数字资产,再到 AI Bot 的发展历程。当前游戏AIGC的发展前沿主要集中在游戏引擎方面,未来远期的目标在于端到端的文生游戏。


当前产业界存在的分歧主要在于未来的是否要取代当前成熟的游戏引擎,还是基于当前的游戏引擎将AIGC功能作为其中的一个开发模块,例如单纯的美术资源调用。前者显然更具想象空间,可能更为二级市场的投资人关注,但是后者则是当前节点落地可能性更大的方案。


目前对当前游戏引擎的颠覆性、可控性距离完整的工业化游戏开发还远。当前谷歌、腾讯采用的扩散模型更多是一种基于原有强化学习制造数据的重建,而非真正的创造。因此,该工作的意义更接近于对已有游戏的“模仿”而非“创造”,至少在画面风格、玩法等方面无法跳脱出原有游戏的框架。并且此类视频游戏的开发将极度依赖于“高质量的训练视频数据”以及相关标注。


从积极影响上来看,我们抛开所谓对游戏行业的颠覆角度,谷歌、腾讯在 AIGC 生成视频在交互层面向前探索了一步:这实际上是一种在内容生成的流程中,可以加入人为的输入干预,从而实现对于后续帧内容的一种控制,其更多的意义在于实现了一种富含输入输出交互数据信息的连续视频帧的 AIGC 功能。

图片
图片

03


支持流程性的打断式局部微调的游戏AIGC工具

更具备落地、工业化的可行性

首先一个成熟的游戏开发团队中,涉及美术开发的人员比例大约占整个团队的60%。相对应的美术开发成本也是项目支出的主要组成部分。因此当前业界对于游戏行业美术资源AIGC的降本增效关注度较高。


此前在我们的报道中我们跟踪的观点认为,当前2D、3D美术资产的 AIGC 生成方面的技术研发正在进行中,但距离利用AI全年替代人工实现降本增效、颠覆游戏行业仍然有3年以上的距离。但是可以判断的是,美术资产生成将受到AI工具优先取代的确定性也较高。


在游戏开发过程中,美术资源的生成需要经历不仅限于原画设计、建模、蒙皮、材质、贴图、渲染等环节,专业性要求较强,需要设计多名相关负责人员之间的项目配合修改。而当前2D、3D美术资产的 AIGC 结果输出并不支持微调或者修改,因此短期来看,支持流程性的打断式优化的模型这将会是游戏美术 AIGC 的优化路径。 


无论是谷歌的GagmeNGen还是腾讯的GameGen-O,都支持在生成过程中以用户的输入信息作为变量,因此未来支持人工实时干预的AIGC美术开发工具也即将到来。

图片
图片

04


AI对于游戏行业的影响可能会在

UGC 玩法部分先落地

AI对于游戏行业的影响可能会在 UGC 创造部分先落地,例如以玩家创作内容(UGC)或者Mod 作为核心玩法的游戏包括有:Roblox、minecraft等沙盒类、闯关类游戏。国内的可能包括网易《元梦之星》等。


原因在于:UGC 更加侧重于创意玩法,对于美术资产、代码编程的专业化要求较低,因此对于AI工具的生成质量宽容度较大;其次UGC内容一般由非专业的普通玩家进行内容的创作,对于AI工具的需求也较为确定。


在9月9日举办的Roblox大会上,CEO David Baszucki 宣布计划推出一款3D基础模型。游戏中的代码助手、纹理和材质生成器、用户头像设置等多个功能都已经集成了GenAI。在演示中,用户可以通过输入文本直接完成风格化的白模贴图。更让人振奋的是,Roblox计划开源这个模型。


Roblox公司近期市场表现较为强劲。根据公司Q2报告,Roblox的日活用户(DAUs)增长21%7950万,远期目标是达到10亿DAUs。8月底公司股价在财报后大跌12%35.3美元,主要原因是营收增长低于预期且下调了全年指引。但随后反弹突破此前平台价格并触及今年高点,结合近期行业动态来看,公司作为全球头部以 UGC 为主要玩法的游戏具有较强的增长属性。


图片


相关美股主要游戏公司近期市场表现印证游戏引擎价值仍然凸显。


未来我们持续看好游戏引擎受 AI 技术发展的价值持续凸显。近期,美股另一家游戏引擎开发公司 Unity 的股价大幅上涨,主要原因系其9月13日取消了长期令人诟病的Runtime费用(即用户每安装一份游戏游戏开发者就要向Unity缴纳一份费用),受此消息影响 Unity 股价持续走高。


在国内市场,腾讯公司与虚幻引擎(Unreal Engine 5)开发商 Epic 保持深度合作,两者在技术上具有深度的交流,同样值得深度关注。


图片


- END -

本文属于转载,仅代表作者个人观点,不代表本公众号立场。本公众号转载此图文仅出于传播更多资讯之目的。如有侵权或违规请及时联系我们,我们将立刻予以删除。