邮箱|JessicaZhang@pingwest.com
进入本年度最后一个月,AI模型领域也变得热闹起来。继 Sora 疑似泄露、李飞飞团队发布空间智能模型Demo之后,Google DeepMind 也紧随其后,于今日凌晨推出新一代大规模基础世界模型 Genie 2。
Genie 2 能从单张图像生成一个高度多样化、逻辑严谨且连贯一致的 3D 世界。这些世界不仅视觉效果丰富,还支持人类或 AI 智能体通过键盘和鼠标进行长达一分钟的持续互动。
不过就在不过就在领导Genie 2项目的DeepMind研究科学家Jack Parker-Holder刚刚发推公布没多久,擅长跟谷歌抢风头的Sam Altman就又跳出来了。
他说从明天上午10点开始将开启OpenAI的12天活动。每个工作日都会进行一场直播,带来发布会或演示,其中既有重磅内容,也有一些“小彩蛋”。
“我们准备了很多精彩的东西,希望你们喜欢!圣诞快乐!”
咱就是说…多少次了,说你奥特曼不是诚心的我都不信了。
在OpenAI配合发出的官推下,跳到谷歌负责开发者关系的Lorgan Kilpatrick前排留言:“真的么”,也是很意味深长。
Genie 2: 单图一键生成3D可玩世界
DeepMind 的上一代基础世界模型 Genie 于今年 2 月发布,当时仅专注于生成 2D 世界,玩家互动也受限于帧率,体验相对简单。而 Genie 2 则将能力扩展至多样化的 3D 游戏环境,在交互时长和复杂性上都有了大幅跃升。
它能够模拟虚拟世界中诸如跳跃和游泳等多种行为结果。基于大规模视频数据集训练,展现出多种涌现能力,包括物体交互、复杂角色动画、物理效果,以及对其他智能体行为的建模与预测等。
其生成过程依托 Imagen 3 提供的提示图像。用户只需用文本描述想要的世界,选择渲染效果,即可创建并进入一个全新的虚拟世界与之互动。
在交互过程中,人类或智能体通过键盘和鼠标输入动作,Genie 2 会即时模拟并生成下一步的观察结果,并在1 分钟内完成一个一致的虚拟世界构建。
具体能做什么?看示例:
动作控制
Genie 2 能智能响应通过键盘输入的动作,识别角色并正确完成向前后左右的移动。
生成不同轨迹场景
从同一起始帧出发, Genie 2 能让用户尝试不同的操作选择,创造出完全不同的游戏过程。例如下方控制汽艇走左右河道。这个功能让 AI 在训练时可以学习到各种选择带来的不同结果。
长时记忆
Genie 2 能够记住不在当前视野中的世界部分,并在它们再次可见时准确地渲染。
长视频生成与新内容生成
可实时生成新的合理内容,并在长达1分钟内保持一致的世界。
多样化环境
创建不同的视角,如第一人称视角、等距视角或第三人称驾驶视频。
3D结构
能创建复杂的3D视觉场景。
物体的可操作性和交互
Genie 2 能够建模与各种模拟物体交互,例如气球爆破、开门或射击爆炸桶等。
角色动画
可以为各种类型的角色制作不同活动的动画。像是玩家忽然灵机一动,想要爬梯子,也难不倒它。
非玩家角色
Genie 2 能够建模其他智能体NPC,甚至实现与它们的复杂交互。比如下面这个粉色胖乎乎的家伙。
另外,Genie 2还能准确体现水花、烟雾、重力、光照和反射等物理效果。除了借助Imagen 3生成图像, Genie 2也能使用现实世界图像进行提示。
目的是加速AI智能体训练
Genie 2设计的主要目是为通用智能体提供无限多样的动态场景,用于训练和评估,进而推动机器人技术和虚拟助手等领域的发展。
在以下示例中,团队利用 Imagen 3 生成不同的图像提示,指导 Genie 2 模拟纸飞机、飞龙、鹰或降落伞的操控场景,测试了其在动画化不同角色以及多样化动态建模方面的灵活性。
对于艺术家和设计师,Genie 2 同样具有革命性意义。概念艺术和草图可以直接转化为完全可交互的虚拟环境,使创作者能够快速完成原型设计,大幅提升创意流程的效率,极大地优化了环境设计的整体过程。
聚焦到智能体训练来说,借助 Genie 2 的能力,可以生成丰富多样的虚拟环境,包括智能体从未见过的全新任务场景。
例如在 Genie 2 创建的 3D 环境中,游戏智能体SIMA可以使用键盘和鼠标控制角色,打开蓝色门和红色门。由Genie 2 实时生成游戏画面,为智能体提供动态反馈。
当指示 SIMA 探索房子后方区域时,也可以反过来测试 Genie 2 是否能够生成一致性和连贯性的虚拟环境,以此验证其技术表现。总体来看,Genie 2为智能体的任务执行和环境适应能力提供了重要的测试场景。
但团队也坦白,Genie 2还在不断完善中,偶尔也有“演砸”的时候,并大方放出了几个翻车瞬间。比如莫名出现在花园中的人影“幽灵”、角色甩开了滑雪板选择跑酷、手里的火焰失控爆炸等等。
模型架构:扩散世界模型
Genie 2 是一个自回归的潜在扩散模型。它基于大量视频数据进行训练,先通过一个自动编码器将视频帧转换为“潜在帧”(即压缩后的核心信息),然后将这些潜在帧传递给一个大规模Transformer 动态模型,该模型通过与大语言模型类似的因果掩码学习来预测下一步会发生什么。
在推理阶段,Genie 2 可以以自回归的方式进行采样,像接力一样逐帧生成画面,并根据之前的动作和画面来决定接下来的内容。团队还通过一种叫做无分类器引导的方法,增强了模型对动作的控制能力,让生成的画面和操作更符合预期。
需要注意的是,博客中的示例是使用未经蒸馏的原始模型生成的,目的是展示模型的最大潜力。如果使用蒸馏版本,虽然画面质量可能略有下降,但仍可以做到实时运行。
Sam Altman掐点截胡,大模型狂欢圣诞月来了?
不得不说,DeepMind这波Genie 2属实挺意义重大的。
一经官宣,评论区也振奋不已。大家纷纷表示 “这是绝对疯狂的影响,将让所有人都能创造属于自己的世界”,“不久后,一些充满干劲的独立游戏开发者就能从卧室里颠覆整个游戏产业”,“很快我们就能看到那些值得出续作却从未获得机会的游戏续集”….
不过,今天Genie 2刮起的旋风虽不至于又一次沦为OpenAI的“助演”,但奥特曼放出的“新品直播”消息确实也赚足了眼球。潜台词似乎是,接下来12天就没你们别人什么事儿了。
甚至有好多人做出了12天发布预测。包括文生视频模型Sora、向免费用户开放 o1-preview、新版DALL·E和开发者工具、为 ChatGPT 添加圣诞老人风格声音以增加节日氛围、新一代具有更大上下文窗口的 GPT-NEXT 模型、高级语音模式加入视觉功能增强等等。
不管怎么说,AI新品扎堆,对用户和开发者来说当然不是件坏事。
接下来OpenAI是带来真正的惊喜还是虚晃一枪,其它大模型厂商又有无新动作。或者更近的,明天直播会发布什么?搬起小板凳,拭目以待吧~
欢迎在评论区告诉我们你的猜想!