速递｜Google DeepMind发布新视频模型，可以生成2分钟以上视频，分辨率最高可达4k

ZFinTech

2024-12-17 09:34发布于北京科技领域创作者

图片来源：Google

根据TechCrunch报道，周一，DeepMind宣布推出下一代视频生成AI产品 -Veo 2，也是Veo的继任者。Veo目前已为Google产品组合中的越来越多的产品提供支持。

Veo 2可以生成长达两分钟以上的视频，分辨率最高可达4k（4096 x 2160像素）。值得注意的是，这比OpenAI的Sora能达到的分辨率高出4倍，时长超过6倍。

当然，目前这只是理论上的优势。Google的实验性视频创作工具VideoFX中（Veo 2目前仅在此平台上独家提供），视频最大限制为720p和8秒（Sora最多可生成1080p、20秒的视频）。

Google VideoFXVeo 2在VideoFX中的表现图片来源：Google

VideoFX目前处于等待名单中，但Google表示，本周将扩大可以访问该工具的用户数量。

DeepMind产品副总裁Eli Collins还告诉TechCrunch，Google将在其Vertex AI开发者平台上提供Veo 2，“随着模型准备好进行大规模使用。”

Collins表示：“在未来几个月里，我们将继续根据用户反馈进行迭代，并寻求将Veo 2的更新能力整合到Google生态系统中的有趣应用案例中……我们预计明年会有更多更新。”

更具可控性

像Veo一样，Veo 2可以根据文本提示（例如“汽车在高速公路上行驶”）或文本加参考图像生成视频。

那么Veo 2有什么新变化呢？DeepMind表示，这款可以生成多种风格视频的模型，具有改进的“物理学和摄像机控制”理解能力，生成的画面更加“清晰”。

所谓“清晰”，DeepMind指的是视频中的纹理和图像更加锐利——尤其是在有大量运动的场景中。至于改进的摄像机控制，它使Veo 2能够更精确地在生成的视频中定位虚拟“摄像机”，并能让摄像机从不同角度捕捉物体和人物。

DeepMind还声称，Veo 2能更真实地模拟运动、流体动力学（如倒入杯中的咖啡）和光的属性（如阴影和反射）。这包括不同的镜头和电影效果，DeepMind表示，还能细致地展现人类表情。

Google Veo 2。图片来源：Google

DeepMind上周向TechCrunch分享了一些从Veo 2生成的精选样本。对于AI生成的视频，它们看起来相当不错——甚至可以说非常出色。Veo 2似乎对折射和复杂液体（如枫糖浆）有很强的把握，并且能模仿皮克斯风格的动画。

但是，尽管DeepMind坚持认为该模型不太可能生成额外的手指或“意外的物体”，Veo 2仍然未能完全跳出“恐怖谷”。

还有这段视频中奇怪的滑溜路面——加上背景中的行人彼此融合，建筑物也有不符合物理规律的外立面：

Google Veo 2。图片来源：Google

Collins承认，仍然需要进一步改进。

他说：“连贯性和一致性是需要改进的地方。Veo可以在几分钟内持续遵循提示，但无法在较长时间内遵循复杂的提示。同样，角色一致性也是一个挑战。生成复杂细节、快速且复杂的动作，以及不断推动现实主义的边界，还有待提高。”

Collins补充说，DeepMind正在继续与艺术家和制作人合作，改进其视频生成模型和工具。

“自从我们开始开发Veo以来，我们就与创意人士，如唐纳德·格洛弗（Donald Glover）、周末（The Weeknd）、d4vd等合作，深入了解他们的创作过程，以及技术如何帮助实现他们的愿景。”Collins说，“我们与Veo 1上的创作者的合作为Veo 2的开发提供了有价值的经验，我们期待与受信任的测试人员和创作者合作，获得这款新模型的反馈。”

安全性与训练

Veo 2经过大量视频训练。这是AI模型的普遍工作方式：提供大量数据示例，模型通过识别数据中的模式来生成新的数据。

DeepMind没有透露Veo 2的训练视频具体来自哪里，但YouTube是一个可能的来源；Google拥有YouTube，而DeepMind曾表示，像Veo这样的Google模型“可能”会基于YouTube内容进行训练。

“Veo已通过视频与描述的配对进行训练，”Collins表示，“视频与描述配对是指视频和与视频中发生内容相关的描述。”

Google Veo 2。图片来源：Google

尽管DeepMind通过Google提供了工具，允许网站管理员阻止实验室的机器人从他们的网站提取训练数据，但DeepMind并未提供机制让创作者从现有训练集中删除作品。该实验室及其母公司认为，使用公开数据训练模型属于合理使用，这意味着DeepMind认为自己没有义务征得数据所有者的许可。

并非所有创作者都同意这一点——尤其是考虑到有研究估计，在未来几年，成千上万的电影和电视工作岗位可能会受到AI的影响。包括流行AI艺术应用Midjourney背后的初创公司在内的几家AI公司，正面临指控，指控他们未经同意就使用内容进行训练，侵犯了艺术家的权益。

Collins表示：“我们致力于与创作者及我们的合作伙伴共同工作，达成共同目标。我们将继续与创意社区以及更广泛行业中的人士合作，收集意见并倾听反馈，包括那些使用VideoFX的人。”

得益于今天生成模型的行为方式，它们带来了一些风险，比如复述，这指的是模型生成训练数据的镜像副本。DeepMind的解决方案是基于提示级别的过滤器，包括针对暴力、恶心和露骨内容的过滤器。

Collins表示，Google的赔偿政策目前不适用于Veo 2，直到它广泛发布为止。

Google Veo 2图片来源：Google

为降低深度伪造的风险，DeepMind表示，它正在使用专有的水印技术SynthID，在Veo 2生成的帧中嵌入隐形标记。然而，像所有水印技术一样，SynthID也并非万无一失。

Imagen升级

除了Veo 2，Google DeepMind今天早些时候还宣布了Imagen 3的升级，这是其商业图像生成模型。

Imagen 3的新版本开始向ImageFX的用户推出，Google的图像生成工具，从周一开始。根据DeepMind的说法，它可以生成“更明亮、更具构图感”的图像和照片，风格包括现实主义、印象派和动漫。

“这次升级[到Imagen 3]也能更忠实地遵循提示，并渲染更丰富的细节和纹理，”DeepMind在一篇博客文章中写道，并提供给TechCrunch。

Google ImageFX图片来源：Google

与此模型一起推出的还有ImageFX的UI更新。现在，当用户输入提示时，提示中的关键词将成为“芯片”，并显示下拉菜单，列出相关的建议词。用户可以利用这些芯片来修改自己输入的内容，或从提示下方自动生成的描述行中选择。

来源：

[1] Google DeepMind unveils a new video model to rival Sora, https://techcrunch.com/2024/12/16/google-deepmind-unveils-a-new-video-model-to-rival-sora/

欢迎扫码加群参与讨论

查看原图 14K