DeepMind推出视频生成模型Veo 2 直接叫板OpenAI Sora

腾讯科技

2024-12-17 09:19发布于北京腾讯新闻科技频道官方账号

划重点

Veo 2具备创建逼真视频的能力，其分辨率最高可达4K水平。
Veo 2对各种相机拍摄方式了如指掌，包括无人机、广角以及特写等。
Veo 2在重现现实世界的物理环境和人类表达方面表现得更为出色。

12月17日消息，就在OpenAI发布Sora仅仅一周之后，谷歌DeepMind也推出了视频生成模型Veo 2，旨在突破当前人工智能在视频创作领域的界限。Veo 2在多个维度上展现出创新性，它被专门设计用于生成长达一分钟以上、分辨率高达4K的高质量视频，并且能够捕捉到丰富多样的电影效果和视觉风格。

以下为谷歌DeepMind发布的官方博文：

今年早些时候，我们推出了视频生成模型Veo以及最新的图像生成模型Imagen 3。自那时起，目睹人们在这些先进模型的助力下将创意转化为现实，我们深感振奋：YouTube创作者正积极探索利用这些模型为他们的短片创造独特的视频背景，企业客户则在Vertex AI上借助它们来优化创意工作流程，而广大创意工作者也纷纷采用VideoFX和ImageFX来讲述自己的故事。

我们非常荣幸能与从电影制作人到企业客户的众多合作伙伴携手，共同推动这些技术的持续开发与创新。今天，我们将推出新一代视频生成模型Veo 2及Imagen 3的最新版本，两者均达到了业界顶尖水平。现在，有些用户可以在VideoFX、ImageFX以及我们最新的实验室中抢先体验这些模型。

Veo 2：最先进的视频生成模型

Veo 2能够在众多主题和风格中创造出令人惊叹的高质量视频。在由人类评分员进行的比较中，相较于市面上的领先模型，Veo 2呈现了最好的结果。

Veo 2对现实世界物理现象、人类动作及情感表达的微妙差异都有了更好的理解，从而极大提升了视频的细节丰富度和整体真实感。Veo 2精通电影摄影的独特语言：只需指定一个类型、镜头类型及电影效果，它便能生成分辨率高达4K、时长可达1分钟的视频。

无论是寻求在场景中缓缓滑动的低角度追踪镜头，还是想要通过显微镜捕捉科学家面部的特写画面，Veo 2都能轻松实现。在提示中简单标注“18mm镜头”，Veo 2便懂得如何运用广角视角，或者设置“浅景深”来模糊背景，精准聚焦主体。

尽管视频模型时常会出现“幻觉”，如多余的手指或突兀的物体，但Veo 2产生这类错误的频率显著降低，使得其输出结果更加真实。

Veo 2的研发始终遵循我们对安全及负责任发展的承诺。我们持续、审慎地评估Veo的可用性，旨在识别、理解并提升模型的质量与安全性，同时借助VideoFX、YouTube及Vertex AI等平台逐步推出。

如同我们的其他图像和视频生成模型，Veo 2的输出中嵌入了难以察觉的SynthID水印，便于识别其人工智能生成的身份，从而降低误传信息和错误归因的风险。

今天，我们已将全新的Veo 2功能融入谷歌实验室的视频生成工具VideoFX中，并扩大了用户访问范围。欢迎访问谷歌实验室加入注册等待列表。此外，我们还计划于明年将Veo 2拓展至YouTube Shorts及其他产品中。

Veo 2 vs Sora

Veo 2与OpenAI的Sora都是突破性的人工智能视频生成模型，各有优势。Sora以其卓越的创造性故事叙述能力和天马行空的场景构建而著称，而Veo 2则更加聚焦于现实主义，对现实世界物理规则的把握令人叹为观止。不仅如此，Veo 2还赋予了用户对视频生成过程的极致操控力，无论是相机角度的选择、照明效果的设定，还是其他电影元素的融入，均可随心所欲地指定。

Veo 2将与OpenAI最近推出的Sora展开正面竞争，吸引电影制作人和内容创作者的关注。值得一提的是，在OpenAI向付费用户开放之前，Sora已经进行了一段时间的预览测试。

谷歌在其内部测试中透露，当评估“总体偏好”（即即观众更喜欢哪些视频）与“快速依从性”（视频与人类创作者指令的契合度）时，Veo相较于Sora及其他竞争对手的人工智能模型，更受人类评估者的青睐。

限制与挑战

人工智能视频生成是生成式人工智能的一个重要分支，谷歌和OpenAI等大型模型开发商经常与相对较小的公司竞争并赶超它们。

人工智能视频生成公司RunwayML最近推出了Gen-3 Alpha Turbo模型，为用户提供了前所未有的高级控制功能。与此同时，Pika Labs也发布了Pika 2.0，进一步增强了用户的控制权，并允许他们将自己的角色融入视频创作中。此外，Luma AI与AWS携手合作，将其模型引入Bedrock平台，为企业用户提供了更为便捷的使用途径，并扩展了其Dream Machine生成模型的功能。

然而，尽管人工智能视频生成技术取得了显著的进步，但它仍然面临着说服创作者和观众的艰巨挑战。以OpenAI的Sora为例，尽管其发布备受期待，但用户对其能力仍持怀疑态度，因为它在生成过程中时常出现违背物理和解剖学原理的人物形象，且结果往往不一致。

谷歌的Veo 2虽然取得了重大突破，但该公司也承认，在持续生成逼真动态视频方面存在挑战，特别是在处理复杂场景和运动序列时。尽管如此，许多电影制作人已经开始接受并探索人工智能视频生成器所带来的无限可能。例如，著名导演詹姆斯·卡梅隆（James Cameron）加入了Stability AI董事会，而演员安迪·瑟金斯（Andy Serkis）则宣布正在筹建一家专注于人工智能的制作公司。

谷歌表示，许多用户对人工智能视频生成技术表现出了浓厚的兴趣。在YouTube平台上，创作者们已经开始利用VideoFX工具为YouTube短片制作背景，以节省时间并提升创作效率。

Imagen 3：最先进的图像生成模型

在推出全新视频生成工具的同时，谷歌也对Imagen 3图像生成模型进行了重大改进。如今，该模型能够生成色彩更为丰富、构图更加出色的图像，且能以前所未有的精度展现多样化的艺术风格——无论是写实主义、印象派、抽象艺术，还是动画风格，都能轻松驾驭。

此次升级后的Imagen 3更加忠实地遵循用户提示，呈现出更为细腻丰富的细节与纹理。在人类评分者对市面上领先的图像生成模型进行并排比较时，Imagen 3提供了更好的结果。

自今日起，谷歌将在全球超过100个国家推出搭载最新Imagen 3模型的ImageFX图像生成工具。

Whisk：谷歌实验室的全新创意工具

此外，谷歌实验室还带来了一款名为Whisk的有趣新工具。Whisk允许用户输入或创建图像，以此传达他们心目中的主题、场景及风格。随后，用户可以将这些元素组合在一起，通过重新混合的方式，创造出独一无二的数字作品，如毛绒玩具、珐琅别针或贴纸等。

在幕后，Whisk巧妙地将谷歌最新的Imagen 3模型与Gemini模型的视觉理解与描述能力相结合。Gemini模型会自动为用户的图片生成一个详尽的标题，随后将这些描述信息输入Imagen 3中。这一过程使得用户能够轻松且有趣地以全新方式重新组合与呈现他们的主题、场景及风格，为创意表达带来无限可能。（腾讯科技特约编译金鹿）

查看原图 700K