对标Sora，Google发布更强大的Veo 2视频生成模型！

CSDN

2024-12-17 17:02发布于江苏

全文2010字，阅读约需6分钟，帮我划重点

划重点

01Google发布了下一代视频生成模型Veo 2，相较于Veo，Veo 2的视觉真实感和输出分辨率均有显著提升。

02Veo 2可以生成分辨率高达4k（4096 x 2160像素）的两分钟以上的视频，而OpenAI Sora的分辨率仅为1080p。

03除此之外，Veo 2能更逼真地模拟运动、流体动力学（如咖啡倒入杯中）和光线特性（如阴影和反射）。

04尽管Veo 2在生成逼真视频方面取得了显著成果，但仍存在连贯性和一致性、角色一致性等方面的挑战。

05目前，Veo 2模型可在视频生成工具VideoFX和新实验项目Whisk中试用，申请加入候选名单后方可使用。

以上内容由腾讯混元大模型生成，仅供参考

整理 | 屠敏

出品 | CSDN（ID：CSDNnews）

今年 5 月，Google 在 I/O 大会上发布了对标 OpenAI Sora 的视频生成模型——Veo，它可以生成各种电影和视觉风格的高质量 1080p 分辨率视频，时间可以超过一分钟。

时隔 7 个月，在 OpenAI 官宣 Sora 正式公开可用之际，Google 发布下一代视频生成模型 Veo 2 与之抗衡。Veo 2 不仅提升了视觉真实感，还可以创建分辨率高达 4k（4096 x 2160 像素）的两分钟以上的视频——这一分辨率是 OpenAI Sora 的 4 倍，持续时间更是其 6 倍以上。

据谷歌称，与其他领先模型相比，Veo 2 取得了最先进的成果，尤其是在人类表达方面。

目前，Veo 2 模型可在视频生成工具 VideoFX 和名为 Whisk 的新实验项目中试用，想要尝鲜的小伙伴，需要先申请加入候选名单中（https://deepmind.google/technologies/veo/veo-2/）。它也将在 Google Cloud 上向开发者和企业提供。

Veo 2 有何不同？

Veo 以 Google 多年的生成视频模型工作为基础，包括生成查询网络(GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet 和 Lumiere，结合架构、缩放法则和其他技术来提高质量和输出分辨率。

与 Veo 一样，Veo 2 可以生成带有文本提示（例如 “A car racing down a freeway”）或文本和参考图片的视频。

这一最新版本有了很大的改进。Google 表示，Veo 2 能够理解现实世界的物理现象与规律，并生成各种主题和风格的高质量“更清晰”的视频。这对于 AI 视频生成模型而言是一项重大突破，因为即使是 OpenAI Sora，有时候也难以理解物理现象。

Veo 2 还掌握了电影艺术独特的语言：用户可以指定一个类型、选择镜头、建议电影效果，Veo 2 就能生成满足要求的视频，分辨率最高可达 4K，时长延展至数分钟。

比如，可以要求一个低角度跟踪镜头，平滑穿过场景中心，或者一个科学家通过显微镜观察时的面部特写镜头。

Google 表示，用户可以在提示中指定“18mm 镜头”，Veo 2 会生成这种镜头特有的广角画面；如果希望背景虚化、焦点集中在主体上，只需在提示中加入“浅景深”，Veo 2 就能实现这一效果。

除此之外，Veo 2 能更逼真地模拟运动、流体动力学（例如咖啡倒入杯中的过程）以及光线特性（如阴影和反射）。

值得注意的是，尽管当前 AI 生成的视频整体效果已相当出色，但 Google 也坦言，其生成模型并非“完美”。视频生成过程中难免会出现一些“幻觉”，比如多出的手指或意外出现的物体。

对此，DeepMind 产品副总裁 Eli Collins 表示，连贯性和一致性是当前需要改进的重点领域。虽然 Veo 能在几分钟内较好地遵循提示，但在长时间处理复杂提示时仍存在困难。此外，角色一致性也是一项挑战。同时，模型在生成复杂细节、快速且复杂的动作方面仍有提升空间，进一步推进逼真度的极限是未来的重点方向。

Collins 还指出，DeepMind 正与艺术家和制作人合作，持续优化视频生成模型及工具。“我们从 Veo 开发初期就与 Donald Glover、The Weeknd、d4vd 等创作者展开合作，深入理解他们的创作流程，探索技术如何帮助实现他们的创意愿景。与创作者在 Veo 1 上的合作为 Veo 2 的开发提供了重要反馈。我们期待与更多可信赖的测试者和创作者合作，进一步完善这一新模型。”

不过，Google 强调，Veo 2 发生此类错误的频率显著降低，生成结果更加逼真自然。

训练与安全

目前，Google DeepMind 并未透露 Veo 2 视频生成模型所使用的数据来源。由于生成模型在训练过程中存在一定风险，例如反流现象——即模型生成与训练数据高度相似的内容，DeepMind 采取了相应的解决方案，包括在生成阶段引入提示级过滤器，以屏蔽暴力、露骨及其他敏感内容。

此外，DeepMind 有意采取稳步推进的策略，通过 VideoFX、YouTube 和 Vertex AI 逐步发布 Veo 模型，确保在推广过程中能够持续识别、理解并改进模型的质量与安全性。

与其他图像和视频生成模型一样，Veo 2 的输出内容包含不可见的 SynthID 水印，可标识这些内容为 AI 生成，有助于减少错误信息传播与内容误归因的风险。

图像生成工具 Imagen 3 升级

除了 Veo 2，Google DeepMind 还宣布对其商用图像生成模型 Imagen 3 进行升级。

新版本的 Imagen 3 在本周一开始向 Google 图像生成工具 ImageFX 的用户推出，覆盖全球 100 多个国家/地区。据 DeepMind 透露，升级后的 Imagen 3 能够生成更加“明亮、构图更佳”的图像和照片，支持写实风格、印象派和动漫风格等多种表现形式。

DeepMind 表示：“此次对 Imagen 3 的升级使模型能够更忠实地遵循提示，并呈现更丰富的细节和纹理。”

此外，ImageFX UI 也进行了更新。现在，当用户输入提示词时，关键词会变为“小标签”，用户可通过下拉菜单选择相关的词汇建议。同时，系统还会在提示框下方提供一行自动生成的描述词，用户可以利用这些选项调整和优化提示内容。

更多详情可参考：https://blog.google/technology/google-labs/video-image-generation-update-december-2024/

查看原图 7K