划重点
01Google发布了下一代视频生成模型Veo 2,相较于Veo,Veo 2的视觉真实感和输出分辨率均有显著提升。
02Veo 2可以生成分辨率高达4k(4096 x 2160像素)的两分钟以上的视频,而OpenAI Sora的分辨率仅为1080p。
03除此之外,Veo 2能更逼真地模拟运动、流体动力学(如咖啡倒入杯中)和光线特性(如阴影和反射)。
04尽管Veo 2在生成逼真视频方面取得了显著成果,但仍存在连贯性和一致性、角色一致性等方面的挑战。
05目前,Veo 2模型可在视频生成工具VideoFX和新实验项目Whisk中试用,申请加入候选名单后方可使用。
以上内容由腾讯混元大模型生成,仅供参考
今年 5 月,Google 在 I/O 大会上发布了对标 OpenAI Sora 的视频生成模型——Veo,它可以生成各种电影和视觉风格的高质量 1080p 分辨率视频,时间可以超过一分钟。
时隔 7 个月,在 OpenAI 官宣 Sora 正式公开可用之际,Google 发布下一代视频生成模型 Veo 2 与之抗衡。Veo 2 不仅提升了视觉真实感,还可以创建分辨率高达 4k(4096 x 2160 像素)的两分钟以上的视频——这一分辨率是 OpenAI Sora 的 4 倍,持续时间更是其 6 倍以上。
据谷歌称,与其他领先模型相比,Veo 2 取得了最先进的成果,尤其是在人类表达方面。
目前,Veo 2 模型可在视频生成工具 VideoFX 和名为 Whisk 的新实验项目中试用,想要尝鲜的小伙伴,需要先申请加入候选名单中(https://deepmind.google/technologies/veo/veo-2/)。它也将在 Google Cloud 上向开发者和企业提供。
Veo 2 有何不同?
Veo 以 Google 多年的生成视频模型工作为基础,包括生成查询网络(GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet 和 Lumiere,结合架构、缩放法则和其他技术来提高质量和输出分辨率。
与 Veo 一样,Veo 2 可以生成带有文本提示(例如 “A car racing down a freeway”)或文本和参考图片的视频。
这一最新版本有了很大的改进。Google 表示,Veo 2 能够理解现实世界的物理现象与规律,并生成各种主题和风格的高质量“更清晰”的视频。这对于 AI 视频生成模型而言是一项重大突破,因为即使是 OpenAI Sora,有时候也难以理解物理现象。
Veo 2 还掌握了电影艺术独特的语言:用户可以指定一个类型、选择镜头、建议电影效果,Veo 2 就能生成满足要求的视频,分辨率最高可达 4K,时长延展至数分钟。
比如,可以要求一个低角度跟踪镜头,平滑穿过场景中心,或者一个科学家通过显微镜观察时的面部特写镜头。
Google 表示,用户可以在提示中指定“18mm 镜头”,Veo 2 会生成这种镜头特有的广角画面;如果希望背景虚化、焦点集中在主体上,只需在提示中加入“浅景深”,Veo 2 就能实现这一效果。
除此之外,Veo 2 能更逼真地模拟运动、流体动力学(例如咖啡倒入杯中的过程)以及光线特性(如阴影和反射)。
值得注意的是,尽管当前 AI 生成的视频整体效果已相当出色,但 Google 也坦言,其生成模型并非“完美”。视频生成过程中难免会出现一些“幻觉”,比如多出的手指或意外出现的物体。
对此,DeepMind 产品副总裁 Eli Collins 表示, 连贯性和一致性是当前需要改进的重点领域。虽然 Veo 能在几分钟内较好地遵循提示,但在长时间处理复杂提示时仍存在困难。此外,角色一致性也是一项挑战。同时,模型在生成复杂细节、快速且复杂的动作方面仍有提升空间,进一步推进逼真度的极限是未来的重点方向。
Collins 还指出,DeepMind 正与艺术家和制作人合作,持续优化视频生成模型及工具。“我们从 Veo 开发初期就与 Donald Glover、The Weeknd、d4vd 等创作者展开合作,深入理解他们的创作流程,探索技术如何帮助实现他们的创意愿景。与创作者在 Veo 1 上的合作为 Veo 2 的开发提供了重要反馈。我们期待与更多可信赖的测试者和创作者合作,进一步完善这一新模型。”
不过,Google 强调,Veo 2 发生此类错误的频率显著降低,生成结果更加逼真自然。
训练与安全
目前,Google DeepMind 并未透露 Veo 2 视频生成模型所使用的数据来源。由于生成模型在训练过程中存在一定风险,例如反流现象——即模型生成与训练数据高度相似的内容,DeepMind 采取了相应的解决方案,包括在生成阶段引入提示级过滤器,以屏蔽暴力、露骨及其他敏感内容。
此外,DeepMind 有意采取稳步推进的策略,通过 VideoFX、YouTube 和 Vertex AI 逐步发布 Veo 模型,确保在推广过程中能够持续识别、理解并改进模型的质量与安全性。
与其他图像和视频生成模型一样,Veo 2 的输出内容包含不可见的 SynthID 水印,可标识这些内容为 AI 生成,有助于减少错误信息传播与内容误归因的风险。
图像生成工具 Imagen 3 升级
除了 Veo 2,Google DeepMind 还宣布对其商用图像生成模型 Imagen 3 进行升级。
新版本的 Imagen 3 在本周一开始向 Google 图像生成工具 ImageFX 的用户推出,覆盖全球 100 多个国家/地区。据 DeepMind 透露,升级后的 Imagen 3 能够生成更加“明亮、构图更佳”的图像和照片,支持写实风格、印象派和动漫风格等多种表现形式。
DeepMind 表示:“此次对 Imagen 3 的升级使模型能够更忠实地遵循提示,并呈现更丰富的细节和纹理。”
此外,ImageFX UI 也进行了更新。现在,当用户输入提示词时,关键词会变为“小标签”,用户可通过下拉菜单选择相关的词汇建议。同时,系统还会在提示框下方提供一行自动生成的描述词,用户可以利用这些选项调整和优化提示内容。
更多详情可参考:https://blog.google/technology/google-labs/video-image-generation-update-december-2024/