刚刚!Meta 版Sora 「Movie Gen 」 炸裂登场:最先进文生视频、精准剪辑、还能配乐

全文1580字,阅读约需5分钟,帮我划重点

划重点

01Meta发布了最先进的媒体基础模型Movie Gen,能生成高质量的视频和音频,并进行精准的视频编辑。

02Movie Gen仅需一段文本提示即可生成高清视频,最长可达16秒,帧率16fps,同时理解物体运动、主体-客体交互和摄像机运动。

03除此之外,Movie Gen能根据视频内容和可选的文本提示生成高质量的音频,最长可达45秒,且与视频内容同步。

04Meta对Movie Gen的性能非常自信,其在视频生成、视频个性化、视频编辑和音频生成四个方面均优于业内类似模型。

05Meta将Movie Gen的研究细节公开发表在论文中,以推动媒体生成领域的研究和创新。

以上内容由腾讯混元大模型生成,仅供参考

图片


Meta 在 AI 领域又搞了个大新闻!他们发布了 Movie Gen,一套迄今为止最先进的媒体基础模型,由 Meta AI 研究团队开发,能生成高质量的视频和音频,还能进行精准的视频编辑,以后,一句话生成一部电影? 🎉 OpenAI的Sora在哪里?Sora的开发主管都跑路去谷歌了

我们先看看Movie Gen有哪些特点

Movie Gen 的超能力:

视频生成: 只需要一段文本提示,就能生成高清视频(1080p),最长可达 16 秒,帧率 16fps!还能理解物体运动、主体-客体交互和摄像机运动,各种概念的合理运动都不在话下

个性化视频生成: 上传一张人物图像和一段文本提示,就能生成包含该人物的个性化视频,而且还能保持人物的身份和动作!😎

精准视频编辑: 给定一段视频和相应的文本指令,Movie Gen 就可以对视频进行局部编辑(例如添加、移除或替换元素)或全局更改(例如背景或风格修改)。它只针对相关像素进行修改,保留原始内容,不像传统工具需要专业技能,也不像其他生成式 AI 缺乏精度

音频生成: Movie Gen 还能根据视频内容和可选的文本提示生成高质量的音频,包括环境音效、音效(拟音)和背景音乐,最长可达 45 秒,而且全部与视频内容同步!它甚至还能生成任意长度视频的连贯音频!🤯

Meta 对 Movie Gen 的性能非常自信, 他们进行了一系列的人工评估,结果表明,在视频生成、视频个性化、视频编辑和音频生成这四个方面,Movie Gen 都比业内类似模型表现更好!

图片

想了解更多关于 Movie Gen 的信息?

Meta 的开源精神:

Meta 一直秉持开放科学的理念,他们将 Movie Gen 的研究细节都公开发表在了论文中,希望能够推动媒体生成领域的研究和创新

以下是 Movie Gen 论文的核心内容简要解读:

AI 的想象力

论文以“想象一只蓝色的鸸鹋在海洋中游泳” 为例,引出了 AI 想象力和生成能力的重要性。他们认为,人类的想象力需要组合和预测世界的各个方面,而赋予 AI 系统这种生成、组合和预测能力是一项核心科学挑战

Meta 如何打造 Movie Gen 这个“多面手”?

Meta 的这篇论文 (Movie Gen: A Cast of Media Foundation Models),详细介绍了 Movie Gen 的架构、训练方法和实验结果

图片

1. 核心模型: Movie Gen 主要基于两个基础模型:

  • • Movie Gen Video (300 亿参数): 负责视频生成,使用 Transformer 架构和 Flow Matching 训练目标

  • • Movie Gen Audio (130 亿参数): 负责音频生成,也使用 Transformer 架构和 Flow Matching 训练目标。

2. 图像和视频生成: Movie Gen 使用一个统一的模型来处理图像和视频,将图像视为单帧视频。为了提高效率,他们使用 TAE (时间自动编码器) 将视频和图像压缩到一个潜在空间中。他们还对训练目标进行了改进,以避免生成伪影

3. 视频个性化: 为了生成个性化视频,Movie Gen 在文本提示之外,还引入了人物图像作为条件。他们使用了一种多阶段的预训练策略,首先训练模型捕捉人物身份,然后训练模型生成长视频,最后通过交叉配对数据来提高动作的自然度

4. 精准视频编辑: 为了实现精准的视频编辑,Movie Gen 采用了一种多阶段的训练方法,逐步减少训练和测试之间的差异。他们首先用单帧视频编辑和文本到视频生成任务进行联合训练,然后引入两个新的合成任务:动画帧编辑和生成式指令引导的视频分割。最后,他们采用了一种视频编辑的“反向翻译”技术,用真实输出视频来训练模型

5. 音频生成: Movie Gen Audio 可以根据视频和文本提示生成高质量的音频。为了生成与视频同步的音频,他们采用了 DiT (Diffusion Transformer,扩散 Transformer) 模型架构,并引入了音频上下文和多模态提示等条件。为了生成长音频,他们采用了一种名为“多扩散” 的方法,可以并行处理多个视频片段,并将生成的音频片段拼接在一起

6. 实验结果: Movie Gen 在多项媒体生成任务上都达到了最先进的水平,超越了 Runway Gen、LumaLabs、OpenAI Sora 和 Kling 等模型



⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~




图片

👇👇