刚刚！Meta 版Sora 「Movie Gen 」炸裂登场：最先进文生视频、精准剪辑、还能配乐

AI寒武纪

2024-10-05 00:00发布于江苏

全文1580字，阅读约需5分钟，帮我划重点

划重点

01Meta发布了最先进的媒体基础模型Movie Gen，能生成高质量的视频和音频，并进行精准的视频编辑。

02Movie Gen仅需一段文本提示即可生成高清视频，最长可达16秒，帧率16fps，同时理解物体运动、主体-客体交互和摄像机运动。

03除此之外，Movie Gen能根据视频内容和可选的文本提示生成高质量的音频，最长可达45秒，且与视频内容同步。

04Meta对Movie Gen的性能非常自信，其在视频生成、视频个性化、视频编辑和音频生成四个方面均优于业内类似模型。

05Meta将Movie Gen的研究细节公开发表在论文中，以推动媒体生成领域的研究和创新。

以上内容由腾讯混元大模型生成，仅供参考

Meta 在 AI 领域又搞了个大新闻！他们发布了 Movie Gen，一套迄今为止最先进的媒体基础模型，由 Meta AI 研究团队开发，能生成高质量的视频和音频，还能进行精准的视频编辑，以后，一句话生成一部电影？ 🎉 OpenAI的Sora在哪里？Sora的开发主管都跑路去谷歌了

我们先看看Movie Gen有哪些特点

Movie Gen 的超能力：

视频生成： 只需要一段文本提示，就能生成高清视频（1080p），最长可达 16 秒，帧率 16fps！还能理解物体运动、主体-客体交互和摄像机运动，各种概念的合理运动都不在话下

个性化视频生成： 上传一张人物图像和一段文本提示，就能生成包含该人物的个性化视频，而且还能保持人物的身份和动作！😎

精准视频编辑： 给定一段视频和相应的文本指令，Movie Gen 就可以对视频进行局部编辑（例如添加、移除或替换元素）或全局更改（例如背景或风格修改）。它只针对相关像素进行修改，保留原始内容，不像传统工具需要专业技能，也不像其他生成式 AI 缺乏精度

音频生成： Movie Gen 还能根据视频内容和可选的文本提示生成高质量的音频，包括环境音效、音效（拟音）和背景音乐，最长可达 45 秒，而且全部与视频内容同步！它甚至还能生成任意长度视频的连贯音频！🤯

Meta 对 Movie Gen 的性能非常自信， 他们进行了一系列的人工评估，结果表明，在视频生成、视频个性化、视频编辑和音频生成这四个方面，Movie Gen 都比业内类似模型表现更好！

想了解更多关于 Movie Gen 的信息？

Meta 的开源精神：

Meta 一直秉持开放科学的理念，他们将 Movie Gen 的研究细节都公开发表在了论文中，希望能够推动媒体生成领域的研究和创新

以下是 Movie Gen 论文的核心内容简要解读：

AI 的想象力

论文以“想象一只蓝色的鸸鹋在海洋中游泳” 为例，引出了 AI 想象力和生成能力的重要性。他们认为，人类的想象力需要组合和预测世界的各个方面，而赋予 AI 系统这种生成、组合和预测能力是一项核心科学挑战

Meta 如何打造 Movie Gen 这个“多面手”？

Meta 的这篇论文 (Movie Gen: A Cast of Media Foundation Models)，详细介绍了 Movie Gen 的架构、训练方法和实验结果

1. 核心模型： Movie Gen 主要基于两个基础模型：

• Movie Gen Video (300 亿参数)： 负责视频生成，使用 Transformer 架构和 Flow Matching 训练目标
• Movie Gen Audio (130 亿参数)： 负责音频生成，也使用 Transformer 架构和 Flow Matching 训练目标。

2. 图像和视频生成： Movie Gen 使用一个统一的模型来处理图像和视频，将图像视为单帧视频。为了提高效率，他们使用 TAE (时间自动编码器) 将视频和图像压缩到一个潜在空间中。他们还对训练目标进行了改进，以避免生成伪影

3. 视频个性化： 为了生成个性化视频，Movie Gen 在文本提示之外，还引入了人物图像作为条件。他们使用了一种多阶段的预训练策略，首先训练模型捕捉人物身份，然后训练模型生成长视频，最后通过交叉配对数据来提高动作的自然度

4. 精准视频编辑： 为了实现精准的视频编辑，Movie Gen 采用了一种多阶段的训练方法，逐步减少训练和测试之间的差异。他们首先用单帧视频编辑和文本到视频生成任务进行联合训练，然后引入两个新的合成任务：动画帧编辑和生成式指令引导的视频分割。最后，他们采用了一种视频编辑的“反向翻译”技术，用真实输出视频来训练模型

5. 音频生成： Movie Gen Audio 可以根据视频和文本提示生成高质量的音频。为了生成与视频同步的音频，他们采用了 DiT (Diffusion Transformer，扩散 Transformer) 模型架构，并引入了音频上下文和多模态提示等条件。为了生成长音频，他们采用了一种名为“多扩散” 的方法，可以并行处理多个视频片段，并将生成的音频片段拼接在一起

6. 实验结果： Movie Gen 在多项媒体生成任务上都达到了最先进的水平，超越了 Runway Gen、LumaLabs、OpenAI Sora 和 Kling 等模型

⭐星标AI寒武纪，好内容不错过⭐

用你的赞和在看告诉我～

👇👇

查看原图 70K

刚刚！Meta 版Sora 「Movie Gen 」 炸裂登场：最先进文生视频、精准剪辑、还能配乐

Movie Gen 的超能力：

以下是 Movie Gen 论文的核心内容简要解读：

刚刚！Meta 版Sora 「Movie Gen 」炸裂登场：最先进文生视频、精准剪辑、还能配乐