Meta 在 AI 领域又搞了个大新闻!他们发布了 Movie Gen,一套迄今为止最先进的媒体基础模型,由 Meta AI 研究团队开发,能生成高质量的视频和音频,还能进行精准的视频编辑,以后,一句话生成一部电影? 🎉 OpenAI的Sora在哪里?Sora的开发主管都跑路去谷歌了
我们先看看Movie Gen有哪些特点
Movie Gen 的超能力:
视频生成: 只需要一段文本提示,就能生成高清视频(1080p),最长可达 16 秒,帧率 16fps!还能理解物体运动、主体-客体交互和摄像机运动,各种概念的合理运动都不在话下
个性化视频生成: 上传一张人物图像和一段文本提示,就能生成包含该人物的个性化视频,而且还能保持人物的身份和动作!😎
精准视频编辑: 给定一段视频和相应的文本指令,Movie Gen 就可以对视频进行局部编辑(例如添加、移除或替换元素)或全局更改(例如背景或风格修改)。它只针对相关像素进行修改,保留原始内容,不像传统工具需要专业技能,也不像其他生成式 AI 缺乏精度
音频生成: Movie Gen 还能根据视频内容和可选的文本提示生成高质量的音频,包括环境音效、音效(拟音)和背景音乐,最长可达 45 秒,而且全部与视频内容同步!它甚至还能生成任意长度视频的连贯音频!🤯
Meta 对 Movie Gen 的性能非常自信, 他们进行了一系列的人工评估,结果表明,在视频生成、视频个性化、视频编辑和音频生成这四个方面,Movie Gen 都比业内类似模型表现更好!
想了解更多关于 Movie Gen 的信息?
Meta 的开源精神:
Meta 一直秉持开放科学的理念,他们将 Movie Gen 的研究细节都公开发表在了论文中,希望能够推动媒体生成领域的研究和创新
以下是 Movie Gen 论文的核心内容简要解读:
AI 的想象力
论文以“想象一只蓝色的鸸鹋在海洋中游泳” 为例,引出了 AI 想象力和生成能力的重要性。他们认为,人类的想象力需要组合和预测世界的各个方面,而赋予 AI 系统这种生成、组合和预测能力是一项核心科学挑战
Meta 如何打造 Movie Gen 这个“多面手”?
Meta 的这篇论文 (Movie Gen: A Cast of Media Foundation Models),详细介绍了 Movie Gen 的架构、训练方法和实验结果
1. 核心模型: Movie Gen 主要基于两个基础模型:
• Movie Gen Video (300 亿参数): 负责视频生成,使用 Transformer 架构和 Flow Matching 训练目标
• Movie Gen Audio (130 亿参数): 负责音频生成,也使用 Transformer 架构和 Flow Matching 训练目标。
2. 图像和视频生成: Movie Gen 使用一个统一的模型来处理图像和视频,将图像视为单帧视频。为了提高效率,他们使用 TAE (时间自动编码器) 将视频和图像压缩到一个潜在空间中。他们还对训练目标进行了改进,以避免生成伪影
3. 视频个性化: 为了生成个性化视频,Movie Gen 在文本提示之外,还引入了人物图像作为条件。他们使用了一种多阶段的预训练策略,首先训练模型捕捉人物身份,然后训练模型生成长视频,最后通过交叉配对数据来提高动作的自然度
4. 精准视频编辑: 为了实现精准的视频编辑,Movie Gen 采用了一种多阶段的训练方法,逐步减少训练和测试之间的差异。他们首先用单帧视频编辑和文本到视频生成任务进行联合训练,然后引入两个新的合成任务:动画帧编辑和生成式指令引导的视频分割。最后,他们采用了一种视频编辑的“反向翻译”技术,用真实输出视频来训练模型
5. 音频生成: Movie Gen Audio 可以根据视频和文本提示生成高质量的音频。为了生成与视频同步的音频,他们采用了 DiT (Diffusion Transformer,扩散 Transformer) 模型架构,并引入了音频上下文和多模态提示等条件。为了生成长音频,他们采用了一种名为“多扩散” 的方法,可以并行处理多个视频片段,并将生成的音频片段拼接在一起
6. 实验结果: Movie Gen 在多项媒体生成任务上都达到了最先进的水平,超越了 Runway Gen、LumaLabs、OpenAI Sora 和 Kling 等模型
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~