划重点
01StableV2V是一种新型视频编辑方法,旨在解决人机交互一致性问题,提高视频编辑质量。
02该方法基于第一帧编辑范式,通过Prompted First-frame Editor、Iterative Shape Aligner和Conditional Image-to-video Generator三个核心组件实现。
03与现有方法相比,StableV2V在DAVIS-Edit基准测试集上取得了更好的视频质量、帧间一致性、图文对齐和推理效率。
04此外,StableV2V还具有不错的精度,能有效保留编辑后物体的形状一致。
以上内容由腾讯混元大模型生成,仅供参考
始智AI wisemodel.cn开源社区
随着年初OpenAI 的Sora demo的发布,视频生成或视频编辑领域呈现出井喷式发展的趋势。这一新兴技术浪潮不仅吸引了众多研究人员的目光,也使得相关应用如雨后春笋般涌现,为整个行业带来了前所未有的创新活力。
本文将从几个方面具体分享关于视频编辑方法StableV2V研究的心路历程,包括视频编辑基本定义、视频编辑现有方法的解决方案及局限性,以及StableV2V的思路和实现细节等。目前StableV2V模型已上线始智AI-wisemodel开源社区,欢迎大家前去体验。
模型和代码地址:
01
视频编辑的基本定义
视频编辑(video editing)这项任务旨在根据用户输入的额外条件,对原视频中的内容(例如:前景、背景等等)进行编辑。在diffusion model主导的大背景环境下,现有方法的setting大多都是基于文本描述进行的,比较有名的工作有TokenFlow、StableVideo、AVID等等。
Text-based editing效果的演示
其实从上述两个例子,大家不难发现video editing这个任务的难点——(1)生成视频帧之间的连续一致性、(2)编辑内容与user prompts之间的一致性问题。第一点可以说是视频模态相关任务的通病——即我们常说的temporal consistency问题。
也就是说,我们在对原视频进行编辑的同时,也要保证生成视频帧与帧之间是连贯的;第二点则是由于人机交互带来的问题,我们知道,用户在交互过程中给定的prompt(文字或图片),往往会存在跟生成内容之间不一致的问题。
02
现有方法的解决方案及局限性
03
想法和思路
在设计StableV2V的时候,我们尝试跳出现有方法的范式局限,专注于思考一个问题——我们究竟能不能拿到跟user prompts对齐的motion patterns?
StableV2V的方法流程图。图中的绿框代表视频的第一帧,蓝框代表从第k次迭代仿真到第k+1次仿真的过程。
04
方法与细节
StableV2V主要包括三个核心组件—Prompted First-frame Editor(PFE)、Iterative Shape Aligner(ISA)、Conditional Image-to-video Generator(CIG)。
ISA的motion simulation过程
Motion Simulation。具体来说,ISA需要借助「原视频帧」以及「第一编辑帧」对应的segmentation masks来完成仿真过程,这里我们仅介绍从第1到第2个仿真的光流仿真过程(上图中的红色框部分),后续的过程以此类推,展示如下:
ISA各阶段仿真的可视化效果
05
实验结果对比
DAVIS-Edit样例的可视化
我们在文章中对StableV2V以及七个现有方法进行了对比。客观指标上,我们考虑了DOVER、FVD、WE、CLIP-Temporal、CLIP score、推理时间,从视频质量、帧间一致性、图文对齐、推理效率等多个方面对现有方法进行评测。
同时,我们还考虑了human evaluation。关于实验结果的对比及分析,欢迎大家参考我们的原文。下面是我们主实验的结果:
StableV2V与其他方法在DAVIS-Edit上的对比结果
StableV2V在text-based editing(左)和image-based editing(右)上的应用
StableV2V的更多应用
作者丨Alonzo
编辑丨成蕴年