北大ConsisID:上传头像照,生成一致性视频,欢迎体验

全文2745字,阅读约需8分钟,帮我划重点

划重点

01北京大学和罗切斯特大学等研究机构发布了ConsisID,一种无需训练、高质量、可编辑、一致性强的身份保持视频生成技术。

02ConsisID基于主流的DiT架构,通过全局和局部特征提取器增强低频和高频感知能力。

03作者提出层次化策略,先全局学习信息,然后局部细化,以提高生成面部的表情真实度和整体相似度。

04为此,ConsisID在电影、短视频、广告、教育和娱乐等领域具有广泛的应用潜力。

05用户可以通过Wisemodel社区直接使用ConsisID模型镜像创建在线体验。

以上内容由腾讯混元大模型生成,仅供参考

始智AI wisemodel.cn开源社区

大规模视频生成基座模型在今年取得了显著进展,但如何在生成过程中保持人物身份信息的一致性,仍然是一个亟待解决的技术难题。

例如现有的生成模型生成时序过程中,人物的外貌和身份特征往往会逐渐发生失真,导致人物面貌的变化,无法在视频的整个时序中维持一致性。这一问题限制了模型在诸如虚拟主播、数字双胞胎和互动电影等场景中的实际应用效果。

北京大学、罗切斯特大学等研究机构发布了ConsisID,其针对人脸的特征特性以及DIT的架构特性,设计了合理的控制信号及训练策略,成功实现了无需训练、高质量、可编辑、一致性强的身份保持视频生成,为数字内容创作注入全新活力与无限可能。ConsisID已上线始智AI-wisemodel开源社区,欢迎大家前去体验。

图片

 模型和代码地址

https://wisemodel.cn/models/SHYuanBest/ConsisID-Preview

https://wisemodel.cn/codes/SHYuanBest/ConsisID

01.

算法原理


ConsisID是基于目前主流的DiT来实现的,准确地说是基于目前开源的文生图视频模型CogVideoX-5B。首先,作者团队发现DiT架构相比之前的UNet架构有一些不同。对于DiT架构,有两处比较关键的发现:

低频特征的重要性:在扩散模型中,浅层(例如,低层、低频)特征对于像素级预测任务至关重要,因为它们能够缓解模型训练的难度。U-Net通过长跳跃连接将浅层特征聚合到解码器,而DiT并不具备这种机制;

高频特征的重要性:Transformers对高频信息的感知能力有限,而高频信息对于保留面部特征是重要的。U-Net的编码器-解码器架构天然具有多尺度特征(例如高频丰富性),而 DiT 缺乏类似的结构;

作者指出,要开发基于DiT的控制算法,则必须首先解决这些问题。ConsisID就是围绕这两个发现进行算法设计的。

02.

模型架构


图片

可以看到,ConsisID包含两个部分的特征提取,分别用于增强DiT架构的高低频感知能力。

鉴于以上发现一,作者首先提出一个全局的面部特征提取器获取低频特征,这里采用的是裁剪的人脸图以及人脸的5个关键图RGB图,并采用视频VAE提取latent tokens,和视频的带噪音的latent tokens拼接在一起送入DiT模型中。

鉴于以上发现二,作者然后提出一个局部的面部特征提取器获取高频特征,这里是采用CLIP和人脸识别模型分别提取人脸特征,并通过一个Q-Former模块来融合特征,并在DiT的Attention和FFN之间新插入Corss Attention来注入融合的特征。

03.

模型训练


在训练过程中,作者从训练帧中随机选择一帧,并应用Crop & Align提取面部区域作为参考图像,随后将其用作身份控制信号,与文本一起作为控制。
粗到细训练。与身份保持图像生成相比,视频生成需要在空间和时间维度上保持一致性,确保高频和低频面部信息与参考图像匹配。为了减轻训练的复杂性,作者提出了一种层次化策略,让模型先全局学习信息,然后局部细化。
在粗粒度阶段(例如,对应于发现1),作者使用全局面部提取器,使模型优先考虑低频特征,如面部轮廓和比例,从而快速从参考图像中获取身份信息,并在视频序列中保持一致性。
在细粒度阶段(例如,对应于发现2),局部面部提取器将模型的焦点转移到高频细节上,如眼睛和嘴唇的纹理细节(例如,内在识别),提高了生成面部的表情真实度和整体相似度。此时的损失函数如下:
图片
动态掩码损失。ConsisID的目标是确保生成视频中的人物身份与输入参考图像保持一致。然而,方程4考虑了整个场景,包括高频和低频身份信息以及冗余背景内容,这引入了干扰模型训练的噪声。
为了解决这个问题,作者提出将模型的注意力集中在面部区域。具体来说,作者首先从视频中提取面部掩码,应用三线性插值将其映射到潜在空间,最后使用这个掩码来限制Lc的计算:
图片
其中,M代表与ϵ形状相同的掩码。然而,如果将方程5作为所有训练数据的监督信号,模型可能在推理过程中无法生成自然背景。为了减轻这个问题,作者以概率α来选择是否需要应用方程5:
图片
动态交叉脸损失。在用方程6训练后,作者观察到模型在推理过程中对于训练帧中未出现的人脸生成结果不佳。这个问题出现的原因是,模型仅在训练帧的人脸上训练,倾向于通过采用“复制粘贴”的捷径过拟合——本质上是复制参考图像而没有改变。
为了提高模型的泛化能力,作者向参考图像引入了轻微的高斯噪声ζ,并以概率β使用跨脸(例如,参考图像源自训练帧之外的视频帧)作为输入:
图片

04.

模型性能


在效果上,ConsisID相比之前的方法比如ID-Animator可以生成人脸更一致的视频,而且视频的质量和文本响应也更好。
图片
图片
一个比较有意思的Ablation Study:
图片

如图所示,傅里叶谱和傅里叶变换的对数幅度显示,注入高频或低频信号确实可以增强生成人脸的相应频率信息。

此外,低频信号可以通过与面部关键点匹配进一步增强,而将高频信号注入注意力模块则具有最高的特征利用率。作者的方法(c)展现了最强的高频和低频,进一步验证了发现1和发现2所带来的效率收益。为了减少开销,对于每个身份,作者仅选择2张参考图像进行评估。

05.

应用场景


ConsisID在电影、短视频、广告、教育和娱乐等领域具有广泛的应用潜力。通过这项技术,电影制作者可以快速生成符合剧本要求的虚拟人物和场景,使得创作过程更加高效。
短视频平台也能通过文本描述生成定制化的视频内容,满足用户个性化需求,提高观众的观看体验和参与度。

图片

在广告行业,品牌方可以根据受众的兴趣和特点,生成具有一致身份特征的广告内容,提升品牌形象和转化率。
教育领域可以利用这一技术创建个性化的教学视频或虚拟导师,帮助学生更好地理解课程内容,并提高学习体验。
娱乐行业也能通过自动生成与用户兴趣相匹配的虚拟角色或情节,增强互动性和沉浸感。ConsisID不仅提升了内容生产的效率,还为创作者和观众带来了更加个性化和互动的体验。

05.

镜像使用


在wisemodel上提供了直接使用的镜像,点击ConsisID-Preview模型详情页-“训练或微调”按钮,创建一个开发环境,选择“ConsisID-Preview”的镜像,使用1张A5000的配置,然后直接点击下一步:
图片
然后确认一下计费方式,如果是简单体验可以选择按量计费的模型,如果需要使用更长的时间,也可以选择包周或包月的模式,相比于按量有一些折扣。确定计费方式之后,可以直接点击提交订单:
图片
等待1分钟左右,开发环境就启动成功,进入运行中的状态。

图片

通过Notebook登录到开发环境上,然后启动服务,
图片
需要输入
python/home/ConsisID/app.py

图片

服务启动成功之后,在开发环境申请一个服务端口和访问域名。
图片
将申请好的域名复制到浏览器里就可以开始在线体验了。
图片

05.

在线体验


Wisemodel社区支持直接通过模型镜像创建在线体验,在ConsisID-Preview模型详情面点击“在线部署-部署在线体验”按钮。

图片

然后选择和确认计费方式,这里选择按量-手动停止的计费方式,大家也可以根据自己的需求选择计费方式。

图片

提交订单之后,应用已经进入启动中的状态,正常情况下大概等待5分钟左右就正常运营,进行在线体验了。图片

编辑丨赵雅鑫