始智AI wisemodel.cn开源社区
ConsisID是基于目前主流的DiT来实现的,准确地说是基于目前开源的文生图视频模型CogVideoX-5B。首先,作者团队发现DiT架构相比之前的UNet架构有一些不同。对于DiT架构,有两处比较关键的发现:
低频特征的重要性:在扩散模型中,浅层(例如,低层、低频)特征对于像素级预测任务至关重要,因为它们能够缓解模型训练的难度。U-Net通过长跳跃连接将浅层特征聚合到解码器,而DiT并不具备这种机制;
高频特征的重要性:Transformers对高频信息的感知能力有限,而高频信息对于保留面部特征是重要的。U-Net的编码器-解码器架构天然具有多尺度特征(例如高频丰富性),而 DiT 缺乏类似的结构;
作者指出,要开发基于DiT的控制算法,则必须首先解决这些问题。ConsisID就是围绕这两个发现进行算法设计的。
可以看到,ConsisID包含两个部分的特征提取,分别用于增强DiT架构的高低频感知能力。
鉴于以上发现一,作者首先提出一个全局的面部特征提取器获取低频特征,这里采用的是裁剪的人脸图以及人脸的5个关键图RGB图,并采用视频VAE提取latent tokens,和视频的带噪音的latent tokens拼接在一起送入DiT模型中。
鉴于以上发现二,作者然后提出一个局部的面部特征提取器获取高频特征,这里是采用CLIP和人脸识别模型分别提取人脸特征,并通过一个Q-Former模块来融合特征,并在DiT的Attention和FFN之间新插入Corss Attention来注入融合的特征。
如图所示,傅里叶谱和傅里叶变换的对数幅度显示,注入高频或低频信号确实可以增强生成人脸的相应频率信息。
此外,低频信号可以通过与面部关键点匹配进一步增强,而将高频信号注入注意力模块则具有最高的特征利用率。作者的方法(c)展现了最强的高频和低频,进一步验证了发现1和发现2所带来的效率收益。为了减少开销,对于每个身份,作者仅选择2张参考图像进行评估。
python/home/ConsisID/app.py
然后选择和确认计费方式,这里选择按量-手动停止的计费方式,大家也可以根据自己的需求选择计费方式。
提交订单之后,应用已经进入启动中的状态,正常情况下大概等待5分钟左右就正常运营,进行在线体验了。
编辑丨赵雅鑫