划重点
01中国人民大学和Sea AI Lab联合提出名为RID的全新人物图片保护模型,可在手机终端部署。
02RID通过提前训练的小网络实现输入图片输出扰动,实现低成本、实时的图片保护。
03实验结果显示,RID保护的图片在定制化学习后,微调得到的定制化模型无法生成真实、正常的图片。
04此外,RID在不同定制化方法、不同定制化使用的预训练模型、不同噪声幅度下均能达到有效的保护效果。
05未来如何将DiT架构的扩散模型融合进Adv-SDS一起优化实现更鲁棒的保护效果以及设计具有良性作用的扰动值得探索。
以上内容由腾讯混元大模型生成,仅供参考
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
RID 的作者来自于中国人民大学和 Sea AI Lab。第一作者为香港大学在读博士生郭瀚中,该工作为其硕士期间完成,其研究方向为扩散模型。本文由中国人民大学孙浩教授和李崇轩教授共同指导,其他作者包括中国人民大学博士生聂燊和 Sea AI Lab 研究员庞天宇和杜超。
近年来许多论文研究了基于扩散模型的定制化生成,即通过给定一张或几张某个概念的图片,通过定制化学习让模型记住这个概念,并能够生成这个概念的新视角、新场景图片。
但是当有用户恶意使用定制化生成技术,例如利用发布在社交平台的照片生成假照片,会对用户的隐私权造成威胁。一些研究通过对原始图片加扰动的方式来保护图片不被定制化学习,而由于这些研究都是通过梯度上升的方式去优化对应的扰动,因此瓶颈在于计算时间和计算开销上,为了给一个图片添加保护的扰动,需要花费几分钟甚至几十分钟,并且需要较大的显存消耗。
本文中,中国人民大学和 Sea AI Lab 联名提出名为 RID 的全新人物图片保护模型,通过一个提前训练的小网络实现输入图片输出扰动的方式,在 RID 范式下,图片的防定制化保护只需要几十毫秒并且可以在用户手机终端部署。
论文标题:Real-time Identity Defenses against Malicious Personalization of Diffusion Models
论文地址:https://arxiv.org/pdf/2412.09844
项目地址:https://github.com/Guohanzhong/RID
为了更助于理解,RID 提供了涉及到的不同任务和解决方案的流程框图。定制化学习的概念是指用户提供几张同个概念的几张图片(RID 聚焦在人物的保护上),微调预训练扩散模型,如下图 a 所示。在定制化学习完后,用户可以利用定制化微调模型实现原始概念的新图片生成,如下图 b 所示。而目前为了保护图片不被定制化,存在的方案是基于预训练模型梯度上升优化一个微小扰动,但是这个过程对计算时间和计算量要求较大,如下图 c 所示。而 RID 是利用 Adv-SDS 的方式在使用前优化一个小网络,如下图 d 所示。RID 使用的时候即输入图片输出扰动,实现低成本、实时的图片保护,如下图 e 所示。当对 RID 保护后的图片再进行定制化学习,微调得到的定制化模型则已经无法生成真实、正常的图片,即图片被定制化保护成功,如图 f 所示。
对抗得分蒸馏采样 Adv-SDS
RID 的目标是通过一个小网络的单步推理,实现对图片增加微小的扰动实现图片不被成功定制化学习。受到 Dreamfusion 的 score distillation sampling (SDS) 启发,RID 与 Dreamfusion 本质上都是优化一个图片生成器,在 Dreamfusion 里是不同角度渲染图片,而 RID 的场景是通过添加一个扰动得到一个 “新” 的图片。而 RID 与 Dreamfusion 的任务定义不同,Dreamfusion 目的是生成一个不同角度渲染的图片符合扩散模型空间的,因此需要 SDS 损失最小,而我们是希望 RID 保护后的图片不被定制化学习,因此通过引入一个最大化 SDS 损失的 Adv-SDS。
但实验中 RID 发现,如果只通过 Adv-SDS 优化,RID 会陷入局部最优,RID 产生的扰动是网格状的,为了更好的保护效果以及让扰动更不易察觉,RID 还引入了一个回归损失。RID 会提前离线产生干净图片、扰动数据对,这个扰动是通过基于梯度优化的方式制造的,例如 AdvDM 或 Anti-DB 等。完整的 RID 优化见下图所示,相比仅采用其中一种损失优化,在两个损失共同优化下,RID 可以达到较好的保护效果。
模型架构:由于 RID 的目的是输入图片,输入扰动,这个任务和扩散模型网络的任务类似,扩散模型是输入带噪图片,输出预测噪声,因此本文采用 DiT 作为主要网络架构,由于我们不需要额外的条件引导,因此 RID 的网络架构是将 DiT 的条件注入变成常数。此外为了限制 RID 的输出扰动大小,RID 会在网络最后增加一个 tanh 非线性映射并进行缩放达到每个 RID 网络可以产生不同大小约束的扰动。
实验结果
训练评估测试集构建:RID 的训练数据集是经过筛选后的 70k VGG-Face 2 数据集,评估集是从 Celeba-HQ 中随机筛选的 15 个 ID,每个 ID 的 12 张图片组成的。
评估方式:对于每个 ID,会对 12 张干净图片或者不同方法的保护图片进行定制化学习,定制化学习均采用 Dreambooth 损失,微调参数为 Textual Inversion (TI),TI + LoRA, 全参数微调 (DB),RID 默认的评估定制化方法为 TI + LoRA,训练的 prompt 均为 “photo of a <news>/sks person”。用每组定制化模型再推理 12 张图片,定量评测的时候推理均用 “photo of a <news>/sks person”,定性分析的时候会做任意文本的组合泛化生成。
从下图 a 中可以看出,经过 RID 保护的图片可以有效的实现图片的反定制化,即保护后的图片的定制化模型无法生成正常的图片。并且图 b 展示了不同方法之间的保护对数时间,RID 可以在一张 GPU 上实现 8.33 Images/Second 的保护速度,虽然图 c 展示 RID 的定量指标上有所下降,但从图 d 的定性中说明不同方法间均能使用有效的保护,因此说明 RID 的有效性。
并且 RID 能够在不同定制化方法、 不同定制化使用的预训练模型、不同噪声幅度下均达到有效的保护效果。
并且对于黑盒攻击场景和图片后处理场景下,无论从定性上还是定量上,RID 均可以展现出有效的保护效果。下图展示了 RID 保护成功的原理,相比干净图片,RID 保护的图片在扩散模型不同时间步上的损失均有较大程度的上升,而定制化模型本质上只是引入了一个新的概念,对于同一组图片,定制化前后的模型损失变化并不大,因此没办法覆盖 RID 增加扰动所带来的损失上升,因此 RID 保护的图片对于模型而言是一个 OOD 的图片概念,模型无法正确学习到并且生成。
思考和展望
目前基于 SD 系列集成训练的 RID 展现出来了鲁棒的保护能力,但目前主流开源的还有许多 DiT 架构的扩散模型,因此未来如何将 DiT 架构的扩散模型融合进 Adv-SDS 一起优化实现更鲁棒的保护效果值得探索。此外,目前 RID 的扰动仍然是随机优化的扰动,未来能否设计一种具有良性作用的扰动,例如将扰动设计为妆照,也是值得更深入的研究。