这项由兰州大学与阿里巴巴AMAP团队联合完成的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604.16044,有兴趣深入了解的读者可通过该编号查询完整论文。研究围绕扩散概率模型(即当今最流行的AI图像生成技术背后的核心引擎)中一个此前从未被系统性揭示的内在缺陷展开,并提出了一套无需重新训练模型、几乎不增加任何计算成本的修复方案。
每当你用FLUX、Stable Diffusion或其他AI画图工具生成图像时,背后都在运行一套叫做"扩散模型"的机制。这套机制就像一位画家从一张布满随机噪点的画布出发,一步步擦去噪点、补上细节,最终完成一幅完整的画作。步骤越少,画得越快,但质量往往也越难保证。研究团队发现,这种"越快越容易出问题"的现象并非偶然,而是源自一个深层的系统性缺陷——他们将其命名为"信噪比-时间步偏差",简称SNR-t偏差。
理解这个发现的意义,首先需要知道这类缺陷会造成什么样的后果。你或许注意过,当AI绘图步骤设置得很少时,生成的图像往往会出现过度平滑(像是蒙了一层雾)、过曝(颜色失真、局部太亮)以及细节模糊等问题。这项研究正是第一次从理论上彻底解释了这些现象的根本原因,并给出了一个干净利落的修复办法。
一、扩散模型是怎么工作的,为什么会出问题
要理解研究团队发现的这个缺陷,可以把扩散模型的训练过程想象成一所"降噪学校"。学校里的学生(也就是神经网络)每天接受这样的训练:老师拿来一张原始图片,按照严格的规则在上面叠加不同程度的噪点,然后告诉学生"这张图片现在处于第7步的噪点程度,请预测并去掉噪点"。这里有一个关键规则:噪点的多少与步骤编号之间存在严格的一一对应关系。简单说,第7步的图片一定有第7步应有的"信噪比"——信号(图像本身的信息)与噪声(叠加的随机扰动)之间的比例是固定的。
信噪比这个概念本身并不复杂。收音机信号强、杂音小,信噪比就高;反之,信号弱、杂音大,信噪比就低。AI图像生成过程中,早期步骤信噪比很低(几乎全是噪点),晚期步骤信噪比很高(图像逐渐清晰)。训练时,学生只见过"步骤编号与信噪比严格匹配"的情形,因此非常擅长处理这类"标准样本"。
然而,真正生成图像时(也就是"推理"阶段),情况就发生了变化。神经网络本身预测并不完美,再加上数值计算中不可避免的舍入误差,每一步生成的中间图像实际上并不完全符合该步骤应有的信噪比。就好像这位"学生",在实际考场上处理的题目和他训练时见过的题目存在微妙的偏差——训练时的第7步图片信噪比精准无误,而实际生成时的"第7步"图片,信噪比却悄悄偏低了。这种偏差会在每一步之间不断叠加,形成滚雪球效应,最终导致图像质量明显下滑。
二、两个关键实验:偏差的存在有多么确凿
研究团队设计了两个非常直观的实验来验证这一缺陷的存在。
第一个实验可以理解为"给学生出一道偏题"。他们固定神经网络的"时间步骤"为某一个值(比如第16步),然后分别把不同程度的噪点图像喂给网络,观察网络的输出。结果非常清楚:当输入图像的噪点程度比第16步"应有的"更多时(也就是信噪比偏低),网络会过度估计噪点,输出一个比实际需要大得多的噪声预测值;反过来,当输入图像的噪点比第16步应有的更少时(信噪比偏高),网络又会低估噪点。换句话说,这位"学生"只擅长处理他训练时见过的"标准题",一旦遇到稍有偏差的情形,判断就会出现系统性的偏移。
第二个实验则是"对照追踪生成过程"。研究团队一方面通过标准规则生成一批"正向加噪"的样本(确保每步信噪比完全正确),另一方面让模型从头开始实际生成图像(走真实的去噪过程),然后在每一步上对比两批图像输出的噪声预测值大小。结论同样明确:在任意时间步骤上,实际生成过程中的图像,其噪声预测值始终高于正向加噪样本的噪声预测值。结合第一个实验的发现,这意味着实际生成过程中的图像,其信噪比在每一步上都系统性地低于"应有值"。偏差不是偶发的,而是持续存在且方向一致的。
为了排除随机性的干扰,研究团队还用不同的随机种子(16、42、99)和不同的批量大小(10、100、1000、2000)重复了这些实验,每次结果都保持一致,进一步确认了这一现象的普遍性。
三、数学层面的解释:偏差从何而来
研究团队不满足于实验层面的观察,还从数学角度给出了严格的理论证明。这部分的核心是一个关于"重建样本"的假设。
在扩散模型每一步去噪时,除了生成下一步的中间图像,模型还会顺带预测一个"重建样本"——也就是它对最终干净图像的当前估计。此前的研究有两种不同的假设来描述这个重建样本的数学形式,两者之间甚至存在矛盾。研究团队通过一个简洁的数学论证解决了这个争议:由于神经网络预测的是一种"均值估计",根据统计学中方差恒为非负的基本原理,重建样本的能量(即L2范数)必然小于或等于真实原始图像的能量。换言之,重建样本在能量上永远存在"信息损耗"。这一结论与此前一种假设相矛盾,却与另一种假设吻合,从而为后续的理论推导奠定了基础。
在此基础上,研究团队推导出了反向去噪过程中每一步实际生成样本的精确数学形式,并计算出其真实信噪比。结果表明,相比于同一时间步骤下正向加噪样本的理论信噪比,实际生成样本的信噪比总是更低——因为分母中额外多出了一个与"重建误差"相关的正数项。这就像一道数学题:分母变大了,分数自然变小。这从理论上严格证明了SNR-t偏差的存在和方向性,也为实验结论提供了坚实的数学支撑。
四、修复方案:差分修正,让生成轨迹回到正轨
发现了问题,研究团队随即着手设计解决方案。他们的核心思路是:既然生成过程中的样本信噪比系统性偏低,那就找到一个方向,把它往正确的方向推一推。
这个"推力"就隐藏在每一步去噪过程本身之中。每步去噪结束后,模型同时得到两个东西:当前步骤生成的中间图像(预测样本),以及模型对最终干净图像的当前猜测(重建样本)。研究团队发现,这两者之差——也就是"差分信号"——恰好包含了将预测样本推向正确分布方向所需的梯度信息。用一个简单的比喻来理解:你在雾中开车,仪表盘显示你在第7公里处,但实际上你偏离了正常路线,只走到了第6.8公里的位置。"差分信号"就好比路边的导航提示,告诉你"往右偏一点点,回到正轨"。
具体的修正操作非常简单:每完成一步去噪,得到中间图像后,再加上这个差分信号乘以一个可调节的系数。系数越大,修正力度越强;系数为零时,等于没有修正。这个操作不需要重新训练模型,不需要额外调用一次神经网络,只是在每步去噪结束后做一次轻量级的数值调整,计算开销可以忽略不计。
五、进阶优化:在小波域中分频修正
仅仅在原始图像空间做修正已经有效,但研究团队进一步发现,如果把修正操作搬到"频率域"中进行,效果会更好。这里涉及一个叫做"离散小波变换"的工具,可以简单理解为:把一张图像拆分成四个部分,分别代表图像的低频信息(整体轮廓、大色块、主要结构)和三个方向上的高频信息(边缘、纹理、细节)。
为什么要分开处理?这背后有一个扩散模型本身的内在规律:在去噪的早期阶段,模型优先重建图像的低频结构(先画出大致轮廓和整体色调);在去噪的后期阶段,模型才逐渐补充高频细节(边缘、纹理、发丝等)。既然生成过程本身有这样的节奏感,修正操作也应当顺应这个节奏,而不是一刀切。
研究团队因此设计了一套动态权重策略:在去噪早期,给低频修正分配较大的权重,优先保证整体结构的准确性;在去噪后期,给高频修正分配较大的权重,重点改善细节质量。权重的调节借助了扩散模型自带的一个参数——反向过程方差,它天然地反映了当前去噪进度,数值在早期较大、晚期趋近于零,正好可以用来驱动这套"先粗后细"的动态修正机制。
此外,在频率域操作还有另一个好处:差分信号中混杂着随机高斯噪声的干扰,直接在图像空间修正时,这些噪声会一定程度上影响修正方向的准确性。拆分到频率域后,低频分量中的噪声干扰更少,修正效果更为精准。整套方案被研究团队命名为DCW,即"小波域差分修正"。
六、实验验证:在各种模型和数据集上的全面测试
研究团队对DCW进行了极为广泛的测试,横跨多个主流扩散模型(IDDPM、ADM、DDIM、A-DPM、EA-DPM、EDM、PFGM++、FLUX以及Qwen-Image),以及从32×32像素到256×256像素的多个数据集(CIFAR-10、CelebA、ImageNet、LSUN Bedroom)。
评价指标主要使用FID分数——这是衡量AI生成图像质量的标准指标,分数越低代表生成质量越好,与真实图像越接近。测试同时覆盖了随机采样和确定性采样两种生成方式,并对20步、50步等不同步骤数的设置分别评估。
以IDDPM模型在CIFAR-10上的结果为例,原始模型在20步生成时FID为13.19,加入DCW后降至7.57,降幅达42.6%;50步时从5.55降至4.16,降幅25%。在LSUN Bedroom 256×256的20步任务上,FID从18.69大幅下降至11.03。对于EDM这类已经相当优秀的模型,DCW在13、21、35步的确定性采样任务上,分别将FID从10.66、5.91、3.74降至5.67、3.37、2.41,降幅在36%至47%之间。
更值得关注的是,DCW不仅能改善原始基线模型,还能叠加在已经针对"暴露偏差"做过修正的改进模型上,进一步提升性能。研究团队选取了ADM-ES(ICLR 2024)和DPM-FR(ACM MM 2025,当时的暴露偏差修正领域最优模型)作为参照,将DCW集成进去后,FID仍然能进一步下降,说明SNR-t偏差与暴露偏差是两个独立的问题,前者修复了后者遗留的问题。相比同年ICLR 2025上发表的另外两篇方法(DPM-AE和DPM-AT),DCW在所有测试场景下均表现更优。
在文本生成图像的定性测试中,使用FLUX模型以10步生成图像时,原始版本产生的图像存在明显的过度平滑和过曝现象,而DCW修正版则视觉细节更丰富、色彩更自然、整体美感明显提升。同样的改善效果也出现在Qwen-Image模型上。
计算开销方面,研究团队在CelebA 64×64、ImageNet 128×128和LSUN 256×256上分别测量了每批图像的生成时间,DCW引入的额外时间开销分别约为0.47%、0.08%和0.26%,在实际使用中几乎感知不到。
七、消融实验:每个设计决策都有其价值
研究团队还做了细致的消融实验,验证DCW中每个设计组件的必要性。他们分别测试了仅在原始图像空间修正(不使用小波分解)、仅对高频分量修正、仅对低频分量修正,以及同时对高低频分量修正(完整DCW)四种配置。结果显示,单独的图像空间修正已经有效,单独的高频或低频修正也各有改善,但同时修正高低频分量的完整版DCW效果最佳,在A-DPM模型25步任务上,FID从8.50分别降至6.38(仅图像空间)、6.05(仅高频)、7.00(仅低频)和5.99(完整DCW)。这说明频率分解并非可有可无的锦上添花,而是有实质贡献的设计选择。
关于超参数的鲁棒性,研究团队在λl(低频修正系数)和λh(高频修正系数)的大范围取值内都能观察到FID的改善,两个参数各自有一个最优值,FID随参数增大呈现先降后升的趋势。通过一个简单的两阶段搜索(先粗搜,步长0.01;再细搜,步长0.001),可以快速确定最优参数。在实验中,最优λl约为0.052,最优λh约为0.010。
说到底,这项研究做的事情并不复杂,但它解决的问题却长期被忽视。AI绘图工具在生成速度和质量之间的矛盾,很大程度上来自于训练时的"理想状态"和推理时的"真实状态"之间的裂缝。这个裂缝不是因为模型不够聪明,而是因为系统本身在训练时埋下了一个无法自行修复的隐患——每次生成过程的误差都在悄悄累积,让最终图像逐渐偏离应有的样子。DCW的贡献在于,它找到了这个裂缝,并用一把几乎不费力气的"扳手"把它修好了。
对于普通用户来说,这意味着在步骤数较少的快速生成场景中,AI绘图工具有望在不增加等待时间的前提下,输出质量更稳定、细节更丰富的图像。对于研究者来说,这项工作揭示的SNR-t偏差是一个更基础的问题,它在一定程度上解释了此前许多"暴露偏差"研究现象背后的根本原因,为后续研究提供了新的切入角度。完整的代码已公开,有兴趣动手实验的读者可通过论文编号arXiv:2604.16044找到相关资源。
---
Q&A
Q1:SNR-t偏差和暴露偏差有什么区别,为什么说SNR-t偏差更根本?
A:暴露偏差指的是训练时模型看到的是真实噪点图像,推理时却要处理自己上一步生成的图像,两者之间存在差距。SNR-t偏差则更具体:它指的是推理时生成的中间图像,其信噪比系统性地低于该步骤应有的水平,导致神经网络的判断出现方向性错误。简单说,暴露偏差描述"用了错误的输入",SNR-t偏差解释了"为什么错、错在哪个方向",是更底层的原因,并且两者可以同时修正。
Q2:DCW修正方法需要重新训练扩散模型吗,对普通用户来说用起来难不难?
A:完全不需要重新训练,DCW是一种"即插即用"的推理阶段修正方法,直接叠加在现有模型的生成过程上。实际运行时,每步去噪结束后额外做一次轻量级数值计算,时间开销不超过0.5%。对于普通用户,只需调整两个超参数(低频和高频修正系数),通过简单的两阶段搜索就能快速确定最优值,不需要深入了解模型原理。
Q3:小波域差分修正对哪类图像生成场景改善效果最明显?
A:步骤数较少的快速生成场景中效果最显著,因为步骤越少,每步误差积累的影响越大,SNR-t偏差暴露得越明显。以IDDPM在CIFAR-10上10步生成为例,FID改善幅度可超过40%。对于步骤数较多的高质量生成,改善幅度相对较小,但仍然稳定存在。文本生成图像的场景(如FLUX、Qwen-Image)中,过度平滑和过曝问题的视觉改善尤为直观。