1.纽约大学谢赛宁团队在扩散模型推理时 scaling 方面进行了探索,发现增加推理时间计算可以显著提高扩散模型生成的样本质量。
2.该团队提出了用于扩散模型推理时 scaling 的基础框架,包括验证器和算法两个设计轴。
3.通过搜索去 scaling NFE,可以在各种生成任务和模型规模上带来实质性改进,超越了仅增加去噪步骤的方法。
4.事实上,在不同数据集上验证器和算法组合的结果表明,可以根据不同的应用场景选择专门的搜索设置。
5.该团队还发现,在推理计算量有限时,对小型模型进行搜索可以超过不进行搜索的大型模型。
以上内容由腾讯混元大模型生成,仅供参考
机器之心报道
论文标题:Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps 论文链接:https://arxiv.org/pdf/2501.09732
掌握最终评估如何进行的特权信息的场景; 掌握用于指导生成的条件信息的场景; 没有额外信息可用的场景。
随机搜索,它只是从固定的候选集中选择最佳项; 零阶搜索,它利用验证器反馈来迭代改进噪声候选项; 路径搜索,它利用验证器反馈来迭代改进扩散采样轨迹。
提出了一个用于扩散模型推理时 scaling 的基础框架。论文表明,通过搜索去 scaling NFE 可以在各种生成任务和模型规模上带来实质性改进,超越了仅增加去噪步骤的方法。此外,作者对推理时计算预算如何影响 scaling 性能进行了全面的实证分析。 在提出的搜索框架中确定了两个关键设计轴:提供反馈的验证器和寻找更好噪声候选项的算法。作者研究了不同验证器 - 算法组合在各种任务中的表现,他们的发现表明没有一种配置是普遍最优的;每个任务反而需要一个独特的搜索设置才能实现最佳的 scaling 性能。 对验证器与不同生成任务之间的匹配度进行了广泛分析。论文的结果揭示了不同验证器中嵌入的偏见,以及在每个不同的视觉生成任务中需要专门设计验证器的必要性。
从一个随机高斯噪声 n 作为支点开始。 在支点的邻域中找到 N 个候选项。 通过 ODE 求解器运行候选项以获得样本及其对应的验证器得分。 找到最佳候选项,将其更新为支点,并重复步骤 1-3。
采样 N 个初始独立同分布噪声,并运行 ODE 求解器直到某个噪声水平 σ。噪声样本 x_σ 作为搜索起点。 为每个噪声样本采样 M 个独立同分布噪声,并模拟从 σ 到 σ+Δf 的前向加噪过程,生成大小为 M 的 {x_(σ+Δf)}。 在每个 x_(σ+Δf) 上运行 ODE 求解器到噪声水平 σ + Δf - Δb,并获得 x_(σ+Δf-Δb)。在这些样本上运行验证器并保留前 N 个候选样本。重复步骤 2-3,直到 ODE 求解器达到 σ=0。 对剩余的 N 个样本通过随机搜索并保留最佳的一个。
查看原图 369K