划重点
01ICLR 2025 论文 SANA 通过反驳审稿人的意见,成功将平均分提高2分,直接晋升至第9名。
02该论文提出了一种高效且经济地训练和合成高质量图像的工作流程,支持1024×1024到4096×4096的分辨率。
03作者们提出了深度压缩自动编码器、高效的线性DiT、仅解码器小LLM作为文本编码器以及高效的训练和推理策略等核心设计。
04为此,作者们进行了详细的解释和补充,与审稿人进行了积极的互动,最终使论文质量得到提升。
以上内容由腾讯混元大模型生成,仅供参考
编辑:佳琪、Panda
最近,正处于评议阶段的 ICLR 2025 论文真是看点连连,比如前些天爆出的 ICLR 低分论文作者硬刚审稿人的事件以及今天我们要介绍的这个通过 rebuttal(反驳)硬是将自己的平均分拉高 2 分,直接晋升第 9 名的论文。
论文标题:SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers 论文地址:https://arxiv.org/abs/2410.10629 OpenReview:https://openreview.net/forum?id=N8Oj1XhtYZ 项目地址:https://nvlabs.github.io/Sana/ 代码地址:https://github.com/NVlabs/Sana
SANA 的三个主要组件在文献中已有探讨:深度自编码器在 [1] 中有涉及,线性 DiT 在 [2] 中已有研究,[3, 4] 中已经使用了 LLM 作为文本编码器。将这些组件结合起来并不构成一个真正具有创新性的想法。 作者没有充分解释他们的 CHI 流程是否与 [5] 中的相同。如果相似,那么这甚至会进一步削弱该工作的创新性。
查看原图 277K