编辑:佳琪、Panda
最近,正处于评议阶段的 ICLR 2025 论文真是看点连连,比如前些天爆出的 ICLR 低分论文作者硬刚审稿人的事件以及今天我们要介绍的这个通过 rebuttal(反驳)硬是将自己的平均分拉高 2 分,直接晋升第 9 名的论文。
论文标题:SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers 论文地址:https://arxiv.org/abs/2410.10629 OpenReview:https://openreview.net/forum?id=N8Oj1XhtYZ 项目地址:https://nvlabs.github.io/Sana/ 代码地址:https://github.com/NVlabs/Sana
SANA 的三个主要组件在文献中已有探讨:深度自编码器在 [1] 中有涉及,线性 DiT 在 [2] 中已有研究,[3, 4] 中已经使用了 LLM 作为文本编码器。将这些组件结合起来并不构成一个真正具有创新性的想法。 作者没有充分解释他们的 CHI 流程是否与 [5] 中的相同。如果相似,那么这甚至会进一步削弱该工作的创新性。