客户端
游戏
无障碍

1

评论

1

分享

手机看

微信扫一扫,随时随地看

FlowMo: 模式搜索+扩散模型提升图像Token化性能

自VQGAN和Latent Diffusion Models等视觉生成框架问世以来,先进的图像生成系统通常采用两阶段架构:首先将视觉数据Token化或压缩至低维潜在空间,随后学习生成模型。传统Token化器训练遵循标准范式,通过MSE、感知损失和对抗性损失的组合约束来实现图像压缩与重建。虽然扩散自编码器曾被提出作为端到端感知导向图像压缩的学习方法,但在ImageNet1K重建等竞争性任务上尚未展现出优越性能。

这个研究提出了FlowMo,一种基于Transformer的扩散自编码器,在多种比特率条件下实现了图像Token化的最新技术水平。其显著特点在于无需依赖卷积网络、对抗性损失、空间对齐的二维潜在编码或从其他Token化器中提取表征。FlowMo的关键技术创新在于其训练流程被划分为模式匹配预训练阶段和模式搜索后训练阶段。通过广泛的分析与消融实验,验证了该方法的有效性,并在FlowMo Token化器基础上训练了生成模型,进一步确认了其性能优势。

图片


FlowMo在低比特率(FlowMo-Lo)和高比特率(FlowMo-Hi)条件下均达到了图像Token化的领先性能。作为一种基于Transformer的扩散自编码器,FlowMo摒弃了卷积层、对抗性损失以及来自辅助Token化器的代理目标,显示出其独特的技术优势。

图像Token化技术概述

在深入探讨FlowMo的技术创新前,有必要了解当前图像生成领域的主流范式。现代高性能图像生成系统通常采用二阶段方法:

  1. Token化阶段:将高维像素数据压缩至低维潜在空间,实现数据降维和特征提取

  2. 生成阶段:在压缩表征基础上训练生成模型,实现图像合成

自VQGAN提出以来,Token化器通常构建为卷积自编码器,将视觉数据下采样为空间对齐的二维潜在编码。这类模型通常综合应用重建损失、感知损失和对抗性损失进行训练,以确保压缩表征保持高视觉保真度。然而这种方法存在若干技术局限:对抗性损失的训练不稳定性和调优难度、对卷积神经网络的过度依赖、对空间对齐二维潜在编码的要求,以及可能依赖于预训练Token化器的知识提取。

FlowMo:图像Token化的技术突破

FlowMo(Flow towards Modes)代表了图像Token化领域的重大技术突破,其方法论在多个关键维度上突破了传统Token化器的限制:

基于扩散的解码机制:FlowMo摒弃对抗性损失,转而采用基于扩散的解码器,该解码器能自然地对多模态分布进行精确建模。

纯Transformer架构:模型的编码和解码组件均采用完全基于Transformer的架构,完全避免了对CNN的依赖。

一维潜在表征:与大多数采用空间对齐二维潜在编码的Token化器不同,FlowMo将图像编码为一维潜在序列。

端到端优化范式:FlowMo采用直接优化策略,无需从预训练Token化器中提取知识。

架构设计与实现

图片


FlowMo的架构设计图:作为扩散自编码器,FlowMo将输入图像x编码为潜在表征ĉ,随后量化为c。模型进一步解码以c为条件的修正流速度v,同时结合噪声水平t和噪声图像xt。

图片


FlowMo采用简洁而高效的架构设计,主要包含以下核心组件:

  1. 编码器(eθ):一个专用Transformer模型,负责将分块化(Patchified)图像编码为潜在Token序列

  2. 量化层:采用无查找表量化(Lookup-Free Quantization, LFQ)技术将连续潜在特征二值化

  3. 解码器(dθ):基于Transformer的扩散模型,用于从量化潜在变量重建原始图像

编码器和解码器均基于多模态扩散图像Transformer(MMDiT)架构构建,其中解码器在参数规模和网络深度上均大于编码器。该模型将图像和潜在编码作为独立数据流处理,这些数据流通过自注意力机制实现高效交互。完整的处理流程如下:

 x (输入图像) → Patchify → eθ (编码器) → ĉ → 量化 → c → dθ (解码器) → 重建图像

模式搜索:FlowMo的核心技术创新

该研究的核心发现是:对于高质量感知重建,有选择地采样感知上接近原始图像的重建分布模式,优于尝试匹配所有可能的分布模式。基于这一关键见解,FlowMo采用创新性的两阶段训练方法:

阶段1A:模式匹配预训练

图片


阶段1A:编码器和解码器通过输出损失函数Lperc、Lflow和潜在损失函数Lcommit、Lent进行端到端联合训练。

图片


在此阶段,编码器和解码器进行端到端训练,优化多个技术目标:

  1. 流匹配目标(Lflow):训练解码器精确建模修正流常微分方程的速度场

  2. 感知损失(Lperc):保证原始图像与重建图像间的高感知相似性

  3. 熵与承诺损失:对量化潜在空间进行正则化处理

通过这一阶段训练,模型能够准确匹配给定潜在编码中有限信息所对应的多模态重建分布。

阶段1B:模式搜索后训练

图片


阶段1B:冻结的编码器eθ将输入图像编码为c,用于调节解码器dθ,解码器通过整个采样链的反向传播进行训练优化。同时维持Lflow损失的共同训练。

图片


这项关键技术创新使FlowMo超越了传统扩散自编码器。在此阶段:

  1. 编码器参数被冻结固定

  2. 解码器进行微调,以识别并偏好感知上与原始图像高度相似的分布模式

  3. 训练采用创新的目标函数(Lsample),该函数通过整个采样链实现端到端反向传播

该阶段有效地指导模型将其重建分布偏向于能够保留原始图像关键感知细节的高质量模式。

高效采样策略设计

FlowMo引入了优化的采样策略,用于在推理阶段高效求解概率流常微分方程。其关键技术创新在于引入"shift"超参数(ρ),该参数将采样步骤集中于较低噪声水平,从而同时提升重建质量和峰值信噪比(PSNR)。这一方法显著优于传统的在速率-失真-感知曲线上简单权衡各指标的方法。通过智能分配计算资源,FlowMo在不牺牲数据保真度的前提下,实现了感知质量的显著提升。

实验结果与技术评估

实验数据清晰展示了FlowMo的技术优势。在多个压缩率下,FlowMo均实现了图像Token化的最先进性能:

低每像素比特数条件(BPP = 0.07)

  • FlowMo-Lo: 0.95 rFID, 22.07 PSNR, 0.649 SSIM

  • OpenMagViT-V2: 1.17 rFID, 21.63 PSNR, 0.640 SSIM**

高每像素比特数条件(BPP = 0.22)

  • FlowMo-Hi: 0.56 rFID, 24.93 PSNR, 0.785 SSIM

  • LlamaGen-32: 0.59 rFID, 24.44 PSNR, 0.768 SSIM

图片


Token化性能对比结果。横线分隔不同BPP下训练的各Token化器。与现有最先进Token化器相比,FlowMo在多个比特率条件下均实现了领先性能。†标记结果来自原始研究论文。

值得特别注意的是,FlowMo在不依赖以下常规技术的情况下达到了这些优异结果:

  • 卷积神经网络结构

  • 对抗性损失函数

  • 空间对齐的二维潜在编码

  • 预训练Token化器的知识提取

视觉质量评估

FlowMo重建的视觉质量同样令人瞩目。在面部和文本等传统上对图像压缩具有高挑战性的内容重建方面,FlowMo较竞争方法表现出更佳的细节保留能力。这种优势在面部特征精细度、文本清晰度和整体感知质量等关键方面尤为明显。值得注意的是,即使在后训练阶段完成后,FlowMo的重建结果仍保持适度的多模态特性,但模型智能地将变异分配至感知上不太关键的区域(如背景),而非关键前景细节。

图片


生成图像示例:使用不同Token化器训练的MaskGiT模型所生成的样例。结果表明FlowMo可用于训练高质量的第二阶段生成模型。为便于比较,展示样例采用相同类别索引。

消融研究与技术洞察

本研究包含广泛的消融实验,揭示了多项关键设计选择的技术意义:

  1. 图像块大小(Patch Size):较小的图像块尺寸(导致序列长度增加)显著提升了重建质量,表明高分辨率表征对于Token化至关重要。

  2. 端到端训练策略:使用扩散解码器从头训练编码器的方法,优于先使用均方误差(MSE)目标进行预训练的传统方法。

  3. 感知损失的应用:对单步去噪预测应用感知损失是获得高感知质量的关键因素,提供了比像素级损失更有意义的优化信号。

  4. 噪声调度设计:研究提出了改进的粗尾logit-normal噪声调度,包括在t=1处的采样点,有效防止了图像变色问题。

  5. 后训练阶段的重要性:模式搜索后训练阶段证明是不可或缺的,简单替代方案(如增加感知损失权重)均未能达到相同效果。

技术局限与未来研究方向

FlowMo的主要技术局限在于推理计算开销。由于采用基于扩散的解码器,图像重建需要多次模型前向传递(研究实验中为25步)。这与基于GAN的Token化器能在单次前向传递中完成重建形成鲜明对比。这一限制可通过模型蒸馏或一致性模型等技术手段加以改进,这些方法已在扩散模型加速领域得到验证。

总结

FlowMo代表了图像Token化领域的重大技术进步,挑战了关于实现最先进性能所需技术组件的传统认知。通过充分利用扩散模型自然建模多模态分布的能力,并引入创新的模式搜索训练方法,FlowMo在简化Token化架构的同时实现了卓越的重建质量。这一成功为多个研究方向提供了启示:

  • 将模式搜索技术扩展应用于视频或三维数据等其他媒体形式

  • 探索更高效的加速方法以降低推理计算成本

  • 研究与大规模Transformer模型的整合可能性

FlowMo的研究成果表明,当经过专门训练以定位高质量模式时,扩散自编码器能够显著超越传统图像Token化方法,为各类应用场景中的高质量视觉内容生成开辟了新途径。

参考文献:https://www.arxiv.org/abs/2503.11056


喜欢就关注一下吧:

点个 在看 你最好看! 

免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部