10亿参数就能生成高质量图像？文生图模型Meissonic专为消费级GPU设计

wisemodel开源社区

2024-11-10 17:30始智AI wisemodel官方账号

全文3279字，阅读约需10分钟，帮我划重点

划重点

01文生图模型Meissonic专为消费级GPU设计，突破了现有T2I模型的诸多限制，提升了图像生成质量和效率。

02该模型采用多模态与单模态相结合的Transformer层，有效捕捉语言与视觉的交互信息。

03为此，Meissonic引入旋转位置编码(RoPE)和掩码率作为动态采样条件，解决了高分辨率图像细节丢失问题。

04同时，模型在训练过程中加入图像分辨率、裁剪坐标及人类偏好评分等微观条件，提高了生成稳定性。

05目前，Meissonic已开源并上线始智AI wisemodel开源社区，提供开发和部署的镜像。

以上内容由腾讯混元大模型生成，仅供参考

始智AI wisemodel.cn开源社区

文生图（T2I）技术一直是大语言模型领域的研究热点。近日，一款专为消费级显卡设计的文生图基座模型 Meissonic，突破了现有 T2I 模型的诸多限制。在生成质量和效率上不仅与领先的扩散模型相媲美，甚至在某些场景下超越了这些模型。

它基于非自回归的掩码图像建模（MIM），通过创新的架构设计，如采用多模态与单模态相结合的 Transformer 层，以 1:2 的比例实现最佳性能，有效捕捉语言与视觉的交互信息，提升了图像生成质量与稳定性。还引入了旋转位置编码（RoPE）和掩码率作为动态采样条件，解决了高分辨率图像细节丢失问题，并能自适应采样过程。

在训练方面，它依赖高质量数据集，加入图像分辨率、裁剪坐标及人类偏好评分等微观条件，同时利用特征压缩层，在保持高分辨率的同时提高了生成效率。有效解决了传统自回归文生图模型在效率和分辨率上存在的瓶颈，以及扩散模型在构建统一的语言 - 视觉生成模型方面的挑战。

目前，该模型已经开源，并上线始智AI wisemodel开源社区，wisemodel平台上也提供开发和部署的镜像，欢迎大家前去体验。

模型及github地址链接：

https://wisemodel.cn/models/MeissonFlowResearch/Meissonic

https://wisemodel.cn/codes/MeissonFlowResearch/Meissonic

重要技术改进

增强型Transformer架构：

Meissonic采用了多模态与单模态相结合的Transformer层。多模态Transformer层旨在捕捉语言与视觉之间的交互信息，从未池化的文本表示中提取有用信号，架起两者之间的桥梁；而单模态Transformer层则进一步细化视觉表示，提升生成图像的质量与稳定性。研究表明，这种架构下多模态与单模态Transformer层的1:2比例能够实现最佳性能。

先进的位置编码与动态采样条件：

为了保持高分辨率图像中的细节，Meissonic引入旋转位置编码（RoPE），为queries和keys编码位置信息。RoPE有效解决了随着token数量增加，传统位置编码方法导致的上下文关联丢失问题，尤其是在生成512×512甚至更高分辨率图像时。此外，Meissonic通过引入掩码率作为动态采样条件，使模型能够自适应不同阶段的采样过程，进一步提升图像细节和整体质量。

高质量训练数据与微观条件：

Meissonic的训练依赖于经过精心挑选的高质量数据集。为提升图像生成效果，Meissonic在训练中加入了图像分辨率、裁剪坐标及人类偏好评分等微观条件，显著增强了模型在高分辨率生成时的稳定性。

特征压缩层：

为了在保持高分辨率的同时提高生成效率，Meissonic引入特征压缩层，使其在生成1024×1024分辨率图像时有效降低计算成本。

测试表现

Meissonic具体有多厉害呢？让我们来看看它的表现：

在性能表现上，Meissonic 更是令人瞩目。在 HPS V2.0 基准测试中，它以平均 0.56 分的优势超越了 SDXL。

在图像编辑能力测评数据集 Emu - Edit 上，其 Zero - shot 图像编辑性能出色，甚至超越了经过图像编辑指令微调后的模型。

在风格多样性生成上，它远超 SDXL。

在 zero - shot inpainting\outpainting 和 mask - free editing 上也表现优异。而且，Meissonic 仅需 SDXL 1/3 的推理时间和 1/2 的显存占用，原生可在 8GB 显存下运行，为中低端显卡用户带来了福音。

训练和基准测试表现

Meissonic的训练过程是一个四步旅程。使用200百万张256 x 256像素分辨率的图像教授模型基本概念。然后，使用1000万对精心筛选的512 x 512像素分辨率的图像-文本对来增强模型的文本理解能力。在第三步中引入特殊压缩层以实现1024 x 1024像素输出。最后，使用低学习率对模型进行微调，并结合人类偏好数据来完善其性能。

在基准测试中，Meissonic超越了SDXL和DeepFloyd-XL等更大的模型，以28.83的高分在人类偏好评分v2上脱颖而出。这一成就证明了模型的效率和有效性。

图像编辑和扩展能力

此外，Meissonic还展现了超强的zero-shot图像编辑能力，无需微调即可对有mask和无mask的场景进行灵活编辑，提供了更多的创作可能性。

高效的训练流程也是 Meissonic 的一大亮点。它通过四个阶段的精心训练，从理解基础概念到增强图文配对，再到实现高分辨率图像生成以及精细化美学处理，在减少训练数据和计算成本的同时，显著提升了生成效果。

阶段一：从广泛的数据中理解基础概念

研究发现，原始LAION数据集的文本描述无法充分满足文本到图像模型的训练需求，通常需要多模态大型语言模型（MLLM）进行优化。然而，这种方式计算资源消耗巨大。虽然部分研究使用了广泛标注的SA-10M数据集，但Meissonic团队发现，该数据集在人脸等特定领域仍有不足。因此，Meissonic在初始阶段采用了更加平衡的策略，通过降分辨率的方法提高效率，利用经过筛选的高质量LAION数据学习基础概念。最终保留了约2亿张高质量图像，并将初始训练分辨率设定为256 x 256。

阶段二：通过长提示增强文本与图像的配对

在第一阶段，模型的训练未依赖于高质量的图文配对数据。为了弥补这一点，第二阶段的重点在于提升模型理解长文本描述的能力。团队筛选了审美分数高于8的图像，并引入了120万对优化后的合成图文对及600万对内部高质量的图文对。此阶段，训练分辨率提升至512 x 512，配对数据总量达到约1000万对。通过这一阶段，Meissonic在处理复杂提示（如多样风格和虚拟角色）以及抽象概念方面展现了显著进步。

阶段三：特征压缩实现高分辨率图像生成

在Masked Image Modeling（MIM）领域，生成高分辨率图像依然是一大挑战。与使用外部超分辨率模块的方式不同，Meissonic通过特征压缩技术高效实现了1024 x 1024分辨率的图像生成。引入特征压缩层后，模型可以在较低计算成本下实现从512 x 512到1024 x 1024的顺畅过渡。此阶段的数据集经过进一步筛选，仅保留了约600万对高分辨率、高质量的图文配对，以1024分辨率进行训练。

阶段四：精细化高分辨率图像的美学生成

在最后阶段，Meissonic通过低学习率微调模型和文本编码器，并引入人类偏好评分作为训练条件，进一步提升了模型生成的图像质量和多样性。这一阶段的训练数据与第三阶段保持一致，但更注重对高分辨率图像生成的美学细节的打磨。

最终，Meissonic使用 210 万张图像，用 8 个 A100 GPU 训练只需 19 天。