10亿参数就能生成高质量图像?文生图模型Meissonic专为消费级GPU设计

全文3279字,阅读约需10分钟,帮我划重点

划重点

01文生图模型Meissonic专为消费级GPU设计,突破了现有T2I模型的诸多限制,提升了图像生成质量和效率。

02该模型采用多模态与单模态相结合的Transformer层,有效捕捉语言与视觉的交互信息。

03为此,Meissonic引入旋转位置编码(RoPE)和掩码率作为动态采样条件,解决了高分辨率图像细节丢失问题。

04同时,模型在训练过程中加入图像分辨率、裁剪坐标及人类偏好评分等微观条件,提高了生成稳定性。

05目前,Meissonic已开源并上线始智AI wisemodel开源社区,提供开发和部署的镜像。

以上内容由腾讯混元大模型生成,仅供参考

始智AI wisemodel.cn开源社区

文生图(T2I)技术一直是大语言模型领域的研究热点。近日,一款专为消费级显卡设计的文生图基座模型 Meissonic,突破了现有 T2I 模型的诸多限制。在生成质量和效率上不仅与领先的扩散模型相媲美,甚至在某些场景下超越了这些模型。

它基于非自回归的掩码图像建模(MIM),通过创新的架构设计,如采用多模态与单模态相结合的 Transformer 层,以 1:2 的比例实现最佳性能,有效捕捉语言与视觉的交互信息,提升了图像生成质量与稳定性。还引入了旋转位置编码(RoPE)和掩码率作为动态采样条件,解决了高分辨率图像细节丢失问题,并能自适应采样过程
在训练方面,它依赖高质量数据集,加入图像分辨率、裁剪坐标及人类偏好评分等微观条件,同时利用特征压缩层,在保持高分辨率的同时提高了生成效率。有效解决了传统自回归文生图模型在效率和分辨率上存在的瓶颈,以及扩散模型在构建统一的语言 - 视觉生成模型方面的挑战。
目前,该模型已经开源,并上线始智AI wisemodel开源社区,wisemodel平台上也提供开发和部署的镜像,欢迎大家前去体验。

图片

模型及github地址链接:
https://wisemodel.cn/models/MeissonFlowResearch/Meissonic
https://wisemodel.cn/codes/MeissonFlowResearch/Meissonic

图片

01

重要技术改进

增强型Transformer架构:
Meissonic采用了多模态与单模态相结合的Transformer层。多模态Transformer层旨在捕捉语言与视觉之间的交互信息,从未池化的文本表示中提取有用信号,架起两者之间的桥梁;而单模态Transformer层则进一步细化视觉表示,提升生成图像的质量与稳定性。研究表明,这种架构下多模态与单模态Transformer层的1:2比例能够实现最佳性能。
先进的位置编码与动态采样条件: 
为了保持高分辨率图像中的细节,Meissonic引入旋转位置编码(RoPE),为queries和keys编码位置信息。RoPE有效解决了随着token数量增加,传统位置编码方法导致的上下文关联丢失问题,尤其是在生成512×512甚至更高分辨率图像时。此外,Meissonic通过引入掩码率作为动态采样条件,使模型能够自适应不同阶段的采样过程,进一步提升图像细节和整体质量。
高质量训练数据与微观条件: 
Meissonic的训练依赖于经过精心挑选的高质量数据集。为提升图像生成效果,Meissonic在训练中加入了图像分辨率、裁剪坐标及人类偏好评分等微观条件,显著增强了模型在高分辨率生成时的稳定性。
特征压缩层: 
为了在保持高分辨率的同时提高生成效率,Meissonic引入特征压缩层,使其在生成1024×1024分辨率图像时有效降低计算成本。

02

测试表现

Meissonic具体有多厉害呢?让我们来看看它的表现:
图片
在性能表现上,Meissonic 更是令人瞩目。在 HPS V2.0 基准测试中,它以平均 0.56 分的优势超越了 SDXL。
图片
在图像编辑能力测评数据集 Emu - Edit 上,其 Zero - shot 图像编辑性能出色,甚至超越了经过图像编辑指令微调后的模型。
图片
在风格多样性生成上,它远超 SDXL。
图片
在 zero - shot inpainting\outpainting 和 mask - free editing 上也表现优异。而且,Meissonic 仅需 SDXL 1/3 的推理时间和 1/2 的显存占用,原生可在 8GB 显存下运行,为中低端显卡用户带来了福音。
图片
训练和基准测试表现
Meissonic的训练过程是一个四步旅程。使用200百万张256 x 256像素分辨率的图像教授模型基本概念。然后,使用1000万对精心筛选的512 x 512像素分辨率的图像-文本对来增强模型的文本理解能力。在第三步中引入特殊压缩层以实现1024 x 1024像素输出。最后,使用低学习率对模型进行微调,并结合人类偏好数据来完善其性能。
图片
在基准测试中,Meissonic超越了SDXL和DeepFloyd-XL等更大的模型,以28.83的高分在人类偏好评分v2上脱颖而出。这一成就证明了模型的效率和有效性。
图像编辑和扩展能力
此外,Meissonic还展现了超强的zero-shot图像编辑能力,无需微调即可对有mask和无mask的场景进行灵活编辑,提供了更多的创作可能性。
图片
图片
高效的训练流程也是 Meissonic 的一大亮点。它通过四个阶段的精心训练,从理解基础概念到增强图文配对,再到实现高分辨率图像生成以及精细化美学处理,在减少训练数据和计算成本的同时,显著提升了生成效果。
阶段一:从广泛的数据中理解基础概念
研究发现,原始LAION数据集的文本描述无法充分满足文本到图像模型的训练需求,通常需要多模态大型语言模型(MLLM)进行优化。然而,这种方式计算资源消耗巨大。虽然部分研究使用了广泛标注的SA-10M数据集,但Meissonic团队发现,该数据集在人脸等特定领域仍有不足。因此,Meissonic在初始阶段采用了更加平衡的策略,通过降分辨率的方法提高效率,利用经过筛选的高质量LAION数据学习基础概念。最终保留了约2亿张高质量图像,并将初始训练分辨率设定为256 x 256。
阶段二:通过长提示增强文本与图像的配对
在第一阶段,模型的训练未依赖于高质量的图文配对数据。为了弥补这一点,第二阶段的重点在于提升模型理解长文本描述的能力。团队筛选了审美分数高于8的图像,并引入了120万对优化后的合成图文对及600万对内部高质量的图文对。此阶段,训练分辨率提升至512 x 512,配对数据总量达到约1000万对。通过这一阶段,Meissonic在处理复杂提示(如多样风格和虚拟角色)以及抽象概念方面展现了显著进步。
阶段三:特征压缩实现高分辨率图像生成
在Masked Image Modeling(MIM)领域,生成高分辨率图像依然是一大挑战。与使用外部超分辨率模块的方式不同,Meissonic通过特征压缩技术高效实现了1024 x 1024分辨率的图像生成。引入特征压缩层后,模型可以在较低计算成本下实现从512 x 512到1024 x 1024的顺畅过渡。此阶段的数据集经过进一步筛选,仅保留了约600万对高分辨率、高质量的图文配对,以1024分辨率进行训练。
阶段四:精细化高分辨率图像的美学生成
在最后阶段,Meissonic通过低学习率微调模型和文本编码器,并引入人类偏好评分作为训练条件,进一步提升了模型生成的图像质量和多样性。这一阶段的训练数据与第三阶段保持一致,但更注重对高分辨率图像生成的美学细节的打磨。
最终,Meissonic使用 210 万张图像,用 8 个 A100 GPU 训练只需 19 天。
图片
Meissonic 的出现,无疑将对文生图领域产生广泛而深远的影响,为移动设备端侧文本到图像应用的发展提供了强大的技术支持。

03

从零开始部署教程

首先在wisemodel上创建一个单卡A5000和3090的开发环境,选择基础开发镜像,填写好基本的信息,然后直接下一步,确认计费方式之后直接提交订单,开发环境就开始创建了。

图片

开发环境创建好之后,通过notebook或通过SSH登录到开发环境上进行部署相关的操作。

图片

SSH登录到开发环境之后,先从wisemodel上把Meissonic的代码拉到开发环境

图片

代码下载好之后,直接安装一下requirement的内容

图片

然后打开app.py文件,更新一下模型文件的路径,demo代码里有Meissonic模型和CLIP模型的路径,都更新成开发环境上共享的路径。

图片

最后在app.py文件里更新一下端口号和服务地址。

图片

模型部署的基本工作就完成,下面直接通过python app.py 把web服务启动起来,模型就顺利部署起来。

图片

模型部署成功之后,回到开发环境详情的页面申请一个服务端口和域名地址。

图片

把申请好的域名地址复制到浏览器里,demo正常运行,就可以开始体验模型服务了,简单试了一下Meissonic的生成速度和效果都非常不错。

图片

04

使用镜像直接创建在线体验

进入wisemodel上Meissonic的模型详情页,选择右上角的“在线部署-部署在线体验”

图片

然后填写相应的属性信息,直接下一步确认一下计费方式,然后“提交订单”。

图片

然后在“应用-在线体验”的页面等待1分钟左右,Meissonic模型启动成功,直接点击即可打开相应的服务面
图片

图片

大家如果想使用Meissonic进行微调或者开发等,也可以在wisemodel平台上创建开发环境时选择Meissonic的镜像自己部署和开发。