作为中文原生模型,开发者在精调时不用将数据翻译成英文,直接使用中文数据与标签就能搞定。
//一张图创作专属模型
在文生图模型精调时,全量微调一般需要数量较多数据集。LoRA是个“好工具”,可以将大幅降低训练需要的数据量。
通过混元DiT专属LoRA插件,(最少)仅需一张图就能训练出自己想要的专属模型。
训练参数减少,可以极大降低对内存的需求,普通开发者也能完成模型精调。
口说无凭,有图有真相:
导入四张青花瓷图片与提示词,即可创建一个“青花瓷”生成模型
用户在新模型输入简单提示词,即可生成想要的青花瓷图像
//生图不再“开盲盒”
通过ControlNet可控制插件,用户可以在模型预训练阶段就“提前对齐”(设定条件),精准控制输出的结果。好比给大模型画出了“草图”,让文生图不再像“开盲盒”。
混元DiT提供了边缘(canny)、深度(depth)、人体姿势(pose)等三个开发者拿来即用的ControlNet模型,用线稿就能快速、精准生成全彩图、等深结构图和同结构人像等完整图片。
混元DiT也开源了相关训练方案,开发者可以根据需求自行设置“条件”,为大模型画出更满足自己需求的“草图”。
今年5月,我们开源了业内首个中文原生的DiT架构文生图模型,并在 Hugging Face 平台及 Github 上发布,企业与个人开发者都能免费商用。
不久前,混元DiT发布专属加速库,令文生图时间缩短了75%。基于ComfyUI的图形化界面,开发者仅用三行代码就能调用混元DiT,大幅降低了使用门槛。
开源仅一个月,混元DiT模型的Github Star数已达2.4k,是最受欢迎的开源DiT模型之一。
在“智能涌现”的时代,我们会持续完善和优化混元DiT的开源组件,与行业共建下一代视觉生成开源生态。