持平最领先T2I模型水平，智谱 CogView3-Plus开源

wisemodel开源社区

2024-10-17 21:01始智AI wisemodel官方账号

全文1382字，阅读约需4分钟，帮我划重点

划重点

01智谱技术团队推出了图像生成模型CogView3-Plus，性能达到最领先T2I模型水平。

02CogView3-Plus模型已发布到始智AI wisemodel开源社区，提供算力服务。

03与常用MMDIT结构相比，CogView3-Plus在保持模型基本能力的同时，有效降低了训练和推理成本。

04该模型支持512~2048像素区间内分辨率的灵活生成，应用场景广泛。

05除此之外，智谱技术团队还推出了wisemodel开源社区，欢迎持续关注和支持。

以上内容由腾讯混元大模型生成，仅供参考

CogView3-Plus 是由智谱技术团队推出的图像生成模型，它是 CogView3 的 DiT 版本。在CogView3（ECCV'24）的基础上引入了最新的 DiT 框架，以实现整体性能的进一步提升。目前CogView3-Plus 模型已经发布到始智AI wisemodel开源社区，同时提供算力服务，欢迎大家到社区进行部署和使用，很快wisemodel也会提供部署和使用教程。

此前，CogView3 是一个基于级联扩散的 text2img 模型，一共包含三个阶段：

第一阶段通过标准扩散过程生成 512x512 低分辨率的图像。

第二阶段利用中继扩散过程，执行 2 倍的超分辨率生成，从 512x512 输入生成 1024x1024 的图像。

第三阶段将生成结果再次基于中继扩散迭代，生成 2048×2048 高分辨率的图像。

在实际效果上，CogView3 在人工评估中比目前最先进的开源文本到图像扩散模型 SDXL 高出 77.0%，同时只需要 SDXL 大约 1/10 的推理时间。

CogView-3-Plus采用了 Zero-SNR 扩散噪声调度，并引入了文本-图像联合注意力机制。与常用的 MMDiT 结构相比，它在保持模型基本能力的同时，有效降低了训练和推理成本。CogView-3Plus 使用潜在维度为 16 的 VAE。

借由混合分辨率训练，CogView-3Plus 模型支持 512 ~ 2048 像素区间内分辨率的灵活生成。

下面是在各类评测上的结果：

从效果上看，CogView3-plus 有着和最领先的 text2img 模型持平的水平。

上：A pink colored car.

下：A stack of 3 cubes. A red cube is on the top, sitting on a red cube. The red cube is in the middle, sitting on a green cube. The green cube is on the bottom.

图像编辑功能

CogView3-Plus 模型的应用领域十分广泛：

在广告与营销领域，一方面可用于广告创意设计，依据营销文案迅速生成高质量广告图片，为广告公司提供丰富创意源泉。另一方面，在营销活动策划中，能为线上线下活动提供视觉支撑，根据活动主题生成相关场景图和互动素材，提升活动趣味性与参与度。

媒体与出版行业中，新闻媒体可借助该模型快速生成与新闻内容相关的图片，提高新闻可视化程度与吸引力。同时，它还能为书籍、杂志等出版物创作插画，在漫画创作方面，可为创作者提供灵感和素材，助力快速构建漫画场景和角色形象，提高创作效率。

影视与娱乐领域，在电影、电视剧前期制作中，可用于生成场景概念图和角色设计图等，帮助导演、美术指导等主创人员更好地呈现创意和构思，降低制作成本和时间。在游戏开发方面，能为开发者提供角色、场景、道具等设计支持，快速生成游戏所需美术资源，加快游戏开发进程。还可用于创作娱乐性图片内容，满足用户在社交媒体等平台上的娱乐需求。

教育与培训领域，教师可以利用该模型生成与教学内容相关的图片，帮助学生更好地理解和掌握知识。在在线教育平台上，能为课程内容提供丰富视觉素材，增强课程趣味性和吸引力，提高学生学习积极性和参与度。

设计与艺术方面，为平面设计师提供创意灵感和设计素材，助力他们快速完成标志设计、包装设计、海报设计等各种平面设计项目。艺术家也可以将该模型作为创作工具，与自己的艺术理念和技巧相结合，创作出独特的艺术作品，拓展艺术创作的边界。

----- END -----

wisemodel相关

系统升级

关于wisemodel更多

欢迎持续关注和支持

欢迎加盟wisemodel开源社区

欢迎投稿优质内容

关于wisemodel开源社区

向上滑动查看

查看原图 142K