持平最领先T2I模型水平,智谱 CogView3-Plus开源

全文1382字,阅读约需4分钟,帮我划重点

划重点

01智谱技术团队推出了图像生成模型CogView3-Plus,性能达到最领先T2I模型水平。

02CogView3-Plus模型已发布到始智AI wisemodel开源社区,提供算力服务。

03与常用MMDIT结构相比,CogView3-Plus在保持模型基本能力的同时,有效降低了训练和推理成本。

04该模型支持512~2048像素区间内分辨率的灵活生成,应用场景广泛。

05除此之外,智谱技术团队还推出了wisemodel开源社区,欢迎持续关注和支持。

以上内容由腾讯混元大模型生成,仅供参考


CogView3-Plus 是由智谱技术团队推出的图像生成模型,它是 CogView3 的 DiT 版本。在CogView3(ECCV'24)的基础上引入了最新的 DiT 框架,以实现整体性能的进一步提升。目前CogView3-Plus  模型已经发布到始智AI wisemodel开源社区,同时提供算力服务,欢迎大家到社区进行部署和使用,很快wisemodel也会提供部署和使用教程。


图片


此前,CogView3 是一个基于级联扩散的 text2img 模型,一共包含三个阶段:

图片

第一阶段通过标准扩散过程生成 512x512 低分辨率的图像。


第二阶段利用中继扩散过程,执行 2 倍的超分辨率生成,从 512x512 输入生成 1024x1024 的图像。


第三阶段将生成结果再次基于中继扩散迭代,生成 2048×2048 高分辨率的图像。


在实际效果上,CogView3 在人工评估中比目前最先进的开源文本到图像扩散模型 SDXL 高出 77.0%,同时只需要 SDXL 大约 1/10 的推理时间。

图片


CogView-3-Plus采用了 Zero-SNR 扩散噪声调度,并引入了文本-图像联合注意力机制。与常用的 MMDiT 结构相比,它在保持模型基本能力的同时,有效降低了训练和推理成本。CogView-3Plus 使用潜在维度为 16 的 VAE。


借由混合分辨率训练,CogView-3Plus 模型支持 512 ~ 2048 像素区间内分辨率的灵活生成。


下面是在各类评测上的结果:

图片


从效果上看,CogView3-plus 有着和最领先的 text2img 模型持平的水平。


图片


上:A pink colored car.


下:A stack of 3 cubes. A red cube is on the top, sitting on a red cube. The red cube is in the middle, sitting on a green cube. The green cube is on the bottom.


图片

图像编辑功能

CogView3-Plus 模型的应用领域十分广泛:


在广告与营销领域,一方面可用于广告创意设计,依据营销文案迅速生成高质量广告图片,为广告公司提供丰富创意源泉。另一方面,在营销活动策划中,能为线上线下活动提供视觉支撑,根据活动主题生成相关场景图和互动素材,提升活动趣味性与参与度。


媒体与出版行业中,新闻媒体可借助该模型快速生成与新闻内容相关的图片,提高新闻可视化程度与吸引力。同时,它还能为书籍、杂志等出版物创作插画,在漫画创作方面,可为创作者提供灵感和素材,助力快速构建漫画场景和角色形象,提高创作效率。


影视与娱乐领域,在电影、电视剧前期制作中,可用于生成场景概念图和角色设计图等,帮助导演、美术指导等主创人员更好地呈现创意和构思,降低制作成本和时间。在游戏开发方面,能为开发者提供角色、场景、道具等设计支持,快速生成游戏所需美术资源,加快游戏开发进程。还可用于创作娱乐性图片内容,满足用户在社交媒体等平台上的娱乐需求。


教育与培训领域,教师可以利用该模型生成与教学内容相关的图片,帮助学生更好地理解和掌握知识。在在线教育平台上,能为课程内容提供丰富视觉素材,增强课程趣味性和吸引力,提高学生学习积极性和参与度。


设计与艺术方面,为平面设计师提供创意灵感和设计素材,助力他们快速完成标志设计、包装设计、海报设计等各种平面设计项目。艺术家也可以将该模型作为创作工具,与自己的艺术理念和技巧相结合,创作出独特的艺术作品,拓展艺术创作的边界。


-----    END   -----



wisemodel相关

系统升级

关于wisemodel更多

1

欢迎持续关注和支持


2

欢迎加盟wisemodel开源社区


3

欢迎投稿优质内容


4

关于wisemodel开源社区


向上滑动查看


更多