作者|子川
来源|AI先锋官
就在刚刚,智谱宣布开源两款图片生成模型:
CogView3
据说能力非凡,它们俩兄弟在多项第三方测试中表现出色,甚至在某些测试中超越了Midjourney-V6、Flux-dev模型。CogView3
CogView3 是第一个在文本到图像生成领域实现中继扩散的模型,它首先通过创建低分辨率图像,然后再基于中继的超分辨率来执行任务。具体来讲就是:
首先通过标准扩散过程生成512x512低分辨率图像后,然后利用中继扩散过程先将其放大至1024x1024,随后再进一步迭代至2048x2048的高分辨率图像。
在人工评估中,CogView3 的性能比当前开源文本到图像扩散模型 SDXL要高出 77.0%。同时仅使用了 SDXL 推理时间的 1/10
CogView-3-Plus在 CogView3 的基础上进行了改进,引入了最新的 DiT 框架,从而提高了整体的性能。它使用了 Zero-SNR 扩散噪声调度,并增加了文本和图像联合注意力机制。与常规的 MMDiT 结构相比,这样做能在保持模型性能的同时,减少训练和推理的成本。根据官方发布的测评结果:CogView-3-Plus在MPS、Image Reward等测评中的成绩比Midjourney-V6和Flux-dev还要高。目前CogView3-Plus已经上线到智谱清言app中。首先,来个简单的提示词:一个美丽的中国姑娘站在海边,索尼镜头,正面照,全身照,写实。生成的效果是这样的:
生成的效果整体而言,AI感满满,效果不用对比就知道不如Mijourney和Flux-dev模型。随后小编又重新生成了很多张,效果和第一张一样,不太行。既然短提示词效果不太行,那么我们试一下较长提示词。提示词:在客厅里,20岁左右的女孩,单纯,极致漂亮细腻的,(淡妆),棕色头发,甜美的笑容,细腻漂亮白皙的皮肤,精致完整的五官,脸部刻画详细,高鼻梁,红色嘴唇,漂亮温柔美少女,飘柔顺滑发丝,极致细腻的头发,柔美的气质,脸部补光,超现实,写实,8K画质,极端细节,大师作品,身材绝美,绝世佳人,最高画质,8k分辨率,女神,微笑,精细五官,头发过肩,棕发,大长细腿,面对镜头,身材匀称紧实,温柔的眼神,站立姿势,全身照忍不住想要问一问,这官方给出的测评结果也忒不准了吧看到测评结果,本来觉得国产的生图模型要熬出来了,想不到。。。往期文章回顾