智谱开源2款生图模型,第一手实测后,效果不太好

作者|子川

来源AI先锋官


就在刚刚,智谱宣布开源两款图片生成模型:

CogView3 

CogView3-Plus-3B
据说能力非凡,它们俩兄弟在多项第三方测试中表现出色,甚至在某些测试中超越了Midjourney-V6、Flux-dev模型。
什么时候国产文生图模型这么强了?
图片
那这不得好好盘一盘这两兄弟。

CogView3

CogView3 是第一个在文本到图像生成领域实现中继扩散的模型,它首先通过创建低分辨率图像,然后再基于中继的超分辨率来执行任务。

具体来讲就是:

首先通过标准扩散过程生成512x512低分辨率图像后,然后利用中继扩散过程先将其放大至1024x1024,随后再进一步迭代至2048x2048的高分辨率图像。

图片

在人工评估中,CogView3 的性能比当前开源文本到图像扩散模型 SDXL要高出 77.0%。同时仅使用了 SDXL 推理时间的 1/10

图片
CogView3-Plus
CogView-3-Plus在 CogView3 的基础上进行了改进,引入了最新的 DiT 框架,从而提高了整体的性能。
它使用了 Zero-SNR 扩散噪声调度,并增加了文本和图像联合注意力机制。与常规的 MMDiT 结构相比,这样做能在保持模型性能的同时,减少训练和推理的成本。
根据官方发布的测评结果:CogView-3-Plus在MPS、Image Reward等测评中的成绩比Midjourney-V6和Flux-dev还要高。
图片
官方放出的效果对比图:
图片
是不是觉得效果还不错。
目前CogView3-Plus已经上线到智谱清言app中。
随后小编立马做了实测。
先说结论:貌似翻车了。
首先,来个简单的提示词:一个美丽的中国姑娘站在海边,索尼镜头,正面照,全身照,写实。

生成的效果是这样的:

图片

生成的效果整体而言,AI感满满,效果不用对比就知道不如Mijourney和Flux-dev模型。
随后小编又重新生成了很多张,效果和第一张一样,不太行。
图片
既然短提示词效果不太行,那么我们试一下较长提示词。
提示词:在客厅里,20岁左右的女孩,单纯,极致漂亮细腻的,(淡妆),棕色头发,甜美的笑容,细腻漂亮白皙的皮肤,精致完整的五官,脸部刻画详细,高鼻梁,红色嘴唇,漂亮温柔美少女,飘柔顺滑发丝,极致细腻的头发,柔美的气质,脸部补光,超现实,写实,8K画质,极端细节,大师作品,身材绝美,绝世佳人,最高画质,8k分辨率,女神,微笑,精细五官,头发过肩,棕发,大长细腿,面对镜头,身材匀称紧实,温柔的眼神,站立姿势,全身照
图片
效果和大家所看到的那样,还是不太行!
忍不住想要问一问,这官方给出的测评结果也忒不准了吧
看到测评结果,本来觉得国产的生图模型要熬出来了,想不到。。。
图片

 .END.

往期文章回顾