智谱开源2款生图模型，第一手实测后，效果不太好

AI先锋官官方

2024-10-14 20:11发布于北京

作者｜子川

来源｜AI先锋官

就在刚刚，智谱宣布开源两款图片生成模型：

CogView3

CogView3-Plus-3B

据说能力非凡，它们俩兄弟在多项第三方测试中表现出色，甚至在某些测试中超越了Midjourney-V6、Flux-dev模型。

什么时候国产文生图模型这么强了？

那这不得好好盘一盘这两兄弟。

CogView3

CogView3 是第一个在文本到图像生成领域实现中继扩散的模型，它首先通过创建低分辨率图像，然后再基于中继的超分辨率来执行任务。

具体来讲就是：

首先通过标准扩散过程生成512x512低分辨率图像后,然后利用中继扩散过程先将其放大至1024x1024,随后再进一步迭代至2048x2048的高分辨率图像。

在人工评估中，CogView3 的性能比当前开源文本到图像扩散模型 SDXL要高出 77.0%。同时仅使用了 SDXL 推理时间的 1/10

CogView3-Plus

CogView-3-Plus在 CogView3 的基础上进行了改进，引入了最新的 DiT 框架，从而提高了整体的性能。

它使用了 Zero-SNR 扩散噪声调度，并增加了文本和图像联合注意力机制。与常规的 MMDiT 结构相比，这样做能在保持模型性能的同时，减少训练和推理的成本。

根据官方发布的测评结果：CogView-3-Plus在MPS、Image Reward等测评中的成绩比Midjourney-V6和Flux-dev还要高。

官方放出的效果对比图：

是不是觉得效果还不错。

目前CogView3-Plus已经上线到智谱清言app中。

随后小编立马做了实测。

先说结论：貌似翻车了。

首先，来个简单的提示词：一个美丽的中国姑娘站在海边，索尼镜头，正面照，全身照，写实。

生成的效果是这样的：

生成的效果整体而言，AI感满满，效果不用对比就知道不如Mijourney和Flux-dev模型。

随后小编又重新生成了很多张，效果和第一张一样，不太行。

既然短提示词效果不太行，那么我们试一下较长提示词。

提示词：在客厅里，20岁左右的女孩，单纯，极致漂亮细腻的，(淡妆)，棕色头发，甜美的笑容，细腻漂亮白皙的皮肤，精致完整的五官，脸部刻画详细，高鼻梁，红色嘴唇，漂亮温柔美少女，飘柔顺滑发丝，极致细腻的头发，柔美的气质，脸部补光，超现实，写实，8K画质，极端细节，大师作品，身材绝美，绝世佳人，最高画质，8k分辨率，女神，微笑，精细五官，头发过肩，棕发，大长细腿，面对镜头，身材匀称紧实，温柔的眼神，站立姿势，全身照

效果和大家所看到的那样，还是不太行！

忍不住想要问一问，这官方给出的测评结果也忒不准了吧

看到测评结果，本来觉得国产的生图模型要熬出来了，想不到。。。

.END.

往期文章回顾

查看原图 136K