阿里Qwen-Image-2.0图像生成与编辑巅峰汇合,超真实、超强图文结合

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

一直以来,开源最强图像生成和图像编辑,一直是阿里通义万象的 Qwen-Image 和 Qwen-Image-Edit。

它们一直是分开的,现在终于合体了。

图片
图片

这是Qwen-Image-2.0生成的,自己的发展历程时间轴PPT。模型不仅准确梳理了两条时间线,还准确渲染了每一个关键节点的文字说明。

更有趣的是画面中的细节控制。注意图中的“画中画”:小狗和人物,都保持了相同的样子。

这种在同一画面中保持主体一致性并进行不同状态渲染的能力,对于制作专业演示文稿至关重要。

提示词是这样的:

图片

Qwen-Image-2.0将生图与编辑能力合二为一,在图像基础模型领域迈出重要一步。

在AI Arena的模型盲测数据中,它作为一个生图生成、编辑一体化的模型,表现出了优越的性能。

图片
图片

文字渲染突破了信息传递的极限

Qwen-Image-2.0支持长达1k token的指令,这相当于一篇短文的长度。

如此庞大的上下文窗口让模型能够理解极其复杂的指令,直接生成包含大量文本信息的专业图表,比如PPT、海报甚至连环漫画。

除了渲染的准确度,承载的信息量也可以非常大。

面对非常夸张的长文本提示词,模型没有崩溃,而是将海量的文字信息精准地排列在画面中。

处理复杂指令和大量文字渲染的示例:

图片
图片
图片
图片

Qwen-Image-2.0在生成图文混合画面时,展现出了类似平面设计师的直觉。

它会倾向于在画面的空白处渲染文字,避免文字遮挡图像的主体部分。

文字智能避让图像主体的排版示例:

图片

还能驾驭字体风格,模仿特定的书法风格。

比如用宋徽宗赵佶那标志性的瘦金体来书写宋词,笔画的劲道和结构都得到了还原。

图片

王羲之的小楷。

图片

物理质感与排版秩序的深度融合

真实的文字附着在物体表面,受材质和光影的影响。

Qwen-Image-2.0引入了物理世界的逻辑。

当文字出现在玻璃板、衣服或杂志上时,模型会根据介质的不同调整文字的形态。

图片
图片

玻璃上的“Qwen-Image-2.0”文字有通透感,衣服上的“Qwen-Image”文字随褶皱起伏,杂志上的“Qwen 3.5”文字则呈现印刷品的质感。

这些细节的准确捕捉,让生成的图像摆脱了拼贴感。

这种对真实性的追求在电影海报的生成中表现得尤为明显。

写实的摄影风格图片与经过精心设计的文字标题相结合,画面既有电影的叙事张力,又有商业海报的精致度。

图片
图片

在处理漫画或图表时,整齐划一是基本要求。

图片

Qwen-Image-2.0在漫画创作中,它能确保对话框中的文字规整排版,让阅读体验自然流畅。

图片
图片

OKR(目标与关键结果)信息图中,相似的文字段落会自动对齐。

图片

这对于需要制作专业报告的用户来说,省去了大量后期调整格式的时间。

语义理解驱动的生图与编辑革命

Qwen-Image-2.0在纯图像生成的写实性上也上了一个台阶。

它支持2k分辨率的细腻刻画,能处理极其违背常理但又需要符合物理逻辑的场景。

比如“马骑人”这样一个荒诞的提示词。

图片
图片

模型不仅构建了“骑”这个动作的物理结构,还细致地描绘了马的毛发纹理、人物吃力的表情以及地面干裂的细节。

这种对复杂语义的理解和画面重构能力,是新一代模型的底色。

在自然场景的描绘中,模型对色彩和光影的把控更加成熟。

夏日森林中深深浅浅的“各种绿色”层次分明,光线透过树叶的质感也被还原了出来。

图片
图片

文生图领域的文字渲染能力和真实质感被无缝移植到了编辑功能中。

你可以直接上传一张图片,让模型在上面题词。模型会分析图片的内容和构图,选择合适的位置和风格加入文字。

图片

编辑的真实感同样体现在对多图的处理上。

比如生成一个九宫格组图,模型能保证人物在不同拍照姿势下的特征一致性,同时保持整体风格的统一。

图片

再比如处理一张自然的合照。

图片

在这个读图时代,能把字写好、把图画真、把逻辑理顺的AI,才是我们要的生产力工具。

参考资料:

https://qwen.ai/blog?id=qwen-image-2.0