专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!
一直以来,开源最强图像生成和图像编辑,一直是阿里通义万象的 Qwen-Image 和 Qwen-Image-Edit。
它们一直是分开的,现在终于合体了。
这是Qwen-Image-2.0生成的,自己的发展历程时间轴PPT。模型不仅准确梳理了两条时间线,还准确渲染了每一个关键节点的文字说明。
更有趣的是画面中的细节控制。注意图中的“画中画”:小狗和人物,都保持了相同的样子。
这种在同一画面中保持主体一致性并进行不同状态渲染的能力,对于制作专业演示文稿至关重要。
提示词是这样的:
Qwen-Image-2.0将生图与编辑能力合二为一,在图像基础模型领域迈出重要一步。
在AI Arena的模型盲测数据中,它作为一个生图生成、编辑一体化的模型,表现出了优越的性能。
文字渲染突破了信息传递的极限
Qwen-Image-2.0支持长达1k token的指令,这相当于一篇短文的长度。
如此庞大的上下文窗口让模型能够理解极其复杂的指令,直接生成包含大量文本信息的专业图表,比如PPT、海报甚至连环漫画。
除了渲染的准确度,承载的信息量也可以非常大。
面对非常夸张的长文本提示词,模型没有崩溃,而是将海量的文字信息精准地排列在画面中。
处理复杂指令和大量文字渲染的示例:
Qwen-Image-2.0在生成图文混合画面时,展现出了类似平面设计师的直觉。
它会倾向于在画面的空白处渲染文字,避免文字遮挡图像的主体部分。
文字智能避让图像主体的排版示例:
还能驾驭字体风格,模仿特定的书法风格。
比如用宋徽宗赵佶那标志性的瘦金体来书写宋词,笔画的劲道和结构都得到了还原。
王羲之的小楷。
物理质感与排版秩序的深度融合
真实的文字附着在物体表面,受材质和光影的影响。
Qwen-Image-2.0引入了物理世界的逻辑。
当文字出现在玻璃板、衣服或杂志上时,模型会根据介质的不同调整文字的形态。
玻璃上的“Qwen-Image-2.0”文字有通透感,衣服上的“Qwen-Image”文字随褶皱起伏,杂志上的“Qwen 3.5”文字则呈现印刷品的质感。
这些细节的准确捕捉,让生成的图像摆脱了拼贴感。
这种对真实性的追求在电影海报的生成中表现得尤为明显。
写实的摄影风格图片与经过精心设计的文字标题相结合,画面既有电影的叙事张力,又有商业海报的精致度。
在处理漫画或图表时,整齐划一是基本要求。
Qwen-Image-2.0在漫画创作中,它能确保对话框中的文字规整排版,让阅读体验自然流畅。
在OKR(目标与关键结果)信息图中,相似的文字段落会自动对齐。
这对于需要制作专业报告的用户来说,省去了大量后期调整格式的时间。
语义理解驱动的生图与编辑革命
Qwen-Image-2.0在纯图像生成的写实性上也上了一个台阶。
它支持2k分辨率的细腻刻画,能处理极其违背常理但又需要符合物理逻辑的场景。
比如“马骑人”这样一个荒诞的提示词。
模型不仅构建了“骑”这个动作的物理结构,还细致地描绘了马的毛发纹理、人物吃力的表情以及地面干裂的细节。
这种对复杂语义的理解和画面重构能力,是新一代模型的底色。
在自然场景的描绘中,模型对色彩和光影的把控更加成熟。
夏日森林中深深浅浅的“各种绿色”层次分明,光线透过树叶的质感也被还原了出来。
文生图领域的文字渲染能力和真实质感被无缝移植到了编辑功能中。
你可以直接上传一张图片,让模型在上面题词。模型会分析图片的内容和构图,选择合适的位置和风格加入文字。
编辑的真实感同样体现在对多图的处理上。
比如生成一个九宫格组图,模型能保证人物在不同拍照姿势下的特征一致性,同时保持整体风格的统一。
再比如处理一张自然的合照。
在这个读图时代,能把字写好、把图画真、把逻辑理顺的AI,才是我们要的生产力工具。
参考资料:
https://qwen.ai/blog?id=qwen-image-2.0