+关注

手机看

微信扫一扫，随时随地看

从即梦的AI文字图片能力，浅谈AI图片工具平台的未来

人人都是产品经理

2024-12-31 11:09发布于广东人人都是产品经理的官方账号

+关注

本文将带您深入了解即梦AI图片工具的最新进展，特别是其v2.1版本在文字图片生成能力上的突破。通过对即梦AI图片模型的测试和分析，探讨了这一技术进步如何拓展AI图片应用的场景，并预测了AI图片工具平台的未来发展。

之前看到过几款海外的AI图片工具，比如Recaf、ideogram。通过输入文字，在图片上增加艺术字，或者生成融入画面的字，同时会利用图片生成AI补足画面的内容。

整体上效果还挺好，只可惜，不能生成中文的，导致完全不能用上这个能力。

但是最近看到即梦推出了v2.1，满足了我这个想法。于是便研究一二，与各位大大讲讲我的分析。

一、即梦的v2.1图片模型是什么？

我们先简单谈谈，即梦的这个新版本图片生成模型是什么？

该能力可以在【图片生成】-【生图模型】上面进行选择。

官方对其的描述是“稳定的结构和更强的影视质感，支持生成中、英文文字”。

以下是俺的测试结果，会分为“低”、“中”、“高”多个难度档位进行测试，难度的提升以“主体数量”、“文本内容数量”、“细节描述丰富度”为大致的边界。

同时，测试的方向会分为“写实照片”、“电商海报”、“电影海报”、“黑白漫画”、“二次元卡通”这几个俺能想到的场景。

1. 写实照片

1）低难度：

提示词：
一个男人拿着牌匾，站在办公楼门口，牌匾上写着“不干了”。

2）中难度：

提示词：
写实照片风格。一个男人拿着牌匾，站在办公楼门口，牌匾上写着书法字体的“不干了”。这个男人脸上是愤怒的表情。他的背后是站着他的老板，表情愤怒。办公楼门槛上写着公司名字“人力电池无限公司”。

3）高难度：

提示词：
写实照片风格。
一个男人拿着牌匾，站在办公楼门口，牌匾上写着书法字体的“不干了”。男人要上挎着个喇叭。这个男人脸上是愤怒的表情。他的背后是站着他的老板，表情愤怒。办公楼门槛上写着公司名字“人力电池无限公司”。
男人的前面站着一群围观的人群。
图片的右下角写上日期“2024-10-10”.

问题小结：

1.当中难度的提示词多的时候，对于画风和字体内容的指令执行不到位，存在不准确的情况。

2.中高难度下，部分文字内容展示不正确，比如“不干了”前面会加其他词、“人力电池无限公司”有时候会多一个字……。

3.高难度下，对于有位置要求的文字摆放不正确。

2.电商海报

1）低难度：

提示词：
这是一张电商海报，需要在海报中增加标题。海报标题：“新品上市”海报主体：热干面

2）中难度：

提示词：
这是一张电商海报，需要在海报中增加标题。海报画风：写实画风海报标题：“新品上市”海报主体：热干面背景要求：热干面放在一张桌子上底部小字：又香又辣

3）高难度：

提示词：
这是一张电商海报，需要在海报中增加标题。
海报画风：写实画风
海报标题：“新品上市”
海报主体：热干面
背景要求：热干面放在一张桌子上
底部小字：又香又辣
底部字体样式：红底白字

问题小结：

1.会在生成的字体附近添加上一些无意义的符号或者内容不明确的文本内容。需要人工二次处理清理干净。

3. 电影海报

1）低难度：

提示词：
这是一张电影海报，需要在海报中增加标题。
海报画风：写实画风
海报标题：“职场求生”
海报主体：打工人一个人在深夜的办公室

2）中难度：

提示词：
这是一张电影海报，需要在海报中增加标题。
海报画风：写实画风
海报标题：“职场求生”
海报内容：打工人一个人在深夜的办公室，背后是一排开着的电脑
底部小字：10月上映

3）高难度：

提示词：
这是一张电影海报，需要在海报中增加标题。
海报画风：写实画风
海报标题：“职场求生”
标题要求：超大字体，包围着打工人
海报内容：打工人一个人在深夜的办公室，背后是一排开着的电脑，灯光黑暗
底部小字：10月上映

问题小结：

1.同样会生成一些不干不净的文本内容。

2.画风识别不正确。

4. 黑白漫画

1）低难度：

提示词：
这是一张黑白漫画。讲述的是男人在职场被辱骂的场景。
男人头上有个聊天气泡，内容是“对不起！”

2）中难度：

提示词：
这是一张黑白漫画。讲述的是男人在职场被辱骂的场景。男人在低着头向上司道歉，脸上惊恐万分。右边是领导，伸着手指在辱骂男的。
男人头上有个聊天气泡，内容是“对不起！”
领导头上有个聊天气泡，内容是“干不了给我滚蛋！”

3）高难度：

提示词：
这是一张黑白漫画。讲述的是男人在职场被辱骂的场景。画面里面有4格分镜，右上角的分镜是西装革履的男人进入了领导办公室。左上角的分镜是油头中年领导的特写。旁边有一个聊天气泡“你知道我为什么找你吗？”右下角的分镜是男人在鞠躬。左下角是男人脸部特写，男人表情痛苦。旁边有一个聊天气泡“你知道我为什么找你吗？”

问题小结：

1.同样会生成一些不干不净的文本内容。

2.字存在“部分小瑕疵”、“字写错”的问题，字体格式不够规整。

3.文本位置不正确，如图这两句话是要两个人说的。

5. 二次元卡通

1）低难度：

提示词：
这是一张二次元海报。海报主体是一个二次元少女。海报标题上写着“AI校园”。

2）中难度：

提示词：
这是一张二次元海报。海报主体是一个二次元少女，二次元少女穿着校服。旁边站着一个男生深情地看着她。海报标题上写着“AI校园”。下方有一行小字“开心上学”。

3）高难度：

提示词：
这是一张二次元海报。海报主体是一个二次元少女，二次元少女穿着水手服。旁边站着一个男生深情地看着她。海报标题上写着“AI校园”，这几个字把少女给包围起来。下方有一行小字“开心上学”。

问题小结：

1.同样会生成一些不干不净的文本内容。

2.人物细节BUG。比如“三只手”、“两个人物的物理大小关系错误”。

参考能力

此外，即梦提供了“图片参考”能力，可惜目前仅能“主体”、“人物长相”，暂时不支持其余的参考能力。

这边尝试了一下，能够把主体生成进去，但是并不能读取到文本指令，无法发挥2.1的新特性。

以上是在同样的提示词下，分别带上与不带上“主体参考”功能的效果。

小结

整体测试下来，可以总结出其优点有：

1.大部分文字内容、文字位置、文字样式要求都能识别并准确执行。像是漫画类的内容，能够准确地进行执行。

2.大部分位置要求，能够准确识别并执行。甚至能够生成一些与主体有互动的样式。

而其缺点有：

1.文字生成方面偶尔存在“文字错误”、“文字样式错误”、“文字位置错误”等问题。

2.AI绘画的常见问题，存在画面BUG，比如人物手指、多人物位置关系等问题。

3.无法结合已有主体进行“带文字”的图片，这导致在“有明确需要加入到图片上”的场景上还无法发挥作用，比如带着商品信息的“商品介绍图”。

图片来源于百度

二、这个能力意味着什么

如果按是否有文字对图片进行划分，我们可以得到两个类型。

1.不带文字的图片：这类图片往往使用面很窄，缺乏文字信息的补充，除了事物外观的展示外，仅仅能传递类似于情感、氛围等的抽象信息。这使得不带文字的图片较难在广告宣传、社交媒体、杂志封面等场景上应用，往往只能在艺术展示相关的场景上使用。

2.带文字的图片：由于补充了文字信息，带文字的图片能够更直观地传达信息，可用于广告宣传、社交媒体、杂志封面、漫画、连环画等场景上。相比起不带文字的图片，具有更广的应用范围。

因此，即梦的图片模型v2.1意味着将“AI图片”能力的应用场景进行了拓展，越来越多的业务能受益于这项能力。

在以前，还需要美术去剪辑和拼接AI生成的图片元素，以制作带文字的图片，但现在图片AI能一步到位，直接生成带有文字的图片素材，可以直接绕过美术进行物料产出。妥妥的“AI取代员工的案例”啊！

同时，这也意味着即梦抢占图片AI工具市场的野心。虽然还无法完全覆盖所有“文字图片制作”场景，虽然还有不少文字生成的细节问题，但是这些问题必定会随着后续的版本更新而被解决，低级美术工种的地位岌岌可危矣！

三、从即梦的图片AI能力，聊聊图片AI工具的未来

个人觉得，图片AI工具的存在是为了“更好地满足图片制作需求”，因此才会推出各种能力，用以辅助用户产出“更能满足需求”的图片。因此，即梦的图片AI能力

而就好像《浅谈AI视频厂商都在卷的拓展能力》中提到的“点、线、面”概念一样。

图片AI工具也同样适用于“点、线、面”的分层逻辑。

1.图片制作需求的“点”：

图片制作流程也可分为“寻找灵感、制作草稿、收集素材、合并成稿”。（修改返工穿插在每个环节上，此处不赘述，哈哈o(╥﹏╥)o悲惨的乙方。）

1）寻找灵感：指制作者需要通过收集灵感，清楚知道“自己要做什么的图片”。

2）制作草稿：图片的线稿，需要划分内容元素的布局、色块区域分布等内容。

3）收集素材：指组成成稿的画面素材元素，比如标题、人物、物品、背景等。

4）合并成稿：指将收集到的素材进行组装，并进行合适地调整，最终形成一份完整的图片成品。

AI生成图片功能在大部分场景上满足“制作草稿”、“收集素材”环节的需求，但是要生成最终能使用的成品，还是需要将多个素材“合并成稿”这一步骤。（除开部分原画生成场景。而且这部分原画生成场景需要AI生成的准确性非常高，生成后没有任何细节修改需求。）

当然，图片制作需求的满足不能仅仅依赖“图片生成AI”，目前市面上不少AI生图平台还提供了额外的单“点”需求工具，包括但不限于：

1）局部重绘：可与圈选一部分区域，对一部分区域进行AI重新生图，从而实现对AI生成结果的修改。比如修改衣物、表情、背景。

截图为星流的局部重绘能力。

2）高清放大：通过AI技术对画面内容进行高清化处理，使得低画质的画面也能变成高画质。

截图为星流的高清放大。

3）智能扩图：对画面内容进行扩充，使得图片能够形成指定尺寸的画面内容。

截图为百度的智能扩图。

4）裁剪：图片编辑的基础能力，在原有图片的基础上进行尺寸调整。

5）智能擦除：局部重绘的变种用法，能够消除掉涂抹区域的主体。

截图为豆包的智能擦除。

6）智能去背景：自动识别并去掉背景。

截图为豆包的智能去背景。

……

这些能力在豆包、百度、星流等图片AI平台上都有出现。

可以看到，目前各大主流的AI图片工具平台，除了主推的图片生成AI能力外，还会辅助上各种各样的单点“图片AI工具”。因为：

1）“图片生成AI”是直接从“灵感”到“草稿”/“素材”，由于生成式AI的准确不足，完全由AI生成完整成稿的可能性不高。

2）目前生成式AI大部分情况下仅仅满足“制作草稿”、“收集素材”环节的需求，还需要一定的工具来满足“合并成稿”环节的需求，比如前文提到的裁剪、外扩、高清化等能对图片核心内容以外事物进行编辑的工具，又比如能够编辑图片文本内容的工具。

所以，为了保证能满足从“灵感”到“成品”的制作辅助，AI图片工具平台不仅仅需要提供“图片生成AI”，还需要提供各式各样工具能力“点”，以最大化满足用户的图片制作诉求。

2.图片制作需求的“线”：

当图片制作的单“点”能力积累到一定量级时，就是时候串联起各个点来，形成满足一条“线”需求的能力。不然用户来回在多个能力点之间跳转，会存在“物料上传/下载”、“参数配置”、“功能跳转”等行为上的“效率损耗”。

目前常见的“线”的形式有：

1）画布功能：

这个功能在即梦首页就可看到，名为“智能画布”。

“智能画布”以“图片编辑器”为基础，整合了图片编辑的所有基础能力，比如裁剪、画布尺寸、文字添加、画笔、图层管理等等。

在此基础上，整合进上面提到的AI工具能力“点”。在用户进行图片处理的过程中，在任何需要的场景下，都能调用所需的AI功能能力“点”，无需在多个功能之间来回跳转、传递物料，从而提高其中的工作效率。

如此，“画布功能”就成了所有AI工具能力“点”的载体。在画布上，各个工具就能形成“点连成线”的效果，以形成“一条龙式”满足图片制作需求的效果。

2）工作流：

事实上，并非所有图片制作需求都是从“灵感”开始的。存在部分需求是存在“初始物料”，需要在初始物料的基础上加工成成品。

最直接的例子就是电商宣传海报制作。电商制作宣传海报的时候，经常都是已经有现成的商品图片，需要经过美术后期P上背景、文字标语等内容。

假设在“电商宣传海报制作”场景下，有一个批商品图片，需要生成该商品的宣传海报。这个需求涉及到的AI功能“点”有：

a.图片高清化：不同商品图片的分辨率不同，需要统一其分辨率，以便在海报上显示。

b.图片背景清除：部分商品图片可能会存在背景，为了展示在海报上，需要清除掉其中的背景。如果背景复杂，还需要能够识别到画面的主体内容，自动进行背景清除（以免需要人肉一个个进行点击）。

c.标题艺术字生成：标题是海报的核心，需要通过文字内容辅助引导消费者，从而达成营销目的。

d.物料组装：需要在一张固定的背景上组合“商品图”、“标题艺术字”，以生成最终的目标成品图片。

如果使用画布功能，仍然需要繁琐的操作，因此一个能够将“图片高清化”、“图片背景清除”、“标题艺术字生成”、“物料组装”这些能力点串联起来的工作流便能起到很高的提效作用。用户只需要对工作流进行内容输入，即可获得所需的内容输出。

工作流的成立的前提条件是“业务流程高度重复且标准化”，然而这样的业务场景十分罕见，而且一般只会出现在业务体量较大的公司上。

目前较为知名的工作流工具就是comfyui，其通过可视化的方式支持配置各个不同节点的处理逻辑，实现图片生成需求的精准控制和可靠复现。可以结合需要在comfyui中构建所需的“能力点”，然后构筑一条的工作流的“线”。

图片来自于百度百科

然而comfyui对于美术来说过于硬核，能用得起来的人并不多。因此一些AI图片工具平台也开始出现了“工作流”能力，比如星流。

其在画板的基础上，提供了由官方/用户创建的工作流，允许用户能够通过工作流快速使用多个“能力点”，只需要提供输入的图片和参数，就能快速生成所需的图片，免去了在多个能力之间的跳转，使得复杂的生成需求，能一条龙地被满足。

3）生成式AI：

随着AI生图技术的发展，很多AI能直接生成高质量的图片了，并不再需要人工进行二次修改。因此，可以说某种程度上，生成式AI也能满足一条“线”的需求。

在以往，生成式AI可能只能满足了“不带文字的图片”的“从灵感到成稿”这条线的需求。但如今，即梦的v2.1出来后，“带文字的图片”的“从灵感到成稿”这条线的需求也能一定程度上被满足了。

虽然目前v2.1还不是很成熟，也并不能完美地生成成稿。但是随着AI模型的持续成长，未来也是会解决这个问题的。

……

3.图片制作需求的“面”：

所谓“面”，即通过同时满足多个工作流的需求，从而形成一整套“图片制作行业解决方案”。这是厂商的最终未来，即对整个行业的颠覆与垄断。

不过目前谈这个未免太久远，大部分工具都还在进行“能力点与线”的构建当中。

三、小结

整体上讲，即梦的v2.1图片生成模型意味着其对“AI图片”能力应用场景的拓展，意味着其从“单点需求满足”到“单线需求满足”的提升。

虽然在目前v2.1还存在不少问题，比如生成“文字错误”、“文字样式错误”、“文字位置错误”、“图片BUG”、“主体参考无法使用”，但是如果随着后续版本的迭代，这些问题被逐一解决，且稳定持续构建AI工具能力的“点-线-面”，即梦将会在“图片AI工具领域”领先其他竞品一大截。

本文由人人都是产品经理作者【柠檬饼干净又卫生】，微信公众号：【柠檬饼干净又卫生】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于 CC0 协议。

免责声明：本内容来自腾讯平台创作者，不代表腾讯新闻或腾讯网的观点和立场。