GPT-4o 的图像生成尝试,以及几点感受
刘飞Lufy
2025-03-27 19:00
发布于浙江
科技领域创作者
4o 刚刚更新多模态的新功能,图像生成有了全新的体验。
简单分享下图像生成的效果先。
这是之前参加活动的一张照片:
这是 4o 生成的,换成另外两个人的:
中间的文字明显还有错漏。这个先不管。照片里看不太出破绽。
换成女性的效果:
依然还有问题,左边的人脸,胡子过于明显了。不过其它的地方,还是足以以假乱真。
用宫崎骏的风格处理:
用 Jojo 的风格处理:
接下来,命题切换,试着让两个人进入西游记。(提示词也只是简单说,让两个人在西游记的场景里)
继续卡通化:
同样的,可以让两个人进入太空,有科幻感受:
可以进一步做成 3D 的效果:
你可能会说,这种 AI 图,以前见得多了。4o 有什么不一样呢?
最大的不一样就是:
多模态的理解能力大大加强
。
举个例子,Midjourney 的确能够画出非常有质感的图。比如这是前几天画的:
可是,这都是碰运气碰出来的。想让这里面的某些元素发生变化,比如让战士不是拿剑,而是拿棍,比登天还难。
更不用说,直接跟 Midjourney 讲,要有西游记的场景。Midjourney 甚至不知道什么是西游记。同样画出前面西游记场景的提示词,在 Midjourney 里会是这样:
多模态有多么强大的威力呢。
比如我直接把之前三五环远程录制的时候,让嘉宾参考的说明书丢给 4o,就给我吐出来了这个:
中文显示依然有问题。且不说这个,排版和图示,已经到了能够简单修改就可用的程度。
我把半拿铁的 logo 给它,让它改成西游篇的 logo,它给我的是这样的:
对于输入的内容足够理解,也就是,我们用自然语言就能控制 AI 帮助我们画图。这件事儿意义很大。
我前阵子试过用所有的 AI 绘图工具,没有一个能实现简单的一句话:「让哪吒和孙悟空用现代武器战斗」。只有 4o 能呈现符合逻辑的图像:
几点感受分享。
第一,Prompt 的学习,彻底没有意义了。过去都说,AI 不太好理解,因此 Prompt 的知识库很重要,怎么学习用 Prompt 很重要。DeepSeek R1 等推理 AI 证明了,AI 对自然语言的理解还在不断进步。文生图如此。其它领域也都如此。Manus 也是如此(
9 个 Manus 实测案例:眼前一亮,也问题很多
)。
第二,所谓 AI 的工作流,也许就闭环在每个 AI 场景里了。
可以用前面的两个人物形象,让 4o 直接生成四格漫画:
台词水平还需提升。但是这个漫画开始有了「逻辑」。
过去我们用各种各样的 AI 工具搭建的工作流,例如怎么画漫画,可能要一二三步怎么做,还要用什么手段保持一致性,用什么办法画场景等等(
打鱼记·上(Midjourney 漫画)
)。最后会在 AI 产品里直接完成。
第三,底层技术成熟,应用场景越来越关键。能够把工作流闭环在某个场景里,是真的能提供生产力的,真的能输出价值的。AI 不再只是小部分人的玩具。2025 年真的会是场景之年。
最后一句话的感受是:
所有过去我们觉得 AI 偶尔会奏效的场景,AI 迟早会稳定地、准确地输出
。
用这句话,4o 也给了我一张图。