你还说这是AI?我们体验了一波生成亚洲人最好看的文生图大模型

机器之心报道

作者:蛋酱


这几天,打开社交媒体平台,很多人正在热烈讨论一个叫做「AI 模特」的玩法。


点开几个 Demo,确实惊艳。下方视频是一位海外网友自制的穿搭合辑,你能分得清这是 AI 还是真人吗?


来源:https://x.com/mad_mask/status/1872522970050253178


一般来说,都是先有真人模特照片,用 AI 换装也不新鲜。但这个平台能一站式完成模特主体、换装、展示视频的生成:



上述作品,都来自刚刚重磅更新的可灵 AI。


图片

在 2024 年的尾声,可灵 AI 给所有用户送上了新年大礼包:全新的「可图 1.5」和「可灵 1.6」,目前已全量上线。

图片
 
可图 1.5 带来了更丰富的场景层次、更自然的画面细节和更真实人像生成。就说下方这两张人像,你能确定哪个是实拍、哪个是可图生成的吗?

图片

答案揭晓:左图为可图大模型生成,右图为真人实拍。AI 生成的水准,完全达到了以假乱真的程度。

图片

基于可图大模型能力的更新,「AI 模特」功能也正式上线。

图片
Prompt:美丽的印度人,明亮面部,柔和光线,白色吊带露出腰部,白色喇叭阔腿长裤,赤脚,,双手自然深插裤袋,下巴微抬,目光平视镜头,表情冷静自信,浅灰色背景,全身构图,街拍风格

让这位 AI 模特换上指定款式的服装,再使用一下可灵图生视频功能,一条精美的服装展示视频这不就有了吗?

看到这里,感到震惊的不只是普通用户,电商和广告领域的从业者一定也陷入了沉思……

是的,我们都知道 AI 会成为推进社会生产力的重要一环,只是没想到这场变革来得这么快,而且这么彻底。

如果你想上手尝试,测评地址在这里:https://klingai.kuaishou.com/

可图 1.5 上线
我们真的分不清 AI 与实拍了

从 2022 年的 Stable Diffusion 开始,过去两年的文生图领域是飞速发展的。不管是技术还是应用层面,都出现多次爆发式的增长。在这个过程中,众多科技公司都推出了文生图应用,并在「卷」的过程中将这一领域推向新的高度,包括 Midjourney、Stability AI,快手的「可图」也是其中一支重要力量。

当下的文生图产品已经非常优秀,在很多生成任务的表现上近乎无可挑剔。剩下的难点主要集中于一些具体应用场景,比如对人像真实度、画面细节丰富度等维度的把控。

这次,新上线的可图 1.5 就着重从这两点入手。
 
图片

一方面,可图 1.5 生成的画面美感显著提升,构图与光影更加协调,人像美观度大幅提升,呈现出更高级的美学效果。

有网友尝试用可图 1.5 生成古风摄影,原图直出就是惊艳的程度,人物一致性保持得也很好:

图片

图片

作为尊贵的年卡黄金会员,机器之心也对可图 1.5 模型进行了一场全面测评。

我们发现,可图 1.5 对亚洲人的人像生成更加擅长,相比之下,ChatGPT 给出的结果就不那么如人意了。

Prompt:高级时尚肖像,柔和魅力打光,亚洲女模特,飘逸黑色长发搭配空气刘海,身穿浅蓝色衬衫式连衣裙,薰衣草花田背景,专业美妆摄影

作为更适合中国用户体质的文生图应用,可图 1.5 生成的人像发丝根根分明,前额刘海的空气感很强,五官和脸型也更符合我们对亚洲女孩的认知。

图片

将这张图片一键输入「图生视频」,静态人物鲜活了起来:

Prompt:美女微微一笑,拨动了头发,动人心弦。


另一方面,可图 1.5 生成的画面质量显著提升。增强了画面细节表现,色彩还原更加自然,层次感更加丰富。如下图所示:

Prompt:长发女孩站在高处眺望城市全景,浅色上衣,远处是山脉和城镇以及中国传统风格的建筑群,屋顶整齐排列,延伸到远方,背景是蓝天白云,云朵层次分明,阳光明媚,两侧被青翠的山脉环绕,与城市形成鲜明对比,色调柔和,动画风格,宁静的氛围。

图片

Prompt:生成一幅带有 “merry christmas” 的电影海报,创意独一无二的想象力,卡通风格,圣诞老人,礼物,大师作品,获奖作品。

可以看到,可图 1.5 为海报设置了前景(圣诞老人)、中景(圣诞树屋)、远景(远山和夜空)三个层次,由近处的暖色逐渐过渡到远处的冷色,明暗对比强烈,制造出真实的深度感,并运用定向光源的元素为画面增加了立体感。
 
图片

Prompt:土拨鼠拟人化,阳光透过厨房的窗户,光线通过空气中的面粉产生丁达尔效应,耶稣光,一只穿着蓝色围裙的土拨鼠妈妈在白色色调的厨房里蒸馒头,案板上放着已经整形好的馒头,两只可爱的小土拨鼠在旁边玩耍,身上沾满了面粉,精致线条,温暖的阳光,虚幻引擎渲染,8K 电影效果,真实的光影效果。

一般来说,动物毛发和面粉状态会是生成难点。在这幅画中,土拨鼠的毛发纹理非常逼真,具有明显的柔软感和立体感,且毛发受光部位明亮,背光部分暗淡,细节清晰可见。案板上面团的质感细腻,表面略微反光,也体现出湿润柔软的特性。面粉漂浮在空气中的动态效果增加了画面的活力,严格遵循了丁达尔效应的文字指令。土拨鼠的表情专注温和,精准实现了拟人化特性的表达。

图片

据了解,基于可图 1.5 模型的参考图 / 垫图功能正在快速赶来的路上,我们可以先期待一下。

「AI 模特」+「尾帧生成」
广告片制作已经不需要真人了

基于可图大模型在人物生成方面的能力提升,一项极具应用潜力的新功能应运而生:AI 模特。

我们都知道,在传统的广告片生产流程中,通常包含场景布置、拍摄执行、后期调整等工作,演员、设备、场地、道具、后期都需要一定的预算,且需要聘请专业团队协作完成。

现在,打开可灵 AI 网站,任何用户都可以通过文本描述,一键生成高质量的 AI 模特图像。并且,这种生成结果的视觉表现力完全是专业级的:精致真实的五官细节、自然的姿态、清晰的服装质感。

图片

当然,如果用户生成素材的目的是用来展示商品,上图的 AI 模特可以无缝衔接 AI 换装功能,一键完成服装更换和搭配展示。

图片

图片

同时,基于可灵 1.6 的图生视频能力,即可生成自然、真实的动态服装展示视频,让商品展示更具感染力与真实感。

脑洞一下,以后的广告片可能只需要拍摄商品图,甚至不需要再聘请真人模特,也不需要搭建任何场景了。

商业广告场景之外,这种让任意静态图动起来的一站式方案,还可以加速影视作品制作:


目前在可灵 1.5 模型高品质模式中,还支持仅使用尾帧完成图生视频,比如向前生成 5s/10s 的视频,非常适合生成商品展示、酷炫入场动效、远景到近景等场景。

Prompt:一幅图像从空白的白纸过渡到超流畅的无缝水墨笔触,逐渐流畅,像宣纸上的水一样融合在一起。笔触柔和自然,图像有机地形成,每个元素都在连续、优雅的过渡中展现出来。

图片
 

AI 技术落地的应用场景往往是具体的,但产生的价值却是非常宏伟的。对于普通人来说,技术能够帮助他们跨越专业领域原本存在的一些门槛,以更低的成本和更高的效率接近目标。

这让我们想到一位业内人士关于《AGI 实现前夜》的思考:「我们目前的许多工作很快就会自动化,我们必须适应。如果你从一项特定的技能中获得意义,这项技能可能在 5 年后就不再需要了。但如果你能从力所能及的帮助世界中获得意义,那么这种意义永远不会消失。」

疯狂的 2024
可灵 AI 的进化之路

在 2024 年的末尾回顾可灵 AI 这一年的发展历程,一定会让关注国产大模型的用户们百感交集。

作为国内顶尖的 AI 创意生产力平台,自今年 6 月发布以来,可灵 AI 至今已服务超过 600 万用户,生成 1.75 亿张图片和 6500 万个视频。

在文生图上,不断迭代「可图」已成为行业内顶尖的模型之一。得益于在文本表征方面的创新,以及图像数据对齐的大量工作,可图可以画出摄像级的画面质感,经过强化学习的训练,审美也和人类的普遍标准实现了对齐,并推出了「AI 试衣」、「AI 模特」等实用功能。

在视频生成上,「可灵 AI」成为全球首个用户可用的真实影像级视频生成大模型,继 Sora 之后,宣告了全球视频生成领域的新一轮竞争开启。不管是在画质质量、动态质量、美学表现、运动合理性和语义理解层面的表现,还是「文生视频」、「图生视频」、「视频续写」、「运动笔刷」等功能的陆续发布,都吸引了海内外用户的持续关注。

有人直呼:「Kling is killing!」这并非溢美之词,今年来,海外社区的确在经历一场中国 AI 飞速发展带来的震撼。

图片

在即将到来的 2025 年,你对国产 AI 以及可灵 AI 有怎样的期许呢?欢迎在评论区讨论。