你还说这是AI？我们体验了一波生成亚洲人最好看的文生图大模型

机器之心

2024-12-29 13:16发布于北京机器之心官方账号

机器之心报道

作者：蛋酱

这几天，打开社交媒体平台，很多人正在热烈讨论一个叫做「AI 模特」的玩法。

点开几个 Demo，确实惊艳。下方视频是一位海外网友自制的穿搭合辑，你能分得清这是 AI 还是真人吗？

来源：https://x.com/mad_mask/status/1872522970050253178

一般来说，都是先有真人模特照片，用 AI 换装也不新鲜。但这个平台能一站式完成模特主体、换装、展示视频的生成：

上述作品，都来自刚刚重磅更新的可灵 AI。

在 2024 年的尾声，可灵 AI 给所有用户送上了新年大礼包：全新的「可图 1.5」和「可灵 1.6」，目前已全量上线。

可图 1.5 带来了更丰富的场景层次、更自然的画面细节和更真实人像生成。就说下方这两张人像，你能确定哪个是实拍、哪个是可图生成的吗？

答案揭晓：左图为可图大模型生成，右图为真人实拍。AI 生成的水准，完全达到了以假乱真的程度。

基于可图大模型能力的更新，「AI 模特」功能也正式上线。

Prompt：美丽的印度人，明亮面部，柔和光线，白色吊带露出腰部，白色喇叭阔腿长裤，赤脚，，双手自然深插裤袋，下巴微抬，目光平视镜头，表情冷静自信，浅灰色背景，全身构图，街拍风格

让这位 AI 模特换上指定款式的服装，再使用一下可灵图生视频功能，一条精美的服装展示视频这不就有了吗？

看到这里，感到震惊的不只是普通用户，电商和广告领域的从业者一定也陷入了沉思……

是的，我们都知道 AI 会成为推进社会生产力的重要一环，只是没想到这场变革来得这么快，而且这么彻底。

如果你想上手尝试，测评地址在这里：https://klingai.kuaishou.com/

可图 1.5 上线

我们真的分不清 AI 与实拍了

从 2022 年的 Stable Diffusion 开始，过去两年的文生图领域是飞速发展的。不管是技术还是应用层面，都出现多次爆发式的增长。在这个过程中，众多科技公司都推出了文生图应用，并在「卷」的过程中将这一领域推向新的高度，包括 Midjourney、Stability AI，快手的「可图」也是其中一支重要力量。

当下的文生图产品已经非常优秀，在很多生成任务的表现上近乎无可挑剔。剩下的难点主要集中于一些具体应用场景，比如对人像真实度、画面细节丰富度等维度的把控。

这次，新上线的可图 1.5 就着重从这两点入手。

一方面，可图 1.5 生成的画面美感显著提升，构图与光影更加协调，人像美观度大幅提升，呈现出更高级的美学效果。

有网友尝试用可图 1.5 生成古风摄影，原图直出就是惊艳的程度，人物一致性保持得也很好：

作为尊贵的年卡黄金会员，机器之心也对可图 1.5 模型进行了一场全面测评。

我们发现，可图 1.5 对亚洲人的人像生成更加擅长，相比之下，ChatGPT 给出的结果就不那么如人意了。

Prompt：高级时尚肖像，柔和魅力打光，亚洲女模特，飘逸黑色长发搭配空气刘海，身穿浅蓝色衬衫式连衣裙，薰衣草花田背景，专业美妆摄影

作为更适合中国用户体质的文生图应用，可图 1.5 生成的人像发丝根根分明，前额刘海的空气感很强，五官和脸型也更符合我们对亚洲女孩的认知。

将这张图片一键输入「图生视频」，静态人物鲜活了起来：

Prompt：美女微微一笑，拨动了头发，动人心弦。

另一方面，可图 1.5 生成的画面质量显著提升。增强了画面细节表现，色彩还原更加自然，层次感更加丰富。如下图所示：

Prompt：长发女孩站在高处眺望城市全景，浅色上衣，远处是山脉和城镇以及中国传统风格的建筑群，屋顶整齐排列，延伸到远方，背景是蓝天白云，云朵层次分明，阳光明媚，两侧被青翠的山脉环绕，与城市形成鲜明对比，色调柔和，动画风格，宁静的氛围。

Prompt：生成一幅带有 “merry christmas” 的电影海报，创意独一无二的想象力，卡通风格，圣诞老人，礼物，大师作品，获奖作品。

可以看到，可图 1.5 为海报设置了前景（圣诞老人）、中景（圣诞树屋）、远景（远山和夜空）三个层次，由近处的暖色逐渐过渡到远处的冷色，明暗对比强烈，制造出真实的深度感，并运用定向光源的元素为画面增加了立体感。

Prompt：土拨鼠拟人化，阳光透过厨房的窗户，光线通过空气中的面粉产生丁达尔效应，耶稣光，一只穿着蓝色围裙的土拨鼠妈妈在白色色调的厨房里蒸馒头，案板上放着已经整形好的馒头，两只可爱的小土拨鼠在旁边玩耍，身上沾满了面粉，精致线条，温暖的阳光，虚幻引擎渲染，8K 电影效果，真实的光影效果。

一般来说，动物毛发和面粉状态会是生成难点。在这幅画中，土拨鼠的毛发纹理非常逼真，具有明显的柔软感和立体感，且毛发受光部位明亮，背光部分暗淡，细节清晰可见。案板上面团的质感细腻，表面略微反光，也体现出湿润柔软的特性。面粉漂浮在空气中的动态效果增加了画面的活力，严格遵循了丁达尔效应的文字指令。土拨鼠的表情专注温和，精准实现了拟人化特性的表达。

据了解，基于可图 1.5 模型的参考图 / 垫图功能正在快速赶来的路上，我们可以先期待一下。

「AI 模特」+「尾帧生成」

广告片制作已经不需要真人了

基于可图大模型在人物生成方面的能力提升，一项极具应用潜力的新功能应运而生：AI 模特。

我们都知道，在传统的广告片生产流程中，通常包含场景布置、拍摄执行、后期调整等工作，演员、设备、场地、道具、后期都需要一定的预算，且需要聘请专业团队协作完成。

现在，打开可灵 AI 网站，任何用户都可以通过文本描述，一键生成高质量的 AI 模特图像。并且，这种生成结果的视觉表现力完全是专业级的：精致真实的五官细节、自然的姿态、清晰的服装质感。

当然，如果用户生成素材的目的是用来展示商品，上图的 AI 模特可以无缝衔接 AI 换装功能，一键完成服装更换和搭配展示。

同时，基于可灵 1.6 的图生视频能力，即可生成自然、真实的动态服装展示视频，让商品展示更具感染力与真实感。

脑洞一下，以后的广告片可能只需要拍摄商品图，甚至不需要再聘请真人模特，也不需要搭建任何场景了。

商业广告场景之外，这种让任意静态图动起来的一站式方案，还可以加速影视作品制作：

目前在可灵 1.5 模型高品质模式中，还支持仅使用尾帧完成图生视频，比如向前生成 5s/10s 的视频，非常适合生成商品展示、酷炫入场动效、远景到近景等场景。

Prompt：一幅图像从空白的白纸过渡到超流畅的无缝水墨笔触，逐渐流畅，像宣纸上的水一样融合在一起。笔触柔和自然，图像有机地形成，每个元素都在连续、优雅的过渡中展现出来。

AI 技术落地的应用场景往往是具体的，但产生的价值却是非常宏伟的。对于普通人来说，技术能够帮助他们跨越专业领域原本存在的一些门槛，以更低的成本和更高的效率接近目标。

这让我们想到一位业内人士关于《AGI 实现前夜》的思考：「我们目前的许多工作很快就会自动化，我们必须适应。如果你从一项特定的技能中获得意义，这项技能可能在 5 年后就不再需要了。但如果你能从力所能及的帮助世界中获得意义，那么这种意义永远不会消失。」

疯狂的 2024

可灵 AI 的进化之路

在 2024 年的末尾回顾可灵 AI 这一年的发展历程，一定会让关注国产大模型的用户们百感交集。

作为国内顶尖的 AI 创意生产力平台，自今年 6 月发布以来，可灵 AI 至今已服务超过 600 万用户，生成 1.75 亿张图片和 6500 万个视频。

在文生图上，不断迭代「可图」已成为行业内顶尖的模型之一。得益于在文本表征方面的创新，以及图像数据对齐的大量工作，可图可以画出摄像级的画面质感，经过强化学习的训练，审美也和人类的普遍标准实现了对齐，并推出了「AI 试衣」、「AI 模特」等实用功能。

在视频生成上，「可灵 AI」成为全球首个用户可用的真实影像级视频生成大模型，继 Sora 之后，宣告了全球视频生成领域的新一轮竞争开启。不管是在画质质量、动态质量、美学表现、运动合理性和语义理解层面的表现，还是「文生视频」、「图生视频」、「视频续写」、「运动笔刷」等功能的陆续发布，都吸引了海内外用户的持续关注。

有人直呼：「Kling is killing！」这并非溢美之词，今年来，海外社区的确在经历一场中国 AI 飞速发展带来的震撼。

在即将到来的 2025 年，你对国产 AI 以及可灵 AI 有怎样的期许呢？欢迎在评论区讨论。

查看原图 197K