机器之心原创
编辑:杨文
6个月迭代10余次,快手可灵一路狂飙。
这次,轮到名导们下场整活了。
短片一开场就相当震撼:钟馗手持一把斩鬼剑,穿行在一片乌漆麻黑、虬枝盘曲的密林中。
伴随着一阵节奏急促的锣鼓声,野兔精、蛤蟆精、长满骷髅的树妖接连现身,紧张恐怖的气氛拉满。
但一声长喝下,镜头一转,手机屏幕弹出「勿扰模式」四个大字,底下滚动着被拦截的各种信息:
自动记账 APP、多人视频会议、4 个未知号码来电、183 条微信群消息、风险网站的跳转链接,以及大 boss 正在打来的电话……
最后画面缓缓打出「休假期间,百鬼勿扰」的字幕。本以为是个中式志怪片,没想到原来是个职场吐槽片。
更让人惊喜的是,这部由俞白眉导演打造的 5 分钟短片,竟完全出自可灵 AI 之手。
早在三个月前,快手可灵 AI 就联合李少红、贾樟柯、叶锦添、薛晓路、俞白眉、董润年、张吃鱼、王子川、王卯卯等 9 位知名导演共同发起了「可灵 AI 导演共创计划」,制作出品 9 部 AIGC 电影短片。
12 月 6 日,导演们来交作业了。
自嘲用普通话不会写剧本的贾樟柯,在自己首部 AIGC 电影短片《麦收》中,借助可灵 AI 的「对口型」功能,让机器人说上了山西汾阳话。
《卧虎藏龙》艺术指导叶锦添则采用可灵 AI 的「首尾帧」功能,描绘了一个外星快递员在太空中的冒险旅程。通过 AI 技术,每一帧画面都逼真到让人仿佛置身于一个真实的太空世界。
导演王子川在其作品《雏菊》中,从计算机、机器人等现代科技产物与人的关系展开,大量使用可灵 AI 的「图生视频」功能,通过重复蒙太奇、高速剪辑以及特效镜头,为观众带来强烈的视听冲击。
在助力影视创作方面,可灵 AI 最有发言权。快手科技副总裁、大模型团队负责人张迪表示,「2024 年视觉生成领域 AI 大模型发展迅速,可灵 AI 自 6 月发布以来,已让众多用户感受到其在视频创作上的能力。」
此次这 9 部具有实验性质的电影短片,全部使用可灵 AI 进行视频生成。电影导演完全依托视频生成大模型,深度参与电影级内容创作,这在中国尚属首次。
作为中国首个 AIGC 导演共创计划的成果,这 9 部 AIGC 电影短片已在快手平台上线,并被中国电影博物馆永久收藏、放映展示。这既是对中国电影历史的一次致敬,也是对未来电影创作的一次大胆探索。
今年年初 Sora 一把火,彻底点燃了 AI 视频生成这个赛道。
6 月 6 日,快手率先推出自研的视频生成大模型「可灵AI」,成为全球首个用户可用的真实影像级视频生成大模型。
此后,可灵 AI 又接连上线了图生视频、视频续写、运动笔刷等功能,不仅在画面质量、指令遵从和运动幅度等方面有显著提升,还将生成视频时长延伸约 3 分钟,创作者单次生成的文生视频时长也增加至 10 秒。
尽管取得不错的战绩,但可灵 AI 并没有躺在功劳簿上吃老本,而是继续马不停蹄地推陈出新。
9 月 19 日,可灵 1.5 模型重磅登场,直接让画质质量、动态质量、美学表现、运动合理性以及语义理解提升了一个 level。
全球网友也开启疯狂整活模式,社交平台上涌现出一堆脑洞大开的鬼畜视频,比如蒙娜丽莎戴墨镜、熊猫弹吉他、猪八戒吃面条等。
在商业化方面,可灵 AI 同样走在行业前列。
可灵 AI 先后上线 Web 端、独立 App,打造多端跨平台产品矩阵,并全面开放内测,陆续向国内外的用户推出会员付费体系。此外,可灵 AI 还面向 B 端开放了 API 服务,涵盖视频生成、图像生成和虚拟试穿等多个模块。
为了给创作者提供商业变现新渠道,可灵 AI 于 10 月 18 日启动「未来合伙人计划」,率先推出一站式 AIGC 生态合作平台。
这半年来,可灵 AI 一路「狂飙」,十余次迭代升级,也让它有了稳站行业第一梯队的底气。截至 12 月 10 日,可灵 AI 已拥有超 600 万用户,累计生成超 6500 万个视频和超 1.75 亿张图片。
重塑影视行业
可灵 AI 又卷起来
近期,可灵 AI 趁热打铁,陆续推出 AI 人脸定制模型和 AI 试衣功能,为影视创作者提供了更强大的工具支持。
AI 定制模型
攻克「人物一致性」难题
在视频生成过程中,目前的视频大模型仍具有较强的随机性。它们在处理相同的文字描述时,往往会产生不同的视频主体,这种随机性难以维持故事的连贯性和人物形象的一致性。
对此,可灵 AI 推出了人脸定制模型。创作者只需上传 10 段 5 秒的多角度高清视频,就能自助训练一个人脸模型。如果想要效果更佳,最多可上传 99 段视频。
完成训练后,就可以在可灵 1.5 模型的文生视频中,生成人脸一致的视频结果,满足创作者生成多个包含同一人物镜头的诉求,而且单个镜头中的人脸,也会更稳定更清晰。
我们上手体验了一把,训练出 Sam Altman 的人脸模型,然后将其放置在各种场景中。
比如,Sam Altman 在餐厅吃意大利面:
Sam Altman 在餐厅吃水饺:
以及 Sam Altman 在车水马龙的大街上骑摩托:
还有科幻风格的,让 Altman 化身钢铁侠行走在赛博朋克风格的大街上:
由此可见,可灵 AI 的人脸定制模型在解决人物 IP 稳定性这一行业难题上迈出了新的一步,这也标志着 AI 视频生成领域实现了又一个重要技术突破。
AI 试衣
影视造型新探索
电影《穿普拉达的女王》中,有一幕经典的蒙太奇变装。安妮・海瑟薇在不到一分钟内,换了六身绝美穿搭,每套都堪称惊艳。
视频来源:电影《穿普拉达的女王》
那么 AI 能否实现影视制作中的服装搭配、造型设计呢?
可灵 AI 新近上线的「AI 试衣」功能就能搞定。它在可图文生图模型基础上,引入衣服 SKU 保持网络、人物 Pose 姿势、背景修复等技术,实现任意衣服、任意身材、任意动作的试穿效果生成。
用法也很简单。只需上传一张模特照和一套服装图,即可一秒变装,这无疑大大提高了影视制作中服装搭配和效果展示的效率。
比如,让安妮・海瑟薇换上一件旗袍,换装后的衣服不仅自然贴合身材曲线,还能根据风格搭配手包。
再比如,原本身着露肩衬衫外加牛仔短裤的霉霉,经过可灵 AI 一番改造,立马从休闲风变成淑女风,换装后的衣褶、打的结都生成得很自然。
给凤姐换上一件黑色皮夹克,在保持复杂头饰不变的情况下,它完美保留了毛领子、拉链等细节。
最绝的还是大魔王凯特・布兰切特的变装。前一秒还是酷飒的黑色紧身 T 恤,下一秒就换上一身白色玫瑰连衣裙。
它细致展示了裙子丝绸材质,就连玫瑰花的颜色、位置也都一一还原。
世界名画或雕像也能瞬间换装。让身着黑色长袍的蒙娜丽莎「套」上东北大花袄:
给兵马俑穿上圆领 polo 衫和灰色长裤:
此外,它还可以通过 AI 扩图和可灵 AI 的图生视频大模型,实现全流程素材生成。
比如皇后换上的灰色连帽卫衣,经过 AI 扩图变成一件宽松长袍。
再用镜头控制功能将其转成穿搭视频。
或者输入 Prompt「模特左右转身向观众展示身上的服装」,让换上皮草的黄仁勋动起来。
从文生视频、图生视频,到首尾帧功能,再到人脸模型、AI 换装…… 这些创新技术的连续推出,无一不彰显了快手对于未来影视行业发展趋势的深刻洞察。
开放共享
引领 AIGC 革新
作为 AI 视频生成赛道的佼佼者,快手可灵大模型团队在不断拓展技术边界的同时,还公开了一系列技术进展,积极和行业分享技术研发成果。
在 AI 视频生成领域,视频生成基础模型和数据是构建高质量视频内容生成系统的基石。为了啃下这块硬骨头,可灵团队进行了系统性研究,并率先提出一种给视频生成模型(Video DiT)量身定制的 Scaling Law 建模方法。
这种方法能够在较低的计算成本下,提前预测大规模模型的性能表现,帮助研究者优化技术选择,调整模型参数,从而大幅降低实验试错成本。
论文题目:《Towards Precise Scaling Laws for Video Diffusion Transformers》 论文地址:https://arxiv.org/pdf/2411.17470
另外,可灵大模型团队还公开了其视频训练数据的部分核心预处理流程,并基于此流程推出了高质量视频生成数据集 Koala-36M。
该数据集是目前全球领先的大规模高质量视频 - 文本数据集之一,包含 3600 万个视频片段,平均时长为 13.75 秒,分辨率达到 720p,每个视频片段配有平均 202 字的详细描述。
数据处理流程
论文题目:《Koala-36M: A Large-scale Video Dataset Improving Consistency Between Fine-Grained Conditions And Video Content》
论文地址:https://arxiv.org/abs/2410.08260
代码地址:https://github.com/KwaiVGI/Koala-36M
项目主页:https://koala36m.github.io/
数据集链接:https://huggingface.co/datasets/Koala-36M/Koala-36M-v1
在与其他数据集的比较中,基于 Koala-36M 数据集训练的模型展现出了卓越的性能,无论是在视频质量还是文本与视频内容的一致性方面均达到了最优。
在视频生成的可控性和交互性方面,可灵团队也取得一系列的进展。
比如,发布了 3D 轨迹控制的视频生成项目 3DTrajMaster:
项目主页:http://fuxiao0719.github.io/projects/3dtrajmaster
多机位视频生成项目 SynCamMaster:
SynCamMaster 支持多种相机视角变化,例如改变相机方位角、俯仰角、距离远近等
项目主页:https://jianhongbai.github.io/SynCamMaster/
以及精准视频风格化项目 StyleMaster:
项目主页:https://zixuan-ye.github.io/stylemaster
这些项目不仅能够控制视频中主体的三维运动,还能根据用户的文本描述生成多视角视频,并支持任意艺术风格的视频风格转换。
此外,团队还开发了具有泛化能力的游戏视频生成器 GameFactory,能够使用户自定义角色动作,享受个性化的虚拟世界体验。
通过持续开放核心数据和技术组件,以及分享论文技术方案,可灵团队不仅为影视创作领域注入了新的动力,也为未来的创意表达和内容创作开辟了更多可能。
开启影视创作新时代
回顾百年影史,技术的革新始终是电影产业发展的关键驱动力。
从无声到有声,从黑白到彩色,从胶片到数字…… 每一次技术的飞跃,都促进电影艺术向更高的阶段迈进。
如今,随着 AI 技术的不断迭代和突破,以可灵 AI 为代表的视觉大模型及产品逐渐成为视觉行业的新基建和新工具,它们正以其独特的优势,重塑着影视行业的未来。
在传统电影拍摄中,导演天马行空的想法往往会受到物理条件和现实世界的约束,而 AI 则打破了这些界限,创造出任何导演想象中的场景,而这种创作自由度为电影叙事提供了无限可能。
王子川导演在与可灵 AI 的合作中就深刻体会到文生视频和图生视频技术对电影叙事方式的深远影响。「可灵 AI 可以把创作者的想象快速变成一个可视化的内容呈现出来,尽可能地模拟出你想要的每一个动态和整体的叙事节奏,包括所有的冲突、画面内部的调度等」。
在他看来,技术不仅仅是工具,也是叙事艺术的新维度,为电影叙事提供了一种全新的语言。
另一方面,AI 极大地优化了电影产业成本效率。
曾经,拍电影是一件奢侈的事情。就以影史上烧钱巨作《阿凡达:水之道》为例,其制作成本超过 4.5 亿美元。按 193 分钟的片长来算,每分钟制作费就高达 233 万美元。如此一掷千金,即使是财大气粗的好莱坞也一度吃不消。
相比之下,AI 生成电影能够在虚拟环境中完成大部分工作,大幅降低了成本。同时,AI 的高效率使得电影制作周期大大缩短,这对于追求快速回报的电影产业来说,无疑是一个巨大的优势。
当然,目前的 AI 视频生成技术仍处于发展阶段,在模拟人类情感的微妙变化、创造深度叙事结构以及捕捉现实世界中不可预测的偶然性方面仍存在不足。