图生视频赛道,2024年的版本答案是?

图片

作者|参商

编辑|星奈

媒体|AI大模型工场

从首次发布到最终开放,OpenAI的Sora让望眼欲穿的用户们等了足足10个月。相较2月16日的初版,12月10日的Sora Turbo版本固然速度更快,功能更全,但不少网友测试后纷纷表示失望,有的更是喊话Sam,“还我200刀!”

网友们之所以对Sora没了往日的滤镜,不仅是因为Sora自身的不完美,也是因为有了太多的“中上位替代”。

譬如紧随其后一周发布的谷歌Veo2 模型,就被很多网友认为实现了全面赶超。曾经遥遥领先的OpenAI,如今也开始“跌落神坛”。

值得一提的是,谷歌内部也对市面上的模型,以盲测形式进行了一波跑分赛马。测试数据显示,除了自家Veo2,快手的可灵1.5表现最高。

图片

就在昨天,这个刚刚“谷歌认证”过的国产模型之光,又更新了最新的1.6版本,在此前测试的性能上又向前一步。

而在本轮更新之后,不少网友甚至表示,1.6的命名或太过保守,“2.0应该更为合适”。

至此,我们也可以说, 起码在 AI视频生成 这个细分赛道,国内AI厂商的头部地位再一次得到巩固。 

一、我们需要更“真实”的“图生视频”

到目前为止,市面上图生视频的效果,仍然是不够稳定的。 

用小红书、B站等流媒体软件搜索“AI超越人类”关键词,就能发现一系列真人模仿AI生成效果的视频。它们出现在流媒体上的唯一原因,就是因为AI生成视频的效果跟真实世界差别过大,导致产生了过于搞笑的节目效果。

图片

即便是公认干过Sora的veo2,在一些物理规律的细节上仍然逃不过AI博主的法眼。

在谷歌 Deepmind Veo 的联合负责人,X 博主 @shlomifruchter 发布的视频中,并不缺乏这样的案例。

他将几颗饱满的蓝莓丢进水中,蓝莓的上下浮动,水泡的生成、水花的溅起,看似都没问题,唯一不合理的地方,是十几颗蓝莓下去,水杯里的水位丝毫不见涨。

图片

再比如一颗大铁球砸进装满硬币的纸盒子,铁球自由落体的效果很真实,硬币炸出来的效果很真实,唯一的瑕疵点,在硬币被铁球砸得越来越多。

最新更新的可灵1.6,则是超越了过往同行的水平,更进一步去填补这类“瑕疵”——从最基础的语义理解,到生成物品的效果,再到人物表情,更接近现实世界的运转规律。

图片

以这个物理世界向的现实风格视频为例,这个场景从17世纪海盗船上的水手视角展示了摇晃的镜头画面。当海浪猛烈撞击木质船体时,地平线剧烈摇晃,难以分辨细节。突然,一只巨大的海妖戏剧性地从汹涌的大海中浮现出来。它巨大而滑溜的触手威胁性地伸出来,黏糊糊的附属物以可怕的力量缠绕着船。视角剧烈变化,水手们慌乱地四处奔逃以面对这只可怕的海洋生物。气氛紧张,在混乱中可以听到船的呻吟声和海洋的咆哮声。

图片

从生成效果来看 它首先实现了镜头的摇晃,同时以船边水手的越肩视角展开,随着海怪的出现和接近,地平线随着镜头不断摇晃。

可以看到,随着海怪的触角在海上拍打,浪花的变化是根据触手动作而不断变化的,而且跟船体的位置也有相应的对应关系变化,也和远处地平线的变化相互对应。

再比如这个茶壶倒水视频,从茶壶快速悬浮开始,快速旋转倾斜,茶水流入茶杯;相机快速拉近,聚焦茶杯内部,展现细腻水纹与倒茶瞬间。

可以看到,从画面的开始,就严格按照提示词的时序分布开始生成,中间还涉及到近景变焦和远景的虚化,烟雾和水纹二者的结合并没有产生冲突。

图片

这几样,能在视频里有机统一而不违和,就是我们所追求的文生视频的“真实感”。

再来看一组动物和自然的结合。我们输入“马在向前跑,溅起雪”的prompt,这里决定“真实感”的要素,则是马身上肌肉的运动、光照在运动中的变化。

可以看到,在画面中的几匹马,运动中的肌肉运动,和鬃毛随着马匹前进上下波动;马蹄扬起的雪花,则在阳光的照射下,呈现了接近丁达尔效应的演出效果,可以说非常真实了。

当然,能增进场景真实度的另一个指标,则是光照的真实性。这是一个很多号称“照片级画面”的游戏,都未能完全解决的问题。但在可灵1.6,这个问题目前的处理已经相当不错。

图片

在这个视频里,女人的手在阳光下拿起戒指,阴影随着手指的运动,不断在手心和桌子上同步变化,阴影面积也随之改变。 唯一美中不足的,则是主体手部之外,其他部位的阴影处理略显粗糙,但整体效果已经足够出众。 

二、与“欢乐豆效应”说拜拜

无论是社交媒体的“征服AI”系列视频。 还是此前图生视频模型对人物的生成,都在不同程度上反映了一个问题,即 此前的模型,在人物表现力、尤其是对人物表情的呈现,其实是存在一定程度困难的。 

而这些明显不符合物理规律的运动轨迹,放在生成的视频中,就会造成与真人相异的“不真实感”,所谓的“恐怖谷效应”,即社交网络中的“欢乐豆效应”,由此产生。

在刚刚更新的可灵1.6版本中,这是被重点解决的问题之一。

图片

譬如在这个视频里,以猫咪作为前景,放大镜里的女孩面部作为主体,随着放大画面的变动,女孩的面部也会随之产生细微的变化,比如放大镜里的头发丝、眼睛、以及拿开之后手指和床单的变化、前景中猫的动作变化等等。

把难度增加一些,将主要提示词更换成人物面部表情,在这个“女孩抬头冲镜子微笑”的视频里,前景的书和后景的墙,虚化恰到好处;女孩的面部表情也有阴影上的变化,且面部肌肉的运动,已经与真人一般无二。

而当生成对象进入动漫世界,所谓的“真实感”,则变成了色彩变化和光照变化的对应关系,以及形象的“还原度”。

图片

从这个《疯狂动物城》的视频可以看到,在视频生成的全程,两个主体并没有产生明显的畸变,维持了形象的统一性;其次,从兔子的角度,我们可以看到它面部光照,随着狐狸手部和身体移动的变化。

值得一提的是,当两个风格完全不同的IP互相融合,在提示词处理得当的前提下,也能获得非常好的效果。譬如博主@温维斯生成的皮卡丘&复仇者联盟系列视频,抛开皮卡丘毛皮材质、金属服装的质感等“基础操作”,可以看到的提升是其动作幅度和特效精细程度明显增加,最终二者融合的效果也非常不错。

动漫同样只是风格化视频的其中一个分野。如果完全架空进行创作,效果会如何?

在这个机械狼的生成视频里,一开始狼是躺着的。但是要实现站起来并不规律眨眼的效果,就需要模型自主进行补充和生成。可以看到,在最终生成的视频里,不仅画面仍然保持了精细程度,而且也很好模拟了狼作为动物的动感和机械的质感。

图片

能取得这些效果升级的前提,则是在最最基础的自然语言理解能力上,可灵已经基本消灭了幻觉带来的影响,能在用户的指挥下“指哪打哪”,这或许是这类模型在商业化落地层面,最重要也是最基础的前提。 

三、重新定义0.1

值得注意的是,前文提到的所有进步,其实相比“谷歌认证”的可灵1.5,只有0.1个版本号的区别。 

距离今年6月可灵AI问世,也仅仅过去了半年而已。在这180多天里,可灵累计迭代升级十几次,已积累了超过600万用户,累计生成视频超过6500万个,图片1.75亿张。

在此期间,快手大模型团队也在不断拓展技术边界。譬如给视频生成模型(Video DiT)量身定制的 Scaling Law 建模方法,以及精准视频风格化项目 StyleMaster等等。这些核心数据和技术组件,可灵AI也正在不断开放,为其实现更好的创意表达,及更自由的内容创作添砖加瓦。

智源研究院在12月19日发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。 评测结果显示,可灵1.5模型的文生视频能力也力压群雄排于榜首。

图片

视频生成大模型堪称目前最卷赛道,从OpenAI的Sora到可灵AI横空出世再到最近的谷歌Veo2,众多玩家的持续发力,一直不断推高技术的天花板,也让市场竞争更加激烈。

视频生成效果的不断突破,周期甚至从每月缩减到每周。 可灵 只把版本号往前推进了0.1,却带来了文本响应度、物理世界的真实感以及生成画面质量的越级提升,无法想象可灵 2.0 到来后,更强大的模型能力将带来什么变化? 或许将再次定义这一赛道的新高度。 

现在可灵AI官网 klingai.kuaishou.com已经全量上线1.6版本,有兴趣的小伙伴可以上手实验。