图生视频赛道，2024年的版本答案是？

AI大模型工场

2024-12-23 12:14发布于北京

作者｜参商

编辑｜星奈

媒体｜AI大模型工场

从首次发布到最终开放，OpenAI的Sora让望眼欲穿的用户们等了足足10个月。相较2月16日的初版，12月10日的Sora Turbo版本固然速度更快，功能更全，但不少网友测试后纷纷表示失望，有的更是喊话Sam，“还我200刀！”

网友们之所以对Sora没了往日的滤镜，不仅是因为Sora自身的不完美，也是因为有了太多的“中上位替代”。

譬如紧随其后一周发布的谷歌Veo2 模型，就被很多网友认为实现了全面赶超。曾经遥遥领先的OpenAI，如今也开始“跌落神坛”。

值得一提的是，谷歌内部也对市面上的模型，以盲测形式进行了一波跑分赛马。测试数据显示，除了自家Veo2，快手的可灵1.5表现最高。

就在昨天，这个刚刚“谷歌认证”过的国产模型之光，又更新了最新的1.6版本，在此前测试的性能上又向前一步。

而在本轮更新之后，不少网友甚至表示，1.6的命名或太过保守，“2.0应该更为合适”。

至此，我们也可以说，起码在 AI视频生成这个细分赛道，国内AI厂商的头部地位再一次得到巩固。

一、我们需要更“真实”的“图生视频”

到目前为止，市面上图生视频的效果，仍然是不够稳定的。

用小红书、B站等流媒体软件搜索“AI超越人类”关键词，就能发现一系列真人模仿AI生成效果的视频。它们出现在流媒体上的唯一原因，就是因为AI生成视频的效果跟真实世界差别过大，导致产生了过于搞笑的节目效果。

即便是公认干过Sora的veo2，在一些物理规律的细节上仍然逃不过AI博主的法眼。

在谷歌 Deepmind Veo 的联合负责人，X 博主 @shlomifruchter 发布的视频中，并不缺乏这样的案例。

他将几颗饱满的蓝莓丢进水中，蓝莓的上下浮动，水泡的生成、水花的溅起，看似都没问题，唯一不合理的地方，是十几颗蓝莓下去，水杯里的水位丝毫不见涨。

再比如一颗大铁球砸进装满硬币的纸盒子，铁球自由落体的效果很真实，硬币炸出来的效果很真实，唯一的瑕疵点，在硬币被铁球砸得越来越多。

最新更新的可灵1.6，则是超越了过往同行的水平，更进一步去填补这类“瑕疵”——从最基础的语义理解，到生成物品的效果，再到人物表情，更接近现实世界的运转规律。

以这个物理世界向的现实风格视频为例，这个场景从17世纪海盗船上的水手视角展示了摇晃的镜头画面。当海浪猛烈撞击木质船体时，地平线剧烈摇晃，难以分辨细节。突然，一只巨大的海妖戏剧性地从汹涌的大海中浮现出来。它巨大而滑溜的触手威胁性地伸出来，黏糊糊的附属物以可怕的力量缠绕着船。视角剧烈变化，水手们慌乱地四处奔逃以面对这只可怕的海洋生物。气氛紧张，在混乱中可以听到船的呻吟声和海洋的咆哮声。

从生成效果来看它首先实现了镜头的摇晃，同时以船边水手的越肩视角展开，随着海怪的出现和接近，地平线随着镜头不断摇晃。

可以看到，随着海怪的触角在海上拍打，浪花的变化是根据触手动作而不断变化的，而且跟船体的位置也有相应的对应关系变化，也和远处地平线的变化相互对应。

再比如这个茶壶倒水视频，从茶壶快速悬浮开始，快速旋转倾斜，茶水流入茶杯；相机快速拉近，聚焦茶杯内部，展现细腻水纹与倒茶瞬间。

可以看到，从画面的开始，就严格按照提示词的时序分布开始生成，中间还涉及到近景变焦和远景的虚化，烟雾和水纹二者的结合并没有产生冲突。

这几样，能在视频里有机统一而不违和，就是我们所追求的文生视频的“真实感”。

再来看一组动物和自然的结合。我们输入“马在向前跑，溅起雪”的prompt，这里决定“真实感”的要素，则是马身上肌肉的运动、光照在运动中的变化。

可以看到，在画面中的几匹马，运动中的肌肉运动，和鬃毛随着马匹前进上下波动；马蹄扬起的雪花，则在阳光的照射下，呈现了接近丁达尔效应的演出效果，可以说非常真实了。

当然，能增进场景真实度的另一个指标，则是光照的真实性。这是一个很多号称“照片级画面”的游戏，都未能完全解决的问题。但在可灵1.6，这个问题目前的处理已经相当不错。

在这个视频里，女人的手在阳光下拿起戒指，阴影随着手指的运动，不断在手心和桌子上同步变化，阴影面积也随之改变。唯一美中不足的，则是主体手部之外，其他部位的阴影处理略显粗糙，但整体效果已经足够出众。

二、与“欢乐豆效应”说拜拜

无论是社交媒体的“征服AI”系列视频。还是此前图生视频模型对人物的生成，都在不同程度上反映了一个问题，即此前的模型，在人物表现力、尤其是对人物表情的呈现，其实是存在一定程度困难的。

而这些明显不符合物理规律的运动轨迹，放在生成的视频中，就会造成与真人相异的“不真实感”，所谓的“恐怖谷效应”，即社交网络中的“欢乐豆效应”，由此产生。

在刚刚更新的可灵1.6版本中，这是被重点解决的问题之一。

譬如在这个视频里，以猫咪作为前景，放大镜里的女孩面部作为主体，随着放大画面的变动，女孩的面部也会随之产生细微的变化，比如放大镜里的头发丝、眼睛、以及拿开之后手指和床单的变化、前景中猫的动作变化等等。

把难度增加一些，将主要提示词更换成人物面部表情，在这个“女孩抬头冲镜子微笑”的视频里，前景的书和后景的墙，虚化恰到好处；女孩的面部表情也有阴影上的变化，且面部肌肉的运动，已经与真人一般无二。

而当生成对象进入动漫世界，所谓的“真实感”，则变成了色彩变化和光照变化的对应关系，以及形象的“还原度”。

从这个《疯狂动物城》的视频可以看到，在视频生成的全程，两个主体并没有产生明显的畸变，维持了形象的统一性；其次，从兔子的角度，我们可以看到它面部光照，随着狐狸手部和身体移动的变化。

值得一提的是，当两个风格完全不同的IP互相融合，在提示词处理得当的前提下，也能获得非常好的效果。譬如博主@温维斯生成的皮卡丘&复仇者联盟系列视频，抛开皮卡丘毛皮材质、金属服装的质感等“基础操作”，可以看到的提升是其动作幅度和特效精细程度明显增加，最终二者融合的效果也非常不错。

动漫同样只是风格化视频的其中一个分野。如果完全架空进行创作，效果会如何？

在这个机械狼的生成视频里，一开始狼是躺着的。但是要实现站起来并不规律眨眼的效果，就需要模型自主进行补充和生成。可以看到，在最终生成的视频里，不仅画面仍然保持了精细程度，而且也很好模拟了狼作为动物的动感和机械的质感。

能取得这些效果升级的前提，则是在最最基础的自然语言理解能力上，可灵已经基本消灭了幻觉带来的影响，能在用户的指挥下“指哪打哪”，这或许是这类模型在商业化落地层面，最重要也是最基础的前提。

三、重新定义0.1

值得注意的是，前文提到的所有进步，其实相比“谷歌认证”的可灵1.5，只有0.1个版本号的区别。

距离今年6月可灵AI问世，也仅仅过去了半年而已。在这180多天里，可灵累计迭代升级十几次，已积累了超过600万用户，累计生成视频超过6500万个，图片1.75亿张。

在此期间，快手大模型团队也在不断拓展技术边界。譬如给视频生成模型（Video DiT）量身定制的 Scaling Law 建模方法，以及精准视频风格化项目 StyleMaster等等。这些核心数据和技术组件，可灵AI也正在不断开放，为其实现更好的创意表达，及更自由的内容创作添砖加瓦。

智源研究院在12月19日发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。评测结果显示，可灵1.5模型的文生视频能力也力压群雄排于榜首。

视频生成大模型堪称目前最卷赛道，从OpenAI的Sora到可灵AI横空出世再到最近的谷歌Veo2，众多玩家的持续发力，一直不断推高技术的天花板，也让市场竞争更加激烈。

视频生成效果的不断突破，周期甚至从每月缩减到每周。可灵只把版本号往前推进了0.1，却带来了文本响应度、物理世界的真实感以及生成画面质量的越级提升，无法想象可灵 2.0 到来后，更强大的模型能力将带来什么变化？或许将再次定义这一赛道的新高度。

现在可灵AI官网 klingai.kuaishou.com已经全量上线1.6版本，有兴趣的小伙伴可以上手实验。

查看原图 110K