谷歌发布视频模型Veo 2,性能第一,网友实测吊打Sora

全文1224字,阅读约需4分钟,帮我划重点

划重点

01谷歌发布了视频生成模型Voe的下一个版本Voe 2,提升了真实感和保真度,精确捕捉运动。

02Voe 2提供了更多的相机控制选项,如镜头缓慢推进、摄像机追逐车辆等。

03在实际测试中,Voe 2在Meta发布的基准数据集MovieGenBench上表现优秀,接近或超过50%的占优情况。

04然而,Voe 2目前仍在内测阶段,只能在VideoFX上排队申请。

05与此同时,其他顶尖模型如Sora、海螺和可灵在特定方面表现出色,但与Voe 2相比仍有一定差距。

以上内容由腾讯混元大模型生成,仅供参考

《AI未来指北》特约作者 郝博阳

编辑 郑可君

在OpenAI发布会还在产品雕花的时候,谷歌继续努力更新基础模型。半个月前是3D场景生成基础模型、一周前是大杀四方的Gemini 2,而今天则是视频生成模型。

北京时间12月17日,谷歌发布了其文生视频模型Veo的下一个版本 Veo 2。此次升级距离谷歌在今年5月的 I / O大会上首次宣布Veo已经过去7个月。

但Veo仅在十几天前的12月3日才登上Axtrix,在这之前,用户只能利用VideoFX中的实验工具小规模试用这一视频生成软件。

这一版本主要带来三个核心升级。首先是真实感和保真度大为增加,它支持对长度为8s、清晰度为4K视频的输出,并在细节、真实性和伪影减少方面提升巨大。

其次,Veo 以其对物理学的理解及遵循详细指令的能力,能够高度精确地捕捉运动。这正是前几日Sora 频频翻车的点。

第三,Veo 2还提供了更多的相机控制选项,你可以输入诸如“镜头缓慢推进她的面庞”、“摄像机在追逐车辆的过程中趋于稳定”、“极近的特写镜头”来去描述你需要的镜头模式。

图片

当然,从目前谷歌给出的范例来看,Veo 2 对物理世界的理解确实达到了相当的高度,尤其是人类乃至昆虫的动作表现,这些动作与世界交互的自然感都很强。比如这只用喙捕猎的火烈鸟,它激起的水花就不像Sora前两天演示时那种火山爆发般的夸张。

图片

在实际的测试中,Veo也得到了SOTA的水平。谷歌选取了其他包括Sora在内的顶尖模型,在 Meta 发布的基准数据集 MovieGenBench 上比拼了 1003 条提示及其对应视频。

从整体表现上看,Veo占优的情况都接近或超过了50%,不占劣势的情况则能达到70%左右。

图片

比较有趣的是,Sora Turbo在谷歌测试的所有模型中居然是表现最差的,而表现最好的是可灵1.5。

图片

在指令遵循上,Veo表现也达到了SOTA,其他各个模型也和整体表现排名差异不大。

在报告中,谷歌承认了自己的模型也有短板。在复杂场景或复杂运动中保持完全的一致性仍然没法被突破。在他们自己给出的范例中,依然会出现凭空出现的人物。在运动中,人也可能依然出现那种不自然的“AI扭曲”。

图片

在推特上,已经有一些网友做了测试。表明Veo2的镜头控制和运动能力所言不虚。在提示词为“一个人坐在咖啡馆里喝咖啡的视频。过了一会儿,镜头切换到另一个视角,显示旁边桌的人正在给他们写信。”的情况下,Veo 2可以很好的完成导演叙事的镜头切换,写作的动作也非常自然。

图片

而将同一个提示词给到Sora ,它首先无法实现镜头切换,对于提示词中两个人对坐也未跟随,画面中只有一个人。手部写作动作也有点像是悬空画笔。

图片

之后我们还测试了其他的顶尖模型。比如海螺,它无法实现镜头切换,但用变焦实现了部分镜头切换的逻辑,空间和两个人物的关系也符合提示词。

图片

混元的影视氛围感直接拉满,也完成了切镜。但视频中两人的关系交代没有那么清晰。

图片

可灵确实是表现最好的一个,切镜、两人的关系都把握住了。除了审美和细节上不如Veo 2外,其它部分都近乎完美。

图片

在另一个测试中,用同样的提示词

图片

这是Veo 2的结果

图片

这是Sora的结果

图片

就算Veo2的输出是有瑕疵的,但Sora这个迟缓、空荡的场景已经输太多了。

至于其他模型,可灵输出的场景感不错,但弄臣的现实非常刻意,从空间关系上看也不太可能,其中还有很多残影。

图片

而海螺则是在提示词遵循上仅次于Veo2,只是没有满足“镜头从女王背后取景”这点。但细节还原就较Veo 2差不少了。

图片

看了这么半天,谷歌评测中说的Sora最差不无道理。

2025年还没开始,OpenAI的王冠看起来就有点不稳了。怪不得连微软CEO最近在采访中都豪言“没有OpenAI,我们也能开发出最一流的模型。”

看来,在这场AI战争中,还有的是逆转的好戏。

不过谷歌这回还是没改画饼的毛病。Veo2 现在依然在内测阶段,只能在VideoFX上排队申请。希望它在25年全量和新产品发布的速度都能提起来。把画饼大师的定位让给OpenAI。毕竟Sora花了9个月才发出来,也和过去的谷歌不相上下了。