回到生成效果上,输出效果非常非常快,可以说是目前最快的。描述词:上千盏孔明灯飞在夜空中,方向自下而上这支视频里,方向理解对了,但是数量没理解到。默认的 4s 视频画质,实测比较糊,提升需要单独过一遍画质提升,但是效果不够明显,到不了高清。我们拿一条长指令,来自 Sora 当时效果出众的东京街头樱花雨,让 Vidu 做同题竞赛。
描述词:Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.同样的题目,我们又拿去给 Runway 用 Gen-2 跑了一遍。差距不算太大,而且可能是来自于数据集不同造成的。Vidu 给出的成品,很像一些电视新闻中的空景镜头。Runway 以及 Sora 的成品更像 Youtube 上风景视频里的色调、景别。这应该是各家使用的数据集有所区别。然后是另一个经典的 Sora 场景:走在夜晚街头的时髦墨镜女人 —— 这次,我们采用图生视频的方式。额……就……这题…… 压轴大题的程度啊,怎么 Runway 也做不好。就……除了背景,其它全都是 bug……但是!可灵!做到了!细节还是有问题,但起码没有大崩,不至于好端端的人,走着走着突然发疯了。Vidu 是动画特长生在尝试了一个简单的远景 prompt 之后,Vidu 的动画模式明显强出太多,很可能是特殊武器。