PixVerse V5.5 的震撼,做 AI 视频的人都知道这次更新的可贵之处

PixVerse 的 V5.5 模型正式发布了。太强了,它是国内第一个拥有 Sora2 这样分镜能力的模型,而且同时支持多镜头和音频原生直出。

做 AI 视频的人,都知道这个特性的珍贵之处。

1

没记错的话,PixVerse V5.5 是周一傍晚发布的。当晚我们第一时间就开始玩了,之所以没发文章,主要是案例没做完。

我的感觉是到现在的时间点,测评模型,我真的不想弄几个简单的提示词,然后放下视频效果。

这东西都不用说你,我自己也已经免疫。没趣。因为拿一组提示词,测试出来的视频效果,一方面随机性很强。另外一方面,它只是一个 Demo。

不放到真实的场景中,在模型同质化的今天,其实很难评估出来谁强谁弱,谁适合自己。

所以,我对自己的要求是,绝对不是走马观花的介绍,因为这事对于我也没什么意义。

我们公司今年在探索 AI 视频的业务,我的原则是,我们团队去测每一个模型,但不是简单的测试,而是要用它做出来一个相对完整的作品。这样,也不会白费功夫。

先跟大家说一下 V5.5 这次让我觉得很惊艳的地方。

核心还是进一步降低了视频创作的门槛。今年所有的视频模型,其实都是朝着这个方向发展的。

无论是提升质量,还是加音频、分镜,本质都是让用户可以更快的拿到心满意足的成品,而不是一次次的在失望的抽卡当中浪费时间。

Sora2 之前的 AI 视频模型,本质就是把图片转成一段动作连贯、画面清晰、符合物理规律的视频。正好年底了,大家可以想想,这是不是今年视频模型发展的主线。

后来,随着 Veo3 和 Sora 2 的到来,视频模型跨越到了音频和分镜阶段。

而这次,PixVerse  V5.5 也正式同时支持音频和多镜头配置,这意味着我们不仅可以控制视频的镜头语言,还能直接为视频加上配乐、台词和音效。

这么说不直观,大家看看下面我们抽的这段视频:

过去,肯定也能做出来类似的效果,只是非常复杂。

像今年七月,我们团队做另外一个作品时,想切分镜,那就只能抽出来不同的图片,转为视频之后再剪辑。剪辑好视频再配音。总之,能搞定,就是特别熬人。

举个例子,之前有个网红叫东北雨姐,她虽然后来被封掉了,但短视频行业还是非常认可他们团队的短视频能力。

在分镜设计上,东北雨姐的视频,每个动作时长都不会超过 2.08 秒。大概两秒切一条画面。

你想想,如果 AI 视频不支持分镜的话,也就意味着我们想做出来同样效果的视频,需要不断的生成图片,生成视频,再剪辑。效率极低。

2

PixVerse 的模型是自研的,很多人不知道。这家公司其实也是近两年 AI Video 领域的黑马。

之前他们公布过数据,全球的用户规模已经超过了一个亿。这个体量真不小了。

在国内,PixVerse 的名字叫拍我 AI。

我看到官方 V5.5 的公众号文章里,有句话是:让每个人都能做导演。这个表达我感觉很准确。

图片

过去几个月,我们团队提到最多的词就是导演思维。因为当视频模型成熟到一定地步时,决定片子质量的,就是创作者对故事、画面的驾驭能力。放到电影行业中,这属于电影导演的工作。

我试着解释下。

导演思维其实就是从整体上把握故事的表达。

它不单是拍摄技巧,更重要的是通过镜头切换、画面构图、背景音乐,甚至人物的表情变化,来传递情感和推动故事的发展。

导演就是通过这些元素,让观众感受到的是完整的情感流动,而不仅仅是单独的画面。

比如在看电影时,我们不仅仅关注演员演得如何,更重要的是感受导演如何通过镜头、光影、音乐等手段把每个场景的情绪传达出来。

镜头的切换可以让我们感受到人物心理的变化,音乐的起伏则能让我们更好地融入情节。

之前的 AI 视频制作,创作者需要自己去思考每一帧的构图、镜头切换、音乐搭配,甚至台词和情绪的调动。

而现在,有了 V5.5 之后,AI 会帮我们搞定这些复杂的决策过程。

它能够根据用户给出的提示词,理解场景中的情感需求,自动设计出合理的画面、镜头切换、音效和台词等元素,并让它们结合到一起,从而达成一个完整的叙事效果。

也就是说,用户不需要掌握专业的导演技巧,只要给出大致的方向,V5.5 就能像一个导演一样,规划出符合需求的视频内容。

这确实是一次质的提升。我估计,明年 AI 视频模型,都会朝着这个方向深耕细作了。

3

忍不住了。我觉得我该放我们团队的视频作品了。下面这全是我们用拍我 AI V5.5 做的。

为什么要做这事?因为今年大概年中的时候,我做过一期《木兰辞》的 AI 视频。当时预期不高,做完之后,放到社交媒体没再管。

但后来,断断续续总有人私信问我们要原视频素材,甚至还有人想付费购买。问了下才知道,很多老师、家长有这个需求。

因为古诗词是孩子们上学时候必须的知识。但诗词,我们都熟悉,它是通过寥寥几个词语来勾勒出来一幅丰满的画面。

对于涉世不深的学生,尤其是小学生来说,理解诗词的深意确实不容易。因为这些内容往往是抽象的,需要一定的想象力和感知力。

然而,如果 AI 能够帮助孩子将这些诗词中的画面生动地呈现出来,那就能大大降低理解的难度。

所以我们这期继续做这个方向。我选择的题材是杜甫的《闻官军收河南河北》。恰好歌手周云蓬唱过这首诗,我就直接给他的歌曲配画面了。

话说,这个方向我们团队也在摸索。有兴趣的同学,咱们一起交流。

4

怎么做呢?我下面给大家看看,用拍我 AI 的新模型,做出来一个叙事型的短片,到底有多简单。

先打开拍我 AI 的网站:

https://pai.video/

点左侧的视频 Tab,可以看到 V5.5 模型已经来了。下面两个选项,音频和多镜头就是我们前面提到的新能力,大家生成视频的时候,记得要打开。

图片

我相信大部分人生成视频的工作流仍旧是先做图片,再转视频。因为这样人物、场景的一致性问题才能得到解决。所以,图片的能力也非常重要。

我看了下,拍我 AI 的图片部分,目前支持 Qwen-image、Nano Banana Pro、Seedream 4.0,这也是目前行业里的头部图片模型了。

图片

做好诗词配图的前提是理解诗词。

我看到很多人的工作流是直接把诗词扔给 AI,让他来生成剧本。我觉得这不对。第一步应该是理解这首诗的时代背景,以及作者在这个大背景里的人生状态。

如果这些地方搞错了,那后面再精美的视频也会走偏。

所以,第一步,我们先理解这首诗。可以借助 AI 去理解,但我们作为导演,肯定不能把理解这件事让渡给 AI,要不然我们就失去了创作的核心。

AI 虽然可以帮助我们更快地呈现图像和场景,但它无法真正代替我们对作品的深刻理解和情感的把握。

在自己能够理解了诗词之后,我们进入到剧本创作阶段。剧本创作,当然是要借助 AI 了。给大家分享一个我的提示词:

为这首杜甫的诗《闻官军收河南河北》写一个国漫 2D 平涂风格的叙事视频剧本。要求:

1、分镜头数量不少于 16 个

2、剧本中分镜头的时长统一为 5 秒

3、每个分镜头中切镜的种类丰富,诸如同一画面的不同角度,比如正反打等。

4、设计的分镜头要附上这个画面的图片生成提示词和视频生成提示词,每个视频提示词中人物动作和镜头切换要非常详细,最好是强提示词。

5、根据这首诗的意境和创作背景来生成剧本,不要随意发挥。

图片

AI 生成的初稿,肯定多少和我们预期不一样。比如提示词,我们希望是英文,那就继续追加指令就好。这部分我不再啰嗦了。

总之,借助 AI,我们可以生成一个尚可的剧本出来,我们再在此基础上修改、优化就好了。相当于 AI 帮我们完成了从 0 到 1 的那一步。

到下一步就该基于提示词生成图片了。

我先生成了杜甫和他妻子的形象,为了后面保持人物一致性用。然后用生成出来的杜甫形象,输入提示词,生成出“剑外忽传收蓟北”的其中一张图片。

提示词:

国漫 2D 平涂风格,清晨薄雾。古代信使骑马高速靠近,衣甲破损但简化处理,动作急促。杜甫站在画面侧前方,披着略旧的青灰长袍,表情惊愕。背景为简单的乡路轮廓与淡远山线。线条干净、明暗平涂、光影轻微。

图片

生成出来的效果如下:

图片

继续用生成出来的杜甫形象,输入提示词,生成出“初闻涕泪满衣裳”的其中一张图片。

提示词:

国漫 2D 平涂风格,特写。草堂室内,杜甫双手展开战报,眼中泪光闪烁。军报字体简化。背景虚化为单色浅调,不描绘复杂背景。情绪强烈。背景为简简单单的草堂线条。光影柔和。

生成出来的效果如下:

图片

然后用这张图片做视频,输入提示词:

Camera Movement:

极近距离特写,卷轴缓缓展开(军报字体简化)

切到杜甫眼部特写,眼角泪水快速积聚

慢慢 push-in 到眼泪滑落

轻微抖动镜头表现情绪波动

Shot Type:

Extreme close-up → eye close-up → emotional push-in

Character Action:

杜甫双手略微颤抖

眼睛快速湿润,泪水滑落沾湿衣襟

呼吸短促,胸腔轻微起伏

Emotion:

情绪爆发但抑制,喜极而泣

Lighting:

柔光直打脸部,无复杂阴影

眼泪以平涂高光表现,不加复杂反射

图片

生成出来的效果如下:

接下来,就是按照这个流程,生成对应画面的图片,然后再把图片转为视频。我不再一一介绍。

这么说吧,随着模型的进步,生成画面的门槛已经不高了,但毕竟 AI 视频还需要抽卡,所以我感觉它对人的耐心要求还是很高。起心动念想做一个成品视频前,先告诉自己:要有耐心。

V5.5 这个模型整体真的很强,能节省我们不少精力。

5

至此,我觉得可以算得上是一个相对完整的教程了。

V5.5 这次的提升让我非常期待 V6.0 模型。如果分镜和音频能力再进一步的话,我们的创作效率会大幅提升。

说实话,这次 V5.5 模型也不错了,但仍然需要我们反复抽卡,需要我们对提示词还是有一定的驾驭能力,不过,我觉得这些问题在未来几个月内,会进一步得到解决。

说点感性的话。

这两天我们团队在准备 AI Maker Summit,下周就要开幕。我给参会者写了一封信,其中有句话:

我喜欢 Maker 这个词。AI 已经充分释放了我们的创造力,所以,Make Something,Build Something。失败就失败了,怕什么。最主要的是不能眼巴巴看着时代从眼前呼啸而过。

这是我内心的真实想法。