实测拍我AI V5.5:发现AI视频创作不需要复杂“工作流”了


大家有没有想过,为什么拍电影的时候,导演和摄影师非得是两个人?

图片

👦🏻 作者: 镜山

🥷 编辑: Koji

🧑‍🎨 排版: NCon


图片

大家有没有想过,为什么拍电影的时候,导演和摄影师得是两个人?


其实分工挺简单的:

摄影师负责「画面」:光打得对不对,画面糊不糊,主要负责审美和落地;

但导演负责的是「戏」:镜头该怎么走,情绪到哪了,故事怎么讲。


如果按这个标准看,过去这两年的 AI 视频,其实一直在做「摄影师」的任务:

它们的画面真实度越来越高,「史密斯吃面条」的效果越来越好,但能讲的故事没有变多。


但最近这波各个 AI 厂商的模型更新,有一个很微妙的变化:大家开始追求 AI 的「导演感」了。


这就是我们常说的「镜头意图」。

🚥

在这个节点上,爱诗科技正式发布了 拍我AI(PixVerse) V5.5 模型


在 3 个月拍我AI V5 突袭上线,我们在「拍我AI」上第一时间深度实测文章中,我们对 拍我AI V5 模型进行了 4 个维度的测试,发现这位国产「本科生」的迭代速度非常迅猛。


3 个月过去,这次 拍我AI V5.5 在底层模型上又带来了两个关键升级:Audio(音频) 与 Multi-shot(多镜头) ,试图解决的正是我们开头提到的那个痛点:让 AI 拥有「导演感」,自动去调度镜头和叙事。把繁琐的提示词、生图、抽卡、配音、配乐和剪辑,变成了只需把灵感描述清楚这么简单,极大地缩短了 AI 视频创意工作流,实现效率跃迁。


接下来,分享我们的 10 个实测案例和洞察:

AI 开始学会自动「讲故事」了

拍我AI 这回的更新重点,就是新增了 Audio(音频) 与 Multi-shot(多镜头)。


那这 2 个能力到底意味着什么呢?


【1】先说 Audio(音频)。它指的就是:AI 生成的视频本身就带声音了。也就是说,你可以直接在 Prompt 里写旁白、写角色台词,它会直接帮你读出来,不用再另外去配音。


【2】Multi-shot(多镜头)的意思是:你可以在一次 Prompt 中描述多段情节或多个镜头(如‘镜头一…镜头二…’)。模型会自动理解你写的叙事结构,并生成连贯的多镜头视频,而不需要逐段单独生成。打开了多镜头,即便是模糊提示词,AI也可以自动匹配分镜和场景。


尤其是那些镜头感比较强、需要节奏变化的,模型基本都能按你写的来。


所以现在想把 拍我AI V5.5  的能力发挥到位,最好还是用稍微复杂一点的 Prompt,把场景变化、镜头变化写得清楚一些,它就能生成得更完整。


想要画质可控,可以先用提示词中风格和场景用拍我AI(PixVerse)内置的 Nano BananaPro 或者 Qwen、Seedream4.0 生成参考生图,让 AI 视频生成适合融合和质感更好。


不过我实测了一圈之后发现:即便只是很简单的一句话 Prompt,拍我AI V5.5 也能自动把它结构化成「多镜头叙事结构」。


下面,我们测了 5 个复杂 Prompt 和 5 个简单 Prompt 下,拍我AI V5.5 模型的效果。

复杂 Prompt ①  ECLIPSE 头戴式耳机

我们先来试试 拍我AI V5.5 生成广告 TVC 的能力,自定义了一个叫做「ECLIPSE 头戴式耳机」的品牌。


提示词的结构,你可以按照我这样的来,效果会好一点:





超近景特写,磨砂黑的耳机在半空中旋转,“ECLIPSE ONE”字样清晰可见,紫蓝色光线不断流动。切入下一幕:Shot 2:中景镜头,男子在极简风格的工作室里将耳机塞入耳中。女声缓慢朗读旁白:“让声音化为空间。”切入下一幕:Shot 3:抽象的光影中,视觉化声波在他头部周围脉动。低频顺滑落下。女声缓慢朗读旁白:“深邃、宽广、无尽。”停顿后切入下一幕:Shot 4:特写,他闭上双眼,呼吸平稳。轻柔的环境铃音隐约响起。声音停顿后女声缓慢朗读旁白:“宁静,与清晰相遇。”切入下一幕:Shot 5:广角镜头,他静坐不动,工作室慢慢化为辽阔的星空空间。旋律化的合成音徐徐铺开。女声缓慢朗读旁白:“沉入自我,听见真我。”切入下一幕:Shot 6:耳机落在一块镜面般的黑色表面上。镜头缓慢拉远。女声缓慢朗读旁白:“Eclipse One,听见更远。”
 该视频属于AI生成


整体感受是挺稳,细节有惊喜。


旋转的质感、紫蓝光线这些词,它基本听懂了,画面氛围还挺「电子感」的。旁白、节奏、镜头切换也都能跟上,有些镜头的变化看起来真有点 TVC 的味道。

复杂 Prompt ②  咖啡 AROOMA 7 广告

咖啡广告这个确实很讨巧,模型对清晨光、蒸汽、咖啡这种关键词理解很强,所以效果出来反而比耳机更稳一些。


提示词如下:




Shot 1:特写镜头,一只手将带有“AROOMA 7”字样的亮泽深色咖啡豆倒入研磨机。 柔和的清晨光。咖啡豆倾落的温暖声响。 男声旁白:“Aroma Seven。”  切入下一幕: Shot 2:中景镜头,女人在温馨的厨房里研磨咖啡豆。 轻柔的机械运转声。 男声旁白:“为安静的清晨而生。”  切入下一幕: Shot 3:特写镜头,热腾腾的浓缩咖啡缓缓滴入玻璃杯。 蒸汽升腾,细微的气泡声。 男声旁白:“醇厚、顺滑、坦诚。”  切入下一幕: Shot 4:广角镜头,女人坐在窗边轻啜咖啡。 窗外鸟鸣与和煦微风。 男声旁白:“给你自己的片刻。”  切入下一幕: Shot 5:特写镜头,她微笑着,眼神放松。 男声旁白:“从一份温暖开始。”  切入下一幕: Shot 6:装着“AROOMA 7”的咖啡袋立在木质台面上,沐浴在柔和阳光里。 镜头缓慢拉远。 男声旁白:“Arooma Seven,从平静出发。”  黑底字幕: “AROOMA 7” “BEGINWITH CALM.”
 该视频属于AI生成


我注意到两个点:

【1】Shot 2 的研磨咖啡几乎是按我描述的节奏来的,镜头效果还可以;

【2】Shot 4 的窗边场景虽然没那么「电影感」,但也确实拍出了「松弛感」。


不过也有不足,女主在 Shot 2 的「研磨动作」稍微有点机械。

复杂 Prompt ③ 动漫熊先生下午茶:

下面,我们来试试动画风格的 Prompt。


动画风, 拍我AI V5.5 是真的很擅长,风格统一、画面干净、故事顺畅。


提示词如下:




Style:温馨的手绘动画风格,柔和的粉彩色调。  镜头 1: 广角:一只温柔的大熊坐在森林中的小木桌旁,正准备泡茶。 音效:鸟鸣声、水壶轻轻沸腾声。  切换至下个场景: 镜头 2: 特写:大熊小心翼翼地将茶倒入小小的杯子里。 音效:轻微的瓷器碰撞声。  切换至下个场景: 镜头 3: 中景:一只紧张的小松鼠从树后探出头来。 音效:轻细的吱声。  切换至下个场景: 镜头 4: 大熊做出邀请的手势;小松鼠犹豫片刻,随后爬上椅子。 BGM:轻柔俏皮的旋律。  切换至下个场景: 镜头 5: 特写:大熊轻轻把一块小点心推到小松鼠面前。 音效:小盘子滑动的细微声音。
 该视频属于AI生成


整体的色调是我预想的那种那只熊的动作细节还可以,倒茶的手势甚至比我想象中更柔软。

复杂 Prompt ④ 枪战动作

枪战对模型来说算是难度较高。


因为对于很多 AI 视频模型来说,打斗动作很容易出现「机械式干净」,缺乏那种脏乱、子弹乱飞的感觉。


提示词如下:




Style:写实质感的动作电影风格,冷硬金属色调,空气中充满尘埃,手持镜头动态强烈,电影级强光对比。  镜头 1: 废弃仓库内的广角镜头,破碎的窗户间有尘埃飘动。 一队戴面罩的持枪者在柱子之间谨慎推进。 音效:回荡的脚步声、远处金属碰撞声。 BGM:紧张的低频脉冲。  切换至下个场景: 镜头 2: 中景,从背后拍摄一名独自的主角,他躲在水泥掩体后,迅速装填手枪。 音效:弹匣卡入的声音、轻微呼吸声。 BGM 强度提升。  切换至下个场景: 镜头 3: 特写:主角眼神骤然收紧,汗水在微弱的蓝光里反射光点。 红点激光缓缓滑过他脸旁的墙面。 音效:紧张的轻微嗡鸣。  切换至下个场景: 镜头 4: 广角:持枪者先开火。枪口火光在尘埃中频闪,混凝土碎屑四溅。 音效:激烈的枪声、跳弹声、碎片落地声。 BGM 出现尖锐的打击乐。  切换至下个场景: 镜头 5: 慢动作镜头:主角翻滚出掩体,同时反击射出两发精准子弹。 弹壳呈金色弧线飞落。 音效:减速处理的枪声 + 弹壳落地声。  切换至下个场景: 镜头 6: 中景跟拍:一名枪手被子弹击中向后飞去,身后玻璃爆裂,他倒在金属结构上。 音效:玻璃破碎声、身体撞击金属声。


其实我最喜欢的是 拍我AI V5.5 的镜头转换很有感觉, Prompt 遵循一致性确实还不错。


虽然离电影差一点,但确实还挺稳的。

复杂 Prompt ⑤ 吉卜力纸飞机:

既然都做 AI 生成视频了,怎么可能放过「吉卜力风」。


提示词如下:




Style:吉卜力风格的山谷,明亮蓝天,油画般的云层。  镜头 1: 航拍广角:一个孩子在长满青草的山坡上奔跑,手里举着一架纸飞机。 音效:轻柔的风声。  切换至下个场景: 镜头 2: 中景:他松开手—— 纸飞机优雅滑翔,沐浴在阳光下。 音效:轻轻的呼声。  切换至下个场景: 镜头 3: 特写:纸飞机微微颤动,身后拖下一缕 faint 的闪光粉尘。 BGM:充满希望的细腻弦乐。  切换至下个场景: 镜头 4: 广角:纸飞机飞越山谷,轻轻擦过野花。  切换至下个场景: 镜头 5: 中景:孩子追着它奔跑,大笑着。  切换至下个场景: 镜头 6(最终镜头): 广角:纸飞机轻轻落在一间老木屋旁,夕阳为整片山谷染上柔光。 BGM 轻柔收尾。


你能看到山谷光线、草坡、追逐纸飞机,这些关键词模型接得比较稳。纸飞机滑翔的物理轨迹也还不错,整体画面确实很有吉卜力的味道。

🚥

简单 Prompt ① 东方古风

对于很多没有 Prompt 工程知识的朋友们来说,做 AI 视频生成的时候不可能天天都写几百字的脚本。


更多时候,可能就是脑子里蹦出一个画面。


所以,我们来试一试简单 Prompt 的效果。


首先 拍我AI 里面也是可以直接生图的,Multi-Shot 和 Audio 模式也支持参考图,所以我先生了一张图作为垫图。


图片


提示词如下:




东方古风风格,一只雄鹰掠过市井


即便是非常短的一句话提示词,拍我AI V5.5 也可以将其自动结构化为有镜头语言的 Prompt。


这只鹰的动态和背景的古建筑融合得比较自然,没有那种「贴图」感

简单 Prompt ② 钢铁侠变身

我发现 拍我AI V5.5 对这种「给一张参考图」的理解能力确实还挺稳的。画面里的元素,它能拆得很细,金属、光感、姿态这些点都抓得住。


所以说,我又垫了一张图,是钢铁侠的一张电影截图。


图片


提示词依旧极其简单,只有一句话:




机甲变身,然后开足马力冲上天空


这确实就是男人的浪漫。


变形的过程虽然有点快,没有那种《钢铁侠 1》里装甲拼接的慢镜头质感,但金属结构重新组合的「块感」它还是给到了。


动作也算干净,没有太明显的穿模或奇怪变形。


最后升空那一段的喷射的拖尾、光焰的扩散,还有轻微的机身抖动,都挺自然的,整体「假味」不重。

简单 Prompt ③ CyberTrunk

前段时间,Nano Banana Pro 的风格化能力大家有目共睹。现在拍我AI 直接把它集成进来了,你可以在 同一个平台里完成从图 → 视频的整套工作流。


不用来回倒工具,体验上顺滑很多。


图片


比如,我先生成一张 CyberTrunk 的图片:


图片


提示词如下:




汽车行驶在落日大道上,安静、孤独、悲伤
 该视频属于AI生成


实际生成的视频里,CyberTrunk 在落日场景中行驶的效果,一致性确实不错。

仔细看的话,车头灯扫过路面的光影扩散,其实还挺真实的,AI 味会少一点。

简单 Prompt ④ 动漫鼠鼠

接下来,我们再看一个偏「日常生活感」的场景:一个老鼠带着工牌在打工。


而且,它一天到晚都在抱怨今天的工作设计,就是那种「上班没意义但我还得干」。


这次我就没垫参考图了,直接让 拍我AI V5.5 裸跑,提示词如下:




一只老鼠带着人类男性的工牌,吐槽两回「今天工作很无聊」


看完之后,只能说这个「班味」真的很灵性。


我感觉 拍我AI V5.5 还是挺懂「打工人的精神状态」的。


老鼠那种「想辞职但又不敢辞」的表情管理非常到位,吐槽的节奏也相当生活化,说白了就是典型的职场社畜。

简单 Prompt ⑤ 精油广告

接着我们来看看 拍我AI V5.5 做「广告类画面」的表现


这次我挑的主体是「护发精油」,主要就是想测试它对液体质感微景观构图这种细节的处理能力。


依旧没有垫参考图,让它完全靠自己的理解来拍。


提示词只有下面这一段:




一瓶带泵头的护发精油置于自然系微景观中央;枯木质感粗粝、苔藓层层堆叠、深色浆果点缀其间。 呈现纯净天然的质地语言。柔焦自然光从侧后方切入,形成层次分明的高端影调。 整体画面写实、干净、超高清,商业广告级质感。 瓶身丝印 “Crosing” 清晰可见。



整体看下来,第一个感觉就是:画面的色调搭配真的很稳。


你能看到那种「木质香+绿色植物系」的感觉,这也确实是很多自然系广告常用的氛围。然后有几个点我挺意外的:液体低落的感觉我觉得不是很假,比我预期的要真实。


再有就是多镜头的衔接。


虽然 Prompt 本身没要求多镜头,但它自动给我做了几个角度的切换,而且镜头与镜头之间的转场是顺的,不会突然跳、突然换光线那种。


所以,我们总结一下 拍我AI V5.5 这回展现出来的能力。


拍我AI V5.5 最大的变化在于:镜头、声音、角色,这三件事被一起理解了。


什么时候切景、什么时候推进、情绪该怎么表达、哪个 Shot 该久一点、哪个 Shot 只给一秒?


你在用过之后会觉得:它开始「懂你想要的是哪种 Sense」了

🚥

拍我AI V5.5 这次更新,在「导演感」上的推进非常明显。虽然它现在还不完美,但它做对了一件很重要的事情:

它开始试图理解:故事得连着,镜头要变换。生成场景而不是画面。


我们之前常说 AI 视频生成要「降本增效」。但是,AI 抽卡专注在抽出「好分镜」的话,大家就会有更多的精力放在讲清楚创意上。


所以回到最开始的问题:AI 视频到底什么时候才能真正「讲好一个故事」?


我想,AI 视频厂商们给出的答案将会越来越近。


图片