👦🏻 作者: 镜山
🥷 编辑: Koji
🧑🎨 排版: NCon
大家有没有想过,为什么拍电影的时候,导演和摄影师得是两个人?
其实分工挺简单的:
摄影师负责「画面」:光打得对不对,画面糊不糊,主要负责审美和落地;
但导演负责的是「戏」:镜头该怎么走,情绪到哪了,故事怎么讲。
如果按这个标准看,过去这两年的 AI 视频,其实一直在做「摄影师」的任务:
但最近这波各个 AI 厂商的模型更新,有一个很微妙的变化:大家开始追求 AI 的「导演感」了。
这就是我们常说的「镜头意图」。
🚥
在这个节点上,爱诗科技正式发布了 拍我AI(PixVerse) V5.5 模型。
在 3 个月《拍我AI V5 突袭上线,我们在「拍我AI」上第一时间深度实测》文章中,我们对 拍我AI V5 模型进行了 4 个维度的测试,发现这位国产「本科生」的迭代速度非常迅猛。
3 个月过去,这次 拍我AI V5.5 在底层模型上又带来了两个关键升级:Audio(音频) 与 Multi-shot(多镜头) ,试图解决的正是我们开头提到的那个痛点:让 AI 拥有「导演感」,自动去调度镜头和叙事。把繁琐的提示词、生图、抽卡、配音、配乐和剪辑,变成了只需把灵感描述清楚这么简单,极大地缩短了 AI 视频创意工作流,实现效率跃迁。
接下来,分享我们的 10 个实测案例和洞察:
AI 开始学会自动「讲故事」了
拍我AI 这回的更新重点,就是新增了 Audio(音频) 与 Multi-shot(多镜头)。
那这 2 个能力到底意味着什么呢?
【1】先说 Audio(音频)。它指的就是:AI 生成的视频本身就带声音了。也就是说,你可以直接在 Prompt 里写旁白、写角色台词,它会直接帮你读出来,不用再另外去配音。
【2】Multi-shot(多镜头)的意思是:你可以在一次 Prompt 中描述多段情节或多个镜头(如‘镜头一…镜头二…’)。模型会自动理解你写的叙事结构,并生成连贯的多镜头视频,而不需要逐段单独生成。打开了多镜头,即便是模糊提示词,AI也可以自动匹配分镜和场景。
尤其是那些镜头感比较强、需要节奏变化的,模型基本都能按你写的来。
所以现在想把 拍我AI V5.5 的能力发挥到位,最好还是用稍微复杂一点的 Prompt,把场景变化、镜头变化写得清楚一些,它就能生成得更完整。
想要画质可控,可以先用提示词中风格和场景用拍我AI(PixVerse)内置的 Nano BananaPro 或者 Qwen、Seedream4.0 生成参考生图,让 AI 视频生成适合融合和质感更好。
不过我实测了一圈之后发现:即便只是很简单的一句话 Prompt,拍我AI V5.5 也能自动把它结构化成「多镜头叙事结构」。
下面,我们测了 5 个复杂 Prompt 和 5 个简单 Prompt 下,拍我AI V5.5 模型的效果。
复杂 Prompt ① ECLIPSE 头戴式耳机
我们先来试试 拍我AI V5.5 生成广告 TVC 的能力,自定义了一个叫做「ECLIPSE 头戴式耳机」的品牌。
提示词的结构,你可以按照我这样的来,效果会好一点:
整体感受是挺稳,细节有惊喜。
旋转的质感、紫蓝光线这些词,它基本听懂了,画面氛围还挺「电子感」的。旁白、节奏、镜头切换也都能跟上,有些镜头的变化看起来真有点 TVC 的味道。
复杂 Prompt ② 咖啡 AROOMA 7 广告
咖啡广告这个确实很讨巧,模型对清晨光、蒸汽、咖啡这种关键词理解很强,所以效果出来反而比耳机更稳一些。
提示词如下:
我注意到两个点:
【1】Shot 2 的研磨咖啡几乎是按我描述的节奏来的,镜头效果还可以;
【2】Shot 4 的窗边场景虽然没那么「电影感」,但也确实拍出了「松弛感」。
不过也有不足,女主在 Shot 2 的「研磨动作」稍微有点机械。
复杂 Prompt ③ 动漫熊先生下午茶:
下面,我们来试试动画风格的 Prompt。
动画风, 拍我AI V5.5 是真的很擅长,风格统一、画面干净、故事顺畅。
提示词如下:
整体的色调是我预想的那种,那只熊的动作细节还可以,倒茶的手势甚至比我想象中更柔软。
复杂 Prompt ④ 枪战动作
枪战对模型来说算是难度较高。
因为对于很多 AI 视频模型来说,打斗动作很容易出现「机械式干净」,缺乏那种脏乱、子弹乱飞的感觉。
提示词如下:
其实我最喜欢的是 拍我AI V5.5 的镜头转换很有感觉, Prompt 遵循一致性确实还不错。
虽然离电影差一点,但确实还挺稳的。
复杂 Prompt ⑤ 吉卜力纸飞机:
既然都做 AI 生成视频了,怎么可能放过「吉卜力风」。
提示词如下:
你能看到山谷光线、草坡、追逐纸飞机,这些关键词模型接得比较稳。纸飞机滑翔的物理轨迹也还不错,整体画面确实很有吉卜力的味道。
🚥
简单 Prompt ① 东方古风
对于很多没有 Prompt 工程知识的朋友们来说,做 AI 视频生成的时候不可能天天都写几百字的脚本。
更多时候,可能就是脑子里蹦出一个画面。
所以,我们来试一试简单 Prompt 的效果。
首先 拍我AI 里面也是可以直接生图的,Multi-Shot 和 Audio 模式也支持参考图,所以我先生了一张图作为垫图。
提示词如下:
即便是非常短的一句话提示词,拍我AI V5.5 也可以将其自动结构化为有镜头语言的 Prompt。
这只鹰的动态和背景的古建筑融合得比较自然,没有那种「贴图」感
简单 Prompt ② 钢铁侠变身
我发现 拍我AI V5.5 对这种「给一张参考图」的理解能力确实还挺稳的。画面里的元素,它能拆得很细,金属、光感、姿态这些点都抓得住。
所以说,我又垫了一张图,是钢铁侠的一张电影截图。
提示词依旧极其简单,只有一句话:
这确实就是男人的浪漫。
变形的过程虽然有点快,没有那种《钢铁侠 1》里装甲拼接的慢镜头质感,但金属结构重新组合的「块感」它还是给到了。
动作也算干净,没有太明显的穿模或奇怪变形。
最后升空那一段的喷射的拖尾、光焰的扩散,还有轻微的机身抖动,都挺自然的,整体「假味」不重。
简单 Prompt ③ CyberTrunk
前段时间,Nano Banana Pro 的风格化能力大家有目共睹。现在拍我AI 直接把它集成进来了,你可以在 同一个平台里完成从图 → 视频的整套工作流。
不用来回倒工具,体验上顺滑很多。
比如,我先生成一张 CyberTrunk 的图片:
提示词如下:
实际生成的视频里,CyberTrunk 在落日场景中行驶的效果,一致性确实不错。
仔细看的话,车头灯扫过路面的光影扩散,其实还挺真实的,AI 味会少一点。
简单 Prompt ④ 动漫鼠鼠
接下来,我们再看一个偏「日常生活感」的场景:一个老鼠带着工牌在打工。
而且,它一天到晚都在抱怨今天的工作设计,就是那种「上班没意义但我还得干」。
这次我就没垫参考图了,直接让 拍我AI V5.5 裸跑,提示词如下:
看完之后,只能说这个「班味」真的很灵性。
我感觉 拍我AI V5.5 还是挺懂「打工人的精神状态」的。
老鼠那种「想辞职但又不敢辞」的表情管理非常到位,吐槽的节奏也相当生活化,说白了就是典型的职场社畜。
简单 Prompt ⑤ 精油广告
接着我们来看看 拍我AI V5.5 做「广告类画面」的表现。
这次我挑的主体是「护发精油」,主要就是想测试它对液体质感、微景观构图这种细节的处理能力。
依旧没有垫参考图,让它完全靠自己的理解来拍。
提示词只有下面这一段:
整体看下来,第一个感觉就是:画面的色调搭配真的很稳。
你能看到那种「木质香+绿色植物系」的感觉,这也确实是很多自然系广告常用的氛围。然后有几个点我挺意外的:液体低落的感觉我觉得不是很假,比我预期的要真实。
再有就是多镜头的衔接。
虽然 Prompt 本身没要求多镜头,但它自动给我做了几个角度的切换,而且镜头与镜头之间的转场是顺的,不会突然跳、突然换光线那种。
所以,我们总结一下 拍我AI V5.5 这回展现出来的能力。
拍我AI V5.5 最大的变化在于:镜头、声音、角色,这三件事被一起理解了。
什么时候切景、什么时候推进、情绪该怎么表达、哪个 Shot 该久一点、哪个 Shot 只给一秒?
你在用过之后会觉得:它开始「懂你想要的是哪种 Sense」了。
🚥
拍我AI V5.5 这次更新,在「导演感」上的推进非常明显。虽然它现在还不完美,但它做对了一件很重要的事情:
我们之前常说 AI 视频生成要「降本增效」。但是,AI 抽卡专注在抽出「好分镜」的话,大家就会有更多的精力放在讲清楚创意上。
所以回到最开始的问题:AI 视频到底什么时候才能真正「讲好一个故事」?
我想,AI 视频厂商们给出的答案将会越来越近。