Veo3 和 Sora2 发布之后,AI 视频模型的发展趋势已经非常清晰,就是音视频融合,以前「视频归视频,声音归声音」,未来画面、配音、音效都是一次完成。
今天,火山引擎正式发布了新一代视频创作模型 Seedance 1.5 pro。它采用了业界领先的音视频联合生成方案。画面与声音在同一时间维度上自然生长。
为了验证它的真实实力,我拿到模型后进行了一系列高难度的测试,从方言口音到 3A 游戏音效,从微表情演技到电影级运镜,看看它是否真的能做到“声画俱全”。
(注:本次实测总体“抽卡”成功率约为 50%,由于公众号只能放10个视频,以下展示均为成功案例)
一、 听得懂“乡音”:相声和方言能力测试
Seedance 1.5 pro 宣称支持多语言及方言。我没有测试普通说话场景,直接挑战相声和方言。
传统中式茶馆风格,背景是屏风和观众虚影。 人物: 两位身穿长大褂的相声演员站在桌子后。 动作与语音序列: 逗哏(右边穿黑大褂): 面带自信微笑,手拿折扇,深吸一口气,开始表演极速贯口:“我请您吃:蒸羊羔、蒸熊掌、蒸鹿尾儿、烧花鸭、烧雏鸡、烧子鹅、卤猪、卤鸭、酱鸡、腊肉、松花小肚儿……” 捧哏(左边穿灰大褂): 侧身看着逗哏,时不时点头,在间隙插话:“好!”、“嚯!”、“听着这就香!” 音效: 逗哏语速极快且清晰的北京话,捧哏的衬托声,以及茶馆里观众的叫好声和掌声。
电影感实拍,夜晚喧闹的成都火锅店,热气腾腾。特写镜头对准一位扎着丸子头的年轻女孩,她满脸通红,一边用手扇风一边夹起一块毛肚。她用四川话大声说道:“哎呀,这个火锅好巴适哦!就是太辣了,老板儿,再来一唯怡豆奶嘛!” 背景音是嘈杂的人声和火锅沸腾的咕嘟声。
港风复古滤镜,拥挤的茶餐厅,绿色马赛克地砖。一位穿着白背心的大叔正在喝冻柠茶,表情夸张地对镜头用粤语抱怨:“哇,依家啲后生仔真系唔捱得苦架,叫佢做少少野就话辛苦!” 背景有碗筷碰撞声和茶餐厅特有的喧哗声。
纪实摄影风格,阳光斑驳的北京老胡同,红墙灰瓦。 画面: 一位穿着白色背心、手拿蒲扇的老大爷,另一只手提着一个精致的鸟笼。 动作与声音: 他慢悠悠地转过身,对着镜头挑了挑眉毛,用地道的北京话(儿化音极重) 说道:“您猜怎么着?今儿个天儿不错,这就叫地道!您听听这鸟叫唤的,倍儿脆!” 音效: 远处的鸽哨声、自行车的铃铛声、知了叫声。
电影《黄土地》风格,黄土高原沟壑纵横,强烈的西北日光。 画面: 一位头上包着白毛巾的老汉,蹲在窑洞门口,手里捧着一个巨大的海碗(比脸还大),里面是宽宽的油泼面。 动作与声音: 他大口吸溜了一口面,抬起头,满嘴是油,用陕西话憨厚地感叹:“额滴神啊,这面做得太香咧!嘹咋咧!” 音效: 巨大的吸溜面条声(Slurping)、风吹过黄土坡的声音。
方言音画小结:
当模型学会了方言之后,人物的表演更加真实可信,最初的几次尝试充满了惊喜感。
不过测试中也发现了一些模型的盲区。比如模型的上海话不太地道;
而令人很意外的是,互联网语料极丰富的东北话,模型竟然完全不会。
看来模型在特定方言数据的覆盖上仍有不少优化空间。
二、 听得见“质感”:精准音效测试
除了人声,环境音效(SFX)与画面的同步率也非常重要,可以简化以前复杂的 AI 音效工作流。特别是在游戏场景、电影特效场景等有高频音效需求的场景里。
UE5 引擎渲染,3A 级暗黑奇幻大作风格,4K 极致画质,光线追踪开启。 场景: 暴风雨中的古堡废墟,一只体型遮天蔽日的黑鳞巨龙盘踞在断壁残垣之上,双眼闪烁着凶光。 动作与音效序列(严丝合缝): 威慑: 巨龙压低身体,利爪深深嵌入石砖(音效:岩石碎裂的咔嚓声),喉咙里发出威胁性的低吼(音效:低沉的、引起胸腔共鸣的“呼噜”声)。 蓄力: 巨龙猛然吸气,颈部鳞片缝隙透出熔岩般的红光(音效:尖锐的气流吸入声,伴随能量积蓄的嗡嗡声)。 释放: 巨龙张开血盆大口,向镜头喷出漫天烈焰(音效:震耳欲聋的爆裂咆哮,紧接着是烈火喷涌的“呼啸”声和燃烧的噼啪声)。 环境音: 远处的雷声滚滚,雨点打在龙鳞上的细碎声音。
三、 懂镜头语言:运镜与动态张力
Seedance 1.5 pro 不仅懂画面声音,还懂专业的摄影术语,在运镜上表现得更加专业,连续性更好。
赛博朋克霓虹城市,雨夜。一辆重型摩托车在高速公路上疾驰。镜头首先进行长镜头跟随,紧贴摩托车后轮,捕捉溅起的水花。随后镜头快速拉升并旋转到车手正面,执行希区柯克变焦(Dolly Zoom),背景的城市灯光极速后退压缩,展现速度带来的眩晕感。背景音是轰鸣的引擎声和合成器电子乐。
王家卫电影美学,高对比度,霓虹灯绿与暖黄交错,略带胶片颗粒感,手持晃动镜头。 镜头 1: 透过便利店布满雨水的玻璃窗拍摄,店内货架虚化,霓虹灯光斑驳。 镜头 2: 慢动作(抽帧效果),一位穿着风衣的男子在货架前拿起一个凤梨罐头,眼神迷离忧郁。 镜头 3: 特写男子的侧脸,他看着罐头底部的日期,对着空气自言自语(内心独白混响):“不知道从什么时候开始,什么东西上面都有个日期,连保鲜膜都会过期。” 音效: 淅沥沥的雨声,远处模糊的警笛声,以及低沉忧伤的大提琴配乐。
四、 演得真切:细腻的人物表演
AI 视频最难攻克的堡垒是“演技”,尤其是微表情和多人互动。在这方面 Seedance 1.5 Pro 模型也有了进步,在部分场景的表现相当细腻,再配合精准的声音,能带来很强的代入感。
电影感实拍,深夜暴雨,车窗上布满流下的雨水,窗外模糊的路灯光影在人物脸上交替划过。 人物特写: 驾驶座上一位疲惫的中年女性,双手紧紧抓着方向盘,指节发白。 情绪与动作序列: 压抑(0-2秒): 她死死咬着下嘴唇,眼眶里蓄满了泪水,身体随着呼吸剧烈起伏,试图忍住不哭(音效:沉重的呼吸声,车顶噼里啪啦的暴雨声,雨刮器的刮擦声)。 崩溃(2-5秒): 突然,她再也忍不住,猛地砸向方向盘,爆发出一声撕心裂肺的哭喊,眼泪夺眶而出,五官因为痛苦而扭曲(音效:手掌重击皮质方向盘的闷响,紧接着是带有破音的、窒息般的尖叫哭声,掩盖了雨声)。 余韵(5-7秒): 她无力地靠在椅背上,大口喘气,眼神空洞(音效:哭声转为抽泣,雨声重新占据主导)。
五、 讲好故事:连续镜头切换
在连续镜头切换场景的测试中,模型展现了优秀的“剪辑思维”。多镜头的流畅衔接,从远景到特写,叙事逻辑清晰,配乐与画面风格高度统一。
韦斯·安德森电影风格,极致的中心对称构图,粉色与青色的糖果色调,平光照明。 镜头 1: 远景,一座孤独耸立在悬崖边的红白条纹灯塔,海鸥在天上定格般飞翔。镜头 2: 快速切至室内中景,一个留着八字胡、戴着红色针织帽的看守人,面无表情地坐在桌前,桌上放着一个巨大的黄色包裹。 镜头 3: 特写,看守人机械地撕开包裹(夸张的撕纸声),里面是一只戴着墨镜的橘猫。镜头 4: 看守人抬头直视镜头,用毫无起伏的语调说:“这确实是个惊喜。” 音效: 背景音乐是轻快的拨弦古键琴(Harpsichord),配合海浪声和海鸥叫声。
六、 背后的技术
Seedance 1.5 pro 在技术上和前代模型的本质区别在于它不再把声音看作视频的附属品。
通过 MMDiT 原生架构和针对音视频联合场景的 RLHF 训练,它解决了以往 AI 视频“画质虽好但无神、无声、无镜头感”的痛点,特别是在中文方言和专业摄影控制上形成了差异化竞争优势。
一些架构设计特点:
1. 基于 MMDiT(Multi-modal Diffusion Transformer) 架构。它采用双分支(Dual-branch)设计,内部集成了一个跨模态联合模块(Cross-modal joint module)。这使得视觉和听觉流在生成过程中就能进行深度交互,确保了极高的时间同步性和语义一致性。 2. 引入音频反馈的 RLHF。在 SFT 之上,专门针对音视频上下文开发了强化学习(RLHF)算法。它使用多维奖励模型来评估视频质量、美学表现以及音频保真度。 3. 推理流水线。它的推理链条包括:用户提示词 -> 提示词工程 -> 文本编码器 -> 联合生成模型(DiT) -> 视频/音频细化器(Refiner) -> 输出。 4. 评估标准:升级了评测基准,不仅看画质,还专门增加了“视频生动性”维度(分为动作和镜头两个子维度)以及四个音频维度(指令遵循、音质、音画同步、音频表现力)。
完整技术报告地址:https://arxiv.org/pdf/2512.13507
七、 总结与体验入口
Seedance 1.5 pro 是 AI 视频生成从“默片时代”迈向“有声电影时代”的重要一步。它在音画同步、方言演绎、运镜控制和叙事表达上展现了惊人的潜力。虽然目前在部分方言支持(如东北话、上海话)和复杂场景的稳定性(抽卡成功率约 50%)上仍有提升空间,但它已经能够辅助创作者完成短剧、广告 demo 甚至电影分镜的制作。
体验入口:
目前 Seedance 1.5 Pro 已正式上线,可以在这几个地方玩到:
即梦 AI : 网页端选择“视频生成” -> 模型选择 视频 3.5 Pro。
开发者 API: 下周,Seedance 1.5 Pro 模型 API 将在 火山引擎 (Volcano Engine) 开放调用。现在可到火山方舟体验中心体验模型效果,也可预约模型服务。
https://exp.volcengine.com/ark/vision?launch=seedance