复旦大学研究团队揭秘:AI如何只看人脸就能“配出”自然语音?

这项由复旦大学联合中国科学院计算技术研究所、中国科学院大学和哈尔滨工业大学(深圳)共同完成的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604.15923,感兴趣的读者可通过该编号查阅完整原文。

你有没有想过,如果把一段无声的视频交给人工智能,它能不能自动"脑补"出说话的声音?不只是随机发一段声音,而是声音要和嘴唇的动作完全对齐,语调要符合说话人的情绪,音色要像这个人本来的嗓子——就像电影配音员在录音棚里工作一样。这件听起来像魔术的事情,正是"视频转语音"(Video-to-Speech,简称VTS)技术在做的事。

这项研究提出了一个名叫HiCoDiT的新系统,核心创新在于它首次把"语音本身有高低层次之分"这件事当作设计基础,让AI在不同层次分别对齐视觉信息与语音特征,从而生成更自然、更有表现力的语音。

---

一、无声视频配音,到底难在哪里

拍电影的人都知道,哪怕演员在镜头前说了话,有时候录音效果不好,后期还是要进录音棚重新配音。这个过程需要配音演员仔细盯着自己的嘴型,一帧一帧地对准节奏,再把情绪调整到和当时表演完全一致。这件事对人类来说已经很难,对机器来说更是挑战重重。

视频里的视觉信息和语音信息之间存在一种天然的"信息鸿沟"。嘴唇动了,但你不知道他发的是哪个音节;脸上露出笑容,但你不知道他的语调是轻快还是严肃;两个长得像的人,讲话的嗓音可能截然不同。视觉信号是稀疏的,语音信号是稠密且丰富的,强行把稀疏的线索翻译成丰富的声音,就像只有模糊的轮廓草图,却要还原出一幅精细的油画。

过去已经有不少研究尝试解决这个问题。有的方法专注于让嘴型和语音内容对齐,比如NaturalL2S利用多模态自监督学习来帮助AI理解视觉语义和语音内容之间的关联。有的方法则把注意力放在声音的"身份感"上,Face2Speech尝试让AI从人脸图像中推断说话人的音色,而FaceStyleSpeech则进一步用对比学习的方式强化这种人脸到声音的映射。还有的方法聚焦于情绪表达,FTV系统把人脸表情中的情绪信息和音调、能量对齐,试图让生成的语音听起来更有情感层次。

然而,这些方法都有一个共同的盲点:它们把语音当作一个整体来处理,把视觉信息笼统地注入到整段语音表示里,没有考虑到语音本身是有内部层次结构的。这就好比你在整理一个多层抽屉柜时,把所有物品混在一起随机塞进去,虽然东西都在,但要找到对应的东西就会非常低效,甚至张冠李戴。

---

二、语音的"层次结构"是什么意思

要理解HiCoDiT的核心思想,首先要理解语音是怎么被分层编码的。

现代语音AI系统通常不直接处理原始声波,而是先用一种叫做"编解码器"(Codec)的工具,把声音压缩成一系列离散的数字符号——类似于把一段音乐压缩成MP3格式。其中有一类特别流行的技术叫做"残差向量量化"(Residual Vector Quantization,简称RVQ),它的工作原理可以用"分层打草稿"来理解。

先用第一层描述声音的大轮廓,比如这个音节是什么、说话人大概是谁、语速如何;然后用第二层在第一层的基础上描述更多细节;第三层再描述更精细的部分;一直叠加下去,直到把声音的所有细节都覆盖到。整个系统共有12层,每层都有一个包含1024个"词汇"的字典,生成12层的"离散符号序列"来共同表示一段语音。

研究团队通过实验验证了这种层次结构背后的规律:低层(第一、二层)的符号主要携带语义内容信息和说话人身份(音色)信息。也就是说,光靠前两层的符号重建出来的声音,虽然质量粗糙,但你基本能听出这是在说什么、是谁在说。而越往高层走,新增的信息就越多是关于韵律和情感表达的——语调的起伏、情绪的变化、语气的轻重。

研究团队用具体数据支撑了这一结论:仅靠第一、二层的符号,内容识别准确度就提升了约30%,说话人音色相似度也提升了约20%;而从第二层到第十二层,韵律质量则提升了约11%。这个发现就像是打开了一幅地图,告诉你"语义内容"住在地图的南方低地,"韵律情感"住在地图的北方高原,两者地理位置清晰分开。

---

三、HiCoDiT的"分层配音"策略

既然语音的不同属性住在不同的层次,那么不同的视觉信息就应该只去对应的层次"敲门",而不是统统涌进同一道大门。这正是HiCoDiT的设计哲学。

整个系统由两组模块构成,研究团队称为"低层块"和"高层块"。低层块负责生成前两层的语音符号,专注于语义内容和音色;高层块负责生成第三到第十二层的符号,专注于韵律和情绪。视觉信息在进入系统之前,也会先被分门别类地处理。

从视频中提取出来的视觉线索被分成三种:嘴唇动作、人脸身份和面部表情。嘴唇动作信息通过一个叫AVHuBERT的预训练模型提取,这是一个在大量音视频数据上训练过的模型,擅长理解嘴唇运动和语音内容之间的关联;提取出来的特征会与低层语音符号直接拼接融合,让内容生成和嘴型保持同步。

人脸身份信息通过ArcFace模型提取,这是人脸识别领域的经典工具,能够把人脸转化为高维度的数字特征。这个特征随后通过一个映射网络,变成一组控制参数,用来调整低层块内部的"归一化"计算方式,从而影响生成语音的音色走向。为了让人脸的视觉身份特征和语音的声纹特征真正对齐,训练时还会专门计算两者之间的距离并加入损失约束——本质上是在告诉模型:"这张脸和这个声音是同一个人的,你要学会让它们靠近"。

面部表情信息则由Poster2模型负责提取,这是一个专门做视频情绪识别的模型。为了避免把人脸的外观特征(比如长相本身)误当成情绪信号,研究团队设计了一个平滑策略:以每0.5秒为一个窗口对情绪类别进行平均,压缩掉逐帧的抖动,只保留稳定的情绪走向。这些情绪特征随后被送入高层块,影响韵律层面的符号生成。

---

四、"双尺度归一化":让情绪既有全局风格又有局部波动

在高层块中,有一个技术细节格外值得关注,研究团队称之为"双尺度自适应实例层归一化"(Dual-scale Adaptive Instance Layer Normalization,简称双尺度AdaLN)。

归一化是神经网络中一种常见的操作,可以理解为"调音台上的均衡器",用来控制信号的整体风格和局部细节。普通的归一化只有一个维度,就像调音台上只有一个总音量旋钮。而双尺度AdaLN同时拥有两个维度的控制:一个是"通道维度",管的是整体的嗓音风格,就像调整整首歌的基调;另一个是"时间维度",管的是每个时间段的动态起伏,就像调整歌曲中每个乐句的强弱变化。

具体来说,通道维度的归一化使用全局平均后的情绪特征来计算控制参数,捕捉的是整段话的宏观情绪色彩。时间维度的归一化则使用逐帧的情绪参数,以25个片段为单位(对应50Hz采样率下的语音序列),精确调控每个时间段的韵律走向。两个维度的控制结合起来,就像是同时有一位音乐总监把握整首曲子的情感方向,又有一位表演者在每个细节处做实时调整。

这种设计解决了一个实际问题:如果情绪控制只是全局的,那么AI生成的语音听起来情绪是均匀平铺的,缺乏语调起伏;如果情绪控制只是逐帧的,则容易产生抖动不稳定的韵律。双尺度策略结合了两者的优点,让情绪表达既有整体一致性,又有局部动态感。

---

五、离散扩散模型:如何从"蒙面"到"揭晓"

HiCoDiT的另一个核心机制是它所基于的"离散扩散模型"。这类模型的工作方式可以用一个猜字游戏来理解。

初始状态时,所有的语音符号都被遮住了,就像一张蒙版填字题。模型的任务是逐步猜出每个被遮住的符号,最终把整段语音还原出来。训练时,模型会看到部分被遮住的序列,并学习如何根据上下文和视觉条件来预测被遮住的内容。推理时,从一张完全空白的"蒙版"开始,通过64步迭代,每一步都让模型揭晓一些符号,最终完成整段语音的生成。

与另一类常见的扩散模型——连续扩散模型——相比,离散扩散模型处理的是一串一串的符号,更接近于文字序列的处理方式,因此计算效率更高,也更适合结合现成的语音编解码器使用。

整个训练过程中,HiCoDiT的损失函数包含两个部分:主要损失是针对12个层次的符号预测误差之和,另外还有一个专门针对人脸身份和声纹特征对齐的辅助损失。两者加权求和,共同驱动模型在语义内容、音色和韵律三个维度上同时进步。

训练时,模型会以10%的概率随机"遮住"某一类视觉条件,以10%的概率同时遮住所有条件,这是一种叫做"无分类器引导"的技术。这样做的目的是让模型在推理时能够灵活地强调不同的视觉条件的影响力,就像一位导演在拍摄时既能给演员高度自由,也能在需要时明确要求某种特定表演风格。

---

六、实验结果:数字背后的真实表现

研究团队在VoxCeleb2这个大规模说话人多样性数据集上训练HiCoDiT,数据集经过精心筛选,最终保留了约261.5小时的英语语音,涵盖3438位说话人和7种基本情绪,共约16.9万条语音片段。

测试则在两个完全独立的数据集——LRS3和LRS2——上进行,模型此前从未见过这两个数据集。这种"跨域测试"是评估模型泛化能力的严格方式。

评价体系覆盖了多个维度。在语音质量方面,研究团队使用DNSMOS和UTMOS两个自动评分工具评估感知音质,使用MCD(梅尔倒谱失真)评估频谱细节的还原度。在内容可理解性方面,使用词错率(WER)衡量生成语音的清晰度。在唇音同步方面,使用LSE-C和LSE-D两个指标量化嘴型和语音之间的时间对齐程度。在表现力方面,使用说话人相似度(SpkSim)和情绪准确率(EmoAcc)分别评估音色保留和情绪表达。

在LRS3数据集上,HiCoDiT的词错率达到29.41%,优于所有对比方法,包括FTV的30.37%和AlignDiT的31.37%;在感知音质(DNSMOS)上达到3.50,同样是所有方法中最高的;在唇音同步指标LSE-C上达到7.15,也是最佳。在情绪准确率上,HiCoDiT以79.41%高于其他方法。唯一略逊色的是说话人相似度(SpkSim),这被研究团队归因于训练数据的说话人多样性有限;当加入真实语音作为身份参考时,说话人相似度立即跃升至0.6715,跃居所有方法之首,证明系统的声音克隆能力是很强的,只是在纯视觉引导下受到了数据覆盖面的制约。

主观评测邀请了20位参与者对30个生成样本进行评分,覆盖自然度、表现力和唇音同步三个维度。结果显示,HiCoDiT在自然度上得分3.17,明显高于AlignDiT的2.47和FTV的2.80,在唇音同步上也以3.50超过真实语音的3.40——这意味着在同步这件事上,AI的表现已经超越了人类的原始录音。偏好测试中,受试者对HiCoDiT的偏好率达到53.9%,高于对真实语音的选择,进一步印证了生成质量的高水平。

---

七、消融实验:每个设计的贡献有多大

为了验证各个设计模块的真实贡献,研究团队进行了一系列"拆零件"实验,逐一去掉某个功能后观察性能变化。

当移除层次建模(即不再区分低层和高层,把所有视觉条件统一注入),所有评估指标都出现了明显下滑——在LRS2上词错率从39.99%恶化到44.57%,唇音同步也变差,情绪准确率从68.21%降至64.69%。这说明层次建模不是一个可有可无的装饰,而是性能的核心支柱。

当把双尺度AdaLN替换为普通的全局情绪条件注入方式时,模型在多个音质指标上表现变好(因为全局平滑确实减少了一些不稳定性),但情绪准确率出现了明显下降,证明了精细的局部韵律控制确实来自于双尺度设计,而不是全局风格控制所能替代的。

针对人脸身份损失(GE2E loss)的消融实验则给出了一个非常直观的结果:一旦移除这个损失,说话人相似度从56.78%直接跌到34.10%——几乎削减了一半。这充分说明,人脸和声纹之间并没有天然的对应关系,必须通过显式的对齐训练才能让模型学会从脸推断出嗓音。

对情绪模块的实验则验证了Poster2模型的优越性:将其替换为较早版本的Poster模型后,情绪准确率从79.41%下降到76.29%,说明更强大的情绪识别前端确实能带来更准确的情绪控制。

研究团队还专门搜集了来自真实电影场景的160段语音片段进行超出分布范围的测试,和AlignDiT、EmoDubber相比,HiCoDiT在词错率、音质、情绪准确率和唇音同步上均表现最佳,说明这个系统在面对真实世界的复杂场景时同样具备可靠的鲁棒性。

---

说到底,HiCoDiT做的事情,是把一个看似"魔法"般的任务——仅凭视频给无声影像配出自然语音——变成了一个有清晰逻辑的工程问题:先弄清楚语音的层次结构是什么,再弄清楚视觉信息应该对齐到哪个层次,最后设计对应的技术模块来实现这种精准对接。

这项研究对普通人的实际生活意味着什么?短期内最直接的应用可能是电影配音和无障碍沟通辅助:以前拍摄了一段无声影像,或者采访对象的麦克风坏了,现在有可能让AI自动补上合理的语音;对于无法发声的人群,这类技术也可能成为一种新的沟通辅助手段。更长远来看,随着这类技术不断成熟,AI在影视制作、虚拟现实交互和智能助手领域的语音生成能力将会越来越接近真人水准。

当然,这项技术也带来了值得认真对待的问题:如果AI能仅凭一张人脸就生成高度逼真的"那个人的声音",这种能力会不会被滥用来制造虚假音视频?研究团队目前的工作聚焦于技术本身的进步,关于如何防范潜在的滥用风险,仍是一个需要社会各方共同讨论的开放问题。有兴趣深入了解技术细节的读者,可以通过arXiv编号2604.15923查阅完整论文及配套代码。

---

Q&A

Q1:HiCoDiT和普通的视频配音AI相比,最大的区别是什么?

A:普通的视频配音AI通常把语音当作一个整体来处理,把视觉信息统一注入到语音生成过程中,不区分语音的不同属性。HiCoDiT的不同之处在于,它认识到语音存在"层次结构"——低层符号主要携带内容和音色信息,高层符号主要携带韵律和情绪信息——并据此把嘴唇动作和人脸身份信息对齐到低层,把面部表情信息对齐到高层,实现了更精准的跨模态对应。

Q2:HiCoDiT生成语音只需要视频吗,还是还需要其他输入?

A:基础版本仅需要一段静默视频,系统会自动从视频中提取嘴唇动作、人脸身份和面部表情三种信息,然后生成对应的语音。如果提供一小段真实语音作为身份参考,系统还能在此基础上进一步提升声音和原说话人的相似度,表现出更强的声音克隆能力。

Q3:双尺度AdaLN具体是怎么控制语音情绪的?

A:双尺度AdaLN同时在两个维度上调控语音生成。"通道维度"使用整段话的全局平均情绪特征,控制整体嗓音风格,比如整体偏高兴还是偏严肃。"时间维度"则使用以每0.5秒为单位平滑后的逐段情绪特征,控制每个局部时间段的韵律起伏,比如这句话的前半段语气较轻,后半段加重。两者结合,使生成语音既有整体情绪一致性,又有细腻的局部韵律变化。