区分前景场景声音和环境背景
(映维网Nweon 2024年12月11日)为人类行为生成逼真的音频对于XR非常重要。现有的方法隐含地假设训练过程中视频和音频之间的完全对应,但一系列的声音发生在屏幕之外,与视觉效果的对应关系十分弱,甚至没有关系,从而导致测试时不受控制的环境声音或幻觉。
针对这个问题,美国得克萨斯大学奥斯汀分校和Meta提出了一种全新的环境感知音频生成模型AV-LDM。他们设计了一种新的音频调节机制来学习在in the wild训练视频中区分前景场景声音和环境背景声音。
给定一个新的无声视频,模型使用检索增强生成来创建在语义和时间上都与视觉内容匹配的音频。研究人员在两个in the wild自中心视频数据集Ego4D和EPIC-KITCHENS训练和评估模型,并且引入了Ego4D-Sounds。
实验测试表明,模型优于一系列现有的方法,并可以控制环境声音的产生。
当在日常生活中与周围的物体互动时,我们的身体动作经常会产生声音,例如点击鼠标,关门或切蔬菜。动作声音的独特特征取决于所执行的动作类型、所作用物体的形状和材料、所施加力的大小等等。
视觉不仅能捕获到物理交互发生的情况,而且能告诉我们交互发生的时间,这表明我们有可能仅从无声视频中合成语义上合理且时间上同步的动作声音。这种能力将加速一系列现实世界的应用程序,例如为虚拟现实生成声音效果。
先前的研究隐含地假设视频和音频之间完全对应,并旨在从视频生成整个目标音频。然而,这种策略不适合in the wild训练视频,因为它们充斥着屏幕外的环境声音,例如交通噪音、交谈语言或空调运行等等。其中的环境声音与视觉场景的相关性很弱,甚至与视觉没有对应关系,比如屏幕外的语音或冰箱发出的固定嗡嗡声。
大多数现有方法都无法将动作声音与环境声音区分开来,而是将它们视为一个整体,从而导致在测试时不受控制地产生环境声音,有时甚至产生幻觉,例如随机动作或环境声音。这对于生成动作声音来说尤其有问题,因为与环境声音相比,它们通常是微妙而短暂的。
所以,我们如何在没有ground truth的情况下将前景动作声音从背景环境声音中分离出来?简单地在目标音频上应用噪声去除算法不太有效,因为从单个麦克风中盲分离一般声音依然是一个挑战,并且用于预测视觉相关声音的类别依赖模型不能泛化到in the wild视频。
美国得克萨斯大学奥斯汀分校和Meta团队的主要观察结果是,尽管动作声音在时间上是高度局部化的,但环境声音往往会随着时间而持续存在。鉴于这一观察结果,他们提出了一个简单而有效的解决方案来分离环境声音和动作声音:在训练期间,除了输入视频片段外,同时将生成模型设置为来自与输入视频片段相同的长视频的音频片段,但来自不同的时间戳。
这种方式减轻了产生能量主导环境声音的负担,并鼓励模型专注于从视觉框架中学习动作线索以产生动作声音。在测试时,不假设可以访问(甚至其他片段)ground truth视频/音频。相反,建议使用视听相似性评分模型从训练集中检索音频片段。这有利于视觉场景与环境声音相关性较弱的例子,例如户外环境。
现有的动作声音生成工作要么依赖于人工收集的数据,要么依赖于基于预定义分类法从YouTube抓取的视频。为了将动作声音生成的边界扩展到in the wild,研究惹怒眼利用了大规模自中心视频数据集。
尽管模型没有以任何方式为以自为中心的视频量身定制,但使用相关数据集有两个主要好处:
自中心视频提供了人类行为的近距离视图
数据集具有时间戳的叙述。
团队设计了一个从Ego4D中提取和处理剪辑的管道,并通过设计一个扩散模型AV-LDM来实例化它。实验表明模型在Ego4D-Sounds和EPIC-KITCHENS都明显优于现有方法。另外,一项人类评估研究则表明,模型可以根据视频合成合理的动作声音。
总的来说,团队研究了在自中心视频中为人类行为生成声音的问题。团队提出了一种环境感知方法来将动作声音从环境声音中分离出来,而它允许在使用各种in the wild数据训练后成功生成,以及对环境声音水平的可控调节。
实验表明,模型优于现有的方法和基线。总的来说,它大大扩大了有关训练来源的范围。在未来的研究中,团队的目标是探索将音频生成模型转化为合成图像输入的可能性,并用于VR游戏应用。