这项由NVIDIA研究院与美国马里兰大学联合完成的研究,于2026年4月13日以预印本形式发布,论文编号为arXiv:2604.10905v1,研究方向归属于计算机科学中的声音与音频处理领域(cs.SD)。有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。
**一、为什么人类花了这么久,才让AI真正"听懂"声音?**
人耳是一件奇妙的仪器。坐在咖啡馆里,你能同时分辨出背景音乐的旋律、邻桌的对话内容,以及窗外偶尔传来的救护车鸣笛——而且你不只是"听到"了这些声音,你还能理解它们、推断它们的含义,甚至判断出那首背景音乐是爵士还是流行。这种"听懂"的能力,对人类来说不过是日常,但对AI来说,却是一道极高的门槛。
过去很长一段时间里,AI处理声音的方式就像把一个复杂的交响乐团拆散——语音识别是一个专门的小模型,音乐分类是另一个,环境声音理解又是第三个。这些模型各司其职,但彼此之间毫无沟通,就像一个乐团里的成员各自练习、从不合奏。随着大型语言模型(可以理解为"超级聪明的文字理解机器")的崛起,研究者们开始尝试训练一种能把所有声音类型都"听懂"的统一模型,这类系统被称为大型音频语言模型(Large Audio Language Model,简称LALM)。
然而,与视觉AI相比,音频AI的开放程度明显滞后。很多强大的音频模型要么是商业闭源的,要么训练数据和方法不透明,研究社区难以在此基础上继续发展。正是在这一背景下,NVIDIA与马里兰大学的研究团队推出了Audio Flamingo Next,简称AF-Next——一个旨在彻底打破这一局面的全能型开源音频理解模型。
**二、AF-Next的"前辈"们干了什么,又在哪里留下了遗憾?**
AF-Next并非凭空而来,它的背后有一整个"家族谱系"。Audio Flamingo系列从第一代开始,逐步进化,到第三代(AF3)已经能处理相当复杂的音频理解任务,但研究团队在仔细分析AF3的表现后,发现了几类明显的短板。
第一类问题是技能上的盲点,比如在数数(比如"这段音频里出现了几次鼓声?")以及说话人分辨(即判断某句话是谁说的)等任务上,模型表现欠佳。第二类是数据分布的局限性,模型接触过的训练数据主要来自学术数据集,这类数据通常是精心录制的、干净整洁的音频,而现实世界的录音往往嘈杂、多人交叠、背景复杂。第三类是长音频的挑战:AF3能处理的音频长度相对有限,但现实中的播客、会议录音、电影片段动辄几十分钟,过去的模型面对这些长音频时,就像一个人试图在一口气不换气的情况下理解一部电影,很快就会力不从心。
正是带着这些清晰认识,团队着手构建了AF-Next,目标是在保持完全开源透明的前提下,打造一个真正能在现实世界中可靠运转的音频理解系统。
**三、AF-Next长什么样?一台精密仪器的内部构造**
AF-Next的整体结构可以用一条声音加工流水线来理解。原始音频进入系统后,首先经过一个名为AF-Whisper的音频编码器——可以把它理解为一双精密的"耳朵",负责把声音波形转化为机器能处理的数字特征。这个编码器基于OpenAI的Whisper架构改造而来,并在更大规模、更多样化的语料上进行了额外训练,包括多语言语音和多说话人对话数据,使其对复杂声音场景的感知能力大幅提升。
音频进入时,系统先将其重采样至16kHz单声道格式,然后转化为一种叫做"对数梅尔频谱图"的视觉化声音表示——可以理解为把声音的频率变化绘制成一幅随时间变化的热力图。这幅图随后被送入AF-Whisper,以每30秒为一个不重叠的滑动窗口进行处理,每秒提取50个时间点的特征,再经过一个压缩步骤将特征密度减半,最终形成维度为1280的特征向量序列。
这些音频特征接下来需要被"翻译"成语言模型能理解的格式,这个翻译工作由一个两层的神经网络完成,研究者称之为音频适配器(Audio Adaptor)。适配器的作用就像一名同声传译员,把"声音语言"即时转换成"文字语言"的表达方式,再送入主干大语言模型。
主干大语言模型采用的是阿里巴巴开源的Qwen-2.5-7B,一个拥有70亿参数、36层Transformer结构的解码器型语言模型。研究团队在此基础上进行了重要改造:一是将模型的上下文窗口从原来的32K个词元(token)扩展到128K,使其能处理更长的输入序列;二是将常规的旋转位置编码(RoPE,一种帮助模型理解词序的技术)替换为"旋转时间编码"(RoTE)。
RoTE的改变看似微小,实则意义重大。普通位置编码告诉模型的是"这是第几个词",而RoTE告诉模型的是"这个词出现在音频的第几秒"。这就好比一本书的页码和一部电影的时间码的区别——对于需要追踪事件在时间轴上发生顺序的任务来说,知道"这是第200页"远不如知道"这发生在电影的第43分17秒"来得有用。这一改动为AF-Next后续的时间推理能力奠定了基础。
此外,AF-Next还集成了一个流式文字转语音(TTS)模块,使模型具备语音输出能力,支持真正的"语音对语音"交互——用户说话,模型不只是给出文字回答,而是直接以语音形式回应。
**四、数据是这一切的地基:超过100万小时的声音世界**
一个模型的能力上限,在很大程度上取决于它见过什么、学过什么。AF-Next的训练数据集规模达到约1.08亿条样本、约100万小时的音频,这是一个令人咋舌的数字。为了达到这个规模,同时确保数据质量,研究团队从多个维度精心构建了训练集。
在音乐理解方面,团队沿用了此前Music Flamingo项目中的音乐理解和问答数据,并特别扩充了非英语歌曲的歌词数据,以增强模型对多元文化音乐的理解能力。
在多说话人语音理解方面,研究团队专门收集了多人对话的语音识别和问答数据,训练模型追踪说话人轮换、处理交叠发言,并理解对话结构。围绕这类数据,团队设计了三个具体的技能训练目标:其一是说话人识别,给定一段发言,模型要判断是哪位说话人(按首次出现顺序排序)说的;其二是打断识别,模型要找出对话中被打断的时刻;其三是目标说话人语音识别,模型要在多人混讲的环境中,准确转录指定说话人的内容。为此,训练集新增了约4.5万条相关样本。
长音频的处理是AF-Next最具野心的部分之一。过去的工作中,长音频数据要么来自把短片段拼接起来,要么仅在后期微调阶段少量使用。AF-Next则把长音频理解作为训练的核心模块,从互联网上收集了超过20万个时长5至30分钟的长视频。对于每个视频,团队以10秒为单位切片,为每段生成四种形式的标注:视频内容描述、音频内容描述、语音转录文字,以及说话方式的副语言学描述(比如"语气急促"、"带有轻笑"等)。随后,用一个大语言模型将这些片段级标注整合为整个音频的连贯描述,并基于此生成多种问答数据——包括"大海捞针"式问答(在长音频中找到一个特定细节)、时间理解问答(事件先后顺序判断),以及"子场景"问答(描述两个事件之间发生了什么)。
与此同时,团队还系统扩充了现有技能数据集的覆盖范围。原本的技能数据主要来自AudioSet等学术数据集,这类数据的录音条件相对理想,不够贴近现实。研究者从前述长音频中截取了大量10至30秒的片段,按信息量排序(包含更多不同声音事件的片段优先级更高),为这些片段生成覆盖现有技能集全部类别的问答数据,产生了超过200万条新样本。
为支持多音频理解(即同时处理多段音频并进行比较推理),团队整合并扩展了现有的多音频数据集,最终积累约100万条训练样本。多轮对话数据方面,团队额外收集了约3万条需要综合音频理解、信息提取和世界知识的多轮多音频对话样本。
在安全性和指令遵循方面,团队填补了此前音频语言模型领域普遍忽视的空白:从真实数据中识别出不安全内容,生成对应的问答对和拒绝式回应,教会模型在适当情况下拒绝回答或给出安全引导,共计约38.6万条样本。
多语言语音识别和语音翻译方面,训练数据覆盖了包括中文、日语、阿拉伯语、德语等多种语言,来源包括Emilia、CoVoST、MUST、Amazon-SIFT、ALI Meeting等多个公开数据集。为防止模型在大量音频数据训练后丧失原有的文字推理能力,团队还混入了一批纯文本的科学、数学、指令遵循和常识知识数据。
而最具创新性的数据类型,是专门为时间推理设计的AF-Think-Time数据集。这个数据集从电影预告片、剧情回顾、悬疑故事、长篇多方对话等具有挑战性的音频源中收集了约4.3万个样本,每个样本包含一组"问题—答案—推理链"的三元组,且推理链中明确锚定了时间戳。这是为后续训练模型进行有时间依据的逐步推理所专门准备的"教材"。
**五、四段式"练功"路线:从认路到精通**
如果说数据是原材料,那么训练课程就是把原材料加工成成品的工艺流程。AF-Next采用了一套四阶段递进式训练方案,每个阶段解锁不同层次的能力,就像一个音乐学生从学认谱到即兴演奏的成长路径。
第一阶段是预训练,分两个步骤。第一步先"冻结"AF-Whisper和大语言模型,只训练音频适配器,目标是建立音频特征和语言表示之间的对应关系,让"翻译官"学会基本的翻译规则。第二步解冻音频编码器和适配器(语言模型仍保持冻结),继续在分类、描述生成、语音识别等基础任务上学习。这一阶段处理的音频最长30秒到1分钟,上下文窗口限制在8K词元以内。
第二阶段是中期训练,同样分两步。第一步对整个模型进行全面微调,引入新收集的数据以及AudioSkills-XL技能集,音频处理长度扩展到10分钟,上下文窗口扩大到24K词元。第二步进一步扩充长音频描述和问答数据,将之前数据的采样权重压缩至一半,把所有长音频数据集的采样权重设为1,使模型集中学习长音频处理。这一步的最大音频长度扩展到30分钟,上下文窗口增至128K词元。这一阶段训练完成后得到的模型被命名为AF-Next-Captioner。
值得一提的是,为了高效处理如此之长的序列,团队专门设计了一套"序列并行"(Sequence Parallelism,SP)计算框架。自注意力机制的计算量随序列长度平方级增长,处理128K长度的序列在单张GPU上是不现实的。团队采用了一种叫做混合序列并行的方法,将注意力计算分散到多张GPU上。具体来说,在节点内部使用"Ulysses注意力",通过全互联通信将序列的不同头部分配到不同GPU;跨节点则使用"Ring注意力",通过环形拓扑传递KV缓存块。这两种方式结合,既利用了节点内高带宽互连的优势,又解决了跨节点时的通信效率问题。
第三阶段是后训练,从中期训练得到的模型出发,使用基于GRPO的强化学习(一种让模型通过"对错反馈"自我优化的训练方式)进行进一步调优,重点在多轮对话、安全性、指令遵循,以及部分技能集上模型表现相对薄弱的领域。这一阶段产生的模型称为AF-Next-Instruct。
第四阶段是链式推理训练,以AF-Next-Instruct为基础,先用AF-Think-Time数据集做监督微调,再用后训练阶段的数据混合进行GRPO强化学习训练。这一阶段的最终产物称为AF-Next-Think。
三个开源版本分别面向不同使用场景:AF-Next-Instruct适合一般问答需求,AF-Next-Think专为需要深度推理的任务设计,AF-Next-Captioner则在生成详细音频描述方面表现最佳。
**六、时间锚定的推理链:让AI不仅会听,还会"按图索骥"**
现有的音频推理模型在处理短片段时表现尚可,但一旦面对长音频,往往出现两类典型问题:第一,推理链过长、堆砌废话,比如在MMAU这个基准测试上,某些模型的推理过程超过16000个词元,绝大部分是无效内容;第二,推理缺乏时间锚定,模型虽然给出了推理步骤,但这些步骤漂浮在时间轴之外,无法让人知道"这个结论是基于音频第几秒到第几秒的内容得出的"。
对于长音频来说,这个问题尤为突出。一段30分钟的录音中,关键证据可能散布在第3分钟、第17分钟和第28分钟,模型如果不能在推理时明确指向这些时间点,推理就变成了无据可查的"主观判断",难以验证也难以信任。
AF-Next为此引入了一种全新的推理范式,称为Temporal Audio Chain-of-Thought(时间音频推理链)。核心思想是:在推理过程中的每一个关键步骤,明确标注该步骤依据的时间区间。比如,回答"这段对话中,说话人情绪在哪个时间段发生了明显转变"时,模型不只是给出"在中段"这样模糊的描述,而是输出类似"在第8.3秒到第14.2秒之间,说话人的语速加快,出现停顿,语气由平稳转为急促,据此判断情绪在这一阶段发生了转变"这样有时间依据的推理链。
这种做法的直接好处有两个:其一,帮助模型在长音频中按时间线索"导航",减少因遗漏关键证据而导致的错误;其二,让推理过程对用户透明可查,提升模型输出的可信度。
为训练这一能力,研究团队构建了AF-Think-Time数据集,从电影预告片、悬疑故事、长篇对话等需要跨时间段理解的音频中提炼出约4.3万个样本,每条样本的推理链平均包含446个单词,且每个关键推理步骤都与音频中的具体时间段挂钩。
**七、跑分时间:AF-Next在20多个测试中表现如何?**
研究团队将AF-Next与业内几乎所有主要的音频语言模型进行了系统对比,包括GAMA、Audio Flamingo系列、Qwen-Audio系列、Qwen2.5-Omni、Qwen3-Omni、R1-AQA、Pengi、Phi-4-mm、Baichuan Audio、Step-Audio,以及谷歌的Gemini系列(2.0 Flash、1.5 Pro、2.5 Flash和2.5 Pro)和OpenAI的GPT-4o-audio。所有基准测试均由团队重新运行,确保结果可复现。
在MMAU(一个综合音频理解和推理的大型基准测试)的最新版本(v05.15.25)上,AF-Next-Instruct取得了74.20的平均准确率,超越了AF3的72.42。AF-Next-Think进一步提升至75.01,而AF-Next-Captioner则达到75.76,在声音(79.87)、音乐(75.3)和语音(72.13)三个子类上全面领先。
在MMAR(一个专注于语音、音频、音乐深度推理的测试)上,AF-Next-Instruct以59.7超过AF3的58.5,AF-Next-Captioner则进一步推高至63.0,比AF3高出4.5个百分点。
在MMSU(主要考察口语理解和推理)上,虽然闭源的Gemini 2.5 Flash以66.1领先,但AF-Next-Captioner以63.3的成绩大幅缩小了差距,相比AF3提升了约4个百分点。
在更具挑战性的MMAU-Pro测试上,AF-Next-Instruct以56.9的成绩超越了闭源的Gemini 2.5 Pro(57.4),AF-Next-Think则进一步达到58.7,成为该测试上最强的公开结果。
音频描述生成方面,AF-Next-Instruct在Clotho-v2上的CIDEr评分从0.50提升至0.52,在AudioCaps上从0.70提升至0.74。音频蕴含判断(判断文字描述是否符合音频内容)方面,在Clotho上准确率从93.3提升至94.2,在AudioCaps上从95.0提升至96.0。
音乐理解是AF-Next表现特别亮眼的领域之一。在NSynth乐器来源分类上,AF-Next以66.7的准确率超越了此前最强开源模型Pengi的62.0;在乐器类型分类上,以81.7超越了最强开放权重模型Qwen-Audio的78.8。在Medley-Solos-DB乐器识别测试中,AF-Next以92.13的准确率大幅超越Audio Flamingo 2的85.80。在MuchoMusic音乐理解测试中,以75.6略胜Music Flamingo的74.5。而在歌曲描述生成(SongCaps)测试中,AF-Next取得了GPT-5评分覆盖率8.8、正确率8.9的成绩,相比AF3的6.7和6.2有了大幅跃升。
长音频理解方面,AF-Next-Instruct在LongAudioBench上以73.9的成绩,同时超越了AF3的68.6和闭源的Gemini 2.5 Pro的60.4,差距相当显著。在包含语音内容的版本(+Speech)上,AF-Next更是以81.2的成绩远超AF3的72.9和Gemini 2.5 Pro的66.2。
自动语音识别方面,AF-Next-Instruct在LibriSpeech测试集上取得了1.54(干净集)和2.76(嘈杂集)的词错误率(WER),创下了同类模型中的最低记录,同时在Common Voice 15(7.2)、GigaSpeech(9.8)和VoxPopuli(5.4)上均取得最佳成绩。
在VoiceBench(语音理解和指令遵循综合测试)上,AF-Next-Instruct在AlpacaEval(4.43)、CommonEval(3.96)和OpenBookQA(80.9)三个子项上均超越了Qwen2.5-Omni和AF3,其中OpenBookQA上比AF3高出超过14分,比Qwen2.5-Omni高出约1.8分。
在CoVoST2语音翻译测试中,AF-Next在英语翻中文(38.2 BLEU)和英语翻阿拉伯语(21.9 BLEU)上取得最好成绩,后者相比Phi-4-mm的9.9高出了整整12分,显示出AF-Next在低资源语言对上的突出能力。
**八、归根结底,这项研究意味着什么?**
说到底,AF-Next做的事情可以用一句话概括:它把"听懂声音"这件事,从专用工具的领域,推向了通用智能的版图,而且是以完全开放透明的方式做到的。
过去,如果你想让AI帮你转录30分钟的会议录音、判断说话人是谁、识别背景中有什么噪音、还顺带理解某段话的情绪,你需要把这个任务拆成四五个不同的系统分别处理,结果还未必能拼接在一起。AF-Next提供了一个统一的接口,能在一次交互中完成所有这些任务,而且还能在推理时解释"我是根据第X分钟到第Y分钟的内容得出这个结论的"。
对普通人来说,这意味着更智能的语音助手、更准确的会议摘要、更可靠的音乐信息检索,以及更安全的音频内容审核系统。对研究者来说,全套开源(代码、权重、训练数据和方法论一并公开)意味着这个成果是一块可以继续搭建的积木,而不是一个封闭的黑盒。
当然,研究团队也坦诚地指出了这项工作的局限。互联网音频数据中,低资源语言、罕见声音事件和特定专业领域仍然代表性不足;30分钟的长音频能力虽然是一大进步,但当关键证据在时间上极度分散时,模型的长上下文记忆和证据整合能力仍有提升空间;此外,诸如多说话人语音识别、说话人分离、时间戳描述生成和语音对语音交互等能力虽然已经内置,但在本次研究中尚未系统评估,这些有待后续工作填补。
对于对AI感兴趣的读者,一个值得思考的问题是:当AI能够"听懂"并"推理"声音之后,我们希望它在什么场景下使用这种能力,又在什么时候应该选择沉默或拒绝?安全性和可信度的问题,在音频AI这个领域,才刚刚开始被认真对待。有兴趣深入探索的读者,可以通过arXiv编号2604.10905查阅完整论文,或访问NVIDIA相关开源页面获取模型权重和训练代码。
Q&A
Q1:Audio Flamingo Next和普通语音识别软件有什么区别?
A:普通语音识别软件只做一件事:把说的话转成文字。而Audio Flamingo Next能同时处理语音、音乐和环境声音,不只是转录,还能理解内容、回答问题、分辨是谁在说话、判断声音发生的时间顺序,甚至对30分钟的长录音进行推理和摘要生成。相当于从"速记员"进化成了"能听、能思考、能解释的智能助理"。
Q2:Temporal Audio Chain-of-Thought是什么,有什么用?
A:Temporal Audio Chain-of-Thought(时间音频推理链)是AF-Next引入的一种新推理方式。简单说,就是模型在给出答案时,会明确标注"我的结论来自音频的第几秒到第几秒"。这样做让推理过程透明可查,在处理长音频时尤其重要——模型不再是凭"感觉"作答,而是有迹可循地追踪证据,减少了错误和胡编乱造的情况。
Q3:AF-Next开源了吗,普通人能用到吗?
A:AF-Next是完全开源的,包括三个版本的模型权重(AF-Next-Instruct、AF-Next-Think、AF-Next-Captioner)、训练代码以及数据构建方法,均公开发布,采用研究用途许可证。研究者和开发者可以直接下载使用或在此基础上继续研发。对于普通用户,直接调用目前需要一定的技术门槛,但未来基于这些模型构建的应用产品,有望让普通人也能受益。