阿里巴巴通义实验室推出三款AI语音模型,普通话识别错误率仅4.97%

你有没有遇到过这样的烦恼:打开语音转文字软件,说了一句带口音的普通话,结果转出来的文字面目全非?或者开着歌曲想让软件识别歌词,却发现它完全"听不懂"?更别说在嘈杂的餐厅里录音,或者让老人小孩对着麦克风说话了——这些场景对传统语音识别系统来说,几乎都是噩梦。

图片

Qwen团队这次发布的Qwen3-ASR系列模型,正是要正面硬刚这些难题。这套系统包含三个模型:Qwen3-ASR-1.7B、Qwen3-ASR-0.6B,以及一个专门负责"给每个字打时间戳"的Qwen3-ForcedAligner-0.6B。前两个是语音识别主力,后一个则是业内首个基于大语言模型的多语言强制对齐工具。三个模型均以Apache 2.0协议开源,开发者和研究者可以免费商用。

一个模型搞定52种语言,还认得了22种中国方言

要理解Qwen3-ASR究竟做了什么,先把它想象成一位超级速记员。这位速记员不只会普通话和英语,还会广东话、阿拉伯语、德语、法语、西班牙语、葡萄牙语、印尼语、意大利语、韩语、俄语、泰语、越南语、日语、土耳其语、印地语、马来语、荷兰语、瑞典语、丹麦语、芬兰语、波兰语、捷克语、菲律宾语、波斯语、希腊语、匈牙利语、马其顿语和罗马尼亚语,总计30种语言。

光这30种语言还不够。在中文方言方面,这位速记员还专门学过安徽话、东北话、福建话、甘肃话、贵州话、河北话、河南话、湖北话、湖南话、江西话、宁夏话、山东话、陕西话、山西话、四川话、天津话、云南话、浙江话,加上香港口音粤语、广东口音粤语、吴语和闽南语,合计22种方言。两者相加,这套系统共支持52种语言和方言。

更值得一提的是,它还能听歌。传统语音识别面对带背景音乐的歌曲几乎束手无策,但Qwen3-ASR-1.7B不仅能识别清唱的演唱声音,还能直接转录带有伴奏的完整歌曲歌词。在测试中,对于带背景音乐的中文完整歌曲,它的词错误率达到13.91%,在开源模型里排名第一,Whisper-large-v3和FunASR-MLT-Nano在这个场景下基本属于"听不懂"的状态。

图片

这背后的技术支撑,是一套分层的架构设计。模型的核心处理单元叫AuT编码器(一种专门处理音频信号的神经网络),它把原始音频特征压缩成更紧凑的表示,压缩比高达8倍。这个编码器用了约4000万小时的伪标注语音数据进行预训练——4000万小时是什么概念?如果不睡觉连续听,需要听大约4566年。预训练完成后,编码器被接入通义千问的多模态基础模型Qwen3-Omni,再经过专门的语音识别微调,才形成最终的Qwen3-ASR。

四个阶段的"养成之路":从海量数据到强化学习

Qwen3-ASR的训练过程,像极了培养一位顶级翻译员的路径,总共经历了四个阶段。

第一阶段是打地基。AuT编码器需要先独立学习如何"听",用的是大约4000万小时的语音数据,主要是中文和英语。这个阶段产出的编码器,能够在不同长度的音频片段下都稳定工作,因为它采用了动态注意力窗口机制,窗口大小可以在1秒到8秒之间灵活调整。

第二阶段是"见世面"。整个Qwen3-Omni多模态基础模型,用3万亿个词元(token,可以理解为文字或语音的最小处理单位)的音频、视觉和文字混合数据进行预训练,让模型具备对多种信息形式的综合理解能力。0.6B和1.7B两个版本都经历了这一阶段。

第三阶段是专项训练。在监督微调(SFT)阶段,模型被专门调教成纯粹的语音识别工具,刻意屏蔽了"理解自然语言指令"的能力——这是一个有趣的设计取舍,目的是防止用户在提示词里塞入干扰指令,导致模型"跑偏"。此外,这一阶段还引入了非语音数据(比如环境噪音)、流式推理增强数据,以及上下文偏置数据(允许用户把专有名词、人名等背景知识告诉模型,从而提升特定场景的识别准确率)。

第四阶段是"磨砺"。研究团队使用了一种叫做GSPO(群体序列策略优化)的强化学习方法,用约5万条语音数据对模型进行最后的打磨。这5万条数据里,中英文占35%,多语言数据占35%,各类功能性测试数据占30%。强化学习的效果出乎意料地显著——它对模型在嘈杂环境下的稳定性、转录一致性以及处理难点案例的能力,都有明显提升。

三跑得有多快?0.6B版本每秒能处理2000秒音频

语音识别模型好不好用,速度是关键指标之一。Qwen3-ASR-0.6B在这方面的表现颇为亮眼。

图片

以"首字等待时间"(TTFT,即用户说完话到模型开始输出第一个字的延迟)为衡量标准:在单用户使用的情况下,平均等待时间低至92毫秒,95%的请求在105毫秒内就能看到第一个字。换个直观的说法,从你说完话到模型开始输出,大约只需要一眨眼的十分之一。

当同时有128个用户并发请求时,实时因子(RTF,即处理1秒音频需要多少秒)为0.064,吞吐量达到每秒处理2000秒音频。也就是说,每过1秒钟,模型就能处理完相当于2000秒的语音内容。对于需要大规模部署的工业场景,这个数字意味着可以用很低的成本支撑大量用户同时使用。

1.7B的大版本稍慢一些,单用户情况下TTFT平均102毫秒,128并发时吞吐量约为每秒1220秒音频。两个版本均支持离线批量处理和在线异步推理两种模式,均基于vLLM v0.14.0框架运行。

不只是转文字,还支持流式实时识别

流式识别,通俗来说就是"边说边转"——不需要等你说完整段话,模型实时输出文字,就像专业速记员那样跟着你的语速同步打字。

Qwen3-ASR的流式能力来自AuT编码器的动态注意力窗口设计。模型以2秒为一个块(chunk)进行处理,并保留前4个块的上下文不做修改,以保证识别结果的连贯性。

在实际测试中,流式模式相比离线模式确实会带来一定的准确率损失,但损失幅度在可接受范围内。以Qwen3-ASR-1.7B为例,在LibriSpeech标准测试集上,离线模式的词错误率是1.63%(clean)和3.38%(other),流式模式则是1.95%和4.51%。在Fleurs英语测试集上,离线3.35%,流式4.02%;中文测试集上,离线2.41%,流式2.84%。总体来看,流式模式引入的额外误差约在0.3到1.1个百分点之间。

内外部测试的成绩单:在嘈杂环境和方言识别上尤为突出

为了全面评估模型性能,研究团队不仅测试了公开基准数据集,还专门构建了一套内部测试集,覆盖了许多公开测试集里较少出现的真实场景。

在公开英语基准测试中,Qwen3-ASR-1.7B在GigaSpeech(众包网络语音)上达到8.45%词错误率,在Common Voice英语集上达到7.39%,在VoxPopuli上达到9.15%,综合表现优于GPT-4o-Transcribe、Gemini-2.5-Pro等商业API,并全面超越Whisper-large-v3等开源模型。在LibriSpeech朗读语音测试集上,1.7B版本的clean集词错误率为1.63%,接近最优水平。

普通话方面,Qwen3-ASR的优势更加明显。在包含多种声学环境和会议录音的WenetSpeech测试集上,1.7B版本的CER(字符错误率)为4.97%(网络语音)和5.88%(会议录音),大幅优于GPT-4o-Transcribe的15.30%和32.27%,以及Gemini-2.5-Pro的14.43%和13.47%。Doubao-ASR在这个测试集上甚至无法给出合理结果(标注为N/A)。

内部压力测试的结果更能说明问题。在包含16种口音英语的测试集上,Qwen3-ASR-1.7B达到16.07%词错误率,优于所有对比系统。在老人儿童普通话测试中,1.7B版本达到3.81%字符错误率,而Gemini-2.5-Pro在同场景下高达36.93%。极端噪音环境下,1.7B版本达到16.17%,Whisper-large-v3则高达63.17%。覆盖22种方言的混合方言测试集上,Qwen3-ASR-1.7B达到15.94%,优于Doubao-ASR的19.85%和Whisper-large-v3的44.55%。

语言识别顺带就做了,平均准确率97.9%

Qwen3-ASR在输出识别文字时,会同时在文字前面标注一个语言标签,格式类似"language English"或"language Chinese"。这意味着它不仅在转录,还顺带识别了你说的是哪种语言——这个功能叫做语言识别(LID)

在Fleurs(覆盖30种语言)、MLS(9种语言)、CommonVoice(13种语言)和MLC-SLM(11种语言)四个多语言基准测试集上,Qwen3-ASR-1.7B的语言识别平均准确率达到97.9%,Qwen3-ASR-0.6B达到96.8%,均优于Whisper-large-v3的94.1%。

现有的错误主要集中在马来语(ms)和印度尼西亚语(id)之间的混淆,因为这两种语言在发音和词汇上都非常接近,即便是人类有时也难以区分。

专门为字幕生成而生的"时间戳神器":Qwen3-ForcedAligner

在语音识别之外,研究团队还发布了一个独立的新工具:Qwen3-ForcedAligner-0.6B。这个工具做的事情,用一句话说就是"给每个字标上它在音频里出现的精确时间"。

假设你有一段15秒的录音,里面说了"你好,我是通义千问",ForcedAligner能告诉你:"你"出现在0.5秒到0.66秒,"好"在0.66秒到0.89秒,"我"在0.89秒到1.10秒……以此类推。这个功能在字幕生成、语音数据标注、口语评测等场景里非常实用。

传统的时间戳工具(比如在语音识别领域广泛使用的MFA——蒙特利尔强制对齐器,以及NFA——NeMo强制对齐器)大多需要针对不同语言分别使用不同的语言模型和音素字典,使用门槛较高,也难以支持多语言混用的场景。

Qwen3-ForcedAligner的设计思路完全不同。它把时间戳预测重新定义为一个"填空"任务:给定一段音频和对应文字,在每个词或字的前后插入特殊的时间槽标记[time],然后让模型直接预测每个槽对应的时间索引。时间索引以80毫秒为一个单位,最多支持3750个单位,对应最长300秒的音频。

它的核心技术创新在于采用了非自回归(NAR)推理方式。通俗来说,普通语音识别模型是"一个字一个字往外蹦"的,而Qwen3-ForcedAligner是"一次性把所有时间戳全部预测出来"。这让它的速度极快:即便在128并发的情况下,实时因子依然接近0.001,相当于每秒能处理1000秒的音频时间戳标注。

训练数据方面,由于人工标注时间戳极为昂贵,研究团队用MFA生成的伪标注数据作为训练素材,但并非简单复制MFA的输出——模型经过"提炼和平滑"处理,最终预测结果比MFA本身更稳定、偏移更小。

时间戳准确度测试:比竞争对手精确67%到77%

衡量时间戳准确度的指标叫做AAS(累积平均偏移),数值越小说明预测时间戳和真实时间戳之间的差距越小。

在MFA标注的短句测试集上,Qwen3-ForcedAligner-0.6B的平均AAS为42.9毫秒,而NFA为129.8毫秒,WhisperX为133.2毫秒,相对减少了约67%到68%。中文单独测试中,Qwen3-ForcedAligner的AAS为33.1毫秒,而Monotonic-Aligner高达161.1毫秒。

长音频场景下,差距更加悬殊。在长度拼接至300秒的测试集上,Qwen3-ForcedAligner的平均AAS为52.9毫秒,NFA为246.7毫秒,WhisperX更是高达2708.4毫秒(近3秒的偏移)。传统工具在处理长音频时准确率急剧下降,而Qwen3-ForcedAligner的性能基本不受音频长度影响。

在人工标注的测试集上(这是更接近真实情况的"黄金标准"),Qwen3-ForcedAligner的各项AAS均在24.8到42.5毫秒之间,而NFA在86.7到140毫秒之间,表现出相对减少约53%到77%的偏移量。

至顶AI实验室洞见

Qwen3-ASR这套系统做的事情,是把原本需要多个专业工具分开完成的任务——多语言识别、方言转录、歌曲识别、流式输出、语言判断、时间戳标注——统一放进了一套开源模型里。1.7B版本在综合性能上达到甚至超过了GPT-4o-Transcribe和Gemini-2.5-Pro等闭源商业API的水平,而0.6B版本则在精度和效率之间找到了一个适合设备端部署的平衡点。时间戳工具Qwen3-ForcedAligner更是填补了开源领域多语言强制对齐工具的空白。

这意味着,开发者不需要花钱购买闭源API,也不需要针对每种语言维护独立的识别系统,就能搭建出覆盖全球主要语言和中国各地方言的语音识别服务。对于做字幕、做语音数据标注、做多语言客服系统的团队来说,这套工具值得认真看一看。

论文地址:

https://arxiv.org/pdf/2601.21337