阿里巴巴通义实验室语音团队今日宣布,其开源的语音生成大模型CosyVoice正式升级至2.0版本。作为去年7月首次开源的语音合成系统,CosyVoice凭借优质的多语言语音生成、零样本语音生成等特性获得开发者广泛认可。
相较于1.0版本,CosyVoice 2.0在多个关键指标上实现突破。首包合成延迟降至150毫秒,实现了双向流式语音合成,大幅改善了实时应用场景的用户体验。在准确性方面,新版本的发音错误率显著下降30%至50%,特别是在处理绕口令、多音字、生僻字等高难度场景时表现优异,在Seed-TTS难度测试集上创下最低字错误率记录。
音质评测也显示了显著进步,CosyVoice 2.0的MOS评测分数从5.4提升至5.53,已与主流商业语音合成系统比肩。同时,新版本在零样本语音生成和跨语言语音合成方面的音色一致性也有明显提升。
在功能层面,CosyVoice 2.0新增了更丰富的方言支持,包括粤语、四川话、郑州话、天津话和长沙话等。系统还引入了创新的角色扮演功能,支持模仿机器人、动画角色等特定说话风格,并提供更细粒度的情感和语气控制选项。
技术架构方面,CosyVoice 2.0采用了全新的设计。系统基于预训练的文本基座大模型(如Qwen2.5-0.5B)替换了原有的Text Encoder结构,并引入FSQ Speech Tokenizer替代传统的向量量化方案,通过更大的码本(6561)实现了100%的激活率,显著提升了发音准确性。
此次升级不仅展现了开源语音合成技术的最新进展,也为全球开发者社区提供了更强大的工具。CosyVoice 2.0的发布,将进一步推动语音交互技术在教育、娱乐、客服等领域的创新应用。