GLM-4-Voice 让交互更简单，在wisemodel上开启实践探索

wisemodel开源社区

2024-10-27 17:30始智AI wisemodel官方账号

全文2665字，阅读约需8分钟，帮我划重点

划重点

01智谱清言的「情感语音通话」利用智谱的端到端语音模型GLM-4-Voice，实现了机器与人交互的自然与流畅。

02GLM-4-Voice模型具备直接理解和生成中英文语音的能力，支持实时打断和多语言、多方言支持。

03为此，智谱设计了一套流式思考架构，保证回复内容的高质量，同时保持低延迟性。

04目前，GLM-4-Voice系列模型已经开源，并发布到始智AI wisemodel开源社区。

05用户可以通过wisemodel上的开发环境启动模型服务，体验情感语音通话功能。

以上内容由腾讯混元大模型生成，仅供参考

始智AI wisemodel.cn开源社区

在人类的想象中，「Any-to-Any」是真正属于未来的人与 AI 交互方式。AI 能做到接收文本、音频和图像的任意组合作为输入，并实时生成文本、音频和图像的任意组合输出。

近日，智谱清言的「情感语音通话」就提供了一个真人一般的对话伙伴，又一次推动了国产 AI 对标国际先进水平。

这个情感语音通话背后正是智谱的端到端语音模型GLM-4-Voice。这一成果使得大模型具备了完整的感官系统，实现了机器与人交互的自然与流畅。

具体来说，GLM-4-Voice 模型具备直接理解和生成中英文语音的能力，能够根据用户指令灵活调整语音的情感、语调、语速及方言等特征，且具有更低的延时，支持实时打断，进一步提升交互体验。

1、情感表达和情感共鸣：模拟不同情感和语调，如高兴、悲伤、生气、害怕等情绪，用合适情绪语气进行回复。传统 TTS 通常在情感表达上比较僵硬，声音缺少起伏和细腻变化。

2、调节语速：在同一轮对话中，可以要求 TA 快点说 or 慢点说。

3、随时打断，灵活输入指令：根据实时用户指令，调整语音输出的内容、风格和情感，支持更灵活的对话互动。例如你可以随时打断 TA，让 TA 输出新的内容，更符合日常对话情境。

4、多语言、多方言支持：目前 GLM-4-Voice 支持中英文语音以及中国各地方言，尤其擅长粤语、重庆话、北京话等。

目前GLM-4-Voice 系列模型已经开源，并发布到始智AI wisemodel开源社区，欢迎大家前往使用。

模型地址：

https://wisemodel.cn/models/ZhipuAI/glm-4-voice-9b

https://wisemodel.cn/models/ZhipuAI/glm-4-voice-tokenizer

https://wisemodel.cn/models/ZhipuAI/glm-4-voice-decoder

开源技术细节

与传统的 ASR + LLM + TTS 的级联方案相比，端到端模型以音频 token 的形式直接建模语音，在一个模型里面同时完成语音的理解和生成，避免了级联方案“语音转文字再转语音” 的中间过程中带来的信息损失，也解锁了更高的能力上限。

图｜GLM-4-Voice 模型架构图

GLM-4-Voice 以离散 token 的方式表示音频，实现了音频的输入和输出的端到端建模。具体来说，我们基于语音识别（ASR）模型以有监督方式训练了音频 Tokenizer，能够在 12.5Hz（12.5 个音频 token）单码表的超低码率下准确保留语义信息，并包含语速，情感等副语言信息。

具体来说，GLM-4-Voice 由三个部分组成：

第一，GLM-4-Voice-Tokenizer: 通过在 Whisper 的 Encoder 部分增加Vector Quantization 训练，通过在 ASR 数据上有监督训练的方式得到，将连续的语音输入转化为离散的 token，每秒音频转化为 12.5 个离散 token。

第二，GLM-4-Voice-9B: 在 GLM-4-9B 的基础上进行语音模态的预训练和对齐，从而能够理解和生成离散化的语音。

第三，GLM-4-Voice-Decoder: 基于 CosyVoice 的 Flow Matching 模型结构训练的支持流式推理的语音解码器，将离散化的语音 token 转化为连续的语音输出。最少只需要 10 个音频 token 即可开始生成，降低端到端对话延迟。

语音合成方面，我们采用 Flow Matching 模型流式从音频 token 合成音频，最低只需要 10 个 token 合成语音，最大限度降低对话延迟。

预训练方面，为了攻克模型在语音模态下的智商和合成表现力两个难关，我们将 Speech2Speech 任务解耦合为 Speech2Text（根据用户音频做出文本回复）和 Text2Speech（根据文本回复和用户语音合成回复语音）两个任务，并设计两种预训练目标适配这两种任务形式：

Speech2Text：从文本数据中，随机选取文本句子转换为音频 token；
Text2Speech：从音频数据中，随机选取音频句子加入文本 transcription。

图｜GLM-4-Voice 预训练数据构造

GLM-4-Voice 在 GLM-4-9B 的基座模型基础之上，经过了数百万小时音频和数千亿 token 的音频文本交错数据预训练，拥有很强的音频理解和建模能力。

为了支持高质量的语音对话，智谱设计了一套流式思考架构：输入用户语音，GLM-4-Voice 可以流式交替输出文本和语音两个模态的内容，其中语音模态以文本模态作为参照保证回复内容的高质量，并根据用户的语音指令变化感情需求，在保证智商的情况下仍然具有端到端建模的能力，同时保持低延迟性（最低只需要输出 20 个 token 便可以合成语音）。

使用glm-4-voice镜像启动服务

在wisemodel的“算力”模块或者在“模型详情”页的“训练或微调”按钮，选择“glm-4-voice-9b-deploy”的镜像，选择单卡A5000或3090的配置即可运行，填写完成基础信息之后，点击“下一步”。

然后确认一下计费模式，提交订单之后基础环境就创建好了。

等待1分钟左右，开发环境就启动成功，进入运行中的状态。

通过SSH或notebook登录到开发环境上，然后到/home/GLM-4-Voice目录下面，把模型服务启动起来，然后再启动 web 服务。

nohup python model_server.py --model-path /llm/ZhipuAI/glm-4-voice-9b > test.log&python web_demo.py

服务启动成功之后，在开发环境申请一个服务端口和访问域名。

将申请好的域名复制到浏览器里就可以开始在线体验了。用户可以输入语音或文本，模型会同时给出语音和文字回复。

创建开发环境从零安装部署

智谱在github上提供了可以直接启动的 Web Demo。用户可以输入语音或文本，模型会同时给出语音和文字回复。

首先下载仓库

git clone --recurse-submodules https://github.com/THUDM/GLM-4-Voicecd GLM-4-Voice

然后安装依赖。

pip install -r requirements.txt

从wisemodel上把模型文件下载下来，保存到开发环境的存储目录下，这里已经下载到了/llm/ZhipuAI/路径下面。

#git 模型下载，请确保已安装git lfs installgit clone https://wisemodel.cn/models/ZhipuAI/glm-4-voice-9bgit clone https://wisemodel.cn/models/ZhipuAI/glm-4-voice-tokenizergit clone https://wisemodel.cn/models/ZhipuAI/glm-4-voice-decoder

Launch Web Demo

首先启动模型服务

python model_server.py --model-path /llm/ZhipuAI/glm-4-voice-9b

然后启动 web 服务

python web_demo.py

加载成功之后，然后回到开发环境里申请一个服务端口和域名。

把域名复制到浏览器就可以开始在线体验了。

查看原图 35K