始智AI wisemodel.cn开源社区
在人类的想象中,「Any-to-Any」是真正属于未来的人与 AI 交互方式。AI 能做到接收文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合输出。
https://wisemodel.cn/models/ZhipuAI/glm-4-voice-9b
https://wisemodel.cn/models/ZhipuAI/glm-4-voice-tokenizer
01
开源技术细节
语音合成方面,我们采用 Flow Matching 模型流式从音频 token 合成音频,最低只需要 10 个 token 合成语音,最大限度降低对话延迟。
Speech2Text:从文本数据中,随机选取文本句子转换为音频 token;
Text2Speech:从音频数据中,随机选取音频句子加入文本 transcription。
02
使用glm-4-voice镜像启动服务
等待1分钟左右,开发环境就启动成功,进入运行中的状态。
nohup python model_server.py --model-path /llm/ZhipuAI/glm-4-voice-9b > test.log&
python web_demo.py
03
创建开发环境从零安装部署
git clone --recurse-submodules https://github.com/THUDM/GLM-4-Voicecd GLM-4-Voice
pip install -r requirements.txt
#git 模型下载,请确保已安装
git lfs install
git clone https://wisemodel.cn/models/ZhipuAI/glm-4-voice-9b
git clone https://wisemodel.cn/models/ZhipuAI/glm-4-voice-tokenizer
git clone https://wisemodel.cn/models/ZhipuAI/glm-4-voice-decoder
Launch Web Demo
python model_server.py --model-path /llm/ZhipuAI/glm-4-voice-9b
python web_demo.py