客户端
游戏
无障碍

1

评论

12

18

手机看

微信扫一扫,随时随地看

实时交互破局!SpeechGPT 2.0-preview端到端超越OpenAI

AI划重点 · 全文约2147字,阅读需7分钟

1.始智AI wisemodel.cn开源社区在AI语音交互领域取得重大突破,推出实时交互拟人化系统SpeechGPT 2.0-preview。

2.该模型基于百万小时级语音数据训练,实现拟人口语化表达、百毫秒级低延迟响应与实时打断交互。

3.SpeechGPT 2.0-preview对齐语音和文本模态,支持多情感风格控制、工具调用等功能。

4.然而,目前模型仅在中英文语音数据上训练,尚未具备英文对话能力。

5.研究团队将继续加强模型稳定性、音质稳定性,并扩增语音数据量及扩展到更多语言。

以上内容由腾讯混元大模型生成,仅供参考

始智AI wisemodel.cn开源社区

在AI语音交互领域,重大突破正在改写格局!OpenAI尚未实现的实时交互,被中国团队以创新性「端到端」方案成功攻克。

成果便是备受瞩目的SpeechGPT 2.0-preview ,这是迈向情景智能推出的首个拟人化实时交互系统,基于百万小时级语音数据训练。

其端到端语音大模型设计,实现拟人口语化表达、百毫秒级低延迟响应与实时打断交互,还对齐语音和文本模态,支持多情感风格控制、工具调用等 ,尽显技术创新实力。该模型已上线始智AI-wisemodel开源社区,欢迎大家前去体验。

图片

模型地址

https://wisemodel.cn/models/singularity/SpeechGPT-2.0-preview-7B

01.

模型概述


SpeechGPT 2.0-preview 是迈向情景智能推出的第一个拟人化实时交互系统。作为在百万小时级语音数据上训练的端到端语音大模型,它具有拟人口语化表达与百毫秒级低延迟响应,支持自然流畅的实时打断交互。

SpeechGPT 2.0-preview较好的对齐了语音和文本两个模态

一方面展现出了一定的风格泛化能力,能够遵循用户指令,实现多情感、多风格、多音色的控制与智能切换;拥有不错的角色扮演能力,能够模拟各类角色的语气和情感状态;它还具备多种语音才艺,能够进行诗歌朗诵、故事讲述、说方言等;

另一方面,它在具备语音表现力的同时有不错的智商与文本能力,从而具备支持工具调用、联网搜索、外挂知识库等功能的能力。

SpeechGPT 2.0-preview目前只在中文语音数据上做了训练,没有混英文语音数据训练,因此目前模型还没有英文对话能力。

02.

技术简介


SpeechGPT 2.0-preview 作为一款端到端语音对话大模型,凝聚了研究团队在端到端语音对话方向上的认知与技术积累和沉淀。在其开发进程中,一系列创新性技术与系统发挥了关键作用:

自研超低比特率流式语音Codec:能处理24khz的语音输入,将语音压缩至每秒75个token,支持流式输入输出,实现200ms以内延迟的实时交互。

语音数据处理系统:构建了高效的语音数据爬取系统、多功能高效率语音数据清洗pipeline和全方面多粒度语音数据标注系统,积累并精细标注了百万小时级的真实语音数据,为模型训练提供了丰富且高质量的数据。

对话语音合成系统:开发的对话语音合成系统具有高度口语化和极强音色克隆能力,基于此合成了数十万小时的多角色多风格语音对话数据,使模型的语音输出更加自然、丰富。

语音文本混合建模:提出新的语音文本混合建模模型架构以及多阶段语音文本混合建模训练流程,包括模态适应预训练、跨模态指令微调和链式模态微调等,兼顾了文本能力与语音能力,还能支持工具调用、联网搜索、外挂知识库等功能。

通过端到端的方式建模语音对话,SpeechGPT 2.0-preview 在实际测试中实现了200ms以内的延迟,能够为用户提供流畅的实时交互体验。

在实验过程中,研究团队也观察到了很多有意思的现象和结论:比如通过充分的语音文本对齐预训练,发现模型可以"涌现"出语音风格的泛化性,比如没有用语速调整的对话数据训练就可以做到语速控制,比如可以扮演对话数据中从未见过的角色与风格的语气等;语音数据合成引擎的质量是提升端到端语音模型的各训练阶段能力的关键。

语义-声学联合建模的超低比特率流式语音 Codec

图片

SpeechGPT 2.0-preview具备一系列卓越关键特性,其支持24khz语音输入,采用语义-声学联合建模技术,实现了低比特率—750bps (每秒75 token),还支持流式输入输出,极大提升交互效率与体验。

基于Codec Patchify的语音-文本混合建模模型架构

图片

Codec patchify,我们通过Codec patchify来有效减小语音和文本序列之间的模态差异,从而缓解跨模态建模中的冲突问题。具体而言,该方法将相邻T个时间步的RVQ codec token聚合为一个patch,通过patch projector模块将其映射为统一的向量表示,随后输入到speech-text LLM中进行联合建模。

在模型架构设计上,LLM的隐藏状态会同时用于两个解码任务:一方面解码生成文本输出,另一方面输入到patch decoder中进行语音重建。

特别地,研究团队设计了一个具有多解码头的自回归语言模型作为patch decoder,该模块能够通过自回归方式逐步解码,每次生成一个时间步的多个RVQ codec token,从而输出语音。

语音文本联合建模,灵活交叉自由组合,speech-text LLM会同时输入和输出语音和文本表示。

03.

模型能力


SpeechGPT 2.0-preview为用户提供了一系列令人瞩目的体验能力。当你与它交流时,会发现其对话输出极为自然流畅,高度口语化的表达就如同与身边的朋友亲切交谈,毫无生硬之感。在交互过程中,它能够做到实时响应,凭借先进的技术实现200ms以内的低延时,即使你在对话中途灵活打断,它也能迅速调整,紧跟你的思路。

其生成的语音不仅情感丰富,可随语境表达出喜怒哀乐等多种情绪,而且风格多样,或幽默风趣,或沉稳专业。值得一提的是,它还擅长角色扮演,不管是扮演历史人物讲述过去的故事,还是模拟专业人士解答疑难问题,都能游刃有余,堪称多才多艺,为用户带来独一无二的对话体验。

Thumbplayer Poster Plugin Image
播放
下一个
打开循环播放
00:00
/
00:00
倍速
3.0X
2.0X
1.5X
1.25X
1.0X
0.75X
0.5X
语言
多音轨
AirPlay
0
静音播放中,点击 恢复音量
画中画
网页全屏
全屏
error-background
你可以 刷新 试试
视频信息
1.33.6
播放信息 上传日志
视频ID
VID
-
播放流水
Flowid
-
播放内核
Kernel
-
显示器信息
Res
-
帧数
-
缓冲健康度
-
网络活动
net
-
视频分辨率
-
编码
Codec
-
mystery
mystery
-

按住画面移动小窗

X

SpeechGPT 2.0-preview在模型稳定性以及音质稳定性上还需要进一步的加强,研究团队正在进行双工模型的训练以及系统搭建,结合RLHF来增强模型表现力与稳定性以及进一步扩增语音数据量以及扩展到更多的语言,请期待下一版本的更新。

编辑丨赵雅鑫

免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部