ChatGPT高级语音模式上线，将逐步覆盖订阅用户

三易生活

2024-09-26 18:17发布于湖北三易生活官方账号

继此前在7月底，OpenAI方面向部分ChatGPT Plus订阅用户开放基于GPT-4o的高级语音模式（Advanced Voice Mode），并宣布将在今年秋季逐步向所有ChatGPT Plus订阅用户开放该模式后。日前OpenAI方面宣布，所有ChatGPT Plus和ChatGPT Team订阅用户都将可以使用ChatGPT高级语音模式。据悉，该模式将于本周内在美国市场逐步推出，自10月1日起将向ChatGPT Edu、ChatGPT Enterprise订阅用户开放。

据官方介绍，ChatGPT高级语音模式新增了自定义指令、记忆功能。其中在自定义指令方面，用户可以通过设置来定制ChatGPT的说话方式，例如让模型以特定的节奏说话、发音清晰、慢速说话以及定期使用用户的名字等，以便用户更准确地描述他们希望模型如何说话。

对此OpenAI方面指出，“声音模态（声音的传递方式）包含许多元素，这些元素在文本对话中可能无法体现，比如口音、语调、节奏等”。此外其还透露，ChatGPT高级语音模式除了可以提供更自然的实时对话、允许用户随时打断之外，还能够感知或响应用户的情绪语调，包括悲伤、兴奋等。

除了新增功能外，ChatGPT高级语音模式的对话速度、流畅度，以及口音也都得到了改善，例如目前ChatGPT可以使用50种语言说“对不起，我迟到了”。此外在对话过程中，其声音还能够根据谈话的语气进行调整，而在不需要交谈时，ChatGPT就会保持安静。

值得一提的是，ChatGPT高级语音模式还推出了Arbor、Maple、Sol、Spruce和Vale五种不同风格的新声音。加上之前的Breeze、Juniper、Cove和Ember四种声音，该模式的可选声音达到了九种。但需要注意的是，目前的ChatGPT高级语音模式还缺少OpenAI此前在今年5月展示过的部分功能，比如计算机视觉，该功能可让ChatGPT仅通过使用智能手机的摄像头就对用户的动作提供语音反馈。

事实上，早在2023年年底OpenAI方面就为ChatGPT引入了语音模式。据悉，ChatGPT此前的语音模式与以往的智能语音助手类似，是基于转录、大语言模型和文生语音3个独立模型来实现的语音功能。用户按下“按钮”、说出自己的问题，ChatGPT就会将其转换为文本，并生成答案，再将答案转换为语音播放给用户。

相关信息显示，ChatGPT此前的语音模式使用的GPT-3.5模型平均延迟为2.8秒、GPT-4为5.4秒，而ChatGPT高级语音模式使用的GPT-4o则能够以平均320毫秒的速度回应音频输入，与人类在典型对话中的反应时间相似。对此OpenAI首席技术官Muri Murati表示，“在GPT-4o中，我们训练了跨文本、视觉和音频的端到端全新统一模型，这意味着所有输入和输出都由同一个神经网络处理”。

【本文图片来自网络】

查看原图 39K