继此前在7月底,OpenAI方面向部分ChatGPT Plus订阅用户开放基于GPT-4o的高级语音模式(Advanced Voice Mode),并宣布将在今年秋季逐步向所有ChatGPT Plus订阅用户开放该模式后。日前OpenAI方面宣布,所有ChatGPT Plus和ChatGPT Team订阅用户都将可以使用ChatGPT高级语音模式。据悉,该模式将于本周内在美国市场逐步推出,自10月1日起将向ChatGPT Edu、ChatGPT Enterprise订阅用户开放。
据官方介绍,ChatGPT高级语音模式新增了自定义指令、记忆功能。其中在自定义指令方面,用户可以通过设置来定制ChatGPT的说话方式,例如让模型以特定的节奏说话、发音清晰、慢速说话以及定期使用用户的名字等,以便用户更准确地描述他们希望模型如何说话。
对此OpenAI方面指出,“声音模态(声音的传递方式)包含许多元素,这些元素在文本对话中可能无法体现,比如口音、语调、节奏等”。此外其还透露,ChatGPT高级语音模式除了可以提供更自然的实时对话、允许用户随时打断之外,还能够感知或响应用户的情绪语调,包括悲伤、兴奋等。
除了新增功能外,ChatGPT高级语音模式的对话速度、流畅度,以及口音也都得到了改善,例如目前ChatGPT可以使用50种语言说“对不起,我迟到了”。此外在对话过程中,其声音还能够根据谈话的语气进行调整,而在不需要交谈时,ChatGPT就会保持安静。
值得一提的是,ChatGPT高级语音模式还推出了Arbor、Maple、Sol、Spruce和Vale五种不同风格的新声音。加上之前的Breeze、Juniper、Cove和Ember四种声音,该模式的可选声音达到了九种。但需要注意的是,目前的ChatGPT高级语音模式还缺少OpenAI此前在今年5月展示过的部分功能,比如计算机视觉,该功能可让ChatGPT仅通过使用智能手机的摄像头就对用户的动作提供语音反馈。
事实上,早在2023年年底OpenAI方面就为ChatGPT引入了语音模式。据悉,ChatGPT此前的语音模式与以往的智能语音助手类似,是基于转录、大语言模型和文生语音3个独立模型来实现的语音功能。用户按下“按钮”、说出自己的问题,ChatGPT就会将其转换为文本,并生成答案,再将答案转换为语音播放给用户。
相关信息显示,ChatGPT此前的语音模式使用的GPT-3.5模型平均延迟为2.8秒、GPT-4为5.4秒,而ChatGPT高级语音模式使用的GPT-4o则能够以平均320毫秒的速度回应音频输入,与人类在典型对话中的反应时间相似。对此OpenAI首席技术官Muri Murati表示,“在GPT-4o中,我们训练了跨文本、视觉和音频的端到端全新统一模型,这意味着所有输入和输出都由同一个神经网络处理”。
【本文图片来自网络】