Conneau 的 X/twitter 横幅(图片来源:X)
据 TechCrunch 报道,在周一,Conneau 推出了 WaveForms AI,一家新的音频LLM公司,正在训练自己的基础模型,其创始人曾在 OpenAI 中负责 ChatGPT 语音。它的目标是在 2025 年发布与 OpenAI 和 Google 的产品竞争的 AI 音频产品。该初创公司在周一宣布,获得了由 Andreessen Horowitz 领投的 4000 万美元种子资金。
Alexis Conneau 对电影《她》思考了很多。过去几年里,他一直痴迷于试图将电影中虚构的语音技术萨曼莎变为现实。
通过 ChatGPT 的高级语音模式,Conneau 在 OpenAI 开始的一个项目,曾在 Meta 做过类似工作后,他最后算是做到了。该 AI 系统本地处理语音,并像人类一样进行对话。
现在,他有了一家新的初创公司,WaveForms AI,正在尝试构建更好的东西。
Conneau 花了很多时间思考如何避免电影中展示的反乌托邦,他在接受 TechCrunch 采访时说道。“她”是一部关于人们与人工智能系统而非其他人类发展亲密关系的科幻电影。
“这部电影是反乌托邦,对吧?这不是我们想要的未来,”Conneau 说。“我们想要带来那种技术——现在存在并将会存在的——我们想要把它用于好事。我们想要做的正是与电影中那家公司完全相反的事情。”
构建技术,减去随之而来的反乌托邦,似乎是一个矛盾。但 Conneau 打算无论如何都要构建它,他相信他的新人工智能初创公司将帮助人们“用耳朵感受 AGI”。
Conneau 说,Marc Andreessen 曾写道人工智能应该成为人类生活的每个方面的一部分,他对 Conneau 的努力表现出了个人兴趣。
值得注意的是,Conneau 对电影《 Her 》的痴迷可能曾让 OpenAI 陷入麻烦。今年早些时候,斯嘉丽·约翰逊向 Sam Altman 的初创公司发出了法律威胁,最终迫使 OpenAI 删除了一个与她在电影中角色非常相似的 ChatGPT 语音。OpenAI 否认曾试图复制她的声音。
但不可否认这部电影对 Conneau 的影响有多大。《 Her 》在 2013 年发布时显然是科幻电影——那时,苹果的 Siri 还很新,功能非常有限。但今天,这项技术感觉触手可及。
像 Character.AI 这样的 AI 伴侣平台每周吸引数百万用户,他们只想与其聊天机器人交谈。这个领域正在成为生成性 AI 的一个热门应用案例——尽管偶尔会出现悲惨和不安的结果。你可以想象,一个整天与聊天机器人对话的人会多么渴望有机会与它交谈,尤其是使用像 ChatGPT 的高级语音模式这样令人信服的技术。
WaveForms AI 的首席执行官对人工智能陪伴领域持谨慎态度,这并不是他新公司的核心。他认为人们会以新的方式使用 WaveForms 的产品——例如在车里与人工智能交谈 20 分钟以了解某些事情——但 Conneau 表示他希望公司能更“横向发展”。
“[WaveForms AI] 可以成为那个激励你的老师,你知道,也许是你生活中不会有的那个老师,至少是在你的现实生活中,”首席执行官说。
在未来,他相信与生成式人工智能交谈将成为与各种技术互动的更常见方式。这可能包括与您的汽车交谈,以及与您的计算机交谈。WaveForms 旨在提供能够促进这一切的“情感智能”人工智能。
“我不相信人机互动会取代人际互动的未来,”Conneau 说。“如果有什么的话,它将是互补的。”
他说人工智能可以从社交媒体的错误中学习。例如,他认为人工智能不应该以“在平台上花费的时间”作为优化目标,这是社交应用程序常用的成功指标,可能会促进不健康的习惯,比如无休止地滚动信息。更广泛地说,他希望确保 WaveForms 的人工智能与人类的最佳利益保持一致,并称这为“你能做的最重要的工作。”
Conneau 表示,OpenAI 为他的项目“高级语音模式”所起的名字并没有真正体现出这项技术与 ChatGPT 常规语音模式的不同之处。
旧的语音模式实际上只是将你的声音转换为文本,经过 GPT-4 处理,然后再将文本转换回语音。这是一个有些拼凑的解决方案。然而,Conneau 表示,使用高级语音模式,GPT-4o 实际上是将你的声音音频分解为标记(显然,每秒音频大约等于三个标记),并直接通过一个音频特定的变换模型处理这些标记。他解释说,这就是高级语音模式能够实现如此低延迟的原因。
在谈论人工智能音频模型时,一个常被提及的说法是它们“理解情感”。就像基于大量文本文件中发现的模式的文本 LLMs,音频 LLMs 也对人类说话的音频片段做同样的事情。人类将这些片段标记为“悲伤”或“兴奋”,以便人工智能模型在听到你说这些时识别出类似的声音模式,甚至以自己的情感语调作出回应。因此,它们并不是“理解情感”,而是系统地识别出人类与这些情感相关联的音频特征。
让人工智能更具人情味,而不是更聪明
Conneau 正在押注,今天的生成性人工智能不需要比 GPT-4o 智能得多就能创造更好的产品。WaveForms 并不是像 OpenAI 在 o1 中那样提高这些模型的基础智能,而是简单地试图让人工智能更好地进行对话。
“会有一群人[使用生成性人工智能],他们会选择对自己来说最愉快的互动方式,”Conneau 说。
这就是为什么这家初创公司有信心开发自己的基础模型——理想情况下,开发更小的模型,这样运行成本更低,速度更快。考虑到最近的证据,旧的人工智能扩展法则正在放缓。
Conneau 说,他在 OpenAI 的前同事 Ilya Sutskever 经常和他谈论尝试“感受 AGI”——本质上是用直觉来评估我们是否达到了超智能 AI。WaveForms 的首席执行官相信,实现 AGI 将更多依赖于一种感觉,而不是达到某种基准,而音频 LLMs 将是这种感觉的关键。
“我认为当你能够与 AGI 交谈时,当你能听到 AGI 时,当你能真正与 Transformer 本身交谈时,你会更能感受到它”Conneau 说,重复了他在晚餐时对 Sutskever 所说的话。
但是,随着初创公司使人工智能的对话能力更强,他们显然也有责任去弄清楚如何确保人们不会上瘾。然而,a16z 合伙人 Martin Casado 表示,如果人们更频繁地与人工智能交谈,这不一定是坏事。
“我可以去和互联网上的一个随机人交谈,那个人可以欺负我,那个人可以利用我……我可以和一个可能非常暴力的视频游戏交谈,或者我可以和一个人工智能交谈,” Casado 在接受 TechCrunch 采访时说。“我认为这是一个重要的问题研究。如果结果表明[与人工智能交谈]实际上更可取,我不会感到惊讶。”