在 OpenAI 在这个秋季引发了一场竞争,发布了被称为推理人工智能的突破性人工智能后,ChatGPT 的拥有者似乎可能会在市场上独占鳌头。
谷歌和微软都在努力追赶这项技术,该技术旨在帮助用户回答复杂的多步骤问题,参与该项目的两位人士表示。但在过去一周左右,推理竞赛的动态似乎发生了变化:一家鲜为人知的初创公司、一家中国量化交易公司和中国电子商务公司阿里巴巴集团各自发布的推理模型似乎在与 OpenAI 的模型对比中表现良好。
要点
推理模型比高级LLMs更容易开发 微软一直在努力复制 OpenAI 的 o1 推理模型 劳伦斯利弗莫尔国家实验室在激光研究中使用了 o1
Fireworks AI 是一家位于加利福尼亚州的初创公司,帮助开发者运行开源模型,发布了将多个开源模型结合成一个系统的人工智能,该系统在一些数学和编码评估中超越了 OpenAI 的 GPT-4o 和 Anthropic 的 Claude 3.5 Sonnet,这些评估是推理能力的指标。
几天后,中国量化交易公司幻方宣布其推理模型在某些数学和编码评估中超越了 OpenAI 的推理模型 o1-preview。周五,另一家中国公司阿里巴巴发布了一个开源推理模型,在创始人和社交媒体上引发了积极的反响。
这些发布共同突显了推理模型的崛起如何为较小的人工智能开发者——无论是在美国境内还是境外——提供追赶 OpenAI 的机会,而 OpenAI 在构建驱动 ChatGPT 和其他对话式人工智能的大型语言模型方面具有显著的先发优势。
在开发替代 OpenAI 的过程中,新进入者似乎受益于斯坦福大学、谷歌、Meta 平台和 OpenAI 本身近年来发表的关于推理的论文。(幻方和阿里巴巴的发言人未回应评论请求。)
推理模型的开发成本也低于传统的LLMs,例如 GPT-4o,这些模型需要花费数亿美元用于计算资源和训练数据——加上合法获取这些数据的协议——才能从头开始构建。
新模型可以帮助 OpenAI 及其竞争对手开发能够处理复杂项目的编码助手。像微软和 Salesforce 这样的企业软件公司可以利用它们来改善代表客户采取行动的代理,例如安排预约。
思维链
研究人员可以将推理能力嵌入现有的 LLMs,例如 Meta 的 Llama,该模型几乎对任何开发者都是免费的。
他们通过让其他模型生成他们解决问题时所经历的思维过程——即思维链——来实现这一点,然后仅对那些提供正确答案的思维链训练一个LLM。(谷歌在 2022 年首次提出了思维链的概念。)其他技术包括教模型如何反思自己的错误或决定哪些解决问题的方法似乎最有前景。
这些步骤发生在一个称为后训练的过程中,该过程发生在数十亿个单词的文本和其他数据上进行训练之后,这些数据帮助模型理解世界及不同概念之间的联系。
一些研究人员还向其他开发者免费提供了以推理为重点的数据集。例如,阿里巴巴表示,它使用了来自一个这样的研究小组 Open O1 的数据来构建上周发布的推理模型。
阿里巴巴的研究人员表示,他们花费了大量时间训练模型,以解决更主观和开放性领域的问题,例如写散文或翻译俚语,以及具有可验证答案的领域,如数学、物理和编码。
在开发推理模型时,OpenAI 的竞争对手“在训练通用模型方面并没有太大的劣势,”AI 初创公司 Anyscale 和 Databricks 的联合创始人 Ion Stoica 说。
“你不需要世界上所有的数据,这对许多公司来说是一个障碍。”他在与 OpenAI 竞争LLMs(如 GPT-4o)时说道。
OpenAI 的发言人拒绝发表评论。
要确保获胜,光有优秀的人工智能是不够的。OpenAI 之所以能够让竞争对手望而却步,是因为其应用程序编程接口易于客户使用,并且它不断降低价格,使免费的开源 LLMs 变得不那么有吸引力。
OpenAI 和其他开发者已经注意到基于传统方法的 AI 模型的改进速度放缓了。但推理模型已成为一种有前景的替代方案——也是一种可能的方式来证明客户、投资者、云服务提供商和芯片制造商在该行业投入的数十亿美元。
OpenAI 的 o1 模型源于去年的一次突破,这帮助公司的模型解答它们从未见过的数学问题。准备这项技术花费了将近一年的时间——OpenAI 的研究人员称之为 Q*,后来改名为 Strawberry,以供公众使用。
在九月份,OpenAI 发布了两个 o1 推理模型,这些模型能够通过在用户提问时花费更多时间“思考”,来回答数学和编码等领域更复杂的多步骤问题,这种技术被称为测试时计算。
帮助微软
起初,OpenAI 似乎在竞争中遥遥领先,而它用于开发 o1 的保密方法使其免受窥探。根据两位参与此事的人士,即使是通过与该初创公司达成数十亿美元合作关系而获得 OpenAI 推理模型代码的微软,也难以重现该模型。
为了帮助微软的同行,OpenAI 的研究人员与微软的研究人员安排了每日会议,向他们解释模型的各个方面,例如 OpenAI 是如何利用其他 AI 模型为 o1 生成训练数据的,一位知情人士表示。目前尚不清楚微软计划何时推出推理模型。该公司的发言人拒绝发表评论。
Fireworks 联合创始人兼首席执行官 Lin Qiao 表示,该公司在今年第二季度开始着手其推理模型的工作。
“整个开源社区……将在推出推理模型方面迅速行动,”她说。
与此同时,谷歌在七月宣布了新模型,AlphaProof 和 AlphaGeometry 2,它们在国际数学奥林匹克竞赛中共同获得了银牌水平。
在 OpenAI 推出 o1-preview 后,谷歌加强了其推理工作。谷歌将其负责推理模型的团队规模从 o1-preview 推出前的几十人增加到约 200 人。根据一位参与该项目的人士,谷歌还为团队提供了更多的计算资源。
与 o1-preview 不同,幻方的新推理模型向使用它的人展示了其思维链。这使得外部研究人员能够验证该模型的有效性,并且这也可能帮助他们训练类似的人工智能。(OpenAI 表示出于竞争和安全原因隐藏 o1-preview 的思维链。)
幻方表示将发布该模型的开源版本,以便任何人都可以在其产品中使用。
目前尚不清楚像 o1 这样的推理模型对普通聊天机器人客户有多大用处。根据一位了解近期使用情况的人士,只有一小部分 ChatGPT 客户定期使用 o1-preview。
这可能是因为 OpenAI 仍在限制其客户使用 o1 的数量。对于使用其应用程序编程接口构建应用程序的企业来说,o1-preview 的成本至少是该公司销售的其他LLMs的六倍以上。
但 o1 在深层科学研究中特别有用。例如,劳伦斯利弗莫尔国家实验室的研究人员使用该推理模型来回答博士级别的问题。
激光应用人工智能
该实验室的一个重点是利用高功率激光对小燃料胶囊进行核聚变反应以产生能量,该实验室位于加利福尼亚州利弗莫尔。在一个案例中,研究人员使用了 OpenAI 的 o1-preview 来计算在特定强度的激光下胶囊的温度和压力,并询问达到特定温度和压力所需的激光强度,参与实验的人员表示。
劳伦斯利弗莫尔国家实验室的激光研究。照片来自劳伦斯利弗莫尔国家实验室。
OpenAI 推理模型通常需要 10 到 60 秒来回答此类问题。这可以为研究人员节省 30 分钟到几小时或几天的时间,即他们自己找出答案所需的时间,这位人士表示。
研究人员可以利用未来的推理模型在生物学、物理学和制造等领域生成和测试科学假设,特别是如果这些模型能够控制运行和分析实验结果的工具。
这种推理模型的应用可以使人工智能公司向客户收取更多的服务费用。
本文翻译自:The Information, https://www.theinformation.com/articles/new-competitors-chase-openai-in-reasoning-ai-race?rc=pbvtni
编译:ChatGPT