生成式AI推理技术、市场与未来

全文5048字,阅读约需15分钟,帮我划重点

划重点

01生成式AI推理技术正从预训练转向推理,以提升AI逻辑推理能力,推动上层应用发展。

02推理市场的发展取决于AI应用程序的规模和形态,专注提供推理服务的企业需感知与应用层变化。

03目前,推理市场参与者包括基础模型API提供商、推理服务提供商、AI云、超大规模云厂商和AI硬件提供商。

04硬件供应商如英伟达、AMD等正进入推理领域,提供更快、更便宜的推理服务。

05另一方面,边缘推理市场有望随着小型模型改进和消费者设备性能提升而发展。

以上内容由腾讯混元大模型生成,仅供参考

图片

OpenAI o1、QwQ-32B-PreviewDeepSeek R1-Lite-Preview的相继发布,预示着生成式AI研究正从预训练转向推理(Inference),以提升AI逻辑推理(reasoning)能力,这一转变将极大推动上层应用的发展。

红杉资本近期指出在可预见的未来,逻辑推理和推理时计算将是一个重要主题,并开启生成式AI的下一阶段。新一轮竞赛已然开始。

那么,在推理这一新兴市场,哪些企业占据了生态位?他们如何满足应用层的需求?市场格局又将如何变化?风险投资专家Eric Flaningam在本文中作了深刻分析和可能性预测。其中,有一点是明确的:推理市场的发展取决于AI应用程序的规模和形态。因此,对于专注提供推理服务的企业而言,对应用层变化的感知与需求抽象变得尤为重要。
(本文由OneFlow编译发布。原文:https://substack.com/@ericflaningam/p-152106163)


作者 | Eric Flaningam

OneFlow编译


随着 OpenAI o1 发布,推理(inference)终于进入了我们过去一年来一直期待的聚光灯下。英伟达CEO黄仁勋曾说:“推理的规模将会比今天大十亿倍。”(顺便说一句:从查询数量的角度来看,这可能是真的,但如果推理确实占到了英伟达收入的40%,这个说法在收入上是不可能实现的。)


借助 o1,推理首次构成了模型总计算中有意义的一部分。

图片

来源:https://www.fabricatedknowledge.com/p/chatgpt-o1-strawberry-and-memory

它指出了一个新的潜在规模定律,即模型“思考”的时间越长,其准确性就越高。Stratechery(https://stratechery.com/2024/enterprise-philosophy-and-the-first-wave-of-ai/)对这一性能的提升描述得很好:

o1 被明确训练为如何解决问题,其次,o1 被设计成在推理时生成多个问题解决流,选出最佳方案,并在意识到出错时迭代每个步骤。这就是为什么它能解开填字游戏——只是花了很长时间。

上个月,Anthropic 宣布了“计算机使用(Computer Use)”功能,使模型能够像人类一样与计算机互动。这表明,人工智能应用将变得越来越复杂,进而导致推理量的增加。

两个因素使这个市场特别有趣:计算成本的降低和该领域的激烈竞争。

图片

来源:https://cloudedjudgement.substack.com/p/clouded-judgement-92724-the-foundation

随着推理成本的降低,市场规模的迅速扩大,以及该领域的竞争加剧,这个市场为人工智能提供了一个非常有趣的案例研究。

本文将深入探讨当前的形势,决定市场走向的变量,以及基于这些变量价值如何在生态系统中流动。


明确地说,推理是一个新兴市场,这个领域非常拥挤且变化迅速。我们目前拥有的最佳推理性能指标是第三方基准测试(如果你有更准确的数据,欢迎随时联系我们)。

1
推理的背景


首先,推理提供了一个比训练更加开放的竞争市场。在训练过程中,通过大量数据集的迭代来创建一个表示复杂场景的模型,而推理则是将新数据输入该模型以进行预测的过程。

图片

来源:https://www.linkedin.com/pulse/difference-between-deep-learning-training-inference-mark-robins-mdq8c/

一些关键差异在推理中尤为重要:

  1. 延迟与位置至关重要:由于推理会为终端用户运行工作负载,响应速度至关重要,这意味着在边缘或边缘云环境中进行推理可能比训练更有意义。相比之下,训练可以在任何地方进行。

  2. 可靠性的重要程度(稍微)降低:训练前沿模型可能需要数月时间,并且需要大规模的训练集群。训练集群的相互依赖性意味着集群中一个部分的错误可能会减缓整个训练过程。而在推理过程中,工作负载要小得多,且相互依赖性较低;如果发生错误,只有单个请求受到影响,并且可以快速重新运行。

  3. 硬件可扩展性的重要程度降低:Nvidia 的一个关键优势在于其通过软件和网络优势扩展更大系统的能力。在推理方面,这种可扩展性的重要程度较低。


这些原因共同解释了为什么许多新的半导体公司专注于推理,因为进入门槛相对较低。


需要指出的是,虽然“推理”是一个广泛描述模型实际使用情况的术语,但它涵盖了各种类型的机器学习模型。我的同事在这里写到了近年来 ML 部署方式的变化。这里展示了不同工作负载的性能差异:

图片


2
当前的推理市场概览


企业运行推理有很多选择。从最易于管理且定制化程度最低到最难管理但定制化程度最高的选项,企业有以下几种选择进行推理:

  • 基础模型 API:来自 OpenAI 等模型提供商的 API。最简单且灵活性最低的选项。

  • 推理服务提供商:专门的推理服务提供者,如 Fireworks AI 和 DeepInfra,旨在优化跨各种云和硬件提供商的成本,是运行和定制开源模型的良好选择。

  • AI 云:来自 Coreweave 和 Crusoe 等公司的 GPU 或推理即服务,企业可以租用算力并根据需要进行定制。

  • 超大规模云厂商:超大规模云厂商提供计算能力、推理服务和平台,企业可以在这些平台上开发专用模型。

  • AI 硬件提供商:企业用自己的 GPU 并根据特定需求进行优化。


附加信息1:从 API 到 AI 硬件——像 Groq、Cerebras 和 SambaNova 这样的公司已经开始提供推理云服务,使客户能够以推理 API 的形式利用其硬件。Nvidia 收购了推理服务提供商 OctoAI,据推测是为了创建自己的推理服务。


附加信息2:边缘推理——Apple、Qualcomm 和 Intel 希望提供硬件和软件,使推理能够直接在设备上进行。


图片


鉴于基础模型 API 很简单(企业从基础模型提供商调用 API 并按需付费)。
我将从推理提供者开始介绍。


3
推理提供商


数家公司在提供推理服务方面崭露头角,他们抽象化了管理硬件的需求。这些公司中最著名的是像 Fireworks AI、Together、Replicate 和 DeepInfra 这样的推理初创公司。Kevin Zhang 在这里很好地描述了这些公司

像 Replicate、Fireworks AI 和 DeepInfra 这样的 API-only 初创公司已经完全抽象化了所有复杂性,使得模型可以通过 API 调用访问。这类似于 OpenAI 等基础模型提供商为开发者提供的使用体验。因此,这些平台通常不允许用户自定义选择用于特定模型的 GPU 等。不过,Replicate 有 Cog 用于部署自定义模型等任务。

与此同时,Modal 和 Baseten 提供了一种介于两者之间的体,开发者有更多的“调节旋钮”来控制他们的基础设施,但仍然比构建自定义基础设施更容易。这种更细粒度的控制使 Modal 和 Baseten 能够支持超出简单文本补全和图像生成的使用场景。

这些提供商的最明确用例是为开源模型提供推理服务,使企业能够使用该模型构建应用程序。推理提供商使用各种技术,尽可能地优化成本。

在选择推理提供商时,最终考虑因素主要是成本/性能的计算,包括推理成本、延迟(首次输出时间和各输出之间的时间)和吞吐量(处理需求的能力)。我们对价格有一些了解:

图片


现在,过去几个月的一个有趣变化是硬件供应商开始进军推理领域。Nvidia 收购了推理提供商 OctoAI,可能是为了提供类似的服务。我们可以看到有三家硬件供应商提供了市场上最快的推理服务:

图片


一如既往,应对基准测试结果持保留态度。根据
Irrational Analysis(https://irrationalanalysis.substack.com/p/cerebras-cbrso-equity-research-report),Cerebras 不提供 Llama 405B,可能是因为其成本不合理。特定的设置可以实现这些结果,但它们可能与其他模型不兼容,或在生产使用场景中不实用。

大多数公司的投资回报率(ROI)计算将是总拥有成本/性能的比值,而这是在行业生命周期的这个阶段很难获得的数据。

我会指出,像 Coreweave、Crusoe 和 Lambda 这样的 AI 云都提供推理服务。超大规模云厂商也是如此!Kevin Zhang 还推测,数据平台和应用程序基础设施提供商也可能扩展到推理领域:


图片

来源:https://eastwind.substack.com/p/a-deep-dive-on-ai-inference-startups

在这种竞争环境下,公司要么需要提供有意义的架构差异、基于推理解决方案的开发工具或通过垂直整合实现成本优势,以创造有意义的差异化。

4

硬件提供商


上述推理提供者抽象了管理底层硬件的复杂性。对于许多大型 AI 公司来说,管理自己的硬件是有意义的。这包括基础设施设置(安装、数据中心建设或机房托管设置)、模型优化、性能监控和持续的硬件维护。


我们可以在价值链的芯片部分看到硬件供应商:

图片


如果英伟达 40%的数据中心收入确实来自推理,那么英伟达今天在这个市场上占据主导地位。正如黄仁勋指出的,已经拥有领先训练硬件的企业可能会在升级设备时将其转换为推理硬件。

AMD 正在开拓这一市场,预计其 AI 加速器将带来 50 亿美元的年收入。他们最近的财报电话会议上的大部分定性评论都指向了推理工作负载。


RunPod 对 H100 和 MI300X 在推理方面作了有趣比较,指出 MI300X 由于有更大的 VRAM,在高批处理大小时具有更好的吞吐量。

图片

https://blog.runpod.io/amd-mi300x-vs-nvidia-h100-sxm-performance-comparison-on-mixtral-8x7b-inference/

MI300X 在非常小和非常大的批处理中更具成本优势。正如博客所指出的,纯粹的性能只是评估的一部分。Nvidia 在网络和软件方面的领先地位使其在需要系统级设计的实际场景中具有额外的优势。

有几家硬件初创公司也筹集了大量资金以抢占这个市场:


图片

https://www.chipstrat.com/p/etched-silicon-valleys-speedrun

再次需要指出,买家的计算公式将是 TCO/性能。价值将流向硬件层面,问题在于在硬件之上的各层创造了多少价值。

市场上还有一个不确定的变量,但它可以决定推理中价值积累的很大一部分。

5
边缘推理呢?


Chipstrat的Austin(https://www.chipstrat.com/)在这方面做了出色的工作。正如奥斯汀所描述的,边缘推理对所有相关方都是有利的:

企业将会越来越有动力将这些工作负载尽可能地转移到消费者的设备上——消费者提供了硬件和电力资源,使企业能够生成智能。

这是双赢的局面:企业减少了资本支出和运营支出,而消费者则享受到了本地推理的好处。需要注意的是,采用本地推理需要:

  1. 激励消费者(奖励本地推理的商业模式、安全优势等)。

  2. 可以在边缘设备上运行的有用的小模型。


前者似乎很简单。像 o1-mini 这样的模型使后一种方法越来越现实。我不需要 Siri 成为整个网络的压缩版本——只需要一个能够处理简单任务的推理工具。所需要的更像是一个训练有素的五年级学生,而不是一个博士通才。


问题回归到开发硬件和软件以满足用户需求。我相信我们可以随着时间解决这些问题。

图片

https://www.generativevalue.com/p/the-ai-semiconductor-landscape

企业已经在开发硬件,如苹果的神经网络引擎、AMD 的 NPU、英特尔的 NPU、高通的 NPU、谷歌的 Tensor 以及初创公司 Hailo。随着小型模型的改进,它将越来越多地实现在边缘进行推理。

我对边缘推理的看法:

如果我们回顾历史上的颠覆性科技变革事件,它发生在新产品以远低于现有产品价格提供较少功能时,而现有产品无法与之竞争。大型机让位给小型机,小型机让位给个人电脑,个人电脑又让位给智能手机。

开启这些颠覆性变化的关键变量是性能过剩。高端解决方案解决了对大多数人而言非必需的问题。许多计算领域的颠覆性变化来自于计算的去中心化,因为消费者并不需要额外的性能。

有了AI,我还没看到性能过剩。ChatGPT 很好,但还不算出色。一旦它变得出色,那么 AI 在边缘计算的大门就会打开。小型语言模型和神经处理单元将引领这个时代。问题在于 AI 何时会在边缘计算中实现,而不是是否会实现。


这个市场再次回归到应用,边缘推理对于消费者应用来说更有意义。

6

推理市场的未来


推理工作负载最终将遵循 AI 应用程序的规模和形态。

人工智能应用的规模和强度将是决定推理市场大小的关键因素(即有多少应用程序在使用以及它们的复杂程度)。这些应用程序的形态(即谁在构建它们)将有助于确定推理市场的形态。

如果 AI 应用市场最终集中在 OpenAI、Microsoft 和 Google 等少数几家公司手中,那么推理价值将流向这些垂直整合公司的底层硬件。

如果 AI 应用市场最终变得碎片化,许多公司拥有较小的市场份额,那么推理市场将更加开放。这些较小的、非垂直整合的公司,将为推理提供商的管理服务付费。有些公司可能希望获得比简单 API 所能提供的更多的个性化或定制化选项。

如果这些应用程序能够使用足够简单的模型在边缘运行,那么这将为边缘的推理硬件打开大门。

最后,所有这些变量都是连续的,而不是二元的。一些推理将在边缘运行,一些应用程序将成为高度复杂的逻辑推理机器,一些应用程序将由大型模型提供商拥有,而另一部分将由初创公司赢得。


其他人都在看
图片
让超级产品开发者实现“Token自由”