喝点VC｜a16z：进入大模型通胀时代—推理成本3年内下降1000倍

ZPotentials

2024-11-19 12:09发布于福建科技领域创作者

全文1989字，阅读约需6分钟，帮我划重点

划重点

01大语言模型（LLMs）的推理成本遵循类似摩尔定律和丹纳德缩放的规律，每年下降10倍。

02由于此趋势，LLM推理成本在3年内下降了1000倍，使得人工智能革命带来重大进展。

03然而，LLM推理成本的降低受到多个独立因素的影响，如更好的GPU性价比、模型量化、软件优化等。

04尽管成本下降速度可能放缓，但每年降低一个数量级的趋势仍然对人工智能产生巨大好处。

05目前，LLM提供商似乎愿意放弃市场低端，专注于最高质量的层次，推动创新应用程序的发展。

以上内容由腾讯混元大模型生成，仅供参考

图片来源：Unsplash

在很大程度上，推动技术周期的是基础商品成本的快速下降。两个显著的例子是摩尔定律和丹纳德缩放，它们通过描述芯片如何随着时间的推移变得更具性能来帮助解释个人电脑革命。一个不太为人所知的例子是埃德霍姆定律，它描述了网络带宽的增加——这是互联网泡沫的一个关键因素。

在分析自 GPT-3 公开发布以来的历史价格数据时，似乎——至少到目前为止——大语言模型（LLMs）的推理成本遵循类似的规律。我们将这一趋势称为 LLM 通货膨胀，因为在固定价格下，可以获得的 Token 数量迅速增加。

事实上，LLMs的价格下降速度甚至快于个人电脑革命期间的计算成本或互联网泡沫期间的带宽：对于性能相当的LLM，成本每年下降 10 倍。鉴于该行业的早期阶段，时间尺度可能仍会变化。但从这些较低价格点开放的新用例表明，人工智能革命将继续带来重大进展，持续相当长一段时间。

方法论

在确定这一趋势时，我们查看了使用 MMLU 分数的 LLMs 的表现，这些分数由模型创建者或外部评估报告。LLMs 通常按每百万 Token 定价（平均而言，一个单词相当于 1-2 个 Token ），我们从互联网档案馆获得了模型的历史定价数据。如果输入和输出 Token 的价格不同，我们取两者的平均值。为了简化搜索，我们将搜索限制在来自 OpenAI、Anthropic 和 Meta 的 Llama 的模型，来自第三方推理提供者。

下图显示了任何月份最低 MMLU 分数为 42 的最便宜型号的成本。

当 GPT-3 在 2021 年 11 月公开访问时，它是唯一一个能够达到 42 的 MMLU 的模型，成本为每百万个 Token 60 美元。截至撰写时，达到相同分数的最便宜模型是来自模型即服务提供商 Together.ai 的 Llama 3.2 3B，成本为每百万个 Token 0.06 美元。LLM 推理的成本在 3 年内下降了 1,000 倍。

如果我们选择更高的 MMLU 分数 83，我们的数据就会更少，因为这种质量水平的模型自 2023 年 3 月 GPT-4 发布以来才存在。然而，自那时以来，这一水平的模型价格已经下降了大约 62 倍。

在下面的对数图中，我们可以看到每年减少 10 倍的趋势（虚线）是对两个 MMLU 性能水平的成本下降的相当好的近似。

虽然我们认为整体结果是有效的，但方法论远非完美。模型很容易受到污染或故意在 MMLU 基准上进行训练。在某些情况下，我们也只能找到 MMLU 的多次数据（尽管我们没有在数据中包含任何思维链结果）。而其他模型和微调在任何给定时间可能会稍微更具成本效益。尽管如此，毫无疑问，我们每年都在看到成本下降一个数量级。

LLM 价格会继续以这个速度下降吗？

这很难预测。在个人电脑革命中，成本在很大程度上随着摩尔定律和丹纳德定律的作用而降低。只要这些定律成立，晶体管数量和频率增加，就很容易预测价格会继续下降。然而，在我们的案例中，LLM 推理成本的降低是由多个独立因素造成的：

更好的 GPU 性价比用于相同的操作。这是摩尔定律（即每个芯片上晶体管数量的增加）以及结构改进的结果。
模型量化。最初，推理是在 16 位下进行的，但对于 Blackwell GPU，我们预计 4 位将变得普遍。这至少是性能的 4 倍提升，但由于所需的数据移动更少，算术单元也更简单，实际提升可能更大。
软件优化可以减少所需的计算量，并同样重要的是，减少所需的内存带宽。内存带宽以前是一个瓶颈。
更小的模型。今天，我们有一个 10 亿参数的模型，其性能超过了仅仅 3 年前的一个 1750 亿参数的模型。一个主要原因是对模型进行训练时使用了更多的标记，远远超出了基于 Chinchilla 缩放法则所认为的最佳数量。
更好的指令调优。我们已经学到了很多关于如何在预训练阶段后改进模型的知识，采用了诸如人类反馈强化学习（RLHF）和直接偏好优化（DPO）等技术。
开源。Meta、Mistral 等公司推出了可以由竞争的低成本模型即服务提供商托管的开放模型。这降低了整个价值链的利润率，从而降低了价格。

毫无疑问，我们将在某些领域看到快速进展，但在其他领域，如量化，情况则不太明确。因此，尽管LLM推理的成本可能会继续下降，但其下降速度可能会放缓。

另一个重要的问题是，这种成本的快速下降是否对LLM提供商构成了问题。目前看来，他们似乎愿意放弃市场的低端，而将精力集中在最高质量的层次上。有趣的是，OpenAI 今天的领先模型 o1，其每个输出令牌的成本与 GPT-3 发布时相同（每百万$60）。

尽管如此，LLM 推理成本的快速下降仍然是对人工智能的巨大好处。每当我们将某样东西的成本降低一个数量级时，就会开启以前在商业上不可行的新用例。例如，人类每小时可以说大约 10,000 个单词。如果有人每天说 10 小时，一年 365 天，他们现在可以使用一个 GPT-3 级的 LLM，以大约每年 2 美元的成本处理他们所说的所有单词。处理整个 Linux 内核（大约 4000 万行代码）的成本将低于 1 美元。

文本到语音模型同样便宜，因此从推理的角度来看，构建一个简单的语音助手现在基本上是免费的。

社区将继续围绕这项技术构建令人惊叹的应用程序，我们非常高兴能与那些创造突破性公司的创始人合作，将它们推向市场。现在是创业的好时机！

本文翻译自：TechCrunch, https://a16z.com/llmflation-llm-inference-cost/

编译：ChatGPT

查看原图 47K