就在刚刚结束的 NeurIPS 2024 上,OpenAI 前首席科学家、联合创始人 Ilya 提到“预训练即将终结”,“接下来将是超级智能:agent、推理、理解和自我意识。”
从商业价值的角度看,尽管大模型技术的发展进步值得欣喜,但对投资者而言,如何带来商业价值才是他们最为关注的。Ilya 提到的推理,也被认为很具商业潜力。近期,来自纽约的风投专家 Eric Flaningam 对AI 模型推理(Inference)的技术现状、市场格局和发展趋势进行了全面梳理,旨在从日新月异的技术变革中捕捉最具投资潜力的机会点。
什么是“模型推理”
(熟悉的读者可以跳过)
模型推理的简单解释
简单来说,如果把 AI 模型比作一个"学生",那么:
模型训练就是老师带着学生反复学习、练习,让模型从海量数据中总结规律、积累“知识”的过程;这个过程需要消耗大量的计算资源。 模型推理则是学生运用所学,针对新输入的数据给出判断、预测、决策等反馈的过程。这里则是用户实际使用这个模型(“学生”)的过程。
“训练”是在教会模型,“推理”是在使用模型
模型推理最关注什么
从用户的角度讲,推理性能的关键在于:
效果好坏:模型给出的反馈是否准确、有效,能否满足实际需求; 交互延迟:从用户提出请求到模型给出响应,中间的时间延迟同样关乎用户体验。
从技术实现的角度看,除了满足用户体验需求之外,还需要关注:
硬件依赖:推理过程对算力硬件(如 GPU)有多大依赖,能否灵活适配多种硬件; 资源利用率:推理任务能否充分利用硬件算力,提高单位成本的效益; 部署灵活性:能否方便地将模型部署到云端或边缘端,甚至直接在终端设备上执行推理。
模型推理的 Scaling Law
OpenAI o1 模型的发布取得了惊艳的效果,而效果变好的同时,模型的反应时间(推理时间)也有了明显的延迟,这让模型推理的研究首次受到关注。
大多数大模型推理(Inference)的计算量占比很小,而 OpenAI o1(草莓模型)的出现,从推理侧进行优化,提升模型性能的同时也增加了推理的计算量。这是否意味着新的 Scaling Law(规律):模型 “思考” 的时间越长,它就会越准确?
o1 is explicitly trained on how to solve problems, and second, o1 is designed to generate multiple problem-solving streams at inference time, choose the best one, and iterate through each step in the process when it realizes it made a mistake. That’s why it got the crossword puzzle right — it just took a really long time.
o1 经过准确地训练以掌握解决问题的方法,o1 的设计逻辑是在推理时生成多个问题解决方案,并选择最好的一个,而且在意识到犯错时能在整个过程的任意步骤中进行修正。这就是它能正确解决字谜难题的原因 —— 只是花费了非常长的时间。
模型推理的竞争格局
尽管各大公司在乐此不疲的卷大模型的研发,但最终真正面向用户并带来商业价值的还是模型推理。
如今的模型推理市场也已经逐渐繁荣,从上游的算力硬件,到中游的推理服务,再到下游的行业应用,都有众多玩家争相角逐。Flaningam 将推理的提供方式划分为几个主要阵营:
基础模型 API:大模型提供商开放的 API 接口。尽管最简单易用,但因为模型对用户来说完全黑盒,因此调整的灵活性最低。长期来看,使用成本也最高; 推理服务代理运营:提供托管推理服务,用户可以在平台上自由选用基础模型,也可以部署开源模型进行微调,是易用性和灵活性之间很好的权衡; AI 云平台:提供 GPU 算力租用和维护,以及部分推理的优化服务。用户可以高度定制模型和部署方案,但需要更多的技术投入和运维成本; AI 芯片厂商:以英伟达、AMD 为代表,提供通用 GPU 芯片。企业购买芯片后,可灵活自建推理服务集群,并针对特定任务深度调优。专业门槛和前期投入最高,但理论上后期能实现极致性价比。
不同推理提供方式的国外玩家:API、云服务(代理运营、AI 云平台)、硬件厂商
可以看到,推理已成为众多科技公司争相布局的新蓝海。随着算力成本的持续下降和应用规模的爆发增长,推理赛道未来有望迎来井喷式发展。
推理价值的多维博弈
价值总是流向稀缺资源。
在复杂的推理市场中,价值的流向取决于供给和需求的动态博弈。放眼当下,推理的商业价值很可能会在供给和需求的多重博弈中被重新洗牌。具体而言,可以从以下三个方面着重分析:
一方面,随着大模型不断突破性能天花板,对推理的规模、复杂度也提出了越来越高的要求。这意味着拥有顶尖算力、先进算法、高效架构的头部玩家将在竞争中占据优势,并有望率先盈利。可以说,先发优势和技术壁垒是价值的“稀缺资源”,将吸引更多的资本投入。 另一方面,行业应用的广度、深度决定了推理的需求曲线。如果 OpenAI、微软、谷歌等(国内如 BAT、字节等)“超级独角兽”垄断了应用市场的大部分份额,那么价值可能更多地向基础设施层倾斜。相反,如果越来越多的企业,哪怕是初创公司、小微企业,也能借助日益成熟完善的 AI 工具和平台,开发出有竞争力的 AI 应用,那么专注于推理服务的供应商将有机会争夺更多市场蛋糕。这种情况下,“应用创新”和“市场空白”成为了新的稀缺资源。 此外,随着技术进步,设备端推理(边缘计算)也将是一个潜在的增量市场。一旦小模型、端侧芯片的能力能满足终端用户的基本使用需求,边缘端推理的发展空间可能被迅速打开。到那时,或许“端云协同”和“算力下沉”或许又会成为大模型竞争的新的制胜法宝。
边缘计算能够降低公司计算集群的资本支出(CapEx)和运营支出(OpEx),消费者也能获得本地推理带来的低时延和更好的数据安全保障等诸多好处。
总结
AI 推理是大模型商业化的关键一环。随着技术突破、市场爆发,AI 推理的商业价值正在多维博弈中不断重塑。当下来看,拥有顶尖算力和架构优势的头部玩家,毫无疑问在占据先发优势。但放眼将来,端云协同、算力下沉很可能带来新的增量。
对于投资者而言,在洞察技术趋势的同时,把握行业发展的节奏也至关重要。需要在技术趋势、行业格局、市场容量等多个维度权衡利弊,审时度势地布局价值高地。
注:本文不构成投资建议
Eric Flaningam 个人主页:
https://www.linkedin.com/in/ericflaningam/)