随之而来的就是推理专用芯片的批量涌现,最新一家企业是刚刚获得2350万美元种子轮融资的Positron,这轮融资的主要参与方有Flume Ventures(Sun Microsystems创始人创立)、Valor Equity Partners(投资了马斯克的数家企业)、Atreides Management和Resilience Reserve。
Positron推出了推理系统Atlas,它由八颗Altera Agilex 7 FPGA芯片组成,在推理任务中,每美元性能表现超出英伟达H100 GPU达3.5倍,能效优势同样达3.5倍。
通过采用内存优化架构,它实现93%以上的带宽利用率(GPU通常为10-30%),Atlas不仅支持万亿参数模型,更提供与Hugging Face和OpenAI API的即插即用兼容性。相较于H100/H200配置,它的推理速度提升70%,能耗降低66%,可将数据中心资本支出削减50%。
Positron从创立到量产硬件交付仅用18个月,这在硬件初创领域速度惊人,这与它们采用FPGA芯片有关,虽然FPGA能效不及ASIC,但其优势在于快速设计迭代和降低一次性工程成本。多数公司需要3-5年才能交付产品,届时市场可能已变迁。
芯片业天才少年以Transformer专用推理芯片挑战NVIDIA
Thomas Sohmers是芯片行业的天才少年,他17岁时就创立了第一家公司REX Computing,为移动基站和高性能计算设计和构建处理器,此后他在 Lambda担任首席硬件架构师,搭建了现在已成为最大纯GPU云服务之一的Lambda GPU云。之后,他加入Groq担任技术战略总监,2023年春天,他看到生成式AI工作负载(尤其是Transformer计算)的爆发式增长后,意识到这种特殊工作负载需要专用计算硬件来支撑未来应用,于是决定创立Positron。
Edward Kmett曾是Groq担任软件工程团队负责人,也是世界知名数学家和函数式编程专家,而新加入担任CEO的Mitesh Agrawal曾助力AI独角兽Lambda实现年营收从50万美元跃升至5亿美元。
面对生成式AI浪潮,OpenAI、谷歌和Meta等在AI模型领先的企业已明确将重金投入AI基础设施建设。Meta计划投入650亿美元,微软承诺投资800亿美元,而OpenAI更披露了耗资5000亿美元的“星际之门”基础设施计划。
尽管英伟达当前占据约80%市场份额,但成本攀升与供应链单一化风险促使微软、Meta和OpenAI等客户开始寻求自研或第三方替代方案。这种行业变局为Positron等创新企业创造了突围机遇。
除成本优势外,Positron也试图破解AI基础设施的能耗困局。传统数据中心往往难以支撑单台服务器功耗高达10000瓦的高性能GPU,而Positron的能效架构使现有设施无需大规模改造即可部署AI计算。
生成式AI应用的主流底层架构是Transformer模型,它对内存需求十分严苛。Thomas Sohmers表示这正是Positron的战略机遇:“我们创立公司的根本原因,是相信存在更优的技术路径。英伟达作为业务多元的巨头,不会专门优化我们聚焦的Transformer模型推理细分市场。”
AI推理系统的核心竞争优势是能效比和成本效率
Positron的核心产品是Atlas推理系统,它搭载八块Agilix 7M系列FPGA(现场可编程门阵列),它的每美元性能比英伟达H100 GPU提升3.5倍,能效比提高3.5倍。通过内存优化架构实现93%以上的带宽利用率,显著优于传统GPU。与H100/H200配置相比,该系统推理速度提升70%,功耗降低66%,使数据中心资本支出减少50%。
在推理速度上,Positron将Atlas与NVIDIA DGX H100系统进行了直观比较,Atlas(2000W)的能耗比DGX H100(5900W)低得多,而推理速度却是281Tokens/秒快于177.66Tokens/秒。这意味着,Atlas提供了NVIDIA DGX H100系统3-4倍的每美元性能与每瓦特性能,同时实现显著吞吐量提升。
对于提供MaaS服务的云服务商,Positron提供与英伟达相当的能力,但成本与能耗仅为其零头,且通常速度更快。而且,这个推理系统,能够支持万亿参数模型,还实现与Hugging Face及OpenAI API的即插即用兼容。
不要忘了,Atlas是一个软硬件结合的系统,在硬件不变的情况下,随着它软件版本的升级,其效率相比NVIDIA DGX H100系统的优势是越来越明显的。
易用性也是Atlas系统的亮点之一,对于开发者或企业用户,只需要从HuggingFace Transformers Library下载开源文件(.pt 或.safetensors格式),将文件上传到Positron Model Manager,再更新一下客户端,就能构建一个兼容OpenAI API的推理端点。
作为专为Transformer架构推理设计的推理平台,Atlas系统不仅可以推理语言大模型,对于采用Transformer架构(例如DiT)的图片大模型和视频大模型等多模态模型,也可以推理,它的能力是跨模态类型的。
在技术路线选择上,Positron之所以对第一个产品选择FPGA,是因为FPGA虽然能效不及ASIC,但可以快速设计迭代和降低一次性工程成本。这使得它们可以在18个月内完成从创立到量产硬件交付的过程。
如果选择了主流的ASIC,从设计到流片,交付,可能需要3-5年,届时可能已经没有它们的市场空间。正如Positron的创始人所说,快速迭代和获取真实用户反馈远比耗时数年开发可能过时的芯片更重要。
不过,将在2026年上市的第二代产品中,Positron已经计划使用ASIC架构,新一代多核芯片拟采用先进制程节点,较当前八颗FPGA方案可进一步降低功耗与成本。
目前,Positron已获得了客户和营收,但是其客户和营收的具体数字,没有公布。它的客户主要分为两类:第一类是需要大语言模型能力但不愿依赖云服务的企业,这些公司或拥有需部署的专有模型,或持有不愿外泄的专有数据。他们类似使用OpenAI等按需服务提供商的企业,但希望模型在本地“现场”运行。
第二类是云服务提供商自身。许多已部署大量GPU系统的客户,Positron可为其提供每用户每秒token数更优、部署运营成本更低的解决方案。
从预训练Scaling Law到Test-Time Scaling,推理芯片需求大爆发
就在写作这篇文章时,伊隆·马斯克旗下xAI发布了它们的Grok 3系列模型。Grok 3在10万块(后期是20万块)英伟达H系列芯片上训练,训练总计算量是Grok 2的10倍,能力上也达到了SOTA,但是相比它的训练计算成本,其性能的提升并没有那么大。我们可以这么说,传统的预训练Scaling Law,已经阶段性的达到一个瓶颈。而从各类推理模型的性能提升看,测试时扩展(Test-Time Scaling, TTS)范式会成为模型性能增长的新动力。
此后,随着推理模型的流行,AI模型和AI应用部署的瓶颈在于规模化推理的经济性,具体来说就是“每一块钱成本的性能与每瓦特性能”是否可以提升。
在这个逻辑下,相比训练芯片,推理芯片对于初创公司出现了很好的机会,事实上,创业者们也在涌向这个领域。在这个领域中,有Rivos,它们打造RISC-V架构的高性能服务器;有Etched,它们推出Transformer架构模型专用的ASIC芯片,每美元性能是传统GPU的140倍;当然也还有Cerebras和Groq,这两家公司已经发展得很大。
此外,包括AMD,微软,Amazon,Sam Altman和孙正义也都在打造自己的芯片项目,以推翻NVIDIA在AI计算硬件上的领导地位。
对于中国市场,在模型能力方面,因为DeepSeek和Qwen等先进AI模型的存在,已经阶段性的达到国际先进水平,但是考虑到美国对于中国芯片算力不断收紧尺度的封锁,以及推理模型的流行,中国显然需要建立从芯片设计到芯片制造的完整产业链。
至于芯片的技术路线,从FPGA,AISC到RISC-V,各种开放的芯片技术,都可以为我所用。
至于需求方面,随着DeepSeek的爆火,AI概念在全民的普及,在可以预见的时间内,AI模型的推理计算需求会越来越大。
不过,创业者们在选择创业路线时,可以考虑软硬件结合,并且既可以开发通用的计算系统,也可以像Positron一样选择特定架构模型的专有计算系统。我们期待着具有足够创新力的团队打造出足够优秀的AI计算系统,支持AI模型和AI应用的发展,无论这个团队来自大厂还是科研院所。
本文由阿尔法公社原创。
更多精彩内容
关于阿尔法公社