Inflection AI宣布放弃英伟达GPU,转投英特尔Gaudi 3怀抱!

图片
10月8日消息,近日人工智能(AI)技术公司Inflection AI宣布其最新的企业平台将放弃采用英伟达(Nvidia)的GPU,转而使用英特尔的Gaudi 3 加速器。
英特尔对此表示:“虽然 Inflection AI 的 Pi 客户应用程序以前在英伟达GPU上运行,但 Inflection 3.0 将由英特尔Gaudi 3 提供支持,部署在英特尔 Tiber AI Cloud 提供的云中实例上。”
资料显示,Inflection AI 成立于 2022 年,最初是一家AI大模型开发厂商,开发了一款名为 Pi 的对话式个人助理。然而,在今年春天,其主要创始人 Mustafa Suleyman 和 Karén Simoniyan 离开 Microsoft 后,这家初创公司已将重点转移到使用其数据为企业构建定制的微调模型。
这家初创公司平台的最新版本 Inflection 3.0 旨在使用他们自己的专有数据集对其模型进行微调,目标是构建整个企业特定的 AI 应用程序。英特尔公司本身也将成为首批采用 Inflection 3.0服务的客户之一,而这或许也是推动让Inflection放弃英伟达GPU,转向采用英特尔Gaudi 3 加速器的原因。
虽然 Inflection 3.0将在英特尔Gaudi 3 加速器上运行,但Inflection AI公司不会马上建立自己独立的系统。与托管在亚马逊Azure 中的 Inflection 2.5 类似,最新版本将在英特尔的 Tiber AI Cloud 服务上运行。Inflection AI公司计划从 2025 年第一季度开始,提供基于英特尔 AI 加速器的物理系统。
虽然 Inflection AI正在使用 Gaudi 3 加速器来支持其企业平台,但并不意味着客户只能使用 Gaudi 3 加速器来运行他们完成的模型。
AI 模型和软件开发并不便宜,但与所需的硬件加速器相比,还是要低很多。比如一个英伟达H100 GPU大约就需要30000美元,而英特尔的Gaudi 3 则要便宜很多,只要15000美元左右。
资料显示,Gaudi 3基于台积电5nm工艺,拥有 8 个矩阵数学引擎、64 个张量内核、96MB SRAM(每个Tile 48MB,可提供12.8 TB/s的总带宽) 和 128 GB HBM2e 内存,16 个 PCIe 5.0 通道和 24 个 200GbE 链路 。在计算核心的周围,则是八个HBM2e内存堆栈,总容量为128 GB,带宽为3.7 TBps。拥有 1,835 teraFLOPS 的密集 FP8 或 BF16 性能。
英特尔官方公布的数据显示,Gaudi 3 在流行的大语言模型(LLM)训练速度方面,比英伟达H100平均快了40%;在流行大模型的推理能效表现上,比如英伟达H100领先50%。英特尔 Gaudi 3 与英伟达 H100 在相同节点数量下,相关大模型训练时间对比上最高快了1.7倍,其中,LLAMA2 70 亿参数对比有 1.5 倍于 H100 的优势,LLAMA2 130 亿参数最高有 1.7 倍的优势,GPT-3 1750 亿参数有 1.4 倍优势。在大模型推理速度表现上,Gaudi 3 相比 H100 平均快了1.5倍,最高快了4倍。
虽然Gaudi 3的 FP8性能与 H100 大致相当,但在 BF16精度下,它提供的密集浮点性能几乎是H100的两倍,这对 Inflection 所针对的训练和微调工作负载产生了很大的影响。至少在纸面上,Gaudi 3 不仅有望在训练和推理方面比 英伟达H100 更快,而且成本更低。
“通过在英特尔Gaudi 3上运行 Inflection 3.0,我们看到性价比提高了 2 倍...与目前的竞争产品相比。“Inflection AI 首席执行官肖恩·怀特 (Sean White)本周一在一篇博客文章中写道。
值得一提的是,IBM 也计划将对 Gaudi 3 的支持扩展到其 watsonx AI 平台。英特尔此前也曾宣布,该Gaudi 3 加速器已经向戴尔科技和超威电脑(Supermicro)等OEM 发货。
从明年开始,Gaudi 将让位于名为 Falcon Shores 的 GPU,它将英特尔的 Xe 图形计算技术与 Habana 的技术融合在一起,从而导致有关迁移路径的问题是可以理解的。
英特尔坚持认为,对于在 PyTorch 等高级框架中编码的客户,后续向 Falcon Shores的迁移将大部分是无缝的。对于那些在较低级别构建 AI 应用程序的人,英特尔已承诺在 Falcon Shores 首次亮相之前提供额外的指南。
编辑:芯智讯-浪客剑