超越GPU：AI芯片和加速器的不断发展

半导体产业纵横

2024-10-09 06:13发布于北京科技领域创作者

全文2897字，阅读约需9分钟，帮我划重点

划重点

01随着企业重点转向高级AI工作负载，数据中心传统的以CPU为中心的服务器正在通过集成新的专用芯片或“协处理器”而得到增强。

02GPU已成为协处理器的首选，因为它们能够以无与伦比的速度处理大量数据，但总体拥有成本可能非常高。

03芯片制造商、初创公司和云提供商正在构建专用AI处理器和加速器，如ASIC、FPGA和NPU，以应对不同规模和类型的AI工作负载。

04专家建议企业根据要处理的工作负载的规模和类型、数据、持续迭代/更改的可能性以及成本和可用性需求选择合适的AI加速器。

05预计到2028年，AI硬件总体市场将达到1380亿美元，以每年30%的速度增长。

以上内容由腾讯混元大模型生成，仅供参考

本文由半导体产业纵横（ID：ICVIEWS）编译自venturebeat

芯片制造商、初创公司和云提供商正在构建专用AI处理器和加速器。

数据中心是互联网的后端。无论是 Netflix 还是 Google，所有大公司都利用数据中心及其托管的计算机系统向最终用户提供数字服务。随着企业的重点转向高级 AI 工作负载，数据中心传统的以 CPU 为中心的服务器正在通过集成新的专用芯片或“协处理器”而得到增强。

从本质上讲，这些协处理器背后的想法是引入某种附加组件来增强服务器的计算能力。这使它们能够处理 AI 训练、推理、数据库加速和网络功能等工作负载的计算需求。在过去几年中，以 Nvidia 为首的 GPU 已成为协处理器的首选，因为它们能够以无与伦比的速度处理大量数据。根据Futurum Group的一项研究，由于需求增加，去年 GPU 占数据中心内支持 AI 用例的协处理器的 74% 。

研究显示，GPU 的主导地位预计只会增长，到 2028 年，该类别的收入将以每年 30% 的速度增长，达到 1020 亿美元。但问题是：虽然 GPU 凭借其并行处理架构成为加速各种大规模 AI 工作负载（如训练和运行大规模、万亿参数语言模型或基因组测序）的强大伙伴，但它们的总体拥有成本可能非常高。例如，Nvidia 的旗舰GB200“超级芯片”结合了 Grace CPU 和两个 B200 GPU，预计成本在 60,000 至 70,000 美元之间。一台装有 36 个这种超级芯片的服务器估计成本约为 200 万美元。

虽然这在某些情况下可能有效，例如大型项目，但并非适用于每家公司。许多企业 IT 经理都希望采用新技术来支持选定的低到中等密集型 AI 工作负载，并特别关注总体拥有成本、可扩展性和集成度。毕竟，大多数 AI 模型（深度学习网络、神经网络、大型语言模型等）都处于成熟阶段，需求正在转向 AI 推理和增强特定工作负载（如图像识别、推荐系统或对象识别）的性能，同时保持高效。

这正是芯片制造商、初创公司和云提供商正在构建的专用 AI 处理器和加速器的新兴领域。

人工智能处理器和加速器到底是什么？

从本质上讲，AI 处理器和加速器是位于服务器 CPU 生态系统中的芯片，专注于特定的 AI 功能。它们通常围绕三种关键架构：专用集成电路 (ASIC)、现场可编程门阵列 (FPGA) 和最新创新的神经处理单元 (NPU)。

ASIC 和 FPGA 已经存在了相当长一段时间，可编程性是两者之间的唯一区别。ASIC 是为特定任务（可能与 AI 相关，也可能不相关）从头定制的，而 FPGA 可以在后期重新配置以实现自定义逻辑。NPU 与两者的区别在于，NPU 是一种专用硬件，只能加速 AI/ML 工作负载，如神经网络推理和训练。

Futurum 集团首席执行官 Daniel Newman 告诉 Venturebeat：“加速器往往能够单独执行任何功能，有时采用晶圆级或多芯片 ASIC 设计，它们能够处理一些不同的应用程序。NPU 是专用芯片（通常是系统的一部分）的一个很好的例子，它可以处理许多矩阵数学和神经网络用例以及使用更少功率的各种推理任务。”

这些加速器，尤其是为特定应用而构建的 ASIC 和 NPU，在成本和功耗方面比 GPU 更高效。

IBM 云和行业平台总经理 Rohit Badlaney 告诉 VentureBeat：“GPU 设计主要以算术逻辑单元 (ALU) 为中心，这样它们就可以同时执行数千次计算，而 AI 加速器设计主要以张量处理器核心 (TPC) 或单元为中心。一般来说，AI 加速器的性能与 GPU 性能的比较取决于该设计的固定功能。”

目前，IBM 采用混合云方法，在整个堆栈中使用多个 GPU 和 AI 加速器，包括来自 Nvidia 和 Intel 的产品，为企业提供选择，以满足其独特工作负载和应用的需求 - 高性能和高效率。

“我们的全栈解决方案旨在帮助改变企业、开发人员和开源社区构建和利用生成式人工智能的方式。人工智能加速器是我们认为对希望部署生成式人工智能的客户非常有益的产品之一，"Badlaney 说。他补充说，虽然 GPU 系统最适合大型模型训练和微调，但加速器同样可以处理许多人工智能任务，而且成本更低。

例如，IBM 云虚拟服务器使用了英特尔的Gaudi 3加速器，并配备了专为推理和大内存需求设计的定制软件栈。该公司还计划通过由多个系统组成的小型集群，将加速器用于微调和小型训练工作负载。

“人工智能加速器和 GPU 可以有效地用于一些类似的工作负载，例如从 LLM 和扩散模型（像稳定扩散这样的图像生成）到标准物体识别、分类和语音配音。不过，人工智能加速器和 GPU 之间的优势和差异完全取决于硬件提供商的设计。Badlaney 解释说："例如，Gaudi 3 AI 加速器的设计旨在显著提升计算能力、内存带宽和基于架构的能效。

他说，这直接带来了性价比优势。

除了英特尔，其他人工智能加速器也在市场上备受关注。这不仅包括为谷歌、AWS 和微软等公共云提供商打造的定制芯片，还包括 Groq、Graphcore、SambaNova Systems 和 Cerebras Systems 等初创公司的专用产品（某些情况下是 NPU）。它们都以各自的方式脱颖而出，在不同领域向 GPU 发起挑战。

在其中一个案例中，Tractable 是一家开发人工智能的公司，旨在分析财产和车辆损坏情况以进行保险理赔，该公司能够利用 Graphcore 的智能处理单元-POD 系统（一种专门的 NPU 产品），与他们一直使用的 GPU 相比，性能大幅提升。

“Tractable 公司联合创始人兼首席技术官 Razvan Ranca 在一篇博文中写道："我们看到速度提高了大约 5 倍。“这意味着研究人员现在可以运行的实验数量可能是以前的五倍，这意味着我们加快了整个研发过程，并最终在我们的产品中建立了更好的模型"。

在某些情况下，AI 处理器还为训练工作负载提供支持。例如，Aleph Alpha 数据中心的 AI 超级计算机正在使用Cerebras CS-3，该系统由这家初创公司的第三代 Wafer Scale Engine 提供支持，拥有 900,000 个 AI 核心，用于构建下一代自主 AI 模型。甚至谷歌最近推出的定制 ASIC TPU v5p也在为 Salesforce 和 Lightricks 等公司提供一些 AI 训练工作负载。

选择加速器的方法应该是怎样的？

现在已经确定除了 GPU 之外还有许多 AI 处理器可以加速 AI 工作负载，尤其是推理，那么问题是：IT 经理如何选择最佳投资方案？其中一些芯片可能具有良好的性能和效率，但由于其架构，它们在处理的 AI 任务类型方面可能会受到限制。其他芯片可能会做得更多，但与 GPU 相比，TCO 差异可能没有那么大。

由于答案因芯片设计而异，VentureBeat 采访的所有专家都建议选择应基于要处理的工作负载的规模和类型、数据、持续迭代/更改的可能性以及成本和可用性需求。

帮助企业进行 AI 训练和推理的Sustainable Metal Cloud首席技术官 Daniel Kearney 表示，企业运行基准测试来测试性价比优势也很重要，并确保他们的团队熟悉支持各自 AI 加速器的更广泛的软件生态系统。

“虽然详细的工作负载信息可能无法提前获得，或者可能无法为决策提供支持，但建议使用代表性工作负载、真实世界测试和可用的同行评审真实世界信息进行基准测试和测试，以提供数据驱动的方法来为合适的工作负载选择合适的 AI 加速器。这种前期调查可以节省大量时间和金钱，特别是对于大型且昂贵的培训工作，”他建议道。

在全球范围内，随着推理工作的增长，包括 AI 芯片、加速器和 GPU 在内的 AI 硬件总体市场预计将以每年 30% 的速度增长，到 2028 年将达到 1380 亿美元。

*声明：本文系原作者创作。文章内容系其个人观点，我方转载仅为分享与讨论，不代表我方赞成或认同，如有异议，请联系后台。

查看原图 112K