(报告出品方/作者:中泰证券,王芳,李雪峰,杨旭)
一、AI服务器产业链梳理
服务器是数字经济发展的基础要素之一
服务器按CPU体系架构分类:可分成x86架构和非x86架构。x86架构服务器又称CISC(复杂指令集)架构服务器,是采用 Intel或其他兼容x86指令集的CPU和Windows操作系统的服务器。非x86服务器使用RISC(精简指令集)或EPIC(并行指令 代码),主要采用UNIX或其他操作系统。相比x86架构,非x86架构价格昂贵、体系封闭,但整体运行稳定性更好。 按处理器数量分类:可分成单路、双路、四路以及多路服务器。 按应用场景分类:可分成存储服务器、云服务器、AI服务器和边缘服务器等。
国内AI服务器进入快速增长期
服务器按应用场景可分成存储服务器、云服务器、AI服务器和边缘服务器等。近年来,随着全球物联网、数据中心的快速 发展,服务器需求量不断增长。据IDC数据显示,2021年全球服务器出货量达到1354万台,yoy+11%;2021年全球服务器市 场规模达到992亿美元,yoy+9%。其中,大陆服务器出货量由229万台增长至391万台,CAGR+11%;市场规模由93亿美元 增长至251亿美元,CAGR+22%,两项增速远超全球。 政策支持将推动国内AI服务器进入快速增长期。2023年中共中央、国务院印发《数字中国建设整体布局规划》,明确指出 “夯实数字中国建设基础”,我们认为“数字基础设施”将拉动大数据中心、超算中心等基建建设,国内AI服务器规模有 望迎来快速增长。
国内AI服务器进入快速增长期
AI服务器和通用型区别主要在于: 1)硬件架构:AI 服务器是采用异构形式的服务器,根据应用的范围采用不同的组合方式,如 CPU+GPU、CPU+TPU、 CPU+其他的加速卡等。与普通的服务器的差别主要在大数据及云计算、人工智能等方面需要更大的内外存。2)卡的数量:普通的 GPU 服务器一般是单卡或者双卡,AI 服务器需要承担大量的计算,一般配置四块 GPU 卡以上,甚至 要搭建 AI 服务器集群。 3)独特设计:AI 服务器由于有了多个 GPU 卡,需要针对性的对于系统结构、散热、拓扑等做专门的设计,才能满足 AI 服 务器长期稳定运行的要求。
随着国内数字基础建设数据负载量的需求量不断上升,我国AI服务器市场保持较快增速。根据IDC数据,2022年大陆AI服 务器出货量达28.4万台,预计到2027年达到65万台,CAGR为17.9%,按金额计算,2022年大陆AI服务器销售额为72.55亿美 元,预计到2027年销售额将达到163.99亿美元, CAGR为17.7%。
国产服务器厂商水平位于世界前列
中国在AI服务器水平位于世界前列。AI服务器采用CPU+加速芯片的架构形式,在进行模型的训练和推断时会更具有效率优 势。与国外AI芯片厂商的垄断局面不同,中国AI服务器水平位于世界前列。据IDC数据,2022年中国AI服务器市场(按销售 额),浪潮以46.6%份额占据首位,新华三、宁畅分别以11%和9%占据第二、第三名。
4卡/8卡GPU服务器逐步成为主流
技术升级推动行业进步:服务器的升级迭代依赖于CPU、GPU、存储介质和网络接口等上游核心组件在性能上的提升。近 年来,部分企业正积极提高自身服务器的性能,如浪潮服务器在设计上实现了多项技术创新和升级,可支持3组或4组 CPUXGMI灵活互联配置;戴尔新一代DellPowerEdge服务器,提供了比PERC11高2倍、比PERC10高4倍的性能。 随大数据需求增长,4卡和8卡的AI加速服务器成为大客户的主流。云计算带动AI训练推理需求增长,22H1, A100的出货量 表现突出,占据GPU服务器市场的44%,随大模型推出后下游需求火热,8卡高端GPU服务器份额有望持续增长。
二、算力:AI底层土壤核心受益
算力是AI底层土壤,AI芯片核心受益
目前CPU+XPU异构形式成为AI服务器主流架构。传统的CPU单元对于AI计算任务的处理能力有限,而XPU(包括GPU、FPGA、 ASIC等)则可以提供更强大的计算能力,因此将CPU和XPU结合起来使用可以实现计算任务的高效处理和资源的最优利用。一 般来说,CPU负责整个系统的管理和控制,而加速芯片则负责AI计算任务的加速,两者相互协作,共同提升整个系统的性能。
ChatGPT火热拉动AI芯片需求快速增长,英伟达GPU供需紧张。ChatGPT推出不久即在全球范围火爆,成为史上用户增长速度 最快的消费级应用程序,用户访问数量不断增长拉动算力需求激增。据OpenAI数据,1月ChatGPT重大停机(Major outage)时 长为5小时30分钟,部分停机(Partial outage)16小时21分钟,运营算力不足已经开始影响ChatGPT的稳定性和响应速度,4月因 访问需求量过大,ChatGPT更是短暂停止Plus销售服务。微软与OpenAI正在消耗大量GPU用于AI推理,英伟达GPU产品供应紧 缺,我们认为大模型的火热将带来巨大算力需求,算力芯片将作为底层土壤核心受益。
云端训练和推断计算主要由 Al 服务器完成,底层算力芯片包括 CPU、GPU、FPGA、ASIC 等。 CPU是AI计算的基础,负责控制和协调所有的计算操作。在AI计算过程中,CPU用于读取和准备数据,并将数据来传输到 GPU等协处理器进行计算,最后输出计算结果,是整个计算过程的控制核心。根据IDC数据,CPU在基础型、高性能型、推 理型、训练型服务器中成本占比分别为32%、23.3%、25%、9.8%,是各类服务器处理计算任务的基础硬件。
GPU、FPGA、ASIC是AI计算的核心,作为加速芯片处理大规模并行计算。具体来看,GPU通用性较强,适合大规模并行计 算,且设计及制造工艺较成熟,目前占据AI芯片市场的主要份额;FPGA具有开发周期短、上市速度快、可配置性等特点, 目前被大量应用于线上数据处理中心和军工单位;ASIC根据特定需求进行设计,在性能、能效、成本均极大的超越了标准 芯片,非常适合 AI 计算场景,是当前大部分AI初创公司开发的目标产品。
CPU:服务器主要核心算力芯片
根据IDC数据,CPU在推断型服务器中的成本占比为25%,在训练型服务器中的成本占比为9.8%。此外据IDC对于人工智能 服务器推理和训练工作负载的预测,2021用于推断和训练的占比分别为40.9%和59.1%,2025年推断和训练的占比调整为 60.8%和39.2%,我们测算出2021年和2025年CPU在AI服务器中的成本占比分别为16.02%和19.04%。根据观研报告网数据,2021年全球AI服务器市场规模为156亿美元,预计于2025年增长至318亿美元。2021年中国AI服务器 市场规模为350.3亿元,预计2025年将增长至701.8亿元。因此我们合理推算2021年,全球AI服务器CPU市场规模约为25亿美 元,中国市场约为56亿元,到2025年全球AI服务器CPU市场规模约为61亿美元,中国市场规模为134亿元。
GPU:AI高性能计算王者
GPU在AI模型构建中具有较高的适配性。GPU的高并行性可以更好地支持AI模型训练和推理过程中大量的矩阵或向量计算, 以NVIDIA GPU系列旗舰产品A100为例:根据NVIDIA公布的规格参数,A100的深度学习运算性能可达312Tflops。在AI训练 过程中,2048个A100 GPU可在一分钟内成规模地处理BERT的训练工作负载;在AI推理过程中,A100可将推理吞吐量提升 到高达CPU的249倍。 AI模型与应用的加速发展推动GPU芯片放量增长。根据Verified Market Research数据,2021年全球GPU市场规模为334.7亿美 元,预计2030年将达到4773.7亿美元,CAGR(2021-2030)为34.35%。从国内市场来看,2020年中国大陆的独立GPU市场规 模为47.39亿美元,预计2027年市场规模将达345.57亿美元,CAGR(2021-2027)为32.8%。
FPGA:可编程芯片加速替代
FPGA是AI时代下解决暗硅效应的有效途径。暗硅效应(Dark Silicon)指由于芯片工艺和尺寸的限制,芯片上只有一小部 分区域可以同时运行,其余的区域被闲置或关闭,这些闲置或关闭的区域被称为“暗硅”。在AI计算领域,由于摩尔定律 的限制和散热问题,先进高效的硬件设计会更容易导致暗硅效应,限制了芯片的计算能力和应用范围。据相关论文,在 22nm制程下,暗硅面积将达21%。在8nm制程下,暗硅面积将提升至50%以上。由于暗硅效应,预计到2024年平均只能实现 7.9倍的加速比,与每代性能翻倍的目标相比差距将近24倍。
FPGA的可编程性和可重构性使其能够灵活地部署和优化计算任务,从而在一定程度上缓解了暗硅效应的影响。简单来说FPGA减少暗硅效应的方法有两个方向,一是通过优化电路结构,尽可能减少不活跃区域的数量;二是通过动态重构电路,使得不活跃区域可以被重用。
ASIC:云端推断市场规模快速增长
ASIC主要应用在推断场景,在终端推断市场份额最大,在云端推断市场增速较快。训练:AI模型在训练过程中需要对模型参数进行不断调整,ASIC由于专用性强、灵活性低,因此不适用于云端训练。根据 赛迪顾问数据,2019年GPU、FPGA、ASIC在云端训练市场占比分别为63.9%、22.6%、13.5%,云端训练仍以GPU为主。推断:与训练场景不同,推断场景模型参数较为固化,ASIC在推断市场场景中的应用前景较为广阔。在早期,ASIC的下游 应用场景主要为各领域智慧终端设备,因此在终端推断市场规模较大。目前,随着云端算力需求的不断增加,ASIC凭借出 色的算力水平开始在云端推断领域快速渗透。根据赛迪顾问数据,2019年ASIC在终端推断的市场份额为41%,远超GPU与 FPGA。2019-2021年在云端推断的市场年均增速均保持在60%以上,高于CPU与FPGA。
生态体系逐步完善,国产GPU多领域追赶
全球GPU芯片市场主要由海外厂商占据垄断地位,国产厂商加速布局。全球GPU市场被英伟达、英特尔和AMD三强垄断, 英伟达凭借其自身CUDA生态在AI及高性能计算占据绝对主导地位;国内市场中,景嘉微在图形渲染GPU领域持续深耕,另 外天数智芯、壁仞科技、登临科技等一批主打AI及高性能计算的GPGPU初创企业正加速涌入。 ASIC不同于CPU、GPU、FPGA,目前全球ASIC市场并未形成明显的头部厂商,国产厂商快速发展;通过产品对比发现, 目前国产厂商集中采用7nm工艺制程,与国外ASIC厂商相同;算力方面,海思的昇腾910在BF16浮点算力和INT8定点算力方 面超越Googel最新一代产品TPUv4,寒武纪的产品在整体性能上也逐步缩小与海外厂商差距。未来国产厂商有望在ASIC领 域继续保持技术优势,突破国外厂商在AI芯片的垄断格局。
三、存力:服务器底层支撑
AI算力需求,存储芯片受益
ChatGPT带动AI服务器需求,存储芯片受益。ChatGPT的数据获取、数据整理、训练、推理除大算力芯片外,还需存储芯片支持。服务器成本构成:服务器成本包括算力芯片、存储器等,根据IDC 2018年服务器成本构成,在高性能服务器/推理型服务器/机 器学习型服务器中存储占比29%/25%/16%。AI服务器,除了内存需要128GB或更大容量的高性能HBM和高容量服务器 DRAM,还需硬盘去存储大量数据。 存储下游市场:智能手机+服务器+PC是主要下游。智能手机端出货量增速有限,单机容量提升是主要推动力;服务器端,受 益人工智能、物联网和云计算等应用兴起,服务器出货量及单机容量提升推动增长。
AI高算力对高带宽内存的需求
AI大算力需要的内存:大容量服务 器DRAM和高带宽内存HBM。按照应用场景,DRAM分成标准 DDR、LPDDR、GDDR三类。 JEDEC定义并开发了以下三类 SDRAM 标准,以帮助设计人员满足 其目标应用的功率、性能和尺寸要 求。 1)标准型DDR:针对服务器、云计 算、网络、笔记本电脑、台式机和消 费类应用程序,与CPU配套使用。2)LPDDR:Low Power DDR,针对 尺寸和功率非常敏感的移动和汽车领 域,有低功耗的特点。3)GDDR:Graphics DDR,针对高 带宽(例如显卡和 AI)的两种不同的存 储器架构是 GDDR 和 HBM。
GDDR DRAM 是专为GPU 和加速器设计的,HBM是GDDR的替代品,也适用于GPU与加速器,与主芯片配套,可以提高 机器学习和计算性能,如英伟达“A100”就最高配备了80GB HBM2内存。 HBM(High Bandwidth Memory)是将多个DDR芯片3D堆叠在一起后和主芯片封装在一起,有高带宽、低功耗等特点。
1)HBM与主芯片合封在一起:DRAM颗粒和和GPU/CPU合封,缩短了DRAM和主芯片之间的通信距离,同时跨越封装对 芯片引脚数目的限制,几十倍提高传输线数量,降低传输损耗,提高传输带宽。 2)HBM采用3D堆叠技术,中间层连接内存与主芯片:不同于DRAM颗粒与算力芯片平铺,HBM将DRAM颗粒堆叠在一 起,一方面增加了DRAM容量,另一方面直接增加带宽,DRAM颗粒通过“硅透”(TSV)的微型导线相互连接,主芯片和 DRAM通过中间层连通,HBM 具备的特性几乎和芯片集成的 RAM一样,具有更高速、更高带宽的特点。
DRAM全球三大家垄断,HBM市场由三星、海力士主导,目前已迭代至HBM3。2021年全球DRAM市场三星、海力士、美光三巨头合计市占率高达94%。HBM市场,以SK海力士、三星为主,SK海力士 HBM技术起步早,占据较大市场。 SK 海力士:AMD意识到DDR的局限性并产生开发堆叠内存的想法,与SK海力士联手研发HBM;2013年,SK海力士将 TSV技术应用于DRAM,在业界首次成功研发出HBM;2015年,AMD在Fury系列显卡上首次商用第一代HBM技术。2018 年发布HBM2,2021年发布全球首款HBM3,目前在研HBM4。三星:三星从HBM2开始布局,2016年量产HBM2,2021年2月,三星电子推出了HBM-PIM(存算一体),将内存半导体和 AI处理器合二为一,2022年HBM3已量产。
四、PCB:AI服务器基石
AI产业机会-PCB:AI服务器基石
ChatGPT数据运算量增长快速,带动服务器/交换机等用量提升,布局相应领域PCB公司显著受益。 ChatGPT带来了算力需求的激增,与之对应亦带来相应服务器/交换机等作为算力核心载体和传输的硬件,带来PCB需求大幅 增长,同时随着对算力的要求越来越高,对于大容量、高速、高性能的云计算服务器的需求将不断增长,对PCB的设计要求 也将不断升级,提升对于高层数、大尺寸、高速材料等的应用。
以23年发布的新服务器平台为例,Pcie 5.0服务器用PCB层数、材料、设计工艺均有升级,PCB价格提升显著,其层数从4.0 的12-16层升级至16-20层,根据 Prismark 的数据,2021 年 8-16 层板的价格为 456 美元/平米,而18 层以上板的价格为 1538 美元/平米,PCB 价值量增幅明显;另外配套新服务器,交换机、传输网产品都需要同步升级,预计400G、800G交换机对 PCB板子拉动巨大,进一步带动数通板景气度提升。
2022年预计搭载 GPGPU(General Purpose GPU)的 AI 服务器年出货量占整体服务器比重近 1%;2023 年预计在 ChatBot 相关应用加持下,预估出货量同比增长可达 8%;2022-2026 年复合增长率将达10.8%。2022 年 AI 服务器采购中,北美四大云端厂商谷歌、亚马逊 AWS、Meta、微软合计占比 66.2%。国内市场方面,字节跳动 采购力道最为显著,年采购占比达 6.2%,紧随其后的是腾讯(2.3%)、阿里巴巴(1.5%)、百度(1.5%)。
服务器升级也带动交换机同步升级。随着服务器的升级,交换机作为数据传输的载体,也将迎来同步升级,从100G交换机到 400G,再到800G交换机,交换机端口速率的提升对PCB板的材料、层数及加工工艺要求更高,对高速PCB的需求更大,单 个交换机PCB板价值量大增。400G交换机的单通道速率通常为56Gbps或112Gbps,是100G交换机的2.24倍或4.48倍,因 此对PCB板材的要求从Ultra-low Loss升级为Super Ultra-low Loss,同时PCB板层数要求更高层,相应的技术壁垒也更高。 我们预计全球以太网交换机建设在2025年PCB空间为18.43亿美元,对应的交换机PCB产值2022-2025CAGR约为5%。
报告节选:
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
精选报告来源:【未来智库】