智算“万卡”潮起,国产AI芯片迎高光时刻

全文3981字,阅读约需12分钟,帮我划重点

划重点

01随着智能算力需求的快速增长,国内已有多家厂商及机构着手向万卡集群领域拓展业务。

02中国移动、联通、电信三大运营商均在加速推进超万卡集群智算中心的建设,预计2025年智能算力需求达123.6EFLOPS,而供给仅为57.9EFLOPS。

03国产AI芯片公司如华为昇腾、寒武纪、摩尔线程等受益于万卡集群的建设,有望进一步提高市场份额。

04然而,万卡集群的建设面临两大关键难题:高质量完成建设任务和保障集群在人工智能训练、大数据分析等适配场景发挥最大作用。

以上内容由腾讯混元大模型生成,仅供参考

图片

GPU万卡集群,小米下场了!摩尔线程智算集群扩展至万卡!中国移动将商用三个自主可控万卡集群......一系列标题的袭来,让笔者突然意识到,仿佛在不经意间,智能算力建设已然迈入万卡时代。

那么到底什么是万卡集群?万卡集群到底有哪些作用?有必要部署万卡集群吗?

01

什么是万卡集群?

万卡集群,是指由超过一万张加速卡(如GPU、TPU或其他专用AI加速芯片)组成的高性能计算系统,用以加速人工智能模型的训练和推理过程。

至于为什么需要一万张加速卡?

众所周知,大模型竞赛的本质是算力竞赛。比如这里有一个超大土堆,放一个工人和放一万个工人,在效率上肯定会有质的飞跃。

以OpenAI训练GPT模型为例,GPT-4需要使用2.5万张英伟达A100 GPU,并行训练100天左右的时间,在此期间要处理13万亿个token,并且涉及大约1.76万亿个参数。在不久的将来,开发大模型所需的算力将实现指数级的增长,对于即将亮相的GPT-5,预计该模型的训练需要部署20万~30万个H100 GPU,耗时130~200 天。

如今OpenAI发布ChatGPT已有两年的时间,从建设进度上看,海外头部厂商在2022年、2023年已经完成万卡集群搭建。比如2023年5月,谷歌推出的AI超级计算机A3,搭载了约26000块英伟达H100 GPU;2022年,META宣布了一个由1.6万块英伟达A100 GPU组成的集群。到了2024年初,META进一步扩大规模,建成了两个各含24576块GPU的集群,并设定了宏伟目标:到2024年底,构建一个包含35万块英伟达H100 GPU的庞大基础设施。亚马逊Amazon EC2 Ultra集群采用了2万个H100 TensorCore GPU。

再看中国的智能算力建设情况。

02

国产万卡集群,谁在布局?

日前,中国工程院院士郑纬民指出,“构建国产AI卡的万卡大模型训练平台很难,但也很重要以及必要。”

当下,国内已有多家厂商及机构着手向万卡集群领域拓展业务。

根据《智算产业发展研究报告(2024)》显示,在中国,超万卡集群的智算中心已达十余个。

今年以来, 中国移动 、联通、电信三大运营商均在加速推进超万卡集群智算中心的建设。

今年8月,中国电信在智算网络建设方面取得了显著进展,其上海与北京两大万卡集群已成功投产运营。

中国移动位于呼和浩特、哈尔滨、贵阳的万卡级别的智算中心已经先后投产运行。据悉,三大集群总规模近6万张GPU卡,充分满足大模型集中训练需求。

中国联通正在打造上海、呼和万卡智算集群,全网智算算力超15EFLOPS,发布AICC、AICP、星罗调度平台等五大智算产品,提供涵盖国家“东数西算”枢纽、31省重点城市、超600边缘节点的AIDC基座。

小米也正计划建设一座GPU万卡集群。据悉,小米在其大模型团队成立时已经拥有6500张GPU资源。

字节在2023年就已建立起超过1万张卡的Ampere架构GPU (A100/A800) 集群,此后还在建设大规模Hopper架构(H100/H800)集群。

如今,“万卡集群”被业界视作是这一轮大模型竞赛的“入场券”,甚至还有不少厂商已经开始布局“十万卡集群”。

百度的百舸 4.0 通过一系列产品技术创新,已经能够实现十万卡集群的高效管理。

阿里巴巴的阿里云可实现芯片、服务器、数据中心之间的高效协同,支持 10 万卡量级的集群可扩展规模,已服务全国一半的人工智能大模型企业。

腾讯已宣布自研星脉高性能计算网络全面升级,星脉网络 2.0 搭载全自研的网络设备与 AI 算力网卡,能够支持超 10 万卡大规模组网,网络通信效率比上一代提升 60%,让大模型训练效率提升 20%。

03

国产AI芯片公司,得到利好

显然,在运营商以及科技巨头纷纷入场布局之际,国产 AI 芯片公司也迎来利好。

华为昇腾

据悉,以政府为主导的城市智能计算中心多采用国产A1芯片中的佼佼者如华为昇腾等,其中华为更是在统计的20多个城市为主体的智能计算中心中占据79%的市场份额,处于国产AI芯片的领先位置。在可预见的2025年,昇腾芯片及服务器的市场依旧会处于紧张的供给局面。

寒武纪

2023年寒武纪思元(MLU)系列云端智能加速卡在中国移动正式上线。截至2023年12月,中国移动已有12个省公司、超过70个AI业务完成向寒武纪思元系列云端智能加速卡的迁移。

2024年8月,中国移动云能力中心参建的全球运营商最大单集群智算中心——中国移动智算中心(哈尔滨)正式投产使用。该智算中心部署超1.8万张AI加速卡,AI芯片国产化率达100%,可提供6.9EFLOPS(每秒690亿亿次浮点运算)智能算力。据悉,该智算中心就是由寒武纪参与建设。

南京智能计算中心由南京市麒麟科技创新园与浪潮、寒武纪共同打造,采用浪潮AI服务器算力机组,搭载领先的寒武纪思元270和思元290智能芯片及加速卡,已运营系统的AI计算能力达每秒80亿亿次 (800P OpS)。

大模型爆火的当下,AI的训练和推理芯片及训推一体化等芯片成为市场“香饽饽”,寒武纪在此领域的深耕研发,加速思元系列芯片的迭代。

摩尔线程

2023 年 12 月摩尔线程 KUAE 智算中心揭幕,这是国内首个以国产全功能 GPU 为底座的大规模算力集群,以全功能 GPU 为底座,提供软硬一体化的全栈解决方案。

2024 年 7 月,摩尔线程联合中国移动通信集团青海有限公司、中国联通青海公司、北京德道信科集团、中国能源建设股份有限公司总承包公司、桂林华崛大数据科技有限公司等,分别就三个万卡集群项目进行了战略签约,多方将聚力共同构建好用的国产GPU集群。

燧原科技

2021年燧原科技与之江实验室在之江实验室南湖新园区签约成立“燧原-之江人工智能芯片联合研究中心”。

成渝智算中心由四川并济科技投建,燧原科技提供搭建算力底座。

与此同时,燧原科技还助力太湖亿芯(无锡)智算中心、甘肃庆阳算力枢纽的建设。

天数智芯

中国移动智算中心(呼和浩特)是全球运营商领域内规模最大的单体液冷智算中心,智算规模高达 6.7EFLOPS(FP16),拥有国家级 N 节点万卡规模 AI 训练场。

天数智芯在该项目中充分发挥天垓 150 产品的卓越性能与广泛适用性,与新华三信息技术强强联合,共同打造高性能 AI 训练服务器。

壁仞科技

壁仞科技也参与中国移动呼和浩特智算中心项目。

此外,壁仞科技的壁砺系列通用 GPU 算力产品还在中国电信落地千卡集群并开展商业化应用,另外在中国电信集团新一轮国产化 GPU 集采项目中,壁仞科技的主流 GPU 产品已经纳入中国电信的集采名录,成为中国电信的主要 GPU 供应商。

沐曦科技

2024 年 11月,由上海联通携手加佳科技、沐曦共同打造的曦源一号 SADA 万卡集群算力项目第一期千卡国产算力集群在上海联通临港机房正式落地。该项目以沐曦 GPU 芯片技术产品为核心,着力构建集算力、算法、数据、产业应用为一体的人工智能产业新生态。

据悉,沐曦和加佳科技已在上海、湖南、江苏等多地建成智算中心,并计划于2025年6月完成10000卡国产高质量算力建设。

04

何止“万卡”,甚至要“百万卡”

从早期智算中心艰难起步,一步步发展到如今 “万卡” 规模的算力集群纷纷落地,这无疑是巨大的飞跃。当下,行业头部厂商更是将视野进一步拓宽,已然聚焦于更为宏大的 “百万卡” 目标。

近日,在AI市场快速增长的背景下,博通市值突破 1 万亿美元,创下历史新高。

博通首席执行官陈福阳表示,他有信心在 2020 年代后期继续加大对人工智能的投资。他指出,三年内,博通的客户计划构建配备数百万个 AI 芯片的大规模计算集群,从而推动市场大幅增长。

博通正与三大客户合作开发 AI 芯片,计划到 2027 年在网络集群中部署 100 万个芯片。据CNBC报道,他估计,到 2027 年,其 XPU 和 AI 网络组件的总市场规模将达到 600 亿至 900 亿美元。

虽然博通尚未正式公布其芯片客户,但分析师表示,该公司正在与谷歌、Meta 和字节跳动合作,以加速 AI 系统的训练和部署。据《金融时报》报道,该公司已为此开发了定制处理器。

05

“万卡集群”真的有必要吗?

先说结论,“万卡集群”的建设一定是有必要的。

当前,我国智能算力供不应求的问题较为突出,大模型对算力的需求增速远超单颗 AI 芯片性能的提升步伐。相关报告显示,2023 年,中国智能算力需求达 123.6EFLOPS,而供给仅为 57.9EFLOPS,供需缺口一目了然。利用集群互联弥补单卡性能短板,或是现阶段缓解 AI 算力荒最值得探索与实践的有效途径。

不过,在推进 “万卡集群” 建设进程中,有两大关键难题亟待解决:其一,怎样高质量完成建设任务,保证集群在稳定性、高效性、兼容性等多方面达到标准要求;其二,建成后如何充分挖掘其应用价值,使其在人工智能训练、大数据分析等适配场景发挥最大作用,杜绝资源空置与浪费现象。

首先,不妨将 “万卡集群” 类比为参与 “多人多足” 游戏的团队,大家都清楚,让一群人如同一个人般整齐划一地前行并非易事,要调度上万张计算卡协同高效作业、达成性能的线性扩展、确保任务无间断运行,这对集群的设计、调度以及容错能力都提出了极高挑战。

其次,智算中心的建设只是一个开端,更重要的是后续的有效运用。

据报道,由于智算中心的投资、建设、运营通常由不同主体负责,前期建设方常常对后续运营模式、服务标准缺乏足够考量,出现 “只管建设、不顾运营”、建设与运营脱节的情况,影响了客户体验,致使不少城市所建智算中心的机架利用率不尽人意。

从商业模式来讲,智算中心大多以出租或售卖算力为主要盈利手段,然而因行业尚未统一算力定价标准,不同智算中心价格差异悬殊,市场接纳程度受限。

近期,多位智算中心领域从业者走访国内各地智算中心后,他们中的一些人向《智能涌现》反馈,当前国内算力中心市场较为低迷。一位业内人士透露:“就目前所掌握情况,多数机房出租率大致在 20% - 30% 区间浮动,部分企业级智算中心出租率甚至低至 10% 左右。”

要清楚,智算中心不仅前期需要投入巨额资金购置 GPU 等 AI 芯片,后续运营阶段同样需要持续注资。

《智能涌现》不久前发文指出,一台英伟达 H100 服务器(8 卡)租赁价格,已从年初的 12- 18万元/月,下滑至目前的7.5万元/月,降幅约50%。

若按照当前机房20%的利用率来算,一个英伟达H100千卡集群智算中心每年营收仅2300 万元(即7.5 万元/月×12个月×128台服务器×20%),这意味着,即便算力中心勉强维持运营,所得收入基本只能覆盖一半的正常运营成本,前期投入的资本根本无从回本。

综上所述,“万卡集群”已成为智能算力时代的重要里程碑,标志着我国在人工智能领域的算力建设迈上了新的台阶。从小米、中国移动等科技巨头正积极布局万卡集群,以期在这场大模型竞赛中占据有利地位。然而,万卡集群的建设并非易事,智算中心需要多长时间才能通过运营收入收回投资,行业也还需更多的探索。