特斯拉用Megapack 解决 xAI 超算集群电耗波动

Elon often told us to not be constrained by rules. I like chess, so I really like his example: (paraphrase) it doesn't matter you are mate in 3. If there's a laser beam from space that shoots down your opponent's king, you win.[2]
翻译:马斯克经常对我们说,不要被条条框框局限了你的思维。我喜欢国际象棋,所以我非常喜欢马斯克举的例子:不用担心理会你在三步之内被对手将军至死,因为如果有一发激光从太空中轰射下来把对手的国王烧死,你就赢了。

图片

马斯克的人工智能公司 xAI 在短短 120 天内,在田纳西州孟菲斯市,完成了目前世界第一大人工智能训练超算集群的数据中心施工,然后在更匪夷所思的 19 天内,从零开始,把整整 10 万块英伟达 H100 GPU 安装调试完成,上线工作[3]。只有业内或熟悉超算集群的人才知道,这个速度是如何的疯狂,令人目瞪口呆。

英伟达 H100 GPU 每块满功率耗电约 700 瓦(W)[4],整个集群有 10 万块,全功率运行,光芯片耗电就是 70 兆瓦(MW)!真个数据中心目前的最大电耗是 150 兆瓦[5],包括液体冷却循环系统,CPU 集群,网络设备,大规模存储设备,等等。而整个孟菲斯市,目前只有两个发电厂:Allen Combined Cycle Plant(天然气),总功率 600 兆瓦,和 Allen Combustion Turbine Plant(天然气),总功率 456 兆瓦[6],其实还有第三个光伏电厂,但功率太低,忽略不计。光这个数据中心耗电量就占了总发电量的 15%,而且要知道,发电厂一般从不满功率运行,普遍运行指标在 60% 左右,这样一来,数据中心耗电量就占了近四分之一。

等集群上线开始进行大规模模型训练的时候,一个更严重的问题跳了出来:训练中,整个集群的用电消耗波动过大、过频繁,以至于给当地电力供应造成很严重的影响。了解电网运维的都知道,大幅度用电波动对电网的冲击和影响非常大。而人工智能模型训练时的耗电波动,恰恰非常剧烈,而且快速:

图片
图片

(图片来源[7]

从 2024 年加拿大研究人员发表的论文[7]中看到,人工智能模型训练时,GPU 功率的波动可以达到下行 80% 或上行 3500%!而瞬时(指小于 500 毫秒)的变化也能够达到下行 50% 或上行 2000%!这种海啸般的波动简直疯狂,对于电网来说是不可承受之重。当然,一块 GPU 功率波动不等于整个集群波动,很多时候模型训练的系统构架会考虑到如何进行不同 GPU 之间的运算平衡。这篇论文里也记录和分析了一个大语言模型训练的集群综合耗电情况:

图片


可以看出,主要问题集中在瞬时耗电功率大幅下降。

为此,一位周五才入职 xAI 的工程师,周六早上就被拉到数据中心,委以重任,解决这个电耗瞬时跳崖的问题[2]。此人履历对于我们这些普通人来说,就是神一样的人物:国际高中信息学竞赛获奖者,ACM 大学编程竞赛获奖者,斯坦福大学毕业,谷歌人工智能研究部门资深工程师。他的想法也很直接,你不是说瞬时耗电功率大幅下降不好吗,那我就在下降的时候,搞点无用计算 ^_^,这样功率不就稳定了吗?不得不说,这种看似高级,其实本质上就是一个死循环的做法,在程序猿中很流行。但是最后,他的方案没有被采纳,不知道具体原因,但我的估计是:1)故意浪费电是可耻的,2)更重要的一点,这种做法我觉得不见得非常有效:每个 GPU 的工作量波动是比较容易监测并且(用死循环)补偿的,但这种做法对于整个集群来说就非常困难,太多(10 万块!)微小波动(perturbation)累积出来的集群行为,很难用同样的微小补偿在每一块 GPU 上来精准平衡。不觉得我们人类现在的编程和控制水平能够达到这个级别。

最后,马老板和他的特工队决定,从特斯拉调集一批 Megapack 到 xAI 的孟菲斯数据中心来[8]

图片

每个 Megapack 可以想象成一个超大号充电宝:4000 度电,130 万美元。它已经被很多国家和地区的电网采用,用于平衡电网波动,因为它的一个主要特性是,反应速度惊人。以前,平衡电网波动,要么靠发电机空转,要么靠飞轮,或其他类似设备,主要问题就是反应速度慢,因为都是机械装置。自从特斯拉的 Megapack 问世以来,大家发现,原来用纯电子无机械的硅芯片加锂电池,可以做到毫秒/兆瓦级的响应!例如:2024 年 2 月,安装有大量特斯拉 Megapack 集群的夏威夷电网,成功的在一次事故中,在 250 毫秒内,提供了 50 兆瓦功率的补偿,保证了电网的稳定[9]

安装了许多(没有具体数字,大约估计是十几台)Megapack 的 xAI 超算数据中心,解决了瞬时电耗功率下降对电网的影响:你可以把这些 Megapack 构成的储能集群看做是一个大号缓冲池,这个缓冲池把电网和超算集群隔离开来,使得超算一边的瞬时剧烈大浪,被时间延缓为不太剧烈的波浪,再传递到电网这一边。这种弹性缓冲,给接下来 xAI 超算集群继续扩大(2024 年底达到 20 万块 H100 GPU![10])铺平了道路。

同时,因为 Megapack 的储能能力,xAI 也可以通过不同时段电力价格差而采取不同的充放电策略,以达到更好的成本控制。

参考

  1. ^封面图片 https://www.servethehome.com/inside-100000-nvidia-gpu-xai-colossus-cluster-supermicro-helped-build-for-elon-musk/2/

  2. ^abhttps://x.com/hyhieu226/status/1851845942783463719

  3. ^“The supercomputing site in Memphis is being designed by Nvidia with the help of Dell and Supermicro. The facility was built in just 122 days in total, with 19 days between the first rack rolling onto the floor until training began.” https://www.capacitymedia.com/article/musk-to-double-xais-colossus-cluster-to-200k-gpus-for-grok-3-training

  4. ^https://www.kaggle.com/discussions/general/494791