深度|马斯克的超级计算机让AI竞争对手感到恐慌?

图片

图片来源:Unsplash
Z Highlights:

埃隆·马斯克的xAI超级计算机项目以其惊人的规模和建设速度,在人工智能领域引起了巨大的震动,让竞争对手感到恐慌:

  • 规模和速度的震撼:马斯克的超级计算机名为“巨人”(Colossus),由10万个GPU组成,这比Meta等科技巨头过去建造的类似超级计算机大几倍。而且,这台超级计算机仅用122天就建成了,这在行业内是前所未有的速度

  • 技术创新和效率:xAI Colossus的核心是Supermicro液冷机架系统,每个机架配备八台4U服务器,每台服务器搭载八块NVIDIA H100 GPU,这样每个机架总共有64块GPU。这种设计不仅考虑了密集运算的需求,还兼顾了高效散热

  • 网络基础和技术合作:Colossus集群中的存储和CPU计算机服务器也采用Supermicro机箱,并且为了应对突发停电,集群外面还绑满了特斯拉Megapack电池,可在毫秒之间快速提供备用电源

  • 资金投入和市场影响:马斯克的人工智能公司xAI正在寻求筹集数十亿美元资金,其估值可能高达400亿美元。这种大规模的资金投入进一步推动了xAI超级计算机的建设,并可能对市场产生深远影响

埃隆·马斯克通过为 xAI 构建一台比以往更大更快的超级计算机震惊了竞争对手,推动了 OpenAI 等公司对数据中心进行超级扩展的竞赛。

上个月的一个阳光明媚的日子,一架螺旋桨飞机在田纳西州孟菲斯市中心附近的一个大型工业建筑上空多次飞过,周围是草地,乘客们拍摄了该设施的照片和视频。

这是一项秘密侦察任务。埃隆·马斯克最近将这座建筑从一个前家电制造厂改建为一个数据中心,里面容纳了世界上最大的人工智能模型训练服务器集群之一。马斯克为他的最新创业公司 xAI 建造的这台人工智能超级计算机的速度,引发了 OpenAI 等竞争对手领导者的焦虑和困惑。

据一位对航班有直接了解的人士和《The Information》查看的照片显示,飞机上的乘客——一家数据中心竞争对手的员工——试图获取关于这个高度保密设施的运营的任何见解。他们注意到马斯克运送到该设施的多台燃气涡轮机,并寻找关于 xAI 如何控制建筑内部服务器产生的热量的线索。

孟菲斯的间谍飞机是技术史上最昂贵竞赛之一所涉及的高风险的一个标志。微软、Meta 平台、谷歌和亚马逊各自投入数百亿美元建设新的数据中心,以支持支撑 ChatGPT 和其他应用程序的先进新型人工智能。

这是一项冒险的赌注,基于一个简单的信念:服务器集群越大,能够产生的人工智能就越好。为了扩大这些集群的规模,竞争在 2022 年底开始,OpenAI 推出了 ChatGPT,这款聊天机器人因其受欢迎程度在科技行业引发了震动。

马斯克——他是 OpenAI 的联合创始人并最初资助了该项目,但后来与之分道扬镳——在数据中心竞赛已经开始后才加入其中。但通过雄心、毅力和对一些传统数据中心建设方法的无视,他仍然成功地引起了重大关注。

关于马斯克的超级计算机,有两件事让竞争对手感到震惊:它的规模和 xAI 构建它的速度。这台超级计算机,恰如其名,称为“巨人(Colossus)”,由 100,000 个 GPU 组成,这些芯片最适合训练和运行人工智能软件。这比 Meta 和其他科技巨头过去建造的类似超级计算机大几倍。

将如此多的 GPU 串联在一起构成一台超级计算机并不像听起来那么简单,因为服务器消耗的电力以及用于将芯片相互连接的网络设备中的瓶颈。而且像 xAI 那样迅速完成这个项目是前所未闻的。

马斯克和为巨型计算机提供 GPU 的人工智能芯片巨头英伟达表示,数据中心和超级计算机仅在 122 天内建成。在最近的一期播客中,英伟达首席执行官黄仁勋表示,通常这样规模的 GPU 集群需要三年的时间进行规划和设计,以及额外一年的时间才能投入使用。

“毫无疑问,没有人睡觉,”黄在最近的一期播客中谈到巨像项目时说道。

“据我所知,世界上只有一个人能做到这一点,”黄补充道。“埃隆在工程、建筑、大型系统和资源调配方面的理解是独一无二的。”

马斯克似乎通过削减一些关键环节,迅速建成了孟菲斯数据中心——例如,在没有从电网获得足够电力来运行巨像的情况下继续推进。但违背这些规范是马斯克在其他公司中一再使用的策略之一。

例如,在特斯拉,他曾通过在加利福尼亚的停车场为 Model 3 车辆建立一个装配线,绕过了扩建汽车工厂所需的许可证。在 SpaceX,他不断推动工程师去除他认为不必要的火箭部件,或者使用未设计用于太空应用的更便宜的组件。

尽管 xAI 的人工智能工具仍远远落后于 OpenAI,但他构建超级计算机的速度引起了 OpenAI 首席执行官萨姆·奥特曼的警觉。根据一位听到他发言的人士的说法,在马斯克在 X 上发布相关信息后,奥特曼与微软的基础设施高管发生了争执,告诉他们他担心 xAI 的进展速度超过了微软。

他担心 xAI 很快会拥有比 OpenAI 更强大的超级计算机。这一担忧促使 OpenAI 首次寻求微软以外的替代方案。

现在,这些替代方案之一正在德克萨斯州阿比林一片尘土飞扬的平坦土地上建设,距离达拉斯大约三个小时的车程,一组公司正在为一个数据中心准备场地,该数据中心明年将最终容纳一个 10 万个芯片的集群,供 OpenAI 使用。

工地的建设进展迅速。在最近的一次参观中,一位为项目承包商工作的导游指出,大多数建筑物的四面还没有墙。承包商正在场外建造大部分设施的组件,以便在到达时能够快速安装部件。

可能不久之后,阿比林和孟菲斯的超级计算机看起来也相对较小。一些大型科技公司,包括微软,已经讨论了将包含数百万个 GPU 的数据中心项目,这些项目的成本将超过每个 1000 亿美元。

这种攀比行为可能会继续,因为几乎所有数据中心行业的人都在密切关注竞争对手的动向。

“数据中心市场非常小,大家都在关注发生了什么,”DPR Construction 的高级数据中心团队负责人约翰·阿切洛说。该公司为包括 Meta 在内的大型公司建设数据中心,并正在进行阿比林项目。

‘计算千兆工厂’

今年早些时候,马斯克开始整合他所需的计算能力,以建立 xAI,这是一家他在 2023 年创立的、在人工智能领域的有力竞争者。当时,他已经在从甲骨文租用 GPU,以训练 Grok 的初始版本,Grok 是 xAI 的大型语言模型。

为了提高 Grok 的质量,他需要获得更多的计算能力。在五月,他与潜在的 xAI 投资者举行了一次视频通话,作为筹集数十亿美元用于这家初创公司的努力的一部分。他向他们阐述了建立世界上最大的超级计算机的愿景,他称之为“计算的千兆工厂”——这是对特斯拉在全球的巨大工厂的提及——根据一位参加会议的投资者所说。

在不到十名其他 xAI 员工围坐的桌子旁,马斯克透露了他的计划,即将 100,000 个 Nvidia 的 H100——当时市场上最先进的 GPU——连接成一个单一的集群。屏幕上的一张图表显示,xAI 将以大约五分之一的时间建造其超级计算机,而大多数公司则需要更长的时间。

xAI 的其中一张幻灯片提到公司正在以“令人惊叹的速度”运作,并承诺“埃隆亲自负责按时交付数据中心。”

马斯克告诉投资者,他尚未决定 xAI 是否会与云服务提供商合作进行该项目,还是独立进行。

几周后,一小部分甲骨文高管与马斯克进行视频会议,讨论第一个选项。《 The Information 》曾报道,马斯克提议甲骨文——其创始人拉里·埃里森是马斯克的密友——为 xAI 构建超级计算机,这将使这家人工智能初创公司成为甲骨文最大的客户之一。

马斯克希望 xAI 数据中心位于孟菲斯的一家前 Electrolux 家电制造厂,并希望在 2024 年秋季之前完成。但根据一位参加会议的人士的说法,甲骨文的高管在电话中告诉马斯克,他们认为无法像他要求的那样快速建造。

甲骨文的工作人员注意到,马斯克想要使用的建筑没有足够的电力来支持他希望甲骨文放入的芯片数量,这位人士表示。马斯克对甲骨文高管的反对迅速感到沮丧。

最终,马斯克决定 xAI 将在没有甲骨文的情况下在孟菲斯数据中心工作。

“甲骨文是一家伟大的公司……但是,当我们的命运完全依赖于速度时,我们必须亲自掌握方向盘,而不是当个后座司机,”他在 X 上说道,此前《 The Information 》发布了一篇关于谈判破裂的报道。

电源计划

为了满足他激进的时间表,马斯克推动孟菲斯的地方官员以创纪录的速度批准数据中心。幸运的是,对于 xAI 来说,孟菲斯渴望满足他的需求,以便吸引他的业务。

“我们工作时间更长,随时接听每一条短信和电话,以反映出与这家公司及其期望相匹配的动力感,”大孟菲斯商会主席泰德·汤森对《每日孟菲斯人》说。

在六月初,汤森德公开宣布马斯克选择孟菲斯作为 xAI 超级计算机的地点。

在接下来的几周里,马斯克和他的 xAI 团队对孟菲斯的制造设施进行了彻底改造,以腾出空间放置一排排存放 Nvidia GPU 的机架。他们安装了电气、机械和管道设备,并为服务器安装了水冷系统。

马斯克快速建设进度的一个主要障碍可能是电力。最初,孟菲斯工地的电力不足以满足 xAI 所有耗电量大的 GPU。通常,这种问题可能会使数据中心项目脱轨或延迟。

但马斯克想出了一个权宜之计:他引入了移动的天然气发电机组,以提供补充电力,同时等待当地政府批准在该地点增加 100 兆瓦电力的请求。田纳西河谷管理局上周同意了该请求。

马斯克的举动引发了当地环保组织联盟的立即反对,他们向当地卫生部门写信称,xAI 在没有许可证的情况下运营燃气燃烧涡轮机,正在污染空气。一位在微软数据中心工作的高管表示,考虑到公司的气候目标和倡议,微软绝对不可能做类似的事情。

“让一个基本上没有许可证的发电厂进驻并开展业务令人震惊,并且对社区非常不尊重,”南方环境法律中心的高级律师阿曼达·加西亚说,该中心反对田纳西河谷管理局的决定。“空气污染是西南孟菲斯面临的巨大挑战。”

其他因素可能帮助马斯克迅速完成了这个项目。例如,数据中心业务的高管表示,几乎肯定不需要在 xAI 开始使用该集群之前进行和通过任何合规测试。这主要是因为 xAI 计划将超级计算机用于自己的需求,而不是将其租给其他客户。

相比之下,微软在将服务器交给 OpenAI 或其他 Azure 云客户之前,必须经过几次数据安全测试,这些客户期望达到一定的正常运行时间或隐私标准,依据一位对该过程有直接了解的人士。

“我们有所有这些不同的行业认证必须通过,”数据中心运营商 DataBank 的首席执行官 Raul Martynek 说。“我可以保证[xAI]数据中心无法通过这些类型的认证。”

马斯克建立 Colossus 的努力遭遇了相当多的怀疑。几位数据中心高管表示,将建筑物(如制造厂)改造成适合 GPU 服务器和液冷系统是极其困难的。根据两位与 xAI 员工交谈过的人士,过去几个月,该数据中心经历了停机。

这些问题似乎并没有减缓 xAI 的进展。马斯克和英伟达表示,他们在将第一台服务器机架带入数据中心后仅 19 天就开始了下一个 Grok 模型的第一次训练。

在最近的一次采访中,安东尼奥·格拉西亚斯——马斯克的密友以及他公司长期投资者,包括 xAI——表示 xAI 正在从“第一原则”重新思考构建数据中心的整个过程,试图使其更便宜、更好、更快。

“我在特斯拉、SpaceX 和其他公司看过这部电影,那里有埃隆,但也有数十名工程师在领导一个使命,创造出最好的、最有效的系统,”他说。

同龄人压力

随着关于马斯克超级计算机进展的消息在这个夏天传播,亚马逊、微软和谷歌的数据中心高管开始向英伟达的员工询问同样的问题:马斯克是如何如此迅速推进他的超级计算机的?

一些公司的官员,包括 Meta,也联系了一家小型竞争云服务提供商,询问该公司是否能够比他们自己建设更快地提供数据中心容量, 据一位与这些公司交谈的人士透露。

随着关于孟菲斯数据中心的信息逐渐披露,他们对揭开项目神秘面纱的渴望只增不减。数据中心和云计算高管们仔细研究了该设施的图像,以了解其设计的相关信息。

马斯克在 X 上发布了几张数据中心内部的照片。上个月,一位博主在 YouTube 上发布了一段视频,在参观了巨人数据中心后制作的(这段视频是对该设施的非同寻常的幕后探秘,由超级微型计算机赞助,该公司向马斯克提供了一些数据中心服务器)。

与此同时,甲骨文——xAI 在孟菲斯项目上的潜在合作伙伴——在与 xAI 的谈判在夏季破裂后不久签署了与 OpenAI 提供计算能力的协议。《 The Information 》首次报道新的 OpenAI 数据中心将位于阿比林,甲骨文已与初创公司 Crusoe 和 Lancium 签署协议,共同开发该地点。

上个月,Colossus 筹集了超过 30 亿美元用于开发数据中心的初始阶段,该数据中心将包含 10 万个英伟达即将推出的 GPU,称为 GB200s。

正如马斯克在孟菲斯所做的,克鲁索正在推动快速完成该项目。与克鲁索合作的 DPR 公司的阿切洛表示,这是他参与过的最快的建设之一。这些公司在三月份开始讨论数据中心的设计,并在六月份动工。

几周前,阿比林工地的施工队忙于砍伐树木,以为新的电力变电站腾出空间,并每天尽可能多地浇筑混凝土。根据三位直接了解该请求的人士,OpenAI 已要求其项目合作伙伴考虑使用燃气涡轮,以防在按时为工地供电时出现任何问题。

在最近的现场参观中,一位导游被问到为什么对如此快速建设数据中心如此关注。

“谁能更快地获得他们的[超级计算机]…几乎可以统治世界,”导游说。

本文翻译自:The Information, https://www.theinformation.com/articles/how-elon-musks-supercomputer-freaked-out-ai-rivals?rc=pbvtni

编译:ChatGPT