Meta的AI硬件愿景:让计算架构更加开放

全文2065字,阅读约需6分钟,帮我划重点

划重点

01Meta在2024年开放计算项目全球峰会上推出最新的开放式AI硬件设计,展示推动AI计算架构开放化的决心。

02为满足Llama 3.1模型的巨大计算需求,Meta部署了超过16,000个NVIDIA H100 GPU,AI计算能力实现飞跃。

03通过高性能计算(HPC)系统与高带宽网络相结合的方式,Meta实现了AI集群训练中的资源调度优化。

04此外,Meta推出了Catalina机架和Grand Teton平台,分别支持AI工作负载和多加速器,推动AI基础设施的开放化发展。

05与微软的长期合作,Meta展示了开放创新的强大力量,共同推动了AI硬件的技术前沿。

以上内容由腾讯混元大模型生成,仅供参考

图片芝能智芯出品

在2024年开放计算项目(OCP)全球峰会上,Meta推出了其最新的开放式AI硬件设计,展示了推动AI计算架构开放化的坚定决心。

Meta不仅致力于技术进步,还希望通过开放的硬件设计,推动全球AI基础设施的发展,设立全新标准。

Meta通过一系列创新硬件来实现的,包括为AI工作负载量身打造的高性能计算平台、尖端的开放式机架设计,以及专门为优化AI模型性能而开发的网络架构,提升AI的计算能力,还会为整个行业提供开放、灵活的基础设施,促进更多的技术合作与创新。

图片



Part 1

Meta的开放式AI硬件设计:
Llama 3.1的突破

Meta的Llama 3.1模型展现了其在AI模型规模和技术上的重大突破。

Llama 3.1作为一个拥有4050亿个参数、支持128k token上下文窗口的密集转换器模型,对硬件提出了前所未有的计算需求。

为满足如此庞大的计算需求,Meta部署了超过16,000个NVIDIA H100 GPU,这标志着Meta在AI集群训练中的资源调度达到了新的高度。

Meta在一年内迅速扩展训练集群的规模,从最初的1K GPU一路攀升至如今的16K GPU,标志着AI计算能力的飞跃。

相较于以前依赖128个NVIDIA A100 GPU的小规模AI任务,这种大规模集群扩展不仅提高了计算能力,还为未来的AI硬件发展奠定了坚实基础。

 网络架构的核心作用:高效无阻塞网络

在构建大型AI集群时,网络架构和带宽是决定计算效率的关键因素。

Meta采用了高性能计算(HPC)系统与高带宽网络相结合的方式,确保GPU和加速器之间的通信高速且稳定。未来几年,Meta预计每个加速器的注入带宽将达到每秒1TB,标准化的二分带宽也将与之匹配。

这一增长远超现有网络能力,预示着AI计算的飞速发展。Meta研发了多层次无阻塞网络结构,该结构在重负载下通过拥塞控制,确保网络的可预测性和稳定性。

无论面对多么复杂的AI任务,Meta的新网络架构都将为AI集群提供持续的高效性能。

 Catalina机架:AI基础设施的开放架构

Meta在开放计算项目中推出的Catalina机架,Catalina基于NVIDIA Blackwell平台设计,专为AI工作负载打造,具备模块化和灵活性的特点。

它还支持NVIDIA GB200 Grace Blackwell超级芯片,能够满足AI任务不断增长的计算需求。

Catalina解决了AI集群中GPU功耗不断增加的难题。其Orv3高功率机架(HPR)设计,能够支持高达140kW的功率需求,通过开放硬件设计,更多合作伙伴可以基于Catalina定制和部署AI解决方案。

● Grand Teton平台:支持多加速器的开放平台

Meta的Grand Teton平台自发布以来,成为AI基础设施的重要组成部分。

Grand Teton平台最初是为大规模推荐模型等内存带宽受限任务设计的,如今Meta进一步扩展了其支持范围,新增了对AMD Instinct MI300X加速器的支持。

AMD Instinct MI300X的加入,为Meta的AI任务带来了更高的计算能力与内存带宽支持。

通过高度集成的单片系统设计,新一代Grand Teton平台不仅显著提升了内存容量,还扩展了网络带宽,使其能够有效应对更大规模的AI模型训练与推理任务。

图片



Part 2

AMD Instinct MI300X

AMD Instinct MI300X在AI硬件领域的表现尤为亮眼。作为全球首款集成式APU(加速处理单元),MI300X将CPU和GPU通过高级封装技术融合在同一芯片上。

这种异构架构能够极大地缩短数据在计算单元之间的传输延迟,并提升性能密度,尤其适用于大规模并行计算的AI推理工作负载。

MI300X配备了128GB的高带宽内存(HBM3),为复杂的深度学习模型提供了充裕的内存支持。

这一内存容量和带宽的大幅提升,有效解决了深度学习训练和推理过程中的内存瓶颈问题。

图片

AI集群的规模扩展对网络架构提出了新的挑战。Meta推出了分解式调度结构(DSF),在应对大规模加速器协作中显示出了巨大优势。

通过开放式网络架构,Meta能够灵活应对供应链、扩展性和功率密度等问题。

DSF支持基于以太网的RoCE接口,能够连接多家供应商的加速器和网络端点,包括NVIDIA、Broadcom和AMD等。

通过这种开放式网络设计,Meta不仅提高了系统的灵活性,还为多供应商合作提供了更多机会,推动了AI基础设施的开放化发展。

图片

Meta与微软的长期合作,为开放式AI硬件的创新提供了重要支持。

两家公司在交换机抽象接口(SAI)、OAM标准等多个关键项目上紧密合作,并联合开发了Mount Diablo分解式电源机架。通过这种跨公司合作,Meta与微软展示了开放创新的强大力量,共同推动了AI硬件的技术前沿。

Meta的AI硬件愿景不仅是技术的进步,更是对全球AI社区开放合作的承诺。通过共享先进的硬件设计和推动标准化,Meta希望促进全球开发者和企业的参与,进一步推动AI技术的普及化与发展。

未来,Meta将继续投资于开放式硬件,推动AI技术的进步,并为全世界带来更多AI的创新与机遇。


小结

2024年开放计算项目上展示其前沿的开放式AI硬件愿景,从高性能的Catalina机架到支持多加速器的Grand Teton平台,Meta通过一系列硬件创新与开放设计,推动了AI基础设施的发展。