首台ExaFLOP级超算Frontier几乎每天都有故障,问题或出自GPU及互联系统

美国橡树岭国家实验室的Frontier是全球首台真正意义上达到ExaFLOP级别(百亿亿次)的超级计算机,在高性能Linpack(HPL)基准里,显示其运算性能达到了1.102 Exaflop/s,峰值性能达到了1.685 Exaflop/s。打造一台超级计算机并不是一件容易的事情,需要面对大量的硬件和软件工作,而且有可能遇到意料之外的状况,特别是Frontier这种采用新架构、性能有跨越式提升的超算。
图片
据TomsHardware报道,目前Frontier的运转情况并不好,几乎没有一天是完全正常运转,平均故障间隔时间仅为数个小时。有关Frontier存在硬件问题的消息已经流传有一段时间了,有消息称可能与该系统采用的HPE Slingshot互连系统有关,也有传闻指Instinct MI250X计算卡并不是那么可靠。
Frontier基于HPE Cray EX235a架构,采用了AMD第三代EPYC处理器,频率为2GHz,整个系统共有8730112个内核。每个HPE Cray EX节点包括了一块AMD的64核EPYC“Trento”7A53处理器(代号Milan的Zen 3架构衍生产品),512GB的DDR4内存,以及四块Instinct MI250X计算卡,通过四个HPE Slingshot 200Gbps以太网NIC(25GB/s)连接,提供800Gbps(100 GB/s)的节点带宽。
Frontier并不是唯一一款采用HPE Cray EX架构及HPE Slingshot互连系统的超级计算机,芬兰名为Lumi的超算几乎采用了相同的架构,峰值性能达到了0.55 ExaFLOPS,似乎并没有出现类似的问题。
Frontier原计划在2022年上线,不过至今仍未正式部署,不知道2023年是否可以向研究人员开放。