IT时报记者 郝俊慧
截至2024年6月,上海算力综合指数全国排名第三,全市已建数据中心标准机架数57.4万个,建成通用算力规模达7.7EFLOPS(FP32),智能算力部署提档升级,已建大型智算中心12个,智能算力总规模超过54EFLOPS(FP16),处于全国领先地位,预计到2025年底,上海智算总规模将超过70EFLOPS(FP16)。这是《IT时报》记者在11月26日举行的第三届算力网络与数字经济论坛暨2024年“算力浦江”总结大会上了解到的。
大会发布了《上海市算力基础设施发展报告》(2024)(以下简称《报告》),报告撰写者之一、上海市通信学会“算力浦江”专委会主任委员、中国信通院华东分院院长廖运发指出,上海智能算力在数量规模、算力供给等方面均处于全国前列,除了智算和通算外,近116EB的存力量级在全国各省级行政区规模排名第四。
同日,由中国信通院工物所、泰尔英福、同济大学、上海人工智能实验室、国家(上海)新型互联网交换中心牵头,联合上海联通、有孚、沐曦、天数智芯、无问芯穹、华为等多家单位进行的跨域异构算力网络实验验证成果发布。经过近一年试验探索,通过优化底层异构芯片的通信传输、跨域调度能力以及大模型并行训练策略等,截至目前,异构混训效率可达97.5%,跨域异构混训效率可达90%,有效验证了跨域异构算力网络调度可行性及效率。
超大型数据中心已有13个
作为上海一年一度算力基础设施发展情况的系统总结,《报告》全面展现了全市数据中心的算力规模、存力规模、算网运力、空间布局、绿色算力、产业生态等方面的发展现状,其中一系列重磅数字是首次公布。
从数据中心规模类型看,上海在用数据中心(指单数据中心物理标准机架数超过100个)数量为127个,其中超大型数据中心13个、大型数据中心46个、中小型数据中心68个。
大部分数据中心已接入省级以上骨干网络。据统计,全市数据中心接入国家级骨干网16个、省级骨干网75个,占比分别为13%、59%,即七成以上数据中心均已接入省级以上骨干网络,超全国平均水平十六个百分点。同时,接入城域网的数据中心有19个,占比15%。
《报告》显示,未来上海将积极推进此类型数据中心纳入省级以上骨干网,实现跨城市、跨区域网络连接互联互通。
算力调度方面,上海构建了一张城市级高速全光算力环网,以基础电信运营商、上海新型互联网交换中心为主体构建了“3+1+N”的算力网络调度体系,其中三大电信运营商负责跨区域的算力网络调度,新型互联网交换中心负责本市算力中心之间的算力网络调度。截至2024年10月,新型互联网交换中心已完成19个网络节点建设,覆盖全市24家重点数据中心企业。
长三角算力枢纽建设方面,长三角(上海)算力互联互通平台建设工作已启动,平台建成后将在长三角地区形成“跨地域、跨主体、跨架构”的算力资源标准化互联互通,实现算力资源高效供需匹配。基础电信企业已启动超过3500公里本地和长途光缆工程建设,打通长三角一体化示范区算力枢纽节点和芜湖枢纽节点的算力网络。
加速构建绿色算力体系
随着大数据的深度渗透和人工智能技术的突破性进展,全球算力正展现出强劲而稳定的增长态势。IDC数据显示,到2027年,全球非结构化数据将占到数据总量的86.8%,达到246.9ZB,全球数据总量从103.67ZB增长至284.30ZB,复合年均增长率为22.4%,保持稳定增长态势。
算力之争,就是能源之争。
《报告》显示,截至今年6月,全市数据中心IT机房建筑面积已超500万平方米,且以商业用电为主,总配电量超415万KVA,相较于全国均处于前列。
因此,上海对新建智算中心PUE值、存量改造智算中心PUE值、智算中心内绿色能源使用占比、液冷机柜数量占比等绿色算力关键指标提出了全新的要求。
数据显示,近年来,全市数据中心PUE能效结构优化显著,测试结果显示,全市有19家数据中心的实测PUE在1-1.3之间,占全部数据中心的14.9%,PUE在小于1.5的数据中心数量为56个,占比比44.1%,提供绿色算力已成为各家数据中心的普遍共识。
新型液冷逐渐成为数据中心的主流转型方向。
目前,全市数据中心采用风冷制冷方式有59家,占比46%,采用水冷、混合制冷方式的数据中心数量分别为45家、17家,占比分别为35%、13%。《报告》认为,随着数据中心高性能服务器、高功率机柜的使用量越来越大,先进计算中心等新型技术设施建设越来越多,数据中心的制冷方式结构也将发生显著改善,水冷、液冷、混合制冷等新型制冷方式需求也越发强劲。
算力供需矛盾仍然突出
不过,虽然上海在打造算力高地的征途中已成绩斐然,但放眼未来,目前上海算力产业发展仍存在不少挑战。
“算力市场还存在供需对接的矛盾,虽然我们建了这么多算力,但还是有很多用户找不到算力,或者找不到合适的算力。可有些时候,我们的算力提供又容易陷入同质化竞争,导致算力建设和发展有一点不良趋势。”大会圆桌论坛环节,一位嘉宾坦言,上海的公共算力服务平台还需进一步优化,以缓解算力的供需矛盾。
随着AI大模型发展推动算力结构升级,上海仍然面临高质量算力供给和国产高端芯片短缺的挑战。
一方面,大模型训练所需的算力资源极为庞大,对计算性能和存储能力提出了极高要求。上海虽已建成多个高性能计算中心和智算中心,但在面对大规模、高复杂度的AI大模型训练任务时,仍将存在算力供给压力。另一方面,算力资源的分配和调度也面临挑战,表现在找算力难、调算力难、用算力难等方面,尤其是具备高可用性、高性价比、高灵活性的高质量算力供给更为缺乏。
然而,国产算力在性能、稳定性、兼容性上还有差距,尚未形成全栈服务能力,高端AI芯片短缺,且缺乏丰富的工具集、数据集、参数集,进一步导致市场上算力供需矛盾突出。
上述嘉宾认为,根本解决方案还是要支持国产化算力,但从现实情况来看,政府在支持国产芯片建设上比较积极,可整个社会需求却没上来,导致有很多国产算力池空置,“今后政府应该对需求方和用户使用国产化算力,有更多的鼓励和扶持,让国产算力繁荣起来”。
此外,在全球气候变化和绿色低碳发展背景下,算力中心的节能减排和可持续发展问题愈发凸显。
上海华鲲振宇智能科技有限责任公司副总经理程子敬指出,目前中国算力中心建设存在三个挑战:一是随着GPU芯片性能的提升,单片功耗越来越大,因此产生的发热量也直线上升,如果仍沿用旧有的风冷方式,芯片很容易在大模型训练时自动降频,这显然不符合投资预期;第二个挑战仍与电力有关,目前很多已有的数据中心按照通算服务器标准建设,单机柜可用电量有限,一旦更换为耗电量更高的GPU智算服务器,很可能一个42U高的机柜只能放两台服务器,在北上广等地价昂贵的城市,这是不可承受的成本;三是国产卡与国际先进GPU性能差距依然明显,要想实现同样参数规模的大模型训练,国产算力集群需要的卡数和电能可能是国际先进集群的两倍以上,这也是一笔巨大的成本,而且不可持续增长。因此,他认为,必须加强算力中心的节能技能研发和应用,长期来看,先进的液冷散热技术成本是可控的。
《报告》也建议,用能管理逐渐从能耗“双控”向碳排放“双控”转变,对于在算力中心所用的绿色能源,不再纳入能耗总量和强度控制,对于绿色能源就近建设的重点智算中心,对电力资源进行直供试点,不额外增加上网电价。