通过“集群+超节点”创新,华为持续满足千行百业算力需求

央广网北京2月5日消息(记者 殷雨婷)如今,AI技术已经渗透到我们生活和工作的方方面面,无论是手机里的智能助手,还是企业的智能办公、金融行业的风险控制,都离不开AI的支持。而支撑AI运行的核心,就是“算力”——简单说,算力就相当于AI的“动力源泉”,现在它已经和水电一样,成为了新的基础设施。

国家数据局的数据能直观看出这种需求的爆发:2024年初,我国每天消耗的AI相关“Token”(可理解为AI处理的基础数据单元)只有1千亿;可到了2025年6月底,这个数字已经突破30万亿,短短1年半时间就涨了300多倍。这背后,是AI技术的飞速发展——大模型的“智能程度”越来越高,其核心参数从千亿级别涨到了万亿级别,而且各个行业对AI反应速度的要求也越来越严。比如金融风控场景,AI必须在10-20毫秒内做出判断,慢一点都可能造成重大损失。这些变化,都让市场对算力的需求呈爆炸式增长,而目前的算力供给,还远远跟不上需求的步伐。

既然传统的算力集群已经满足不了AI时代的需求,行业里该怎么解决这个难题呢?在近期的新春媒体沙龙上,华为计算产品线营销运作部部长张爱军给出了答案:通过“集群+超节点”的系统级创新,华为正在为各行各业搭建更稳固、更强大的算力底座,持续满足千行百业对算力的迫切需求。

可能有人会觉得,“超节点”就是把更多的硬件设备堆在一起,其实不然。超节点不是简单的“硬件堆砌”,而是把多个计算设备,通过专门的高速互联技术,整合成为一个拥有更大内存空间、能协同工作的整体。简单说,它是由多个设备和对应的操作系统互联形成的“逻辑共同体”,核心是“高效配合”,而不是像传统服务器集群的简单堆砌。为了实现这一点,华为专门研发了面向超节点的互联协议“灵衢”,正是这个技术,让超节点从概念变成了现实。

张爱军强调,一个真正能用的超节点,必须具备三个关键特征:超大带宽、超低时延、内存统一编址。只有满足这三点,才能打破AI计算中常见的“通信瓶颈”“内存瓶颈”,从根本上提升计算效率,应对算力爆发式增长的需求。他还用很形象的比喻,把这三个特征讲得明明白白:

超大带宽是基础,就像高速公路的宽度——路面越宽,能同时通过的车辆就越多,数据传输的“通道”也就越顺畅;超低时延是通行效率,就像高速公路上没有堵车,数据传输不用等待,避免出现“计算设备等着数据传来”的尴尬;内存统一编址是核心,也是超节点能高效配合、快速调取数据的关键。举个例子,传统集群的内存访问,就像送快递:需要先解析收件地址、拆包检查,步骤繁琐、速度慢;而超节点的内存统一编址,就像在图书馆找书——所有书籍都提前编好了序号,不用复杂流程,就能快速找到想要的书,而且所有内存资源还能整合起来,形成一个“共享资源池”,大家按需取用,不浪费。

只有具备这三大核心能力的超节点,才能真正释放强大的算力,才能持续满足各行各业算力需求,加速各个行业的创新升级。据悉,华为昇腾384超节点上市以来,已经部署了数百套,为运营商、金融、电力等多个关键行业,提供了高效、稳定又可靠的算力支持。

为了让更多人受益于超节点技术,推动整个行业的发展,华为还主动开放了超节点互联协议“灵衢”—— 华为是真心把核心技术分享出来,仅这份技术的基础规范,就有600页之多,至今下载量已经接近2.4万次,让产业界伙伴能借助这份技术,打造相关的部件和产品。期待更多伙伴加入,共筑坚实的算力底座,为世界AI产业发展提供新的选择。