5月19日,面向大模型训练用户数据的高安全需求,中国移动研究院原创提出基于HIC-OTN(Hitless Intelligent Computing OTN,无损智算OTN)的新型存算拉远技术架构,并联合中国移动湖北公司、华为技术有限公司在中国移动智算中心(武汉)完成了业界首次HIC-OTN承载存算拉远240公里现网技术试验,构建了用户数据本地化的高安全大模型训练新范式,在基于流水并行(PP)的千亿级参数大模型现网240公里智算互联下实现了等同单节点训练效率99%以上的高效训练,是探索智算中心技术和业务应用发展的重要里程碑。
基于HIC-OTN的存算拉远原创技术架构,在用户侧部署“微算力”作为数据训练的入口,将训练流程进行切分,用户数据仍存储在本地,仅通过HIC-OTN传递模型训练中间值至服务商智算中心的“大算力”进行训练,同时满足了用户大模型训练的低成本、高安全需求。其中,面向存算拉远后对传输网络的高可靠需求,创新HIC-OTN无损传输机制,重构设备转发和存储功能,实现由传统OTN保护倒换50ms业务中断到“0丢包”的性能提升。在此次业界首次HIC-OTN承载存算拉远240公里现网技术试验中,在用户侧部署16张GPU卡作为千亿级参数大模型PP训练的入口,在运营商智算中心部署48张GPU卡进行集中化、规模化训练,相距240公里的两端通过800G HIC-OTN进行大带宽、无损互联,拉远后的协同训练效率达到等效单集群训练效率99%以上。
中国移动研究院段晓东副院长表示,基于HIC-OTN的存算拉远原创技术架构是面向中小微行业用户大模型训练需求的全新探索,有望形成智算普惠发展的技术和应用新范式,本次试验基于HIC-OTN新型技术体系在超大带宽、超低时延、超高可靠光传输的技术优势,训练效率等同单节点训练99%以上,实现了用户侧“微算力”与服务商“大算力”的高效协同。