强强联手 大装置原生开发实践:集群规模扩展至3倍,线性加速比超97%

图片

采访对象供图(下同)

集群规模扩展至3倍后线性加速比高达97%以上、102B模型训练性能达业界120%以上……日前,商汤大装置事业群研发总监张行程在“华为全联接大会2024”上分享了商汤科技基于昇腾计算生态的最新成果。

大会上,国际权威数据机构IDC还发布了《AI时代数据中心网络白皮书》,其中介绍了商汤与华为共同解决Al时代数据中心网络建设挑战,以大规模连接性、智能负载均衡等能力,提高大规模集群吞吐量,提升训练效率,实现AI大模型的快速迭代。

高效大模型原生开发

历年来,商汤基于昇腾计算生态,共同推进基础模型、行业大模型应用与创新。

例如,商汤通过高效并行、通信优化及网络架构感知和任务调度等软硬优化技术,构建了大规模并行训练加速系统,其中102B模型的训练性能达到了业界的120%以上,同时单一任务集群规模扩展至3倍,算力效率损失仅为3%。

基于昇腾计算生态,商汤还建设长序列并行训练加速机制,与业界相比,4K序列性能提升1倍以上,32K序列性能持平,甚至还能处理128K长序列训练。

目前,商汤日日新大模型从底层软件栈的接入到基础框架优化、再到模型原生开发,在性能、稳定性等关键参数方面超过业界。

图片

提供端到端大模型创新支持

通过与昇腾团队合作,商汤将全栈大模型生产能力产品化,构建了从基础层、模型层、串联层到应用层的高效、完备、易用的大模型生产工具链。

通过大模型生产工具链,商汤大装置可为客户提供涵盖算力、软件平台部署及模型迁移等端到端的大模型自主创新落地全流程业务服务。

不仅如此,面向不同客户的特定应用场景需求,商汤还可提供业务流设计、应用编排、数据迭代等增值服务,助力客户从0到1建立完整的AI能力体系。同时,针对客户不同的吞吐量、部署规模等要求,商汤还会进行专项性能优化,帮助客户进行极致性价比提升,实现成本效益最大化。

图片

据介绍,此前商汤大装置AI云、日日新·商量大语言模型、商汤医疗大模型“大医”先后通过与Atlas系列服务器的相互兼容性测试,为客户提供了更为安全、高效、可靠的人工智能全栈解决方案和应用体验。

新民晚报记者 郜阳