聊一聊刚刚曝光参数的摩尔线程S5000

2 月 12 日,摩尔线程 MTT S5000 实现 GLM-5 的“ Day-0 ”适配。值得注意的是,摩尔线程 AI 旗舰级计算卡 MTT S5000 性能也首次曝光。 S5000 单卡 1000T Flops 算力参数,以原生 FP8 与全栈优化能力,在编码任务中展现对标国际旗舰产品的推理性能,推动国产算力生态进入“零时差”响应时代。

图片


01
MTT S5000 性能首次曝光

MTT S5000 由摩尔线程在 2024 年推出,专为大模型训练、推理及高性能计算而设计,是可以对标国际旗舰水准的训推一体全功能 GPU 智算卡。
图片
摩尔线程在其官网中,首次公布了 S5000 的硬件参数:支持 FP8 到 FP64 的全精度计算,其单卡 AI 算力( FP8 )最高可达 1 PFLOPS ,显存容量为 80GB ,显存带宽达到 1.6TB/s ,卡间互联带宽为 784GB/s 。业内人士表示, MTT S5000 实测性能对标 H100 , 在多模态大模型微调任务中,部分性能甚至超越 H100 。
图片
在芯片架构层面, S5000 采用第四代 MUSA 架构 “ 平湖 ” ,专为大规模 AI 训练优化,依托 MUSA 全栈软件平台,原生适配 PyTorch 、 Megatron-LM 、 vLLM 及 SGLang 等主流框架 ,让用户能够以 “ 零成本 ” 完成代码迁移,兼容国际主流 CUDA 生态。
在计算精度方面, S5000 作为国内一批最早原生支持 FP8 精度的训练 GPU ,配置了硬件级 FP8 Tensor Core 加速单元。相比传统的 BF16/FP16 , FP8 可将数据位宽减半,显存带宽压力降低 50% ,理论计算吞吐量翻倍。其 FP8 引擎全面支持 DeepSeek 、 Qwen 等前沿架构,可提升 30% 以上训练性能。
图片

02
夸娥万卡集群落地表现

基于 S5000 构建的夸娥万卡集群已经落地,其浮点运算能力达到 10Exa-Flops ,在 Dense 模型训练中 MFU 达 60% ,在 MoE 模型中维持在 40% 左右 ,有效训练 时间占比超过 90% ,训练线性扩展效率达 95% 。依托原生 FP8 能力,它能够完整复现顶尖大模型的训练流程,其中 Flash Attention 算力利用率超过 95% ,多项关键指标均达到国际主流水平。
图片
在集群通信层面, S5000 采用独创的 ACE 技术 ,将复杂通信任务从计算核心卸载,实现计算与通信的零冲突并行,大幅提升模型算力利用率( MFU )。实测显示,从 64 卡扩展至 1024 卡,系统保持 90% 以上的线性扩展效率 ,训练速度随算力增加几乎同步倍增。

03
实际训练与推理案例
2026 年 1 月,智源研究院基于 S5000 千卡集群,完成了前沿具身大脑模型 RoboBrain 2.5 的端到端训练与对齐验证。结果显示,与英伟达 H100 集群的训练结果高度重合,训练损失值( loss )差异仅为 0.62% 。
图片
除了训练, S5000 在推理场景同样表现优异。 2025 年 12 月,摩尔线程联合硅基流动,基于 S5000 完成了对 DeepSeek-V3 671B 满血版的深度适配与性能测试,实测单卡 Prefill 吞吐超 4000 tokens/s , Decode 吞吐超 1000 tokens/s ,这一成绩刷新了国产 GPU 的推理纪录。
图片