1.硅基流动联合华为云推出DeepSeek-R1昇腾云服务,采用大规模专家并行(MoE)技术,单卡解码速度突破1920 Tokens/秒。
2.该服务在保证单用户20 TPS水平的前提下,单卡解码速度可比肩英伟达H100部署性能(FP16精度下)。
3.与此同时,经过主流测试集验证及大规模线上盲测后,DeepSeek-R1模型精度与DeepSeek官方保持一致。
4.硅基流动与华为云团队联合首发上线基于华为昇腾云服务的DeepSeek-R1推理服务,已为超过500万注册用户提供更稳定的服务。
以上内容由腾讯混元大模型生成,仅供参考
图源:视觉中国
文丨饶富英
编辑丨叶锦言
出品丨深网·腾讯新闻小满工作室
4月10日,硅基流动创始人袁进辉在华为云生态大会上宣布,硅基流动联合华为云推出了一项基于CloudMatrix 384超节点昇腾云服务和高性能推理框架SiliconLLM的DeepSeek-R1服务。这项服务采用了大规模专家并行(MoE)技术,目前正式上线。
袁进辉在大会上表示,该服务在保证单用户 20 TPS 水平的前提下,单卡解码速度突破1920 Tokens/秒,可比肩英伟达 H100 部署性能(FP16精度下)。目前国际主流芯片为1850Tokens/秒。
与此同时,经过主流测试集验证及大规模线上盲测后,在昇腾算力部署的DeepSeek-R1 模型精度与DeepSeek 官方保持一致。
两个月前,硅基流动与华为云团队联合首发上线基于华为昇腾云服务的DeepSeek-R1 推理服务。硅基流动官方表示,该服务主要具备两个特点:一是得益于自研推理加速引擎加持,硅基流动和华为云昇腾云服务支持部署的DeepSeek模型可获得持平全球高端GPU部署模型的效果;二是可以提供稳定的、生产级服务能力,让模型能够在⼤规模生产环境中稳定运行,并满足业务商⽤部署需求。华为云昇腾云服务提供高达2.4TB/s内存带宽的澎湃算力"。
总体来看,相对2月份的版本,4月份更新的模型推理引入华为云新发布的CloudMatrix 384超节点,实现算力密度、互联带宽和内存效率的全面提升;其次单卡Decode吞吐量突破1920 Tokens/秒,与英伟达H100部署性能持平;另外在模型精度、大规模复杂推理的场景应用上,都有了明显的提升。
在Deepseek席卷全球后,其以高效、低成本的MoE 架构为大模型推理挑战打开了局面。为此各大公司都开始部署DeepSeek,但容易面对几个共同的难题:首先是部署需要强大的AI基础设施技术能力;其次是部署方案要考虑性能和成本,如采用单机部署,最终性能容易不如DeepSeek官方公布的部署方案;第三,目前想要采用DeepSeek公布的大规模专家并行的MoE模型架构技术难度较大,业内还没有其他团队快速复现这一部署方法。
袁进辉表示,针对以上难题,硅基流动联合华为云主要通过三点实现了技术突破。一是对架构进行了全面创新,华为云发布的基于新型高速总线架构的CloudMatrix 超节点集群在总算力、互联带宽、内存带宽上有一定的优势。
二是双方团队在部署时采纳了大规模专家并行方案,通过多专家负载均衡和极致通信优化,实现高吞吐及更高性能,大幅提升了用户体验。
三是使用了昇腾算子库,以及硅基流动推理加速框架 SiliconLLM 在模型、机制、算子上的协同优化。从而在不损失模型精度的情况下,获得DeepSeek-R1 推理效率与资源利用率的提升。
袁进辉在大会上表示,此前硅基流动与华为云合作推出的DeepSeek-R1推理模型上线后,已为超过500万注册用户提供更稳定的服务。目前,该模型已生成几十万亿token,每天提供千亿token的第三方模型推理服务,已为众多开发者和中小企业提供了服务。也成为国内迄今为止最大规模的DeepSeek服务集群之一。
如今,基于最新的CloudMatrix 384超节点昇腾云的 DeepSeek-R1推理服务上线后,有望吸引更多用户体验使用。