打破H20性能天花板！超聚变FusionOne AI单机跑满血DeepSeek，吞吐性能飙升60%！

特大牛

2025-03-24 09:51发布于北京

+关注

近日，超聚变FusionOne AI大模型一体机通过软硬协同的深度优化，成功打破了业内基于H20硬件运行DeepSeek满血大模型的性能天花板。

单机极致性能，全面领先

在模拟问题对话场景下（上下文序列长度为1K/1K），仅需1台搭载8张H20硬件的FusionServer G8600，即可流畅运行DeepSeek R1满血版，实现1024并发访问，总吞吐量高达6335 token/s，性能较业内同类H20方案领先60%。

FusionOne AI大模型一体机通过显著降低TPOT（单token输出延迟），时延相比业内同类型方案减少了40%。

仅凭单机即能支撑数千人规模企业的AI使用需求，大幅提升企业级AI应用的经济性和便利性，将单机性能提升至全新高度。

高效算力释放与显存优化：

通过精细的内核优化，将显存空间利用率提高20%，KV cache池利用率提升至93%，确保模型参数和计算过程中的KV缓存高效运作。

高效模型并行与分布式计算调度：

融合数据并行（DP）与张量并行（TP）技术，有效调度多卡协同并行计算，将token生成吞吐效率提升50%，显著提高推理计算效能。

混合任务切片与调度优化：

采用Prefill阶段长文本切片技术，快速生成初始内容，并同步混合调度Decode任务，使得任务并行运行，无需串行等待。由此显著降低了首次token输出时间（TTFT）和单token输出时间（TPOT），提高了整体资源利用效率。

FusionOne AI大模型一体机通过极致的性能突破与成本优化，大幅降低DeepSeek-R1 671B超大规模模型的部署门槛，以普惠方式推动企业与科研机构的AI应用普及。

未来，超聚变将持续加强研发投入，不断聚焦AI算力优化和场景应用扩展，助力企业快速实现AI技术落地。

免责声明：本内容来自腾讯平台创作者，不代表腾讯新闻或腾讯网的观点和立场。