DeepSeek 发布开源第一弹！让 H800 GPU 性能狂飙，AI 推理加速

爱范儿

2025-02-24 10:09发布于广东爱范儿官方账号

+关注

就在刚刚，DeepSeek 第一天的开源项目 FlashMLA 正式发布。

DeepSeek 官方在 X 平台发文称：

「很荣幸能分享 FlashMLA —— 我们专为 Hopper GPU 优化的高效 MLA 解码内核，不仅支持变长序列处理，现在已经投入生产使用。

✅ 支持 BF16

✅ 分页 KV 缓存（块大小 64）

⚡ 在 H800 上实现 3000 GB/s 的内存带宽 & 580 TFLOPS 的计算性能」

据官方介绍，FlashMLA 的灵感来自 FlashAttention 2&3 和 cutlass 项目。

具体来说，FlashMLA是一个针对 Hopper GPU 优化的高效 MLA（Multi-Layer Attention）解码内核。

它专门针对多层注意力机制进行了优化，能够加速 LLM 的解码过程，从而提高模型的响应速度和吞吐量。而这对于实时生成任务（如聊天机器人、文本生成等）尤为重要。

说人话就是，FlashMLA 是一个能让 LLM 模型在 H800 上跑得更快、更高效的优化方案，尤其适用于高性能 AI 任务。

看到第一天的开源项目，X 网友已经迫不及待地开始畅想第 5 天的重磅内容，纷纷猜测：「会不会是 AGI？」

附上 GitHub 开源项目地址：

https://github.com/deepseek-ai/FlashMLA

免责声明：本内容来自腾讯平台创作者，不代表腾讯新闻或腾讯网的观点和立场。