就在刚刚,DeepSeek 第一天的开源项目 FlashMLA 正式发布。
DeepSeek 官方在 X 平台发文称:
「很荣幸能分享 FlashMLA —— 我们专为 Hopper GPU 优化的高效 MLA 解码内核,不仅支持变长序列处理,现在已经投入生产使用。
✅ 支持 BF16
✅ 分页 KV 缓存(块大小 64)
⚡ 在 H800 上实现 3000 GB/s 的内存带宽 & 580 TFLOPS 的计算性能」
据官方介绍,FlashMLA 的灵感来自 FlashAttention 2&3 和 cutlass 项目。
具体来说,FlashMLA是一个针对 Hopper GPU 优化的高效 MLA(Multi-Layer Attention)解码内核。
它专门针对多层注意力机制进行了优化,能够加速 LLM 的解码过程,从而提高模型的响应速度和吞吐量。而这对于实时生成任务(如聊天机器人、文本生成等)尤为重要。
说人话就是,FlashMLA 是一个能让 LLM 模型在 H800 上跑得更快、更高效的优化方案,尤其适用于高性能 AI 任务。
看到第一天的开源项目,X 网友已经迫不及待地开始畅想第 5 天的重磅内容,纷纷猜测:「会不会是 AGI?」
附上 GitHub 开源项目地址:
https://github.com/deepseek-ai/FlashMLA