今天,DeepSeek正式启动“开源周”,并开源了首个代码库FlashMLA。
DeepSeek 官方在 X 平台发文称:
「很荣幸能分享 FlashMLA —— 我们专为 Hopper GPU 优化的高效 MLA 解码内核,不仅支持变长序列处理,现在已经投入生产使用。
✅ 支持 BF16
✅ 分页 KV 缓存(块大小 64)
⚡ 在 H800 上实现 3000 GB/s 的内存带宽 & 580 TFLOPS 的计算性能」
据了解,这是DeepSeek针对Hopper GPU优化的高效MLA解码内核,专为处理可变长度序列而设计,现在已经投入生产使用。DeepSeek表示:“在H800上能实现3000GB/s的内存带宽&580TFLOPS的计算性能。”
MLA是DeepSeek降低成本的王炸,旨在提高推理效率,而FlashMLA是DeepSeek针对Hopper GPU优化的高效MLA解码内核。
需要了解的是,大模型有两个主要阶段:训练(包括prefill)和推理解码(infer decoding)。在解码阶段,我们往往需要一次一次地拿KV缓存出来,反复计算,所以当序列变长之后,这部分开销会爆炸式增长。如果能在解码阶段有更强的核去优化,意味着你的大模型可以更快地产出结果,特别对像这种长上下文对话就很关键。
简单来讲,FlashMLA可以突破GPU算力瓶颈,降低成本。传统解码方法在处理不同长度的序列时,GPU的并行计算能力会被浪费,就像用卡车运小包裹,大部分空间闲置。
而FlashMLA的改进是:通过动态调度和内存优化,让Hopper GPU的算力被“榨干”,相同硬件下吞吐量显著提升。这意味着企业可以用更少的GPU服务器完成同样的任务,直接降低推理成本。
DeepSeek第一天就放出大招,有网友直接留言表示,OpenAI应该把域名无偿捐赠给DeepSeek。
DeepSeek开源周开启,本周首个重磅发布FlashMLA瞬间点燃AI圈的热情。后续,DeepSeek还将开源四个代码库,或许会与AI算法优化、模型轻量化、应用场景拓展等相关,涵盖多个关键领域,甚至有网友猜测最后一天将于AGI有关。
最后,附上 GitHub 开源项目地址:
https://github.com/deepseek-ai/FlashMLA