客户端
游戏
无障碍

21

评论

41

62

手机看

微信扫一扫,随时随地看

DeepSeek 发布开源第一弹!让 H800 GPU 性能狂飙,AI 推理加速

就在刚刚,DeepSeek 第一天的开源项目 FlashMLA 正式发布。
DeepSeek 官方在 X 平台发文称:
「很荣幸能分享 FlashMLA —— 我们专为 Hopper GPU 优化的高效 MLA 解码内核,不仅支持变长序列处理,现在已经投入生产使用。
✅ 支持 BF16
✅ 分页 KV 缓存(块大小 64)
⚡ 在 H800 上实现 3000 GB/s 的内存带宽 & 580 TFLOPS 的计算性能」
据官方介绍,FlashMLA 的灵感来自 FlashAttention 2&3 和 cutlass 项目。
具体来说,FlashMLA是一个针对 Hopper GPU 优化的高效 MLA(Multi-Layer Attention)解码内核。
它专门针对多层注意力机制进行了优化,能够加速 LLM 的解码过程,从而提高模型的响应速度和吞吐量。而这对于实时生成任务(如聊天机器人、文本生成等)尤为重要。
说人话就是,FlashMLA 是一个能让 LLM 模型在 H800 上跑得更快、更高效的优化方案,尤其适用于高性能 AI 任务。
看到第一天的开源项目,X 网友已经迫不及待地开始畅想第 5 天的重磅内容,纷纷猜测:「会不会是 AGI?」
附上 GitHub 开源项目地址:
https://github.com/deepseek-ai/FlashMLA
图片
图片
图片
免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部