划重点
01DeepSeek AI于2024年12月26日正式发布其最新大型语言模型——DeepSeek-V3,每秒处理60个token,比V2快3倍。
02DeepSeek-V3采用创新的知识蒸馏方法,将推理能力迁移到标准LLM中,同时保留输出风格和长度控制。
03通过协同优化,有效克服了跨节点MoE训练中的通信瓶颈,使得计算与通信几乎完全重叠。
04此外,DeepSeek-V3引入无辅助损失的负载均衡策略和多标记预测(MTP)目标,提升模型性能并支持推理加速的预测解码。
05仅耗费了266.4万H800 GPU小时,完成了对14.8万亿token的预训练,总训练成本仅为557.6万美元。
以上内容由腾讯混元大模型生成,仅供参考
2024年12月26日,DeepSeek AI正式发布了其最新的大型语言模型——DeepSeek-V3,每秒处理 60 个 token,比 V2 快 3 倍!MoE架构,6710 亿参数,激活 370 亿参数,训练基于 14.8 万亿高质量 token,完全开源,附送53页pdf技术论文
主要看点
1.DeepSeek-V3 采用了创新的知识蒸馏方法,将 DeepSeek R1 系列模型中的推理能力迁移到标准 LLM 中。该方法巧妙地融合了 R1 的验证和反思模式,显著提高了 DeepSeek-V3 的推理性能,同时又保留了对输出风格和长度的控制
2.首次在大规模模型上验证了 FP8 训练的可行性和有效性
3.通过协同优化,有效克服了跨节点 MoE 训练中的通信瓶颈,使得计算与通信几乎完全重叠
4.在 DeepSeek-V2 高效架构的基础上,DeepSeek-V3 引入无辅助损失的负载均衡策略和多标记预测(MTP)目标,不仅提升模型性能,还支持推理加速的预测解码
5.仅耗费了 266.4万 H800 GPU 小时,就完成了对 14.8 万亿 token 的预训练。预训练后的后续训练阶段仅需 10 万 GPU 小时,用极小(相对)的成本实现了强悍的性能,这一点值得特别说明一下:
现在DeepSeek-V3 的API价格(看起来明年2月8号之后要涨价)
表格中展示了优惠前与优惠后的价格。即日起至北京时间 2025-02-08 24:00,所有用户均可享受 DeepSeek-V3 API 的价格优惠。 在此之后,模型价格将恢复至原价
综合评估表明,DeepSeek-V3 的性能直接干到开源第一,并且达到了与领先的闭源模型相当的性能
模型下载与本地部署:多种选择
DeepSeek-V3 提供了多种下载方式,用户可从 Hugging Face 下载该模型。总大小为 685GB,包括 6710 亿主模型权重和 140 亿多令牌预测 (MTP) 模块权重
为了方便用户本地运行,DeepSeek AI 还与开源社区和硬件厂商合作,提供了多种部署方案:
华为昇腾 NPU: 支持在华为昇腾设备上运行
DeepSeek-Infer Demo: 提供了轻量级的 FP8 和 BF16 推理演示
SGLang: 完全支持 DeepSeek-V3 的 BF16 和 FP8 模式,在 NVIDIA 和 AMD GPU 上均可运行
LMDeploy: 支持 DeepSeek-V3 的高性能推理和服务,无缝集成到 PyTorch 工作流中
TensorRT-LLM: 目前支持 BF16 推理和 INT4/8 量化,FP8 支持即将推出
AMD GPU: 通过 SGLang 支持在 AMD GPU 上运行,支持 FP8 和 BF16 精度
DeepSeek-V3技术报告解读
为了直观展示53页pdf报告的内容,大家先直接看脑图,随后我将报告一些重点内容做一个梳理
报告提出了DeepSeek-V3模型,用于解决大规模语言模型的高效推理和训练问题。简单来说,V3主要的技术如下
1.多头潜在注意力(MLA):MLA架构通过低秩联合压缩注意力键和值来减少推理过程中的KV缓存,从而提高推理效率
2.DeepSeekMoE架构:DeepSeekMoE通过细粒度的专家和共享专家来实现更高效的训练
3.无辅助损失的负载均衡策略:为了避免辅助损失对模型性能的负面影响,提出了一种无辅助损失的负载均衡策略,通过动态调整偏置项来保持专家负载的平衡
4.多令牌预测(MTP)目标:通过预测多个未来令牌来增强模型的预测能力,并可用于推理加速的投机解码
实验设计
数据收集:预训练数据集包含14.8万亿高质量和多样化的令牌,涵盖了数学、编程和多种语言
超参数设置:模型设置为61层Transformer结构,隐藏维度为7168。MLA的头数为128,每头维度为128。KV压缩维度为512,查询压缩维度为1536
训练过程:采用FP8混合精度训练框架,设计了DualPipe算法以实现高效的管道并行性。训练过程中使用了序列并行性和数据并行性来优化计算和通信效率
关键问题
问题1:DeepSeek-V3在训练过程中如何实现高效的流水线并行性?
DeepSeek-V3采用了DualPipe算法来实现高效的流水线并行性。DualPipe算法通过将前向和后向计算阶段重叠,减少了管道气泡的数量,并隐藏了大部分通信开销。具体来说,DualPipe将每个块分为四个部分:注意力、全节点广播、MLP和全节点合并。通过重新排列这些组件并手动调整GPU SMs的分配,确保了计算和通信的重叠。这种方法不仅加速了模型训练,还减少了管道气泡和峰值激活内存的使用
问题2:DeepSeek-V3的无辅助损失负载均衡策略是如何工作的?
DeepSeek-V3的无辅助损失负载均衡策略通过引入偏置项来动态调整专家负载,从而避免辅助损失对模型性能的负面影响。具体来说,每个专家的负载通过sigmoid函数计算的亲和度分数来确定,并通过归一化处理生成门控值。为了实现负载均衡,引入了偏置项 ,并将其加到亲和度分数上,以确定每个令牌的路由选择。通过在训练过程中动态调整偏置项,DeepSeek-V3能够在训练过程中保持专家负载的平衡,从而提高模型性能
问题3:DeepSeek-V3在多令牌预测(MTP)方面有哪些具体的实现细节?
DeepSeek-V3的多令牌预测(MTP)通过在每个预测深度预测多个未来令牌来增强模型的预测能力。具体实现上,使用多个顺序模块来预测额外的令牌,并保持完整的因果链。每个MTP模块由一个共享嵌入层、一个共享输出头、一个Transformer块和一个投影矩阵组成。对于每个输入令牌,首先将其与下一个令牌的嵌入进行线性组合,然后通过Transformer块进行处理,最后通过输出头计算预测概率。通过这种多令牌预测方法,DeepSeek-V3能够提高数据的利用效率,并增强模型的预测能力
参考:
https://github.com/deepseek-ai/DeepSeek-V3
https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
https://api-docs.deepseek.com/zh-cn/quick_start/pricing
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~