Deepseek v3正式发布：用557.6万美金超越Claude 3.5 Sonnet的惊人杰作

AI寒武纪

2024-12-27 09:04发布于江苏

全文2792字，阅读约需8分钟，帮我划重点

划重点

01DeepSeek AI于2024年12月26日正式发布其最新大型语言模型——DeepSeek-V3，每秒处理60个token，比V2快3倍。

02DeepSeek-V3采用创新的知识蒸馏方法，将推理能力迁移到标准LLM中，同时保留输出风格和长度控制。

03通过协同优化，有效克服了跨节点MoE训练中的通信瓶颈，使得计算与通信几乎完全重叠。

04此外，DeepSeek-V3引入无辅助损失的负载均衡策略和多标记预测(MTP)目标，提升模型性能并支持推理加速的预测解码。

05仅耗费了266.4万H800 GPU小时，完成了对14.8万亿token的预训练，总训练成本仅为557.6万美元。

以上内容由腾讯混元大模型生成，仅供参考

2024年12月26日，DeepSeek AI正式发布了其最新的大型语言模型——DeepSeek-V3，每秒处理 60 个 token，比 V2 快 3 倍！MoE架构,6710 亿参数，激活 370 亿参数，训练基于 14.8 万亿高质量 token，完全开源,附送53页pdf技术论文

主要看点

1.DeepSeek-V3 采用了创新的知识蒸馏方法，将 DeepSeek R1 系列模型中的推理能力迁移到标准 LLM 中。该方法巧妙地融合了 R1 的验证和反思模式，显著提高了 DeepSeek-V3 的推理性能，同时又保留了对输出风格和长度的控制

2.首次在大规模模型上验证了 FP8 训练的可行性和有效性

3.通过协同优化，有效克服了跨节点 MoE 训练中的通信瓶颈，使得计算与通信几乎完全重叠

4.在 DeepSeek-V2 高效架构的基础上，DeepSeek-V3 引入无辅助损失的负载均衡策略和多标记预测（MTP）目标，不仅提升模型性能，还支持推理加速的预测解码

5.仅耗费了 266.4万 H800 GPU 小时，就完成了对 14.8 万亿 token 的预训练。预训练后的后续训练阶段仅需 10 万 GPU 小时，用极小（相对）的成本实现了强悍的性能，这一点值得特别说明一下：

最令人震惊的是DeepSeek-V3 如此先进的模型的训练成本，如表中所示，通过对算法、框架和硬件的优化共同设计实现。在预训练阶段，训练DeepSeek-V3每万亿个令牌仅需180K H800 GPU小时，即在集群上使用2048个H800 GPU需要3.7天。因此，预训练阶段在不到两个月的时间内完成，成本为2664K GPU小时。加上上下文长度扩展所需的119K GPU小时和训练后所需的5K GPU小时，DeepSeek-V3完整训练的总成本仅为2.788百万GPU小时。假设H800 GPU的租赁价格为每GPU小时2美元，总训练成本仅为557.6万美元

这简直太不可思议了，想一下o1，Claude，Gemini,Ilama 3 405B 动辄数亿美金的训练成本，也就是说DeepSeek仅仅用不到600万美金就实现了SOTA，比Claude、Llama 405b 等的计算量少 10 倍，使用 2048 台 H800，已经有很多外国网友在喊了，让DeepSeek团队在马斯克的超级计算机训练，我们可能已经获得AGI了

请注意，上述成本仅包括DeepSeek-V3的官方训练，不包括与架构、算法或数据的前期研究和消融实验相关的成本

现在DeepSeek-V3 的API价格（看起来明年2月8号之后要涨价）

表格中展示了优惠前与优惠后的价格。即日起至北京时间 2025-02-08 24:00，所有用户均可享受 DeepSeek-V3 API 的价格优惠。在此之后，模型价格将恢复至原价

综合评估表明，DeepSeek-V3 的性能直接干到开源第一，并且达到了与领先的闭源模型相当的性能

模型下载与本地部署：多种选择

DeepSeek-V3 提供了多种下载方式，用户可从 Hugging Face 下载该模型。总大小为 685GB，包括 6710 亿主模型权重和 140 亿多令牌预测 (MTP) 模块权重

为了方便用户本地运行，DeepSeek AI 还与开源社区和硬件厂商合作，提供了多种部署方案：

华为昇腾 NPU： 支持在华为昇腾设备上运行

DeepSeek-Infer Demo: 提供了轻量级的 FP8 和 BF16 推理演示

SGLang: 完全支持 DeepSeek-V3 的 BF16 和 FP8 模式，在 NVIDIA 和 AMD GPU 上均可运行

LMDeploy: 支持 DeepSeek-V3 的高性能推理和服务，无缝集成到 PyTorch 工作流中

TensorRT-LLM: 目前支持 BF16 推理和 INT4/8 量化，FP8 支持即将推出

AMD GPU： 通过 SGLang 支持在 AMD GPU 上运行，支持 FP8 和 BF16 精度

DeepSeek-V3技术报告解读

为了直观展示53页pdf报告的内容，大家先直接看脑图，随后我将报告一些重点内容做一个梳理

报告提出了DeepSeek-V3模型，用于解决大规模语言模型的高效推理和训练问题。简单来说，V3主要的技术如下

1.多头潜在注意力（MLA）：MLA架构通过低秩联合压缩注意力键和值来减少推理过程中的KV缓存，从而提高推理效率

2.DeepSeekMoE架构：DeepSeekMoE通过细粒度的专家和共享专家来实现更高效的训练

3.无辅助损失的负载均衡策略：为了避免辅助损失对模型性能的负面影响，提出了一种无辅助损失的负载均衡策略，通过动态调整偏置项来保持专家负载的平衡

4.多令牌预测（MTP）目标：通过预测多个未来令牌来增强模型的预测能力，并可用于推理加速的投机解码

实验设计

数据收集：预训练数据集包含14.8万亿高质量和多样化的令牌，涵盖了数学、编程和多种语言

超参数设置：模型设置为61层Transformer结构，隐藏维度为7168。MLA的头数为128，每头维度为128。KV压缩维度为512，查询压缩维度为1536

训练过程：采用FP8混合精度训练框架，设计了DualPipe算法以实现高效的管道并行性。训练过程中使用了序列并行性和数据并行性来优化计算和通信效率

关键问题

问题1：DeepSeek-V3在训练过程中如何实现高效的流水线并行性？

DeepSeek-V3采用了DualPipe算法来实现高效的流水线并行性。DualPipe算法通过将前向和后向计算阶段重叠，减少了管道气泡的数量，并隐藏了大部分通信开销。具体来说，DualPipe将每个块分为四个部分：注意力、全节点广播、MLP和全节点合并。通过重新排列这些组件并手动调整GPU SMs的分配，确保了计算和通信的重叠。这种方法不仅加速了模型训练，还减少了管道气泡和峰值激活内存的使用

问题2：DeepSeek-V3的无辅助损失负载均衡策略是如何工作的？

DeepSeek-V3的无辅助损失负载均衡策略通过引入偏置项来动态调整专家负载，从而避免辅助损失对模型性能的负面影响。具体来说，每个专家的负载通过sigmoid函数计算的亲和度分数来确定，并通过归一化处理生成门控值。为了实现负载均衡，引入了偏置项，并将其加到亲和度分数上，以确定每个令牌的路由选择。通过在训练过程中动态调整偏置项，DeepSeek-V3能够在训练过程中保持专家负载的平衡，从而提高模型性能

问题3：DeepSeek-V3在多令牌预测（MTP）方面有哪些具体的实现细节？

DeepSeek-V3的多令牌预测（MTP）通过在每个预测深度预测多个未来令牌来增强模型的预测能力。具体实现上，使用多个顺序模块来预测额外的令牌，并保持完整的因果链。每个MTP模块由一个共享嵌入层、一个共享输出头、一个Transformer块和一个投影矩阵组成。对于每个输入令牌，首先将其与下一个令牌的嵌入进行线性组合，然后通过Transformer块进行处理，最后通过输出头计算预测概率。通过这种多令牌预测方法，DeepSeek-V3能够提高数据的利用效率，并增强模型的预测能力

参考：

https://github.com/deepseek-ai/DeepSeek-V3

https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

https://api-docs.deepseek.com/zh-cn/quick_start/pricing

⭐星标AI寒武纪，好内容不错过⭐

用你的赞和在看告诉我～

查看原图 526K