DeepSeek V3把训练大模型的成本给干下来了

一夜之间,DeepSeek突然之间炸场,各个大佬都在纷纷转发,而且发布即开源,直接用50多页的论文公布了其训练细节。

图片


简单来说,DeepSeek V3是个拥有671B参数的MoE模型,每个token可以激活37B参数,利用了大概14.8T的高质量token进行了大规模预训练。原生就是FP8混合精度训练框架,并首次验证其在超大规模模型上的有效性。


训练大模型也可以很省钱

DeepSeek V3延续了便宜又快的训练思路。


DeepSeek V3的训练总共才用了不到280万个GPU小时,而Llama 3 405B却用了3080万GPU小时。用训练一个模型所花费的钱来说,训练一个DeepSeek V3只需要花费557.6万美元,相比之下,一个简单的7B Llama 3模型则需要花费76万美元。

图片


从论文中的公布细节可以得到它的训练成本估算:

  • 以 H800 GPU 小时为单位。H800 GPU 的租赁价格假定为每小时 2 美元。

  • 训练分为三个阶段:预训练、上下文扩展和后期训练:

预训练:使用了 2664K(266.4 万)GPU 小时,成本约为 532.8 万美元。

上下文扩展:使用了 119K(11.9 万)GPU 小时,成本约为 23.8 万美元。

后期训练:使用了 5K GPU 小时,成本约为 1,000 美元。

  • 总成本:2788K(278.8 万)GPU 小时,总费用为 557.6 万美元。


比起动辄几百亿人民币都训练不出来一个好用的大模型,DeepSeek V3的训练简直颠覆了大家的想象。这里训练这么省钱当然主要是因为该模型原生就是FP8,还有在模型架构上做了一些优化导致模型训练成本很低。


模型效果惊为天人

从发布的效果来看,这个开源模型在多个数据集上的效果都能够赶上最前沿的几个大模型。

图片


比如在英语任务上,在多项英语基准(MMLU、MMLU-Redux、DROP 等)上,DeepSeek V3 展现了强劲的性能:在 MMLU-Redux(89.1)和 DROP(91.6)的表现优于其他模型,就连GPT-4o分数都比它要低,在复杂推理任务中展现了领先优势。F-Eval(Prompt Strict)上达到 86.1,仅仅只略低于 Claude-3.5(86.5)。


在编程领域上,DeepSeek V3 在编程任务中表现中规中矩:

  • 在 HumanEval-Mul 和 Codeforces 的基准上,分别取得 82.6 和 51.6。

  • 对比之下,只有Claude-3.5 在部分代码生成任务上(SWE Verified)表现略优。


在数学任务上,DeepSeek V3 在数学推理任务中表现出色:

  • MATH-500(90.2)的表现超过 GPT-4o(74.6)和 Claude-3.5(78.3)。

  • 在 AIME 2024 和 CNMO 2024 的 测试中,分别取得 39.2 和 43.2 的分数。


中文任务这个应该是最有优势的了,基本都可以秒杀国外的一些前沿大模型,

  • CLUEWSC(90.9)接近 Qwen2.5 的顶级表现(91.4)。

  • 在更复杂的中文问答任务(C-SimpleQA)中,DeepSeek V3 的分数为 64.1,达到顶尖水准。


在又快又好的同时,DeepSeek V3的API价格也被打下来了。每一百万的输入tokens,只需要0.27$;每百万的输出tokens需要1.1$。


我们这里对比一下目前国外几个前沿大模型的价格,GPT-4每百万输入tokens,高达30$,而Claude3 Opus每百万输出tokens也要15$。从价格上来看,DeepSeek V3真的是太便宜了,便宜到我都怀疑这个公司还能不能赚到钱。

图片


而如果要平衡性能和成本,它就成了DeepSeek官方绘图中唯一进入“最佳性价比”三角区的模型。其他像GPT-4o、Claude3.5等模型,价格都比较昂贵。

图片


模型的一些训练细节

DeepSeek V3除了使用了FP8之外,还有一些其他的模型细节。比如它继续采用了多头潜在注意力(MLA)来实现高效推理。它在传统多头注意力机制(Multi-Head Attention)的基础上,引入了潜在特征(Latent Features)概念,进一步提高了对复杂关系的建模能力。


也就是先把token的特征压缩成一个小维度的latent vector,然后再通过一些简单的变换把它扩展到各个头需要的Key和Value空间。对于一些重要的信息,比如旋转位置编码RoPE,会进行单独处理,这样网络仍然可以保留时间和位置的信息。

图片


在MOE架构中,引入了路由专家 (Routed Experts) 和共享专家 (Shared Experts) 。主要是用来激活那些参数需要被更新。


路由专家中主要是用来选择参数进行激活。对于每个输入的token,只有一部分路由专家会被选中来参与计算。这个选择过程是由一个门控机制决定的,比如DeepSeekMoE中用的那种根据亲和度分数来选的Top-K方式。


而共享专家始终参与所有输入的处理。无论输入是什么,所有共享专家都会贡献它们的力量。


还用到了一个MTP(多个tokens预测)技术,MTP的核心理念在于训练时,模型不仅要预测下一个token(就像传统语言模型那样),还要同时预测序列后面的几个token。这样一来,模型就能获得更丰富的训练信息,有助于它更深入地理解上下文以及长距离的依赖关系。

图片


写在最后

DeepSeek-V3现在已经可以在官方平台上直接测试了,代码也是完全开源的,可以随时下载。国外的AI爱好者们都已经开始尝试了,有人甚至把4个或8个M4 Mac mini叠在一起运行DeepSeek V3。

图片


还有开发者用DeepSeek-V3创建了一个AI公司logo风格的小行星游戏,只要几分钟很快就搞定了。

图片



总的来说,DeepSeek V3的发布,只用了较低的成本就可以超越现有的一些大模型,并且能够和GPT-4o和Claude 3.5相媲美,确实是一个杰出的工作。其高效的训练方法和较低的计算成本,可以给其他没有资源的公司借鉴一下,也验证了大规模的GPU集群不是训练大模型的必要条件。


好了,以上就是本期的所有内容,我是leo,我们下期再见~