重磅!“AI界拼多多”再发力,国产大模型DeepSeek-V3开源后刷屏,总训练成本557万美元,性能比肩GPT-4o

整理 | 屠敏
出品 | CSDN(ID:CSDNnews)

就在今天,素来被硅谷视为“来自东方神秘力量”的中国大模型创业公司 DeepSeek 再次悄悄惊艳了国内外的 AI 技术圈,其重磅发布了一个全新的超大规模模型——DeepSeek-V3

这个新模型拥有 6710 亿个参数,但采用了 MOE(混合专家)架构,能根据任务需求激活特定参数,每处理一个词元激活 370 亿参数,从而实现高效又准确的任务处理。

这一次 DeepSeek-V3 的发布令业界振奋,不仅因为它是开源模型,更因为测试结果显示,它已超越诸如 Meta 的 Llama 3.1-405B、阿里 Qwen 等主流开源模型,甚至在性能上逼近 Anthropic 和 OpenAI 等封闭模型,大大缩小了开源和闭源 AI 之间的差距。

可谓是一个“低调的实力派”选手再次搅动了 AI 大模型的风云,当前这款模型可以通过Hugging Face 平台(https://huggingface.co/deepseek-ai/DeepSeek-V3-Base)获取,但需要遵守公司的许可协议。

图片


图片

开发成本只有 557 万美元的 DeepSeek-V3,有哪些亮点?

和前代 DeepSeek-V2 一样,新发布的超大模型仍然基于多头潜在注意力(MLA)和 DeepSeekMoE 架构。这种设计确保模型在训练和推理时保持高效,通过专用和共享的“专家”(模型中的独立小型神经网络)机制,每次处理一个词元时激活 6710 亿参数中的 370 亿个。

图片

DeepSeek-V3 架构图

除了延续基础架构保证强大性能外,DeepSeek-V3 还引入了两项创新:

  1. 无辅助损失的负载均衡策略:通过动态监控并调整专家的工作负载,让它们均衡运行,同时不影响整体模型性能。

  2. 多词元预测(MTP):支持模型同时预测多个未来词元。

这一创新不仅提高了训练效率,还让模型的生成速度提升了三倍,从 20 TPS 大幅提高至 60 TPS,每秒能生成 60 个 token

图片

“在预训练阶段,我们使用了 14.8 万亿高质量、多样化的文本对 DeepSeek-V3 进行了训练……随后,分两阶段对其上下文长度进行了扩展。”DeepSeek 在技术论文中提到,“第一阶段将上下文长度扩展到 32K,第二阶段进一步扩展到 128K。在此基础上,我们对 DeepSeek-V3 进行了后期训练,包括监督微调(SFT)和基于强化学习(RL)的训练,使模型更加符合人类偏好并释放潜力。在后期训练中,我们引入了 DeepSeekR1 系列模型的推理能力,同时精心平衡了模型的准确性和生成长度。”

图片

论文地址:https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

值得一提的是,在训练过程中,DeepSeek 使用了多种硬件和算法优化措施,例如 FP8 混合精度训练框架和 DualPipe 流水线并行算法,从而大幅降低了训练成本。

总的来说,在预训练阶段,DeepSeek-V3 每处理 1 万亿个词元仅需 18 万小时的 H800 GPU 时间,使用配备 2048 块 H800 GPU 的集群,只需 3.7 天即可完成。整个预训练耗时不到两个月,总计使用 266.4 万 GPU 小时。此外,上下文长度扩展耗费 11.9 万 GPU 小时,后期训练(如监督微调和强化学习)耗费 5000 GPU 小时,总训练时长为 278.8 万 GPU 小时。

按每 GPU 小时 2 美元的价格计算,DeepSeek-V3 的整体训练成本约为 557.6 万美元。这一数字仅涵盖正式训练阶段的花费,不包括在模型架构、算法设计或数据处理上的前期研究和消融实验费用,但它远低于通常训练大型语言模型所需的数亿美元。例如,Llama-3.1 的训练成本估计超过 5 亿美元。

图片


图片

目前最强的开源模型

尽管训练成本较低,但 DeepSeek-V3 已经成为市场上最强的开源模型之一。

DeepSeek 对 DeepSeek-V3 模型进行了多项性能测试。在知识领域,基于教育类基准测试(如 MMLU、MMLU-Pro 和 GPQA)中,DeepSeek-V3 表现优异,分别取得了 88.5、75.9 和 59.1 的高分,超越了所有其他开源模型,并在性能上接近封闭模型如 GPT-4o 和 Claude-Sonnet-3.5。这意味着 DeepSeek-V3 在这一领域大幅缩小了开源模型与封闭模型之间的差距。

其次,在事实性知识测试中,DeepSeek-V3 在 SimpleQA 和中文 SimpleQA 两个基准上领先于其他开源模型。在英文事实知识(SimpleQA)测试中虽稍逊于 GPT-4o 和 Claude-Sonnet-3.5,但在中文事实知识(中文 SimpleQA)中表现更强。

图片

其次在代码、数学与推理领域:

(1) 在数学相关基准测试中,DeepSeek-V3 在所有非长链式思维(non-long-CoT)的开源和封闭模型中表现最为出色。在特定基准如 MATH-500 中,它甚至超过了 OpenAI o1-preview。

(2) 在编程相关任务中,DeepSeek-V3 在编程竞赛基准(如LiveCodeBench)上表现最佳。对于工程相关任务,尽管 DeepSeek-V3 略逊于 Claude-Sonnet-3.5,但仍然显著领先于其他所有模型,显示出其在各类技术基准上的强劲竞争力。

整体而言,DeepSeek-V3 测试结果显示它明显超越了许多领先的开源模型,包括 Llama-3.1-405B 和 Qwen 2.5-72B。在大多数测试中,甚至连封闭的 GPT-4o 也被它击败。不过,在专注于英语的 SimpleQA 和 FRAMES 测试中,OpenAI 的 GPT-4o 依然领先,分别取得了 38.2 和 80.5 的分数(相比之下,DeepSeek-V3 的分数是 24.9 和 73.3)。在中文和数学类的测试中,DeepSeek-V3 成绩领先于所有对手。在 Math-500 测试中,它得到了 90.2 的高分,远超 Qwen 的 80 分这一次优成绩。

图片

不过,Anthropic 的 Claude 3.5 Sonnet 在 MMLU-Pro、IF-Eval、GPQA-Diamond、SWE Verified 和 Aider-Edit 等测试中的得分更高,也给 DeepSeek-V3 这类开源 AI 模型的发展留下一定的空间。


图片

“AI 界拼多多”

毋庸置疑,DeepSeek-V3 的发布再次证明,开源模型正迅速缩小与封闭模型之间的差距,在多项任务上实现了几乎相当的性能。这对行业发展未尝不是一件好事,不仅降低了某个 AI 巨头垄断市场的可能性,还为企业提供了更多选择和灵活性。

在定价方面,回顾今年 5 月,DeepSeek 发布第二代 MoE 大模型 DeepSeek-V2 时,以与 GPT-4 Turbo 媲美的性能和仅为 GPT-4 百分之一的价格震撼业界,这也让 DeepSeek 收获了“AI 界拼多多”、“大模型价格屠夫”等称号。

这一次,DeepSeek 也没有让众人失望,DeepSeek-V3 模型 API 服务定价为每百万输入 tokens 0.5 元(缓存命中)/ 2 元(缓存未命中),每百万输出 tokens 8 元。

同时,DeepSeek 宣布为新模型设置长达 45 天的优惠价格体验期:即日起至 2025 年 2 月 8 日,DeepSeek-V3 的 API 服务价格为每百万输入 tokens 0.1 元(缓存命中)/ 1 元(缓存未命中),每百万输出 tokens 2 元。

图片


图片

令技术圈为之振奋的 DeepSeek-V3 

这让很多人感到惊喜。时下 DeepSeek-V3 已在国内外各大科技板块刷屏,同时引发了不少 AI 大佬的关注。

OpenAI 前研究科学家、特斯拉前人工智能主管、AI 大神 Andrej Karpathy 评价道:

“DeepSeek(中国一家AI公司)今天再次展现出令人惊叹的实力,其开源的顶尖大语言模型以极低的预算完成训练(2048 块 GPU 训练2个月,总成本仅为 600 万美元)。

对比之下,通常这种能力水平的模型需要接近 16K GPU 的集群,而目前一些正在部署的集群规模已接近 10 万块 GPU。例如,Llama 3 405B 耗费了 3080 万 GPU 小时,而 DeepSeek-V3 仅耗费 280 万 GPU 小时(算力需求减少约 11 倍),但表现似乎更为强劲。如果该模型在各种测试中(如 LLM arena 排行榜测试,目前仍在进行中,我的几次简单测试结果不错)表现良好,那将是资源受限情况下研究与工程能力的一次极为令人印象深刻的展示。

这是否意味着训练前沿级 LLM 不再需要大规模 GPU 集群?并不是。但关键在于如何高效利用现有资源。这次成果表明,在数据和算法方面仍有大量潜力可以挖掘。

技术报告也非常详细而出色,值得一读。”

图片

AI 独角兽 Scale AI CEO Alexander Wang 转发 DeepSeek 的官方推文并表示:

中国领先的大语言模型实验室 DeepSeek 选择在圣诞节发布其最新的 V3 模型,意义深远。

  • 性能可媲美 GPT-4o 和 Claude 3.5 Sonnet

  • 训练所需算力仅为它们的十分之一

这反映了一个令人深思的事实:中国科技的“残酷真相”:当美国休息时,中国在努力工作,并以更低的成本、更快的速度和更强的实力实现追赶。

图片

事实上,DeepSeek 的成功并非偶然。这家由中国知名量化私募巨头幻方量化于 2023 年创立的公司,在成立仅半年后就推出了第一代大模型 DeepSeek Coder,这一模型不仅免费商用,还完全开源。

不过,在当时的百模大战中,DeepSeek 发布的新模型或许并未引起太多关注。然而,令人意想不到的是,在后来各大科技巨头掀起大模型价格战之前,DeepSeek 已率先打破常规,大胆掀翻了大模型价格的“桌子”,吸引了众多目光。

深挖之后,众人才发现,这家较为低调 AI 初创公司其实早深耕 AI 领域多年且极具前瞻性,早在 2019 年,幻方量化就投资了 2 亿元自主研发深度学习训练平台“萤火一号”,搭载了 1100 块 GPU,到了 2021 年幻方量化对“萤火二号”投入增加到 10 亿元,且搭载了约 1 万张英伟达 A100 显卡,而在当时,国内拥有超过 1 万枚 GPU 的企业屈指可数,不超过 5 家。

早期的“先见之明”,如今其优势逐渐凸显。对此,贾扬清也在社交媒体 X 分享了曾经与 DeepSeek 交流的一些往事:“2019 年,我曾与 DeepSeek 团队进行过一次交流,希望向他们推荐一套 AI 云解决方案。当时,我试图向他们传递以下几个观点:

  1. 不需要复杂的云虚拟化技术,只需要容器和一个高效的调度器即可。

  2. 需要一套非常快速、互联的专业网络,比如 RoCE 或 Infiniband。

  3. 存储方面只需要通用型的 NFS,不需要太花哨,但必须足够快。

  4. 应该优先让 AI 开发者满意,而不是让SRE(站点可靠性工程师)满意。

在 2019 年,当大多数人仍专注于传统云业务时,我认为这些观点相对新颖,并需要花些力气才能说服市场中的许多玩家。

然而,DeepSeek 团队友好地告诉我,他们多年来一直在按这种方式运作。事实上,他们还希望我能帮助他们向大学研究实验室捐赠计算资源,让这些已有的算力能够被更好地利用,无需附加条件,也不收取任何费用。

最终,我也在学术捐赠项目上为他们提供了一些小小的协助。

从某种意义上说,DeepSeek 团队取得的辉煌成就,正是根植于多年来积累的专业经验,而这些经验在当时被许多人忽视了。

图片

此外,贾扬清还表示,「关于 DeepSeek 模型的讨论中,有很多潜在的“中国产品”标签,以及与中美关系或 GPU 算力的隐性关联。在我看来,DeepSeek 的成功与这些因素关系不大。这更像是简单的智慧与务实精神在发挥作用:在有限的算力和人力条件下,通过聪明的研究实现最佳结果。

目前,DeepSeek-V3的代码已通过 MIT 许可证在 GitHub(https://github.com/deepseek-ai/DeepSeek-V3)上公开,模型则以公司自有的许可协议提供。同时,也可以在 Hugging Face 平台(https://huggingface.co/deepseek-ai/DeepSeek-V3-Base)体验。

感兴趣的小伙伴可以查阅技术论文:https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

参考:

https://mp.weixin.qq.com/s/iFZOQsUNkpkXPDvOkE99wQ

https://x.com/jiayq/status/1872409958907810281

https://venturebeat.com/ai/deepseek-v3-ultra-large-open-source-ai-outperforms-llama-and-qwen-on-launch/

https://huggingface.co/deepseek-ai/DeepSeek-V3-Base