550万美元烧出来的大模型居然赶超GPT-4o？浙大毕业的他展示的“东方神秘力量”震撼了全球AI圈

都市快报橙柿互动

2024-12-27 18:34发布于浙江都市快报官方账号

一个来自中国的开源模型，让整个AI圈再次惊呼“来自东方的神秘力量”。

昨天，国内知名大模型创业公司“深度求索”通过官方公众号宣布上线并同步开源 DeepSeek-V3模型，并公布了长达53页的训练和技术细节。

和许多报告语焉不详相比，这份报告做到了真正的开源。不仅透露得到大幅升级的V3模型是在一个“难以想象”的预算下训练完成的：整个训练仅花费了557.6万美元，在2048xH800集群上运行55天完成，还很坦诚地公布了技术细节。

真正的花小钱办大事

这笔费用是什么概念呢？Anthropic CEO Dario Amodei曾透露，GPT-4o这样的模型训练成本约为1亿美元。

换句话说，与 Llma、GPT 或 Claude 这些全球知名大模型相比，DeepSeek-V3的这个成本几乎可以忽略不计。

成本低不代表效果差，DeepSeek罗列了若干个指标：

百科知识：DeepSeek-V3在知识类任务上的水平相比前代 DeepSeek-V2.5显著提升，接近当前表现最好的模型 Claude-3.5-Sonnet-1022。

长文本：在长文本测评中，DROP、FRAMES和 LongBench v2上，DeepSeek-V3平均表现超越其他模型。

代码：DeepSeek-V3在算法类代码场景（Codeforces），远远领先于市面上已有的全部非o1类模型；并在工程类代码场景（SWE-Bench Verified）逼近 Claude-3.5-Sonnet-1022。

数学：在美国数学竞赛（AIME 2024, MATH）上，DeepSeek-V3得分为90.2%，而Claude-3.5-Sonnet为 78.3%，GPT-4o为 74.6%。

中文能力：DeepSeek-V3与Qwen2.5-72B在教育类测评C-Eval和代词消歧等评测集上表现相近，但在事实知识 C-SimpleQA上更为领先。

简单说，从技术报告公布的性能指标上来看，这个开源MoE模型，已经在性能上对齐甚至在一些方面显著超越了海外领军的闭源模型。

对此，OpenAI创始成员Karpathy点评：DeepSeek-V3让在有限算力预算上进行模型预训练这件事变得容易。它看起来比Llama 3 405B更强，训练消耗的算力却仅为后者的1/11。

Meta科学家田渊栋感慨：这是非常伟大的工作。

创始人毕业于浙大，曾是量化基金大佬

说起国产大模型，很多人听说过“五虎”和“四小龙”，但很少有人听说过深度求索DeepSeek。因为他们是唯一一家没有做2C应用的公司，选择了开源路线，至今没有融过资。

这也不是深度求索第一次展现神奇的力量。在硅谷，深度求索DeepSeek很早被称作“来自东方的神秘力量”。

今年5月，深度求索DeepSeek发布发DeepSeekV2，因为创新的模型架构和史无前例的性价比，火爆出圈：推理成本被降到每百万token仅 1块钱，约等于Llama3 70B的七分之一，GPT-4 Turbo的七十分之一，因此深度求索DeepSeek被称为“大模型界的拼多多”，从而引发了字节、阿里、百度等大厂的大模型价格大战，不约而同地调整价格。

DeepSeek提出的MLA（多头潜在注意力机制）架构和DeepSeekMoESparse结构，大幅降低了模型的计算量和显存占用，从而降低了推理成本。

在轰炸AI圈之前，深度求索DeepSeek背后的操盘手梁文锋是金融江湖成名已久的高手。他成立的幻方量化，是国内量化私募“四巨头”之一。

低调的梁文锋个80后，出生在广东的一个五线城市，父亲是一名小学老师。他毕业于浙江大学，主修软件工程，人工智能方向。有同事评价梁文锋：完全不像一个老板，而更像一个极客。因为作为老板，他本人每天都在写代码、跑代码，学习能力惊人。

从公开的工作经历和职业生涯来看，梁文锋从2008年开始致力于量化对冲领域的研究，2015年创立幻方量化，开始在量化投资领域崭露头角。

2016年，幻方量化首次上线运行AI策略。2023年7月，梁文锋创立深度求索DeepSeek，专注于AI大模型的研究和开发，公司就在杭州。

早在2019年，幻方和它背后的资金，就开始大手笔投入深度学习训练平台，到了2021年幻方量化对超算集群系统的投入增加到10亿元，并且搭载了超1万张英伟达A100显卡。

所以有人开玩笑，中国持有高性能GPU最多的机构不是人工智能公司，而是幻方。

梁文锋曾在《西蒙斯传》的序言中写道，“和很多新技术一样，量化投资刚出现的时候也是被嘲笑的对象，没有人相信计算机可以像人类一样进行投资。”

传记的主角西蒙斯，是数学家、物理学家、密码学家，创立了文艺复兴科技公司，用技术让投资业绩远超巴菲特等人，被誉为“量化投资之父”。

这么看梁文锋的职业生涯多有致敬前辈的意思。

并不是谁烧钱多就理所应当的赢得一切

除了将AI用于投资，梁文锋一直对AGI和人工智能浪潮有深入的思考。

他认为，无论是API还是AI，都应该是普惠的，人人可以用得起的。他强调技术应该服务于大众，而不是仅仅为了商业利益。这种理念体现在DeepSeek的定价策略上，他们通过降低大模型的API价格，推动了整个行业的价格战，使得更多人能够负担得起AI技术。

但和其他竞争对手不一样，深度求索并没有用“烧钱”的方式来竞争。“我们的原则是不贴钱，也不赚取暴利。这个价格也是在成本之上稍微有点利润。”梁文锋说。

OpenAI前政策主管、Anthropic联合创始人Jack Clark曾这样评价深度求索DeepSeek：“雇佣了一批高深莫测的奇才”，还认为中国制造的大模型，“将和无人机、电动汽车一样，成为不容忽视的力量。”

不过在一次采访中，梁文锋曾透露，DeepSeek并没有什么高深莫测的奇才，都是一些Top高校的应届毕业生、没毕业的博四、博五实习生，还有一些毕业才几年的年轻人。

“V2模型没有海外回来的人，都是本土的。前50名顶尖人才可能不在中国，但也许我们能自己打造这样的人。”

他曾在访谈中提到，过去30多年的IT浪潮，中国基本上没有参与到真正的技术创新，扮演的是追随者的角色，“随着经济的发展，中国也应该逐步成为技术创新的主要贡献者，而不是一直依赖别人的成果。”

现在，V3的横空出世至少让整个AI圈看到一种可能，即创业公司可以不必用比拼资源的方式和OpenAI竞争。虽然训练大模型依然需要很多很多的显卡集群，但并不是谁烧钱多就理所应当地赢得一切。

甚至有网友戏称：“想快进到英伟达泡沫破裂的时刻。”

查看原图 110K