550万美元烧出来的大模型居然赶超GPT-4o?浙大毕业的他展示的“东方神秘力量”震撼了全球AI圈

一个来自中国的开源模型,让整个AI圈再次惊呼“来自东方的神秘力量”。

昨天,国内知名大模型创业公司“深度求索”通过官方公众号宣布上线并同步开源 DeepSeek-V3模型,并公布了长达53页的训练和技术细节。

和许多报告语焉不详相比,这份报告做到了真正的开源。不仅透露得到大幅升级的V3模型是在一个“难以想象”的预算下训练完成的:整个训练仅花费了557.6万美元,在2048xH800集群上运行55天完成,还很坦诚地公布了技术细节。

真正的花小钱办大事

这笔费用是什么概念呢?Anthropic CEO Dario Amodei曾透露,GPT-4o这样的模型训练成本约为1亿美元。

换句话说,与 Llma、GPT 或 Claude 这些全球知名大模型相比,DeepSeek-V3的这个成本几乎可以忽略不计。

成本低不代表效果差,DeepSeek罗列了若干个指标:

百科知识:DeepSeek-V3在知识类任务上的水平相比前代 DeepSeek-V2.5显著提升,接近当前表现最好的模型 Claude-3.5-Sonnet-1022。

长文本: 在长文本测评中,DROP、FRAMES和 LongBench v2上,DeepSeek-V3平均表现超越其他模型。

代码:DeepSeek-V3在算法类代码场景(Codeforces),远远领先于市面上已有的全部非o1类模型;并在工程类代码场景(SWE-Bench Verified)逼近 Claude-3.5-Sonnet-1022。

数学: 在美国数学竞赛(AIME 2024, MATH)上,DeepSeek-V3得分为90.2%,而Claude-3.5-Sonnet为 78.3%,GPT-4o为 74.6%。

中文能力:DeepSeek-V3与Qwen2.5-72B在教育类测评C-Eval和代词消歧等评测集上表现相近,但在事实知识 C-SimpleQA上更为领先。

简单说,从技术报告公布的性能指标上来看,这个开源MoE模型,已经在性能上对齐甚至在一些方面显著超越了海外领军的闭源模型。

图片

对此,OpenAI创始成员Karpathy点评:DeepSeek-V3让在有限算力预算上进行模型预训练这件事变得容易。它看起来比Llama 3 405B更强,训练消耗的算力却仅为后者的1/11。

Meta科学家田渊栋感慨:这是非常伟大的工作。

创始人毕业于浙大,曾是量化基金大佬

说起国产大模型,很多人听说过“五虎”和“四小龙”,但很少有人听说过深度求索DeepSeek。因为他们是唯一一家没有做2C应用的公司,选择了开源路线,至今没有融过资。

这也不是深度求索第一次展现神奇的力量。在硅谷,深度求索DeepSeek很早被称作“来自东方的神秘力量”。

图片

今年5月,深度求索DeepSeek发布发DeepSeekV2,因为创新的模型架构和史无前例的性价比,火爆出圈:推理成本被降到每百万token仅 1块钱,约等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一,因此深度求索DeepSeek被称为“大模型界的拼多多”,从而引发了字节、阿里、百度等大厂的大模型价格大战,不约而同地调整价格。

DeepSeek提出的MLA(多头潜在注意力机制)架构和DeepSeekMoESparse结构,大幅降低了模型的计算量和显存占用,从而降低了推理成本。

在轰炸AI圈之前,深度求索DeepSeek背后的操盘手梁文锋是金融江湖成名已久的高手。他成立的幻方量化,是国内量化私募“四巨头”之一。

低调的梁文锋个80后,出生在广东的一个五线城市,父亲是一名小学老师。他毕业于浙江大学,主修软件工程,人工智能方向。有同事评价梁文锋:完全不像一个老板,而更像一个极客。因为作为老板,他本人每天都在写代码、跑代码,学习能力惊人。

从公开的工作经历和职业生涯来看,梁文锋从2008年开始致力于量化对冲领域的研究,2015年创立幻方量化,开始在量化投资领域崭露头角。

2016年,幻方量化首次上线运行AI策略。2023年7月,梁文锋创立深度求索DeepSeek,专注于AI大模型的研究和开发,公司就在杭州。

图片

早在2019年,幻方和它背后的资金,就开始大手笔投入深度学习训练平台,到了2021年幻方量化对超算集群系统的投入增加到10亿元,并且搭载了超1万张英伟达A100显卡。

所以有人开玩笑,中国持有高性能GPU最多的机构不是人工智能公司,而是幻方。

梁文锋曾在《西蒙斯传》的序言中写道,“和很多新技术一样,量化投资刚出现的时候也是被嘲笑的对象,没有人相信计算机可以像人类一样进行投资。”

传记的主角西蒙斯,是数学家、物理学家、密码学家,创立了文艺复兴科技公司,用技术让投资业绩远超巴菲特等人,被誉为“量化投资之父”。

这么看梁文锋的职业生涯多有致敬前辈的意思。

并不是谁烧钱多就理所应当的赢得一切

除了将AI用于投资,梁文锋一直对AGI和人工智能浪潮有深入的思考。

他认为,无论是API还是AI,都应该是普惠的,人人可以用得起的。他强调技术应该服务于大众,而不是仅仅为了商业利益。这种理念体现在DeepSeek的定价策略上,他们通过降低大模型的API价格,推动了整个行业的价格战,使得更多人能够负担得起AI技术。

但和其他竞争对手不一样,深度求索并没有用“烧钱”的方式来竞争。“我们的原则是不贴钱,也不赚取暴利。这个价格也是在成本之上稍微有点利润。”梁文锋说。

OpenAI前政策主管、Anthropic联合创始人Jack Clark曾这样评价深度求索DeepSeek:“雇佣了一批高深莫测的奇才”,还认为中国制造的大模型,“将和无人机、电动汽车一样,成为不容忽视的力量。”

不过在一次采访中,梁文锋曾透露,DeepSeek并没有什么高深莫测的奇才,都是一些Top高校的应届毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。

“V2模型没有海外回来的人,都是本土的。前50名顶尖人才可能不在中国,但也许我们能自己打造这样的人。”

他曾在访谈中提到,过去30多年的IT浪潮,中国基本上没有参与到真正的技术创新,扮演的是追随者的角色,“随着经济的发展,中国也应该逐步成为技术创新的主要贡献者,而不是一直依赖别人的成果。

现在,V3的横空出世至少让整个AI圈看到一种可能,即创业公司可以不必用比拼资源的方式和OpenAI竞争。虽然训练大模型依然需要很多很多的显卡集群,但并不是谁烧钱多就理所应当地赢得一切。

甚至有网友戏称:“想快进到英伟达泡沫破裂的时刻。”