突然刷屏的ai界“拼多多”deepseek

作者Jimmy

来源AI先锋官

年底沉寂的AI 行业,突然被一家中国公司刷屏。

圣诞这天,来自中国杭州的AI公司deepseek,发布了DeepSeek-v3。

一夜之间,霸榜开源模型,编码等性能被评价比肩GPT-4o、Claude 3.5。

AI 投资机构MenloVentures 负责人Deedy Das 直呼其为,“全球最佳开源LLM”,53 页的技术论文是黄金。

图片

“他们在美国休息时努力工作,以更低的成本、更快的速度、更强的实力赶超”。Scale AI 创始人兼CEO Alexandr Wang 在X 上发文称,中国科技的“惨痛教训”在这里显现。

作为华裔, Alexandr Wang 的推文里,惺惺相惜与危机感兼备。这不仅是因为 DeepSeek-v3 的突出性能,更多是产品的高效生成方式。

“训练所需计算量减少了10倍”,Alexandr Wang 说。

图片
Open AI创始成员之一,李飞飞的得意门生Andrej Karpathy 在 x 上进一步披露称,这一模型是在非常有限的预算下完成的——2048张GPU运行2个月,总成本为600万美元。
他分析称,按照以往经验,这种能力级别的大模型,通常需要接近1.6万张GPU,而目前行业内的模型大多使用约10万张GPU。
例如,Llama 3 405B模型消耗了3080万GPU小时,而DeepSeek-V3仅用了280万GPU小时,计算需求减少了11倍。
如果模型的实际表现也同样出色(例如LLM评测排名中),“这将是资源有限情况下研究与工程能力的非凡展示”。
“这是否意味着前沿LLM不需要大规模GPU集群?

并非如此。但这表明,只要充分利用现有资源,数据与算法的优化仍然能够实现巨大的突破”。Andrej Karpathy 说。

Lepton AI 创始人贾扬清回顾起与 deepseek 的早期交往,觉得这一切都有根基。

贾扬清在x上的推文称,2019年,他和deepseek团队进行了一次交流,希望向他们出售AI云解决方案。
当时的云计算业务仍以传统方式为主,贾扬清提出的观点,对很多市场玩家而言是,新颖的,不容易被理解和接受。
“但deepseek团队友善地告诉我,他们已经这样做很多年了。”贾扬清称,当时的 deepseek 团队还让他帮忙,将计算资源捐赠给大学研究实验室,免费,且无附加条件。
虽然DeepSeek V3被认为是“一夜成名”,但实际上,这家公司早已在AI圈深耕多年。
在硅谷,它被称作“来自东方的神秘力量”。OpenAI前政策主管、Anthropic联合创始人Jack Clark称,DeepSeek“雇佣了一批高深莫测的奇才”,由此他认为“中国的AI大模型“将和无人机、电动汽车一样,成为不容忽视的力量。”
deepseek公司中文名为“深度求索”,被誉为“中国AI 六小龙”之外的第七个,创始人梁文锋是一个传奇的 80 后技术理想主义者。
公司为幻方量化子公司,为后者所孵化。
幻方量化是中国著名的量化投资公司,尤其在AI领域布局深厚,是“大厂外唯一一家储备万张A100芯片的公司”。
幻方量化自研的深度学习训练平台萤火一号总投资近2亿元,搭载1100块GPU;萤火二号的投入增加到10亿元,搭载了约1万张英伟达A100显卡。
deepseek 的成名始于今年 5 月 v2 的发布。
该产品提供了一种在当时让行业震惊的性价比——推理成本被降到每百万token仅 1块钱,约等于Llama370B的七分之一,GPT-4 Turbo的七十分之一。也是以此为导火索,字节、腾讯、百度、阿里巴巴等纷纷跟进,打响中国大模型价格战。
deepseek“AI界拼多多”也由此得名。
但deepseek 的低价并非出于市场决策而是来自底层的技术创新——其提出的MLA(一种新的多头潜在注意力机制)架构,可把显存占用降到一般MHA架构的5%-13%。
同时,独创的DeepSeekMoESparse结构,也把计算量降到极致,由此促成了成本的下降。
而且,deepseek至今只专注在研究和技术,不做toC应用,也是唯一未全面考虑商业化,坚定开源路线的公司,甚至都没融过资。
在接受媒体采访时,梁文锋表示,全球大模型格局中,国内竞争者更多以跟随和模仿者的身份在加入,deepseek在做的就是,直接参与到前沿创新中。
 “随着经济的发展,中国也要逐步成为贡献者,而不是一直搭便车。过去三十多年IT浪潮里,我们基本没有参与到真正的技术创新里。

我们已经习惯摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件。Scaling Law也在被如此对待”。他说。

 .END.

往期文章回顾