突然刷屏的ai界“拼多多”deepseek

AI先锋官官方

2024-12-27 14:00发布于北京

作者｜Jimmy

来源｜AI先锋官

年底沉寂的AI 行业，突然被一家中国公司刷屏。

圣诞这天，来自中国杭州的AI公司deepseek，发布了DeepSeek-v3。

一夜之间，霸榜开源模型，编码等性能被评价比肩GPT-4o、Claude 3.5。

AI 投资机构MenloVentures 负责人Deedy Das 直呼其为，“全球最佳开源LLM”，53 页的技术论文是黄金。

“他们在美国休息时努力工作，以更低的成本、更快的速度、更强的实力赶超”。Scale AI 创始人兼CEO Alexandr Wang 在X 上发文称，中国科技的“惨痛教训”在这里显现。

作为华裔， Alexandr Wang 的推文里，惺惺相惜与危机感兼备。这不仅是因为 DeepSeek-v3 的突出性能，更多是产品的高效生成方式。

“训练所需计算量减少了10倍”，Alexandr Wang 说。

Open AI创始成员之一，李飞飞的得意门生Andrej Karpathy 在 x 上进一步披露称，这一模型是在非常有限的预算下完成的——2048张GPU运行2个月，总成本为600万美元。

他分析称，按照以往经验，这种能力级别的大模型，通常需要接近1.6万张GPU，而目前行业内的模型大多使用约10万张GPU。

例如，Llama 3 405B模型消耗了3080万GPU小时，而DeepSeek-V3仅用了280万GPU小时，计算需求减少了11倍。

如果模型的实际表现也同样出色（例如LLM评测排名中），“这将是资源有限情况下研究与工程能力的非凡展示”。

“这是否意味着前沿LLM不需要大规模GPU集群？

并非如此。但这表明，只要充分利用现有资源，数据与算法的优化仍然能够实现巨大的突破”。Andrej Karpathy 说。

Lepton AI 创始人贾扬清回顾起与 deepseek 的早期交往，觉得这一切都有根基。

贾扬清在x上的推文称，2019年，他和deepseek团队进行了一次交流，希望向他们出售AI云解决方案。

当时的云计算业务仍以传统方式为主，贾扬清提出的观点，对很多市场玩家而言是，新颖的，不容易被理解和接受。

“但deepseek团队友善地告诉我，他们已经这样做很多年了。”贾扬清称，当时的 deepseek 团队还让他帮忙，将计算资源捐赠给大学研究实验室，免费，且无附加条件。

虽然DeepSeek V3被认为是“一夜成名”，但实际上，这家公司早已在AI圈深耕多年。

在硅谷，它被称作“来自东方的神秘力量”。OpenAI前政策主管、Anthropic联合创始人Jack Clark称，DeepSeek“雇佣了一批高深莫测的奇才”，由此他认为“中国的AI大模型“将和无人机、电动汽车一样，成为不容忽视的力量。”

deepseek公司中文名为“深度求索”，被誉为“中国AI 六小龙”之外的第七个，创始人梁文锋是一个传奇的 80 后技术理想主义者。

公司为幻方量化子公司，为后者所孵化。

幻方量化是中国著名的量化投资公司，尤其在AI领域布局深厚，是“大厂外唯一一家储备万张A100芯片的公司”。

幻方量化自研的深度学习训练平台萤火一号总投资近2亿元，搭载1100块GPU；萤火二号的投入增加到10亿元，搭载了约1万张英伟达A100显卡。

deepseek 的成名始于今年 5 月 v2 的发布。

该产品提供了一种在当时让行业震惊的性价比——推理成本被降到每百万token仅 1块钱，约等于Llama370B的七分之一，GPT-4 Turbo的七十分之一。也是以此为导火索，字节、腾讯、百度、阿里巴巴等纷纷跟进，打响中国大模型价格战。

deepseek“AI界拼多多”也由此得名。

但deepseek 的低价并非出于市场决策而是来自底层的技术创新——其提出的MLA（一种新的多头潜在注意力机制）架构，可把显存占用降到一般MHA架构的5%-13%。

同时，独创的DeepSeekMoESparse结构，也把计算量降到极致，由此促成了成本的下降。

而且，deepseek至今只专注在研究和技术，不做toC应用，也是唯一未全面考虑商业化，坚定开源路线的公司，甚至都没融过资。

在接受媒体采访时，梁文锋表示，全球大模型格局中，国内竞争者更多以跟随和模仿者的身份在加入，deepseek在做的就是，直接参与到前沿创新中。

“随着经济的发展，中国也要逐步成为贡献者，而不是一直搭便车。过去三十多年IT浪潮里，我们基本没有参与到真正的技术创新里。

我们已经习惯摩尔定律从天而降，躺在家里18个月就会出来更好的硬件和软件。Scaling Law也在被如此对待”。他说。

.END.

往期文章回顾

查看原图 135K