+关注

手机看

微信扫一扫，随时随地看

做出一家让硅谷都震撼的“国货之光”，需要多聪明？

刘润商学

2025-01-14 11:25发布于上海刘润商学官方账号

+关注

AI划重点 · 全文约3856字，阅读需11分钟

1.中国AI公司DeepSeek发布最新大模型DeepSeek-V3，性能惊艳，价格低廉，引发国内外关注。

2.DeepSeek-V3采用多头潜在注意力（MoE）和深寻求（MoE）架构，实现高效推理和经济高效训练。

3.除此之外，DeepSeek还采用无辅助损失的负载平衡策略和多令牌预测训练目标，进一步提高模型性能。

4.尽管DeepSeek的创新并非颠覆性，但在资源限制下，成功地将大模型从0到1，展现了工程实力。

以上内容由腾讯混元大模型生成，仅供参考

提问：前几天，不管在中国还是在美国，你有没有刷到过一家中国公司，做AI的，叫DeepSeek?

昨天刚开完会，公司一个小伙伴突然来精神了，说：

“欸，那个前几天很火的DeepSeek居然出APP了。”

一搜，还真有。

真低调。

可低调的背后，是一口气刷了中国的屏，还刷了美国的屏的爆火。

2025刚开始那几天，国内突然出了个热搜：

“雷军千万年薪，挖角DeepSeek的核心研究员，95后AI天才少女罗福莉”。

很多人在这句话里，看到了“雷军”，看到了“千万年薪”，看到了“95后AI天才少女”。但其中很多关注AI的人，还看到了：“DeepSeek”。

因为，在更早的圣诞期间，这家中国的，做AI的，甚至不是大厂的公司，突然刷了美国的屏。

2024年12月26日，中国的AI公司DeepSeek（中文名叫“深度求索”），发布了一个最新AI大模型DeepSeek-V3，并同步开源。

很快，无论是中国的AI圈，还是硅谷的大佬，美国的新闻，都开始谈论它。

国内很多媒体喊它“中国AI界拼多多”，“国货之光”。说，它证明了“就算算力被封锁，中国也有可能搞出很好用的大模型”。

而在国外，在硅谷，更多人喊它“来自东方的神秘力量”。说，这下“美国从0到1，中国从1到N”的说法，可能要被破了......

这个突然横空出世的中国AI公司，真那么厉害吗？厉害在哪？怎么做到的？到底什么来头？

我也很好奇。这几天看了一些资料，也问了一些行业里的朋友。越了解，我越有一种感觉：

刷屏美国的DeepSeek，不一定“神秘”，但确实有点聪明。

“来自东方的神秘力量”

提问：当美国在刷屏聊这家公司的时候，都在聊什么？

抛开各种一会儿“震惊”，一会儿“难以置信”的那些情绪不说，事实说来说去，大概就是4件事。

首先，性能，吓人的好。

DeepSeek的大模型，很多科目在跑分测试中，都一举超越了很多头部的开源模型。

如果单看“理科”，比如代码编写和数学运算方面，更是直接可以上手，和全球顶尖的闭源模型掰手腕。

比如OpenAI的GPT-4o，Meta的LLama-3.1-405B，阿里Qwen2.5-72B......

这么强，价格，还吓人的低。

人家美国的大模型扛把子，比如Claude 3.5 Sonnet，API价格是每百万输入token3美元。国产的DeepSeek-V3呢？优惠狠起来，只要0.1元人民币。

这么恐怖的性价比，怎么做到的？

梁文锋曾在暗涌的采访中说：“我们的原则是不贴钱，也不赚取暴利。这个价格也是在成本之上稍微有点利润。”

吓人的性价比背后，是低得更吓人的成本。

先大概看个账单：

DeepSeek-V3的预训练过程，花了557.6万美元，耗费了280万GPU小时，2048块GPU，并且还是英伟达针对中国市场的低配版：H800 GPU。

那别人呢？很多财经新闻指出，OpenAI，谷歌，Meta，都花了数亿，甚至数十亿美元。

而OpenAI的早期成员Andrej Karpathy在社交平台上说：“要做到这种水平，通常需要3080万GPU小时，和16000块GPU。”

280万，2048块，几百万美元。

3080万。16000块。几亿甚至几十亿美元。

直接差出1个零，甚至几个零。

难怪Meta AI研究科学家田渊栋发文说：“对DeepSeek-V3'极有限的预算'和'强劲的表现'深感惊喜。”

然而，到这里，依然还不是让他们最“惊”的。

美国的CNBC主播在新闻里说：“这家公司的大模型，在很多方面都不输于Meta的LLaMa 3.1和OpenAI的GPT 4o，顺便说一下，这些都是最新最强的模型......并且，朋友们，别忘了这个事实：这家公司来自中国。”

超高性能，超低价格，超低成本，还是来自中国的AI公司。

很快，在硅谷，DeepSeek开始被这么提起：

“来自东方的神秘力量”。

“小院高墙”

这个突然横空出世的中国AI公司，到底，什么来头？

是不是，背后有高人？

OpenAI的前政策主管Jack Clark就曾说：DeepSeek“雇佣了一批高深莫测的奇才”。

而DeepSeek创始人梁文锋在一次采访里对此的回应是：“并没有什么高深莫测的奇才。都是一些Top高校的应届毕业生、没毕业的博四、博五实习生，还有一些毕业才几年的年轻人。”

那，是不是，背后有资本？

毕竟，做大模型，从来都是少数人的游戏。

有新闻披露，在很多普通人都还没听说过AI的2019年，DeepSeek就已经囤了超过1万张的英伟达显卡，用于算力基建了。

真厉害。但是，有超过1万张，就足以让DeepSeek有优势吗？光看2024年一年，拥有的等效H100GPU数量，Meta，是55万-65万，微软，是75万-90万。谷歌，更是100万-150万......

人，钱，都没有什么特别的。那，东方，还有什么西方没有的？

“小院高墙。”

这个2018年由美国智库提出的科技防御策略，衍生出来的新闻，关键词基本都长这样：

管制，禁运，封锁，实体清单......

在美国CNBC的一个采访中，一位连线专家在聊起DeepSeek时说：

“显然，他们没有使用最新的芯片，也没有那么大的算力，他们甚至在这方面没怎么花钱，但他们却建立了一个可以和OpenAI和Meta的模型竞争的模型。”

“他们是在哪个地方做得这么好呢？”

很多人，开始连夜翻技术文档。

是的。被称为“来自东方的神秘力量”的DeepSeek，在最核心的技术上，却一点都没有玩神秘：

他发布的大模型，都是开源的。

每一步，怎么做的，什么原理，甚至代码，都写在公开的技术文档里。

所有人，随便看。

“技术文档”

DeepSeek的技术文档，一共53页。

翻开，不是长这样：

就是长这样：

啊？这怎么看？

我明白。我理解。这样一份文档，对于大多数普通人来说，确实难啃。

好在，很多技术大牛，已经连夜划了重点。

比如，最常见的这段：

这得益于采用了 Multi-head Latent Attention ( MLA ) 和DeepSeek MoE架构，实现了高效的推理和经济高效的训练。又引入了辅助损失自由负载平衡策略和多 token 预测训练目标，提升了模型性能。同时，在14.8万亿个高质量 token上进行了预训练时，通过监督微调和强化学习阶段充分挖掘了其潜力。

看着还是太干？没事儿，再划成3个关键词：

MoE，MLA，无辅助损失的负载平衡策略和多令牌预测训练目标。

这，就是要看懂DeepSeek的“神秘力量”，至少，需要看懂这3个词。

我争取，用普通话，帮你把它们从头说一遍。

我猜，听完你会觉得很眼熟。

从哪里说起呢？

就从，你对大模型的要求说起吧。

“神秘力量”

提问：这两年，你有没有用过什么AI大模型？

比如，美国的ChatGPT？中国的文心一言?通义千问?......

你用它的时候，都对它有什么期待？

至少，我问它个什么，它的回答得靠谱吧？靠谱之外，一个回答不能让我等上1分钟吧？......

又快，又好。

这，就是一个好的大模型产品，至少要做到的2件事。

而这2件事，传到做大模型产品的技术专家的耳朵里，就会自动被翻译成另外2个词：

大模型的复杂度，大模型的推理效率。

什么是复杂度？至少，这个大模型的脑子得足够聪明，能应对足够多，足够复杂的问题。

脑子要聪明，要多几根“筋”。大模型要聪明，就得多几亿个“参数”。

这次发布的DeepSeek-V3大模型，参数就有6710亿个。

真多。可是，这么多“脑筋”一起动，得多费劲啊？

确实费劲。所以，得烧钱，买卡，堆算力......

但是，你都看见了。DeepSeek没这么干。它们干了很多其它的。

其中，最常被人提到的，是这3件:

第一，把一堆“专家”给分开。

想象一下，大模型，就像一个专家大本营。为了能尽可能地帮你干各种活儿，里面驻扎了各种领域的专家。

每次你一派活儿，就要呼啦啦地召唤这个专家大本营。很是劳师动众。

DeepSeek，做了一点优化：把专家们分门别类，每次有活儿，只喊其中一组相应的专家团出来就好。

这，就是MoE架构，也叫混合专家技术。

这么分，本来每次有活儿，得惊动6710亿个参数，现在只要37亿个参数就可以了。多省力。

真聪明。可是，一个大模型，就算调的专家少了，每天要干的活儿还是超级多。有没有办法更省力？

DeepSeek又想到了个办法：把要干的活儿，压少一些。

比如，搞个东西，让模型可以在干活儿时，学会“抓大放小”。精确到“元”就够的，就绝不精确到“毛”。大不了算完再派个专家，统一验算一遍。

这个东西，就叫MLA，也叫信息过滤器。能让模型只关注信息中的重要部分，不会被不重要的细节分散注意力。

有意思。这么一来，对算力的依赖肯定又能少好多。

可DeepSeek依然没满足。“专家”和“活儿”都盘了，那中间的“派活”呢？

我能不能再搞个机制，让每个专家，都能被合理分工。不至于要么给我闲着，要么忙到爆炸？

于是，就有了：无辅助损失的负载平衡策略和多令牌预测训练目标。

现在，再看回这3个词，你什么感觉：

MoE，MLA，无辅助损失的负载平衡策略和多令牌预测训练目标。

分专家，压活儿，合理分工。

嗯，很聪明。可是，不是在说“神秘力量“吗？

这算什么神秘力量？

“工程”

提问：怎么才算“神秘力量”？

能突破“小院高墙”？能打破“国外从0到1，中国从1到N”的观念，带来颠覆性创新？

如果是这个标准，那OpenAI创始人奥特曼，可能觉得，不算。

在DeepSeek大模型发布后，他曾说：

“DeepSeek-V3，只是在复制已知有效的东西。但当你不知道某件新奇、有风险且困难的事情是否会成功时，去做他是极其困难的。”

为什么这么说？是不是在酸？是不是在内涵？

这样，不如我们先简单倒个带：

你说，“把一堆‘专家’给分开”，算不算创新？

你说，“把要干的活儿，压少一些”，算不算创新？

你说：“把活儿分派得合理些”，算不算创新？

或者更直接一点：“用几百万的成本，做到人家花几十亿才做到的事”，算不算创新？

看另一个技术大佬，知名AI博主Tim Dettmers，对DeepSeek的评价。

他说：“这是资源限制下的工程。”

他还说：“这一切看起来都那么优雅：没有花哨的‘学术’解决方案，只有纯粹的，扎实的工程。尊重。”

工程，工程。

什么是工程？

直接搜“工程”，你会看到这个定义：

“工程是一个具有规定开始和结束时间的任务，需要使用一种或多种资源，并由多个互相独立、互相联系、互相依赖的活动组合。”

但如果，当你收到客户投诉“收到的薯片有包装是空的”时，别人会和你说：

“装监控”，“做视频识别”，或者，“花100万，研发一条新的流水线”......

但工程师，可能会和你说：

“花100块，在现在的流水线最后，装个大吹风机，吹出刚好能吹跑空包装的就行。”

工程，就是就算在有限资源下，也一定要把事做成，并且还要把效率做到最高。

回看DeepSeek的创新，有些，确实是独创。比如，无辅助损失负载均衡，就来自DeepSeek八月的论文。

也有些，是“在已有的流水线上装上吹风机”。比如，优化前就已经存在的MoE，MLA......

花100万做个新流水线，花100块加个大吹风机。

从0到1，从1到N。

刷屏美国的DeepSeek，不一定神秘，但确实聪明。

恭喜。

也祝福，2025年，更多的“从1到N”，和，“从0到1”。

*个人观点，仅供参考。

主笔 / 尤安编辑 / 二蔓版面 / 黄静

这是刘润公众号的第2489篇原创文章

查看原图 7K

免责声明：本内容来自腾讯平台创作者，不代表腾讯新闻或腾讯网的观点和立场。

做出一家让硅谷都震撼的“国货之光”，需要多聪明？

*个人观点，仅供参考。

主笔 / 尤安 编辑 / 二蔓 版面 / 黄静

主笔 / 尤安编辑 / 二蔓版面 / 黄静