DeepSeek V3 引发AI路径之辩:从“鹦鹉学舌”到“乌鸦喝水”?

作者Jimmy

来源AI先锋官


2024 年底,DeepSeek V3 骤火。
作为一款开源模型,DeepSeek V3 拥有 6710 亿参数,却能在性能上逼近 GPT-4 和 Claude 2 等闭源顶级模型。
更令人震撼的是,据深度求索报道,它仅用 278.8 万 GPU 小时就完成了训练,可以说将训练成本打了成“白菜价”。
经过小编简单的实测,在文本生成领域DeepSeek V3的速度的确惊人。
但业内关注的核心议题,并非其性能问题,而是DeepSeek V3 是否真为全球,尤其算力匮乏的中国 AI 界,趟出了一条更经济实惠的蹊径?
质疑者有之:比如,传播很广综合“各位大佬在群里的回复”版本。





A:

“幻方这消息纯粹就是断章取义。训练一个671B的moe模型,而且用了fp8的架构,来达到gpu耗时数的下降,幻方在技术上确实牛。但幻方在训这个模型之前,是用了他们自己的r1模型(对标op­e­n­ai o1模型)来生成数据的,这个部分的反复尝试要不要算在成本里呢。

且不算前面那笔糊涂账,单就在训练上做降本增效这件事,这不代表推理需求会下降,只代表大厂可以用性价比更高的方式去做模型极限能力的探索。应用端只要有增长的逻辑,推理的需求依然是值得期待的。”


B:

-训练只有一次,推理是无数次。推理需求实质上远大于训练需求,尤其是用户基数大了。

- De­e­p­s­e­ek是站在巨人的肩膀上,使用大量高质量合成数据。

- De­e­p­s­e­ek这个统计口径只计算了训练,但数据的配比需要做大量的预实验,合成数据的生成和清洗也需要消耗算力。

- De­e­p­s­e­ek的模型的MoE每个专家都可以单独拿出来训练,本身相比于de­n­se架构就是省力一些的方案。

-人人都超越了GPT 4o,ll­a­ma 3天天被踩在脚底下,消费者和企业界实际使用最多的还是这两个模型。这些宣传的成绩未必可靠。


C:

“1,FP8的训练本身就不怎么耗资源,而且DS这个是“设定”好的大模型训练,就是已经限定了大模型的能力,这样减小了很多不必要的消耗。

2,Op­e­n­AI和An­t­r­o­p­ic这样的在训练新东西、新能力,走弯路的消耗量可能百倍千倍于最后那个正确路径。就好像看过几遍答案,水平很一般的学生也能在1小时内把高考数学卷整出满分,或者接近满分。一份试卷做过越多次,速度越快,搞不好30分钟就能满分…DS这个模型加入了很多“设定”因素,就是知道这样有效,有利于提高推理能力。

3,模型能力追求的是“通识能力”,为了能考个好成绩,该读的3年书谁也躲不过,现在算力和数据无非就是想卷这个时间缩短。大模型通识能力上限太高了,卷算力才刚开始,谁犹豫,谁质疑,谁掉队。

4,另外就是多模态和具身智能的接口。GPT-5难产有个很重要原因就是GPT-5要有开放机器人模态的潜在能力,就是能处理物理世界数据。这玩意儿也是全新的,超越了现在大模型的能力。”

还有就是胡延平的长微博《为什么 deepseek 的火爆不宜过高评价》

图片

但其敢于承受质疑的基础技术原理也自成逻辑。比如:
1.多头潜在注意力(MLA)
为了实现高效推理,DeepSeek V3采用了多头潜在注意力(MLA)机制,MLA通过低秩联合压缩注意力键和值,大幅减少了推理过程中的键值(KV)缓存,从而降低了缓存需求。
具体而言,MLA仅需缓存压缩后的潜在向量和解耦的旋转位置编码键,相比传统的多头注意力显著减少了显存占用。
图片
2.混合专家架构(Mixture of Experts, MoE)
DeepSeek V3的最大特点是采用了 MoE 架构。整个模型虽然包含 6710 亿参数,但每次仅激活约 370 亿参数,这得益于动态路由机制。
该机制采用了粒度更细的专家,并将部分专家隔离为共享专家,为了解决MoE模型中常见的负载不均衡问题,DeepSeek V3创新性地采用了无辅助损失负载均衡策略。
该策略通过为每个专家引入偏置项,动态调整专家选择概率从而在不影响模型性能的前提下,实现了专家负载均衡。
图片
不管最终事实及可复现度如何,deepseek 之问最大的价值是,为当下极高能耗、拼钱拼卡拼能源的大模型军备竞赛,提供了另一种可讨论的新路径。
类似的一个议题是,人工智能专家朱松纯提出的“鹦鹉学舌”向“乌鸦喝水”的大模型范式演进。
所谓“鹦鹉范式”指的是,当前普遍采用的基于大数据和深度学习的 AI 模型,这些模型能够进行简单的模仿和重复,但缺乏真正的理解和推理能力。
而“乌鸦范式”则是一种“小数据、大任务”的模式,强调自主推理和长期洞察,具有低功耗的特点,对数据与算力要求都相对更低,朱松纯认为其代表着人工智能未来的发展方向。
从这个角度上,DeepSeek V3虽然在训练成本和算力消耗上相对较低,但其训练过程仍然需要大量的GPU小时。
乐观者认为,通过蒸馏和优化,DeepSeek V3 在推理能力上实现了有效突破,证明 AI 不再只是语言模仿器,而是逐渐具备自主判断能力。另一方面,展示了算法优化和硬件适配对 AI 发展的巨大推动力。
从 MLA 到MoE,从推理效率到成本控制,它为开源 AI 模型树立了新标杆,更让我们看到了“乌鸦范式”的可能性。
你怎么看待 DeepSeek V3 的技术创新?欢迎在评论区留下你的观点!
 .END.

往期文章回顾