理性看待，DeepSeek究竟处于一个什么水平？

平凡AI

2025-01-31 19:38发布于中国香港英国诺桑比亚大学在读博士

+关注

AI划重点 · 全文约1060字，阅读需4分钟

1.DeepSeek AI推出了三个方向的大模型：DeepSeek V3、DeepSeek R1和DeepSeek Janus，分别对标GPT-4、OpenAI o1和多模态能力。

2.DeepSeek V3在推理成本远小于GPT-4的前提下，接近甚至在一些领域超越了GPT-4。

3.然而，DeepSeek R1在性能上毫不落于OpenAI o1下风，且具有完全开源和便宜的特点。

4.由于美国打压，DeepSeek采用穷鬼训练方法，使其在资源需求上具有平易近人特质。

5.尽管DeepSeek的模型并非世界顶尖，但其开源和便宜的特点使其在AI社区具有巨大威望。

以上内容由腾讯混元大模型生成，仅供参考

DeepSeek一共有三个方向的大模型：

❶DeepSeek V3对标的是GPT4o，代表的是大模型最根本的通用智能程度。

❷DeepSeek R1对标的OpenAI o1，这个是现在AI大模型领域最炙手可热的方向，代表了最尖端的研究储备。

❸DeepSeek Janus补的是多模态能力，因为是补，就是个添头，暂时不出彩。

DeepSeek V3

V3论文链接：

https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdfgithub.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

榜单成绩，比GPT4o大多数情况都强（前两天Qwen2.5-Max榜单成绩超过了V3）

但重点是GPT4大概率是个超大规模的模型，而DeepSeekV3的模型大小仅为671B，并且采用了MoE结构，每次推理的激活函数只有37B。

这就意味着，V3在推理成本远小于GPT4o的前提下，接近甚至在一些领域超越了GPT4o，这才是V3最大的贡献。

DeepSeek R1

论文链接：

https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdfgithub.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

R1是一个推理Reasoning模型，对标的OpenAI最引以为豪的OpenAI o系列推理模型，从性能上看，R1丝毫不落于o1下风。

不过OpenAI手里还有o3这张牌，从刷榜成绩上看，R1比不过o3，但是差距有多大不好说，特别是o3的一些成绩都是在闭源榜单上刷的，很难比较。

但这个性能不是重点，重点有两个。

1 开源

R1是完全开源的，意味着只要你有足够的设备，就可以自己部署一个，这就让OpenAI很难堪，自己引以为豪的用来赚钱的模型，别人是开源的，甚至免费给全世界人用。

这一点儿，R1的口碑世界第一。

2 便宜

中国的AI整体受到美国的打压，特别是训练用的显卡被禁售。

DeepSeek自创的FP8精度训练，说白了就是穷鬼训练方法，只有在显卡不足的时候才会考虑的方法，卡多的大厂根本不屑于考虑这种方法，算是被美国倒逼出来的创新。

也正在是卡不足的前提下，搞出来的创新自带一种特有的平易近人特质。

比动不动需要非常多卡的大模型的资源都需要的少。

这两点，几乎奠定了DeepSeek现在巨大的威望。

说实在的，DeepSeek的模型并不是世界顶尖，但这玩意原本的目的是就是跟阳光空气水一样的便宜且易获取，OpenAI彻底闭源搞得社区乌烟瘴气，DeepSeek就像个武功不算顶尖，但是乐于把自己不俗的死穴成才的武功心得分享出去的老哥。

致敬老哥。

END

免责声明：本内容来自腾讯平台创作者，不代表腾讯新闻或腾讯网的观点和立场。