客户端
游戏
无障碍

37

评论

54

77

手机看

微信扫一扫,随时随地看

理性看待,DeepSeek究竟处于一个什么水平?

AI划重点 · 全文约1060字,阅读需4分钟

1.DeepSeek AI推出了三个方向的大模型:DeepSeek V3、DeepSeek R1和DeepSeek Janus,分别对标GPT-4、OpenAI o1和多模态能力。

2.DeepSeek V3在推理成本远小于GPT-4的前提下,接近甚至在一些领域超越了GPT-4。

3.然而,DeepSeek R1在性能上毫不落于OpenAI o1下风,且具有完全开源和便宜的特点。

4.由于美国打压,DeepSeek采用穷鬼训练方法,使其在资源需求上具有平易近人特质。

5.尽管DeepSeek的模型并非世界顶尖,但其开源和便宜的特点使其在AI社区具有巨大威望。

以上内容由腾讯混元大模型生成,仅供参考

DeepSeek一共有三个方向的大模型:

❶DeepSeek V3对标的是GPT4o,代表的是大模型最根本的通用智能程度。

❷DeepSeek R1对标的OpenAI o1,这个是现在AI大模型领域最炙手可热的方向,代表了最尖端的研究储备。

❸DeepSeek Janus补的是多模态能力,因为是补,就是个添头,暂时不出彩。    

DeepSeek V3

V3论文链接:

https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdfgithub.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

榜单成绩,比GPT4o大多数情况都强(前两天Qwen2.5-Max榜单成绩超过了V3)    

图片

但重点是GPT4大概率是个超大规模的模型,而DeepSeekV3的模型大小仅为671B,并且采用了MoE结构,每次推理的激活函数只有37B。

这就意味着,V3在推理成本远小于GPT4o的前提下,接近甚至在一些领域超越了GPT4o,这才是V3最大的贡献。

DeepSeek R1

论文链接:    

https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdfgithub.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

R1是一个推理Reasoning模型,对标的OpenAI最引以为豪的OpenAI o系列推理模型,从性能上看,R1丝毫不落于o1下风。

图片

不过OpenAI手里还有o3这张牌,从刷榜成绩上看,R1比不过o3,但是差距有多大不好说,特别是o3的一些成绩都是在闭源榜单上刷的,很难比较。

但这个性能不是重点,重点有两个。    

1 开源

R1是完全开源的,意味着只要你有足够的设备,就可以自己部署一个,这就让OpenAI很难堪,自己引以为豪的用来赚钱的模型,别人是开源的,甚至免费给全世界人用。

这一点儿,R1的口碑世界第一。

2 便宜

中国的AI整体受到美国的打压,特别是训练用的显卡被禁售。

DeepSeek自创的FP8精度训练,说白了就是穷鬼训练方法,只有在显卡不足的时候才会考虑的方法,卡多的大厂根本不屑于考虑这种方法,算是被美国倒逼出来的创新。

也正在是卡不足的前提下,搞出来的创新自带一种特有的平易近人特质。

比动不动需要非常多卡的大模型的资源都需要的少。

这两点,几乎奠定了DeepSeek现在巨大的威望。

说实在的,DeepSeek的模型并不是世界顶尖,但这玩意原本的目的是就是跟阳光空气水一样的便宜且易获取,OpenAI彻底闭源搞得社区乌烟瘴气,DeepSeek就像个武功不算顶尖,但是乐于把自己不俗的死穴成才的武功心得分享出去的老哥。    

致敬老哥。



END

免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部