1.DeepSeek AI推出了三个方向的大模型:DeepSeek V3、DeepSeek R1和DeepSeek Janus,分别对标GPT-4、OpenAI o1和多模态能力。
2.DeepSeek V3在推理成本远小于GPT-4的前提下,接近甚至在一些领域超越了GPT-4。
3.然而,DeepSeek R1在性能上毫不落于OpenAI o1下风,且具有完全开源和便宜的特点。
4.由于美国打压,DeepSeek采用穷鬼训练方法,使其在资源需求上具有平易近人特质。
5.尽管DeepSeek的模型并非世界顶尖,但其开源和便宜的特点使其在AI社区具有巨大威望。
以上内容由腾讯混元大模型生成,仅供参考
DeepSeek一共有三个方向的大模型:
❶DeepSeek V3对标的是GPT4o,代表的是大模型最根本的通用智能程度。
❷DeepSeek R1对标的OpenAI o1,这个是现在AI大模型领域最炙手可热的方向,代表了最尖端的研究储备。
❸DeepSeek Janus补的是多模态能力,因为是补,就是个添头,暂时不出彩。
DeepSeek V3
V3论文链接:
https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdfgithub.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
榜单成绩,比GPT4o大多数情况都强(前两天Qwen2.5-Max榜单成绩超过了V3)
但重点是GPT4大概率是个超大规模的模型,而DeepSeekV3的模型大小仅为671B,并且采用了MoE结构,每次推理的激活函数只有37B。
这就意味着,V3在推理成本远小于GPT4o的前提下,接近甚至在一些领域超越了GPT4o,这才是V3最大的贡献。
DeepSeek R1
论文链接:
https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdfgithub.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
R1是一个推理Reasoning模型,对标的OpenAI最引以为豪的OpenAI o系列推理模型,从性能上看,R1丝毫不落于o1下风。
不过OpenAI手里还有o3这张牌,从刷榜成绩上看,R1比不过o3,但是差距有多大不好说,特别是o3的一些成绩都是在闭源榜单上刷的,很难比较。
但这个性能不是重点,重点有两个。
1 开源
R1是完全开源的,意味着只要你有足够的设备,就可以自己部署一个,这就让OpenAI很难堪,自己引以为豪的用来赚钱的模型,别人是开源的,甚至免费给全世界人用。
这一点儿,R1的口碑世界第一。
2 便宜
中国的AI整体受到美国的打压,特别是训练用的显卡被禁售。
DeepSeek自创的FP8精度训练,说白了就是穷鬼训练方法,只有在显卡不足的时候才会考虑的方法,卡多的大厂根本不屑于考虑这种方法,算是被美国倒逼出来的创新。
也正在是卡不足的前提下,搞出来的创新自带一种特有的平易近人特质。
比动不动需要非常多卡的大模型的资源都需要的少。
这两点,几乎奠定了DeepSeek现在巨大的威望。
说实在的,DeepSeek的模型并不是世界顶尖,但这玩意原本的目的是就是跟阳光空气水一样的便宜且易获取,OpenAI彻底闭源搞得社区乌烟瘴气,DeepSeek就像个武功不算顶尖,但是乐于把自己不俗的死穴成才的武功心得分享出去的老哥。
致敬老哥。
END