DeepSeek都把硅谷给整懵了
短短一个月内,中国人工智能初创公司“DeepSeek(深度求索)“连续发布两款重量级模型——DeepSeek-V3、DeepSeek-R1,在全球AI领域掀起轩然大波。据AI评估网站ChatbotArena最新数据,1月20日开源的DeepSeek-R1在综合榜单上排名第三,与顶尖推理模型GPT-4o并列。更令人关注的是,在高难度提示词、代码和数学等技术领域,DeepSeek-R1更是力压群雄,登顶榜首。AI分析平台Artificial-Analysis的基准测试结果也显示,DeepSeek-R1的AI分析质量指数居全球第二,而API定价仅为GPT-4o的三十分之一。一系列数据立即引发硅谷震动,Scale AI创始人Alexander Wang在1月24日接受采访时坦言,DeepSeek的表现与美国最顶尖模型不相上下。在此背景下,刚刚宣布将投资650亿美元扩建数据中心的Meta也被卷入舆论中心。匿名职场社区teamblind传出消息:Meta内部工程师正在紧急分析DeepSeek的技术方案。整个硅谷之所以变得如此紧张,正是因为DeepSeek重新定义了大模型领域的一条规则:打造一流AI模型,未必需要天价投入。
DeepSeek成立于2023年7月17日,其根源可追溯至成立于2012年的对冲基金公司—幻方量化。该公司团队成员80%以上毕业于国内外顶尖高校,专注于量化投资领域,通过机器学习和高频交易策略管理约80亿美元资产。幻方量化及其重视技术研发,先后投资12亿元打造"萤火一号"和"萤火二号"深度学习平台,拥有超过1万张英伟达A100芯片的强大算力储备。这一雄厚的硬件基础为DeepSeek的研发提供了强有力支撑。幻方量化创始人梁文锋毕业于浙江大学信息与电子工程专业,在量化金融与机器学习领域深耕多年。他于2020年带领核心技术团队独立创办DeepSeek,专注AI大模型研发,并于2023年11月推出首款产品DeepSeekCoder,为后续技术创新奠定基础。与行业普遍"砸算力"的做法不同,DeepSeek没有盲目追求参数规模,而是专注于提升训练效率。DeepSeek团队采用稀疏的Mixtureof Experts(MoE)架构,仅激活5%~10%的专家网络单元,显著降低了计算资源消耗。同时,团队大胆采用FP8混合精度训练,进一步优化了显存占用和计算效率。这些技术创新让DeepSeek实现了低成本高性能的突破。说人话就是:DeepSeek的思路更加精打细算,就像把普通家用车改装成赛车,用更少的钱实现更好的表现。2024年12月26日,DeepSeek推出了拥有6710亿参数、14.8万亿高质量token的V3模型。相比之下,业内流传GPT-4o的模型参数约为2000亿(未经Open AI证实)。最关键的是,DeepSeek-V3仅以557.6万美元的训练成本和280万个GPU小时的计算需求,就达到了与顶尖模型媲美的性能。另外,DeepSeek-V3的API服务价格为每百万输入tokens 0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens 8元。这一价格远低于GPT-4o等头部模型。据统计,仅在2024年12月的最后6天,DeepSeek的访问量就暴增164%,达到1180万次。
2025年1月20日,DeepSeek再次发布DeepSeek-R1模型引爆科技圈,该模型的核心突破在于其独特的技术路径。根据DeepSeek最新发布的技术白皮书,R1-Zero采用了一种前所未有的"纯"强化学习方法,完全抛开了预设的思维链模板和监督式微调,仅依靠简单的奖惩信号来优化模型行为。在AIME数学竞赛中,R1-Zero从最初的15.6%正确率一路攀升至71.0%。更令人惊讶的是,当模型对同一问题进行多次尝试时,准确率更是达到了86.7%。在编程领域,模型在Codeforces评测中达到2441分的水平,超过了96.3%的人类参与者。除了上文所述通过MoE以及FP8混合进度训练外。DeepSeek-R1还遵循MIT License,允许用户通过蒸馏技术借助R1训练其他模型。如此一来,R1模型将大幅减少对人类反馈强化学习的依赖,进一步降低了成本。要知道,现有的人工智能公司在训练过程中,必须掌握大量算力储备,而算力的背后自然是资金支持。因此,行业投资者们纷纷惊醒,开始质疑传统AI公司高额投入的必要性。据Noah's Arc资本管理公司分析,DeepSeek的模型可能彻底改变AI训练和推理领域的游戏规则。特别是在OpenAI的"星际之门"计划公布5000亿美元投资预算的背景下,DeepSeek的低成本高效能更显示出其战略价值。
DeepSeek的成功正在催生AI产业发展模式的变化。根据中国信息通信研究院的白皮书,全球AI大语言模型数量已达1328个,其中36%来自中国,使中国成为仅次于美国的第二大AI技术贡献国。诺贝尔奖得主、"AI教父"杰弗里·辛顿在2025年1月接受采访时指出,中国在STEM教育方面的优势将为AI发展提供坚实基础。根据之前的行业预测显示,到2027年,最大型模型的训练成本将超过10亿美元。Gartner预计,到2028年主要科技巨头在AI服务器上的支出将达到5000亿美元。在这一背景下,DeepSeek的低成本方案引发了对传统发展路径的反思。同时,来自地缘、监管、资本等多方面的因素也正在给硅谷施加压力。加州大学伯克利分校AI政策研究员RitwikGupta认为,DeepSeek的成功表明"AI能力没有护城河",中国庞大的系统工程师人才库正在帮助企业更高效地利用计算资源。在DeepSeek-R1引发热议后,作为“AI石油”的英伟达股价于今年1月24日下跌3.12%。我们认为,如果低成本、高性能的开源模型成为主流,可能会扭转美国公司在AI领域的技术优势和估值体系。需要注意的是,在大模型领域逐渐封闭的背景下,DeepSeek选择了开源模型并公开技术报告的差异化路线。这一决策虽然赢得了开发者们的广泛赞誉,但是开源策略也意味着技术优势难以形成壁垒,竞争对手可以轻易复制其模式,这可能会削弱DeepSeek在未来商业竞争中的优势地位。另外,由于DeepSeek团队更偏重技术路线,其模型在数学、代码等特定领域表现突出,但在知识问答及长文本处理等多样化场景方面可能存在不足。不管怎样,DeepSeek让AI大模型产业看到了一个新的方向,这也是这两天AI行业的兴奋所在。