DeepSeek rushes to launch new AI model as China goes all in
作者:爱德华多·巴普蒂斯塔、朱莉·朱、范妮·波金
2025年2月26日 格林尼治标准时间+8 上午8:30 30分钟前更新
此插图拍摄于2025年1月27日,图中可见DeepSeek公司的标志。路透社/达多·鲁维奇/插图/资料图片
内容摘要
消息人士称,DeepSeek公司可能在5月前发布下一代R2模型
这家初创公司摒弃了典型的中国科技巨头企业文化,以扁平化的层级结构而闻名
中国在最初对其大规模芯片采购存在监管担忧后,开始接纳DeepSeek公司
在全球对其隐私保护做法存在担忧的情况下,该公司被要求保持低调
北京/香港/新加坡,2月25日(路透社)——DeepSeek公司正试图巩固其优势。
这家中国初创公司上个月凭借一款价格低廉的人工智能推理模型,引发了全球股市超过1万亿美元的抛售潮,该模型的表现优于许多西方竞争对手。
据三位了解该公司情况的人士透露,目前,这家总部位于杭州的公司正在加快推出1月份发布的R1模型的继任者。
其中两人表示,DeepSeek公司原计划在5月初发布R2模型,但现在希望能尽早推出,不过他们没有提供具体细节。
该公司表示,希望新模型在编码方面表现更出色,并且能够处理英语以外的其他语言进行推理。R2模型加速发布的具体时间安排细节此前尚未有过报道。
DeepSeek公司没有回应就此事置评的请求。
竞争对手们仍在消化R1模型带来的影响,R1模型是用性能没那么强大的英伟达芯片构建的,但却能与美国科技巨头们耗费数千亿美元研发的模型相抗衡。
印度科技服务提供商zensar的首席运营官维贾亚西姆哈·阿利卢加塔表示:“DeepSeek公司R2模型的推出可能是人工智能行业的一个关键时刻。”他说,DeepSeek公司在开发具有成本效益的人工智能模型方面取得的成功“可能会促使全球各地的公司加快自身的研发努力……打破该领域少数几家占主导地位的公司的垄断局面”。
R2模型很可能会让美国政府感到担忧,美国政府已将在人工智能领域占据领先地位确定为国家优先事项。它的发布可能会进一步激励中国政府部门和企业,数十家中国企业表示,他们已开始将DeepSeek公司的模型整合到自己的产品中。
人们对DeepSeek公司知之甚少,其创始人梁文锋通过他的量化对冲基金幻方成为了亿万富翁。梁文锋被他的前雇主描述为“低调且内向”,自2024年7月以来,他从未接受过任何媒体的采访。
路透社采访了十几位该公司的前员工,以及熟悉DeepSeek公司及其母公司幻方运营情况的量化基金专业人士。路透社还查阅了官方媒体的文章、这两家公司在社交媒体上发布的帖子以及可追溯至2019年的研究论文。
他们讲述了一家更像是研究实验室而非营利性企业的公司的故事,这家公司不受中国高压科技行业等级制度传统的束缚,尽管它被许多投资者视为在人工智能领域取得了最新突破。
不走寻常路
梁文锋1985年出生于中国南方广东省的一个农村。后来,他在顶尖学府浙江大学获得了通信工程学位。
他的第一份工作之一是在上海的一家智能成像公司管理一个研究部门。他当时的老板周超恩在2月9日对官方媒体表示,梁文锋曾聘请了获奖的算法工程师,并且采用“扁平化管理风格”。
在DeepSeek公司和幻方,梁文锋同样摒弃了中国科技巨头们的做法,这些科技巨头以严格的自上而下的管理模式、给年轻员工的低薪资以及“996”工作制(每周工作六天,每天从上午9点工作到晚上9点)而闻名。
梁文锋把北京办公室设在了离中国两所最负盛名的学府——北京大学和清华大学步行可达的地方。据两位前员工称,他经常深入研究技术细节,并且乐于与构成公司大部分员工的Z世代实习生和应届毕业生一起工作。他们还表示,通常在协作的氛围中每天工作八小时。
“梁总给予我们自主权,把我们当作专家看待。他不断提出问题,和我们一起学习。”26岁的研究员本杰明·刘说道,他于去年9月离开了该公司。“DeepSeek公司让我能够主导开发流程中的关键部分,这非常令人兴奋。”
梁文锋没有回复通过DeepSeek公司转达的问题。
2023年,当百度和其他中国科技巨头竞相开发面向消费者的类似ChatGPT的产品,并从全球人工智能热潮中获利时,梁文锋去年对中国媒体“浪潮”表示,他刻意避免在应用程序开发上投入大量资金,而是专注于提升人工智能模型的质量。
据三位熟悉其薪酬体系的人士透露,DeepSeek公司和幻方都以高薪著称。一位了解梁文锋的竞争对手量化基金经理称,在幻方,一名资深数据科学家年薪达到150万元人民币并不罕见,而竞争对手给的薪资很少超过80万元。
这种慷慨的薪资由幻方提供资金支持。据两位业内人士透露,幻方已成为中国最成功的量化基金之一,即使在政府对该行业进行整顿之后,其管理的资金规模仍达数百亿元人民币。
计算能力
三位知情人士表示,DeepSeek公司低成本人工智能模型的成功,基于幻方在过去十年中对研究和计算能力的大量投入。
这家量化基金是人工智能交易领域的早期先驱,一位高管在2020年表示,幻方将把70%的收入重新投入到人工智能领域,主要用于人工智能研究,可谓是“全力投入”。
2020年和2021年,幻方斥资12亿元人民币打造了两个超级计算人工智能集群。第二个集群“火毅二号”由大约10000块英伟达A100芯片组成,用于训练人工智能模型。
一位直接了解监管官员想法的人士称,当时DeepSeek公司尚未成立,因此这种计算能力的积累引起了中国证券监管机构的关注。
“监管机构想知道他们为什么需要这么多芯片?”这位人士说,“他们打算如何使用这些芯片?这会对市场产生什么样的影响?”
事实证明,当局决定不进行干预,这一举措对DeepSeek公司的命运至关重要:美国在2022年禁止向中国出口A100芯片,而那时“火毅二号”已经投入使用。
据一位熟悉中国官方想法的人士透露,北京现在对DeepSeek公司表示认可,但已指示该公司未经批准不得与媒体接触。
这位人士表示,当局要求梁文锋保持低调,因为他们担心媒体过度炒作会引起不必要的关注。
中国国务院、商务部以及中国证券监管机构均未回复置评请求。
两位前员工称,作为拥有大型A100芯片集群的少数公司之一,幻方和DeepSeek公司得以吸引了一些中国最优秀的研究人才。
“庞大(计算)资源的关键优势在于,它能够支持大规模的实验。”前员工刘先生说。
一些西方人工智能领域的企业家,比如Scale AI公司的首席执行官亚历山大·王,声称DeepSeek公司拥有多达50000块被禁止出口到中国的高端英伟达芯片。他没有为这一指控提供证据,也没有回复路透社要求其提供证据的请求。
DeepSeek公司没有回应亚历山大·王的说法。两位前员工将公司的成功归因于梁文锋对更具成本效益的人工智能架构的专注。
该公司的研究论文显示,这家初创公司采用了诸如专家混合(MoE)和多头潜在注意力(MLA)等技术,这些技术大大降低了计算成本。
专家混合技术将人工智能模型划分为不同的专业领域,并且只激活与查询相关的部分,这与更常见的使用整个模型的架构不同。
多头潜在注意力架构使模型能够同时处理一条信息的不同方面,帮助它更有效地检测关键细节。
虽然像法国的米斯特拉尔公司(Mistral)等竞争对手也开发了基于专家混合技术的模型,但DeepSeek公司是第一家在严重依赖这种架构的同时,实现与成本更高的模型相媲美的公司。
伯恩斯坦经纪公司的分析师在2月初估计,DeepSeek公司模型的定价,比OpenAI同等模型的定价低20到40倍。
目前,西方和中国的科技巨头都已表明计划继续在人工智能领域大力投入,但DeepSeek公司R1模型及其早期的V3模型的成功,已促使一些公司改变了策略。
OpenAI本月降低了价格,而谷歌的Gemini模型推出了折扣访问层级。自R1模型推出以来,OpenAI还发布了一款对计算能力要求较低的O3-Mini模型。
美国科技服务提供商UST的阿德南·马苏德告诉路透社,他的实验室进行的基准测试发现,在推理方面,R1模型使用的“令牌”(即人工智能模型处理的数据单元)数量,往往是OpenAI缩小版模型的三倍。
国家支持
甚至在R1模型引起全球关注之前,就有迹象表明DeepSeek公司已获得北京的青睐。今年1月,官方媒体报道称,梁文锋作为人工智能行业的指定代表,在北京参加了与中国国务院总理的会面,排在一些更知名公司的领导人之前。
随后,该公司模型在成本竞争力方面引发的热潮,增强了北京方面的信心,即中国可以在创新方面超越美国,中国的企业和政府机构正以其他公司未曾有过的速度接纳DeepSeek公司的模型。
至少有13个中国城市政府和10家国有能源公司表示,他们已将DeepSeek公司的模型部署到各自的系统中,而科技巨头联想(0992.HK)、百度(9888.HK)和腾讯(0700.HK,旗下拥有中国最大的社交媒体应用微信),已将DeepSeek公司的模型整合到自己的产品中。
新加坡李光耀公共政策学院的中国政策制定专家阿尔弗雷德·吴表示:“中国领导人已表明他们支持DeepSeek公司。现在大家都认可它。”
在中国对DeepSeek公司表示支持之际,从韩国到意大利的一些国家政府以隐私问题为由,将DeepSeek公司的应用从本国应用商店中下架。
人工智能专家、对冲基金迦太基资本的创始人斯蒂芬·吴表示:“如果DeepSeek公司的模型成为中国国有实体广泛使用的人工智能模型,西方监管机构可能会将此视为进一步加强对人工智能芯片或软件合作限制的又一个理由。”
梁文锋已经认识到,对先进人工智能芯片的进一步限制是一个挑战。
“我们的问题从来都不是资金。”他在7月对Waves表示,“而是对高端芯片的禁运。”
塞缪尔·沈、顾莉、拉里萨·廖、阿迪蒂亚·索尼及上海新闻编辑室补充报道;布伦达·吴和卡特琳娜·昂编辑