DeepSeek激活“蛰伏军团”昇腾海光昆仑芯燧原展开效率革命拉锯战

图片

【摘要】2025年初,DeepSeek-R1开源大模型的发布掀起了一轮国产AI芯片产业变革,英伟达主导的“算力至上”秩序开始被撼动。

国内AI芯片厂商迎来一轮新机遇,但华为昇腾、昆仑芯、燧原科技、海光信息等纷纷完成模型适配。

新一轮行业分化却逐渐暴露:当头部厂商凭借技术积累与生态布局主导市场,中小玩家可能即将面临边缘化。

国产算力正从“实验室参数竞赛”转向“生态统治力之争”,马太效应下,未来十年的竞争边界正与此刻的场景落地速度密切相关。

以下为正文:

2025年1月20日,中国AI初创公司深度求索(以下简称DeepSeek)发布开源大模型DeepSeek-R1,短短7天用户量突破1亿,下载量超越ChatGPT的历史峰值。

大模型遍地走的年初,这场看似普通的技术发布,却引发了一场难以预料的资本市场海啸:1月27日,英伟达股价单日暴跌16.9%,市值一度蒸发6000亿美元。

DeepSeek-R1的颠覆性,参数规模(671B)还在其次,重点在于其用十分之一的算力成本实现了几乎对标GPT-4的性能。

“算力至上”的行业铁律在彼时悄然间裂了条缝——当算法效率的提升速度超过摩尔定律,依赖硬件堆砌的旧秩序似乎正在崩塌。

更深远的影响在于,这场“效率革命”真正意义上带动了AI大模型应用的浪潮,各行各业开始第一次真正体会到大模型的深度推理链路,而频繁弹出的“系统繁忙”字样,则催生了另一波国产风口。

此刻,距离DeepSeek-R1发布刚刚一月有余,但一个曾被英伟达阴影笼罩的市场,正在悄然切换至“国产替代”的快车道。

01

DeepSeek成了国产AI芯片的“催化剂”

从来没有一家大模型企业能够在最短时间内吸引最大规模的AI芯片厂商加入适配。

2月初,一半的国产智算力量已经投入其中。华为昇腾、海光信息、昆仑芯、燧原科技、沐曦、天数智芯、摩尔线程、壁仞科技、太初元碁、云天励飞10家国产AI芯片企业相继宣布适配或上架DeepSeek模型服务。

图片

为何AI芯片企业这次动作如此之快,其中一个原因是DeepSeek开源框架对硬件生态的强兼容性,芯片厂商能够从被动适配国际标准转向主动定义本土生态,这是各头部玩家能够快速展开身手的重要因素。

DeepsSeek的开源模块侧面证明了一个事实:国产企业有能力深入剖解英伟达CUDA和并行计算芯片的紧密耦合模式,后者是传统AI研究领域认为不可撼动的软硬件基础设施,是英伟达宽阔的护城河。

据Nextplatform报道,DeepSeek-R1在训练方面使用了约2000张英伟达H800GPU;在推理层面,DeepSeek-R1采用混合专家架构,推理时仅激活约10%的参数量,大幅降低了计算资源消耗。

当训练成本下降为行业巨头的十分之一,中小企业甚至个体的需求就被飞速激发了出来。

近一个月来,越来越多的公司利用AI技术来提升产品和服务,有效推动业务的数字化转型。

推理端需求则开始飞速增长,国产AI芯片正是在这一过程中迎来了大规模的市场机遇。

当前,市场普遍认为,一方面,训练成本大幅降低推动AI商业化进程加速落地,推理环节的算力需求得到增强;另一方面,有限算力亦可实现高性能模型的结果则有望带来现阶段国产算力的机遇。DeepSeek全面开源的策略以及极具性价比的API定价已经开始推动AI应用软件的快速迭代发展。

当进口硬件的依赖破除和下游市场的需求增长同时到来,此前那个万亿级别市场的故事才真正开始说得通。

02

谁是浪潮中的“急行军”?

理论来看,DeepSeek的爆发既然是算法革命的胜利,应该对中小AI芯片科技企业有更多的利好,但从实际情况上看,这场适配竞赛中,头部的华为昇腾、海光信息、昆仑芯、燧原科技等玩家反而正在凭借技术积累与生态布局先一步突围。

与之伴随的,是市场分化与垂直场景的争夺战。

举例而言,今年2月初,DeepSeek就与华为云携手,联合推出了基于华为云昇腾云服务的DeepSeek R1/V3推理服务。

按照宣传,这一服务的推出,得益于DeepSeek自研推理加速引擎的加持,使得在华为云昇腾云服务上部署的DeepSeek模型能够取得与全球高端GPU部署模型相当的效果。

紧接着的2月13日,华为宣布推出昇腾DeepSeek一体机,在提供强大算力、简化部署流程、降低运维成本、推动AI应用创新等方面具有足够的优势。

毕竟,华为的全栈能力是能够支撑起短期内构建起的护城河的。这一能力对于迅速构建起“硬件-框架-模型”全栈优化的效果至关重要。

除此之外,一个颇值得玩味的现实是:尽管当前推出的机器五花八门,但不少受限于本身的实力,是仅支持参数量较少的“蒸馏”模型的单机设备,或者是通过多机协同部署“满血版”的DeepSeek R1

通俗来讲,市场给了中小厂商露脸的机会,但大家实际一体验,却发现还是槽点满满。

这时候,能够支持满血版DeepSeek R1的单机设备显得尤为可贵。

而昆仑芯则在此时成为国内少有的、能支持单机部署满血版DeepSeek R1的芯片。

今年2月20日,昆仑芯科技宣布,其P800成为首款支持单机部署DeepSeekV3/R1671B满血版大模型的国产AI芯片,按照昆仑芯的官方信息,P800在配置上提供了8卡与16卡两种选择。

其中,单机8卡配置便可实现 2437 tokens/s 吞吐(处理数据快),在性能、功耗和部署灵活性上达到行业领先水平,满足轻量化与极致效价比需求。如果使用16卡版本,则最高能够实现每秒处理4825个token的吞吐量。

据公开资料,百度智能云已经推出搭载昆仑芯 P800的百舸、千帆一体机产品,能够达到单机高吞吐,数据处理速度快,可支持500人团队并发使用,推理延迟低,响应速度快,平均50毫秒以内,运维成本低,最高可降低80%,这使其价格成为了国内最低的方案。

另一边,同样作为国产算力领军企业,燧原科技目前已经完成对DeepSeek全量模型的高效适配,包括DeepSeek-R1/V3 671B原生模型、DeepSeek-R1-Distill-Qwen-1.5B/7B/14B/32B、DeepSeek R1-Distill-Llama-8B/70B等蒸馏模型。

值得一提的是,整个适配进程中,燧原AI加速卡的计算能力得到充分利用,能够快速处理海量数据,同时其稳定性和大规模部署能力成为区别于其他厂商的优势。

目前,DeepSeek的全量模型已在庆阳、无锡、成都等智算中心完成了数万卡的快速部署,这种超大规模集群的部署能力在当下其实不可或缺。

与之对应的是燧原的丰富生态,其已经与并济科技、并行科技、东华软件、道客网络、光环云、迈富时、清程极智、燧弘华创、未来速度、无问芯穹、向量栈、亿算智能、中科加禾等企业开始推进DeepSeek全量模型的更多系统级优化,进一步提升模型在推理系统的性价比。

按照此前消息,燧原科技还将与万物安全、飞渡科技、万物之宜等深度合作,推出面向“智慧城市、智慧园区、智慧交通”等AIoT场景的国内首个DeepSeek智算训推一体机,帮助用户解决国产化私有算力、超清数字孪生及物联网安全等问题。

另一边,此前一直在布局DCU(深度计算单元)的海光信息也已经成功完成并上线了DeepSeek V3和R1模型与海光DCU的适配。

得益于DCU采用的GPGPU通用加速计算架构,DeepSeek模型能够直接在DCU上运行,无需进行大规模的适配工作。

以大规模深度学习模型训练为例,使用海光 DCU 搭配 DeepSeek 新技术,在电力消耗和硬件采购成本上,相较于英伟达 GPU 有着明显的优势。而且,随着技术的不断优化,海光 DCU 的单位计算成本还在持续下降。

以往需要数周时间才能完成训练的大型模型,现在借助新技术,可能只需短短几天,这对于那些对时间成本极为敏感的科研项目和商业应用来说,具有极大的吸引力。

以上四家的关键,或是优质的全栈能力、或是优质的满血版支持能力、或是大规模集群能力又或是超前的技术布局和生态适配,但无论哪一种,其实都是头部玩家才能有的资源和积累。

一个事实已经在若隐若现,国产AI芯片内部的超车可能并不一定容易,生态整合与场景落地的协同效率可能正在推动新一轮“马太效应”的产生,强者或许更强。

03

正在分野的国产AI芯片

DeepSeek问世之前,从纸上参数到实战验证,市场其实已经给了一段不短的时间。

而这场突如其来的技术浪潮,反而成了一场针对AI芯片玩家的“压力测试”——唯有过去数年深耕芯片架构设计、工具链生态与场景适配能力的厂商,才能在新一轮风口中迅速抓住机遇。

将DeepSeek的适配竞赛比作国产芯片技术路线的“照妖镜”其实并不为过。

以华为昇腾为例,其自研达芬奇架构与CANN异构计算框架,早在前几年便通过MindSpore社区积累了大量开发者生态。这也是其迅速完成DeepSeek全系列模型部署的关键基础。

相比之下,部分还在依赖第三方IP授权的厂商,短期内还缺乏自主工具链优化能力,而如果只能拿出一个参数量压缩后的蒸馏模型,很快便会难以服众。

昆仑芯也正是抢先一步抓住“满血版”布局这一关键要素,才能在资本市场冷静之后持续体现价值。

正是得益于昆仑芯成本优势,在私有化部署方面,百度智能云已经推出搭载昆仑芯 P800的百舸、千帆一体机产品,可支持在单机环境下一键部署DeepSeek R1/V3全系列模型。

满血版背后,则是昆仑芯P800万卡集群成功点亮,且将进一步点亮3万卡集群。

数据指标上看,昆仑芯P800在性能上表现卓越。其显存规格比同类主流GPU高出20%-50%,对MoE架构更为友好,并且率先支持8bit推理,单机8卡就能运行671B模型。

这使得昆仑芯在部署上更加轻松,运行成本显著降低,还能轻松完成DeepSeek-V3/R1全版本推理任务。不仅如此,昆仑芯P800在DeepSeek系列MoE模型大规模训练任务中也表现出色,全面支持MLA、多专家并行等特性,仅需32台即可支持模型全参训练,高效助力模型的持续训练和微调。

与此同时,燧原科技在国内大规模点亮的万卡集群,则是中小厂商难以在短期内“补作业”式赶上的壁垒。

基于此,这场分化背后,实际是生态整合速度与场景落地实力的终极比拼。

一个残酷的产业逻辑是:技术积累的厚度,决定了市场卡位的速度,而生态整合的深度,正在划定未来十年的竞争边界。

马太效应的齿轮开始转动,国产AI芯片的终极战场,已从实验室的参数竞赛,转向真实世界的生态统治力之争。

04

尾声

2025年的DeepSeek,实际提前揭开了国产AI芯片蛰伏多年的技术底牌。

对外而言,这场由算法效率掀起的风暴,确实在一定程度上改写了算力至上的行业叙事。

但对内而言,单纯的国产替代之外,一场从硬件架构到生态话语权的系统革命正在引发新一轮头部效应。

一个更残酷的真理很快被摆上台面:在半导体这场马拉松中,没有弯道超车的童话,只有厚积薄发的必然。

站在算力革命的分水岭回望,英伟达单日市值蒸发6000亿美元的震荡,不过是一个太小的插曲,真正的终局之战,已经在各家抢先布局的架构能力、万卡集群中写好了结果。