六大国产CPU龙头,谁能与国际大厂一战?

中央处理器(CPU),顾名思义,是底层硬件基础设施中的核心。
当前CPU主流芯片架构为Arm和x86,均为国外主导,国产化率较低。经过多年发展,国产CPU初步形成六大厂商齐头并进的格局,以鲲鹏、飞腾、龙芯、兆芯、海光、申威为代表,一批优质国产CPU企业快速崛起。
其中,龙芯中科、海光信息在2022年先后登陆科创板,海光信息自上市后一直是科创板市值最高的芯片半导体公司。截至2023年1月16日收盘时间,海光信息总市值967亿元,龙芯中科总市值为352亿元。
按指令集架构,国产CPU厂商采用的路线可分为四类:x86、Arm、MIPS、Alpha
图片▲从指令集架构看CPU市场格局
x86是当前PC及服务器市场的主流架构。海光信息、兆芯都采用x86架构IP内核授权模式,可基于公版CPU核进行优化或修改,优点是性能起点高、生态壁垒低,但由于依赖海外企业授权,自主可控风险偏高。
相较x86,走Arm路线自主化程度更高。华为鲲鹏、飞腾都获得了Armv8永久授权,可自行研发设计CPU内核和芯片,也可以扩充指令集。不过Arm将不再向这些国产CPU厂商提供Armv9的永久授权,因此采用Arm架构仍存长期隐患。
龙芯中科、申威分别走的是MIPS、Alpha路线,自主可控程度相对更高,但偏小众。
此外,与Arm、MIPS同源的RISC-V也正在兴起。因其相对精简的指令集架构(ISA)以及开源宽松的BSD协议近年来发展较快,国内阿里平头哥、国芯科技等企业推出了基于RISC-V架构的相关嵌入式CPU产品。
01.
华为鲲鹏:垂直生态的领导者,
国产服务器CPU黑马
华为自研芯片有五大类,包括服务器芯片鲲鹏系列、手机SoC芯片麒麟系列、人工智能芯片昇腾系列、5G基站芯片天罡系列、5G终端芯片巴龙系列等,以及凌霄芯片、NB-IoT芯片、视频编码解码芯片以及SSD控制芯片等一系列专用芯片。
图片▲华为芯片全景图
其中鲲鹏处理器基于Armv8指令集永久授权,自主研发设计处理器内核,兼容全球 Arm生态。华为围绕鲲鹏处理器打造了“算、存、传、管、智”五个子系统的芯片族,实现全场景处理器布局。当前其鲲鹏芯片族正沿着“量产一代、研发一代、规划一代”的策略持续升级产品。
2019年,华为发布鲲鹏920处理器。该芯片支持Armv8.2指令集,是行业内首款7nm数据中心Arm处理器。鲲鹏920由华为自主研发,采用多发射、乱序执行、优化分支预测等多种手段提升单核性能。
鲲鹏920拥有64个内核,集成8通道DDR4,可以提供多个接口,主频可达2.6GHz,总内存带宽最高可达1.5Tb/s,支持PCIe 4.0及CCIX接口,总带宽640Gbps。华为 Cache一致性总线(HCCS)的480Gbps片间互联支持最多4颗鲲鹏920互联和最高 256个物理核的NUMA架构,保证了鲲鹏920超强算力的高效输出。
图片▲鲲鹏920处理器关键特性
此外,鲲鹏920在Memory子系统上也进行了大量的优化,采用当前典型的3级Cache的架构,对Cache大小以及延时进行了优化设计。
非x86架构芯片中,鲲鹏920芯片在算力维度方面优势领先,且发展至今已经达到可以与x86芯片相匹配的性能。参照鲲鹏920不同核心下与竞品芯片的对比,其在48核时,整数打平英特尔旗舰级服务器芯片至强8180(28核、2.5GHz频率),功耗低20%;在64核心时,比过英特尔至强8180 33%左右。
图片▲鲲鹏920 SPECINT 2006横向对比
华为也在构建openEuler开源社区,高效推进处理器深度优化。openEuler开源社区以 Linux kernal、GNU等为上游社区,定期同步上游社区创新成果,并针对鲲鹏处理器进行深度优化,提供完整OS开发环境和上下游生态验证环境,使开发者和用户高效开展需求适配、生态集成和测试认证。
图片▲OpenEuler开源社区
鲲鹏计算产业生态不断扩大。鲲鹏计算产业是基于鲲鹏处理器构建的全栈IT基础设施、行业应用及服务,包括PC、服务器、存储、操作系统、中间件、虚拟化、数据库、云服务、行业应用以及咨询管理服务等。
图片▲鲲鹏计算产业首批厂家
该路线是华为提出的六大数字技术生态之一,除鲲鹏外还包括昇腾、HMS、鸿蒙、华为云、MDC(智能驾驶计算平台)。其中鲲鹏是华为面向政企市场,与地方政府和合作伙伴共同打造鲲鹏产业生态、构建具有国际竞争力的通用计算技术路线。
华为鲲鹏得到了地方政府的大力支持。2020年4月,成都市印发《关于加快培育发展鲲鹏产业工作方案的通知》,明确2025年成都鲲鹏产业规模超过500亿元,并成为全国领先的鲲鹏软件生态基地、鲲鹏硬件制造基地和鲲鹏应用示范基地,该案例为鲲鹏产业体系的推进提供了重要模板。
02.
飞腾:PKS生态体系主导者,
党政市场占有率高
另一家采用Arm架构的国产CPU玩家飞腾,由中国电子信息产业集团、天津市滨海新区政府和天津先进技术研究院于2014年联合成立。
2020年以来,飞腾对高性能服务器CPU、高效能桌面CPU、高端嵌入式CPU三条产业线进行了全面的品牌升级。
高性能服务器CPU产品线统一以飞腾腾云S系列进行命名,高性能桌面CPU产品线以飞腾腾锐D系列进行命名,高端嵌入式CPU产品线统一以飞腾腾珑E系列进行命名。
图片▲飞腾腾云S2500性能提升明显
其2020年发布的腾云系列新一代可扩展多路服务器芯片腾云S2500与FT 2000+相比性能大幅提升。在整机性能方面,双路的SPECint分值为原来的2倍,四路的SPECint 值为原来的3.5倍;在分布式数据库性能方面,双路服务器的tpmc值线性提升至原来的2倍,四路的tpmc值线性提升至原来的4倍;在云桌面支持方面,双路服务器支持虚拟机70个,是原来的2.5倍,四路服务器支持140个,是原来的5倍。
相比上一代产品FT-2000/4桌面处理器芯片,最新飞腾高效能桌面CPU腾锐D2000的性能大幅跃升,带宽达18.7GB/s,SPECint分值为97.45,SPECfp分值为94.62,接近原来的2倍,在计算能力上得到进一步提升,并兼顾桌面终端与边缘服务器。此外,腾锐D2000与FT-2000/4产品管脚兼容,用户可以实现现有系统的原位拔插代换、无缝兼容。此设计能够大幅降低产品研发成本,同时降低整机合作伙伴的开发难度,加快开发进度。
图片▲腾锐D2000与飞腾其他产品的性能对比
在生态建设方面,飞腾与1600余家国内软硬件厂商打造完整生态体系,与6大类 1000余种整机产品、2600余种软件和外设完成了适配;基于飞腾桌面CPU的终端已形成了较为完整的生态图谱,可覆盖从整机硬件、基础软件到上层的应用;基于飞腾桌面CPU的终端产品已能够实现海量安卓应用的运行,基于飞腾CPU的软件生态也在不断丰富和完善。
飞腾是PKS体系领导者。PKS体系最早由飞腾CPU(Phytium)和麒麟操作系统(Kylin)组成的“PK体系”发展而来。依托飞腾全新的硬件级安全机制,以相关可信技术为支撑,PK体系融合“S-Security”的立体防护安全链,升级为PKS体系,并全球首创将“可信计算3.0”技术融入到CPU、操作系统和存储控制器中,实现底层构架的本质安全,并成为国内首个计算机软硬件基础体系标准。
对比鲲鹏与飞腾的生态构建,可以发现,鲲鹏技术路线比PKS路线有较明显的技术和产品优势,PKS技术路线比鲲鹏技术路线有较明显的安全优势。
图片▲鲲鹏计算产业与PKS技术路线对照表
鲲鹏在硬件终端、云平台、人工智能、中间件等方面具有绝对优势,但在安全方面略逊一筹。PKS路线的一个显著特点是“注入安全”,即“PKS”体系中的“S”,将安全贯穿从CPU、OS底层到产品服务应用,一直到供应链安全保障的全过程,为信创工程提供内生安全、过程安全和供应链安全的全流程服务。
03.
海光信息:领跑国产服务器CPU,
科创板半导体股市值第一
海光信息成立于2014年,主营产品包括CPU和DPU(属于GPGPU),营收规模和增速都位居国产CPU企业的前排。
由于x86架构在服务器CPU的市占率超9成,海光信息CPU兼容x86指令集,使得其具备较高的应用兼容性、较低的迁移成本,有望受益于x86完备的生态体系。
该公司在2021年实现首次盈利,背靠中科曙光、AMD两家巨头。
国产高性能计算龙头企业中科曙光,是海光信息的第一大股东,也是海光信息的优质客户源。曙光服务器中应用海光产品的比例超过30%,为海光芯片的放量打下了深厚基础。
海光信息的x86授权来自全球第二大x86处理器供应商AMD公司。2016年,AMD和海光信息合资成立了成都海光微电子技术有限公司和成都海光集成电路设计有限公司,授权海光微电子x86指令集和Zen架构,AMD获得2.93亿美元的授权费。
海光集成电路购买海光微电子的IP授权,以此为基础开发CPU。海光集成电路与海光微电子的股权结构保证了公司在规避了英特尔的x86授权限制的同时,又使得海光x86 CPU成为内资公司开发的产品,满足了国家产业政策和创新的需求。
其产品基于AMD Zen1架构,产品性能起点较高。对比英特尔在2020年(与海光7285 同期)发布的6款至强铂金系列产品(能够反映英特尔2020年发布的主流CPU产品的性能),在典型场景下,海光7285已接近国际同类高端产品水平。
图片▲海光7285与英特尔至强铂金系列产品对比
海光CPU主要面向复杂逻辑计算、多任务调度等通用处理器应用场景需求,兼容国际主流x86处理器架构和技术路线,具有先进的工艺制程、优异的系统架构、丰富的软硬件生态等优势,并内置专用安全硬件,支持通用的可信计算标准,能够进行主动安全防御,最大程度避免安全漏洞和隐患,满足信息安全的发展需求。
图片▲海光CPU主要规格和特点
面向企业计算、云计算数据中心、大数据分析、人工智能、边缘计算等众多领域,海光信息提供了多种形态的处理器,满足互联网、电信、金融、交通、能源、中小企业等的广泛应用需求。
电信和金融是其产品应用最多的两个领域。基于前期电信、金融、互联网等行业对其产品的认可,海光信息在电信运营商集采、金融行业入围等方面市场份额增长较快,其产品在相关重点行业销量逐渐提升。
04.
兆芯:合资CPU的探路者,
掌握三大核心技术
兆芯于2013年由台湾威盛与隶属于上海市国资委的上海联和投资公司所合资成立,威盛持股20%,上海国资委持股80%,总部位于上海张江,在北京、西安、济南等地设有子公司。
威盛与英特尔交叉授权协议,拥有设计、生产x86芯片权利,技术授权来自威盛。2020年10月26日,威盛作价2.57亿美元将部分x86技术出售给兆芯,兆芯拥有了部分x86技术产权。
目前兆芯同时掌握中央处理器、图形处理器、芯片组三大核心技术,具备相关IP自主设计研发的能力,已成功研发并量产多款通用处理器产品,形成PC/嵌入式处理器“开先”、服务器处理器“开胜”、IO拓展芯片/芯片组三大产品系列,产品性能不断提升,达到国际主流同等水平。
其中,兆芯开先KX-6000系列处理器是国内率先实现主频3.0GHz关键突破的国产通用处理器。
图片▲兆芯产品体系与解决方案
兆芯通用处理器具备良好的操作系统和软硬件兼容性,生态体系成熟,支持构建台式机、笔记本、一体机、云终端等多种类型的桌面整机以及服务器、存储等产品。在嵌入式领域,也已经有不同规格基于兆芯通用处理器的工业主板、模块化电脑、工业整机、Box PC、工业级服务器、网络安全平台等产品陆续推出。
开先KX-6000/开胜KH-30000系列处理器是业内第一款完整集成CPU、GPU、芯片组的SoC单芯片国产通用处理器,这为整机系统的开发提供了较大的便利条件,同时也更利于控制成本。这两个系列处理器的单芯片性能相比上一代产品提升了多达50%,同频下性能功耗比则是上代产品的3倍。
图片▲兆芯产品系列
与英特尔处理器横向对比,8核心的KX-U6780A产品性能与第七代的4核心英特尔i5整体水平仍存在差距,尤其是单核性能不足7代i5一半,但整数性能方面对英特尔i5实现了反超。
图片▲兆芯KX-6000系列处理器横向对比
在产业链合作方面,兆芯积极协同产业合作伙伴,为政府、金融、教育、交通、能源、网络安全、医疗、通信等行业提供多样化的产品和解决方案,助力客户应用实现平滑迁移。目前,基于兆芯新一代处理器(KX-6000/KH-30000),已有20余款不同形态的桌面PC及服务器产品,30多种工业主板、工业电脑模块和嵌入式计算平台,以及30多种网络安全平台相继推出。
05.
龙芯中科:自主可控程度高,
主力CPU产品进入快速增长阶段
龙芯中科是中国科学院计算所自主研发的通用CPU,采用自主LoongISA指令系统,兼容MIPS指令,所有IP模块皆为自主设计,拥有片内安全机制、可信性高。
龙芯处理器以32位和64位单核及多核CPU/SoC为主,主要面向高端嵌入式、个人电脑、服务器和高性能机等应用。
2002年8月诞生的“龙芯一号”是我国首枚拥有自主知识产权的通用高性能微处理芯片。龙芯中科从2001年至今共开发了1号、2号、3号三个系列处理器和龙芯桥片系列,在政企、安全、金融、能源等应用场景得到了广泛应用。
其产品体系分为三大系列,龙芯1号系列为低功耗、低成本的专用嵌入式SoC或MCU 处理器,主要根据需求定制;龙芯2号系列为低功耗通用处理器,采用单芯片SoC设计,应用场景面向工业控制与终端等领域,定位可类比英特尔的凌动系列;龙芯3号系列为高性能通用处理器,通常集成4个及以上的64位高性能处理器核,与桥片配套使用,应用场景面向桌面和服务器等信息化领域,对标英特尔的酷睿/至强系列。
图片▲龙芯中科产品体系
龙芯中科自主研发的LoongArch,具有较强的扩展性和自主性。LoongArch包括基础架构部分和向量指令、虚拟化、二进制翻译等扩展部分近2000条指令,具有较好的扩展性。LoongArch指令系统从整个架构的顶层规划,到各部分的功能定义,再到每条指令的编码、名称、含义,都进行了自主设计,具有充分的自主可靠性。
此外,LoongArch充分考虑兼容需求,在定义时充分考虑了MIPS、x86、Arm、RISC-V等主要指令系统的特征,摒弃了传统指令系统中部分不适应当前软硬件设计技术发展趋势的陈旧内容,吸纳了近年来指令系统设计领域诸多先进的技术发展成果。
同原有兼容指令系统相比,LoongArch不仅在硬件方面更易于高性能、低功耗设计,而且在软件方面更易于编译优化和操作系统、虚拟机的开发。
图片▲LoongArch架构优势
基于自主指令系统(LoongArch)的3A5000/3B5000,是龙芯当前重点发展产品。
龙芯3A5000/3B5000是面向个人计算机、服务器等信息化领域的通用处理器,基于LoongArch的LA464微结构,进一步提升频率、降低功耗、优化性能;在与龙芯3A4000处理器保持引脚兼容的基础上,频率提升至2.5GHz,功耗降低30%以上,性能提升50%以上。龙芯3B5000在龙芯3A5000的基础上支持多路互连。
图片▲龙芯3A5000/3B5000产品参数
从龙芯3A5000在SPEC CPU 2006 BASE性能测试中的表现来看,龙芯3A5000单核定点为25.1分,单核浮点为26分,相比英特尔i5 9500六核14nm有不小差距,但单核定点与国产Armv8四核7nm处理器不相上下,单核浮点略优。龙芯3A5000对比国产 Armv8八核14nm处理器的单核定点则高出近10分,单核浮点则高出近1倍。
多线程测试中,英特尔i5 9500六核14nm处理器依然表现最佳,而龙芯3A5000的多核定点与多核浮点均高于国产Armv8四核7nm处理器,由于国产Armv8八核14nm处理器核心数量上具有一定的优势,因此定点和浮点的分数要高于龙芯3A5000和国产 Armv8四核7nm处理器。
龙芯3A5000在主流内存带宽测试程序Stream Copy的子项性能测试中表现出色,表现超过英特尔i5 9500六核14nm处理器。其Copy单线性能获得16864分,多线性能获得21873分。国产Armv8八核14nm处理器和国产Armv8四核7nm处理器分数相差不大,但整体表现比龙芯3A5000稍逊一筹。
龙芯秉承独立自主和开放合作的运营模式,从指令集/IP核授权、到芯片级/主板级开发以及系统内核应用等方面对生态伙伴进行全方位的开放支持。目前龙芯的信息化合作伙伴达到上千家,可以提供基于龙芯从端到云的完整解决方案,相关软硬件开发人员数万人。
龙芯开源社区是龙芯CPU的基础软件生态建设平台,由龙芯中科组织并联合产业链合作厂商、国际开源软件社区及开源爱好者共同参与建设。社区以“开源、开放”的形式进行管理,设置BIOS、Linux内核、GCC编译器、Java虚拟机、浏览器、媒体解码库、图形桌面、KVM虚拟机等重要基础软件项目。经过多年建设,信息化应用中的主流编程语言和开发环境已在龙芯平台上得到支持。
图片▲龙芯的开源社区建设
06.
申威:特种领域的领导者,
为“国之重器”中国超算供应大脑
成都申威成立于2016年,依托国家信息安全发展战略,主要从事对申威处理器的产业化推广。
申威处理器以Alpha指令集为基础进行拓展,高度自主可控。Alpha指令集由美国DEC公司研制,主要用于64位的RISC微处理器。DEC公司后被美国惠普收购,无锡江南计算所购买了Alpha指令集的所有设计资料。江南计算所基于原来的Alpha指令集,开发出了更多的自主知识产权的指令集,并研制了申威指令系统,推出了申威处理器。
申威处理器是在国家“核高基”重大专项支持下,由上海高性能集成电路中心研制的全国产处理器。首颗申威处理器代号“SW-1”,于2006年研制成功,基于DEC公司Alpha架构,采用130nm制程,主频为900MHz。
图片▲申威主要产品系列
出于安全性能以及知识产权角度,申威在研发出第一代基于Alpha指令集的CPU后,将指令集替换为自研的自主可控申威64位指令集,完全区别于原有Alpha指令集。
申威处理器专注于高性能计算,尤其是在服务器领域,浮点运算算力与同期外国处理器相当。申威SW26010是中国首个采用国产自研架构且性能强大的计算机芯片。
图片▲申威26010性能对比
申威26010处理器的峰值性能大于每秒12.5万万亿次浮点运算结果,峰值速度、持续性能、性能功耗比排在世界前列。
在2016年法兰克福世界超算大会上,国之重器“神威·太湖之光”搭载该处理器登顶国际TOP500超级计算机榜单之首,并成为全球首台峰值计算速度超过十亿亿次的超级计算机。随后,我国科研人员依托“神威·太湖之光”的应用成果首次荣获“戈登·贝尔”奖,实现了我国高性能计算应用成果在该奖项上零的突破。
申威8A芯片采用最新的第四代申威处理器核心(简称Core4)。Core4核心继续采用超标量流水线结构,支持乱序发射、乱序执行、推测执行,并首次采用SMT技术,支持每个核心同时运行两个线程。
相比上一代4核CPU申威421,申威831在功耗相当的前提下,性能提升2倍以上,下一代产品申威4E相比申威831性能再提升50%以上,与英特尔中端桌面处理器相当;申威下一代服务器产品威鑫8A与英特尔中端服务器处理器相当。
图片▲终端处理器性能对比(SPEC分值)
经过长期稳定的研发,基于系列申威芯片的各种产品也逐渐增多,在保障特种领域应用和国家战略任务的前提下,随着其产品技术的日益成熟,其生态也不断完善。
图片
经过多年发展,六大国产CPU主流玩家,各具优势,也各存短板。考虑到产品性能和生态优势,短期内海光信息、华为鲲鹏、飞腾在市场化道路上预计更为好走。但目前尚未见哪家在高自主化程度、高商用市场接受程度方面做到两全,国产化道路依然曲折漫长。在自主可控长期需求的驱动下,国产CPU龙头需更有定力,肩负起可持续的技术创新研发重任,才有能力参与到更长期的国际竞争中。
来源:国金证券、芯东西