欢迎关注下方公众号阿宝1990,本公众号专注于自动驾驶和智能座舱,每天给你一篇汽车干货,我们始于车,但不止于车。
在“后摩尔时代”,随着先进制程技术的升级速度逐渐减缓,并且进一步发展的边际成本不断攀升,先进封装技术正日益成为突破摩尔定律限制、推动半导体行业发展的关键途径。
2024年11月27日,由博闻创意会展主办的第八届中国系统级封装大会(SiP Conference China 2024)在苏州日航酒店成功举办。大会由芯和半导体副总裁仓巍主持,中国半导体行业协会副秘书长兼封测分会秘书长徐冬梅致辞,并汇聚了EDA、IP&DS平台、晶圆制造&封装、材料、测试设备和应用等环节下的众多半导体行业的专家和学者,就AI时代下的挑战和应对策略展开讨论,形成了一场“中国SiP生态圈”的聚会。
图 | 中国半导体行业协会副秘书长兼封测分会秘书长徐冬梅致辞;来源:与非网摄制
根据Yole公布的数据显示,2022年全球先进封装市场规模为367亿美元,预计到2026年将增长至522亿美元,期间的复合年增长率(CAGR)为9.2%。这一增长趋势表明先进封装市场正在迅速扩张,预计到2026年,先进封装将占据整体封装市场比重的54%,相较于2022年的45%有显著提升。
受到人工智能(AI)、高性能计算(HPC)以及高带宽存储器(HBM)等应用领域的驱动,在各类先进封装技术中,2.5D/3D封装技术增速尤为显著,预计从2022年到2026年的复合年增长率将达到13.4%。
徐冬梅指出,随着对异构集成、先进封装等技术日趋重视,越来越多的企业开始投入布局,与此同时,中国半导体行业协会封测分的会员单位同步增长至420多家。
集成系统创新,迎接AI时代挑战
在万物AI的时代,半导体行业正在经历第三次大演进,并在超级应用的推动下,向万亿美元规模狂奔。
我们该如何看待这个“万亿”规模?从历史的维度来看,从上世纪60年代开始,我们花了40年实现了第一个2000亿美元;实现第二个、第三个2000亿美元的增长分别用了17年和7年;而近年来,我们正在用5年的时间完成第四个、第五个2000亿美元的提升,可见这些超级应用驱动力的强大。
图 | 在超级应用的推动下,向万亿美元规模狂奔;来源:与非网摄制
关于超级应用的定义,仓巍解释道:“不同的细分市场对半导体市场增长的贡献体量不同,其中计算与数据存储、汽车电子带来的增量最为明显,分别占据了25%和20%的比率,原因是他们受到AI大模型的驱动力最强。”
而在生成式AI与大语言模型的发展中,用来训练AI大模型的数据量非常惊人,以GPT-4为例,其训练参数量达到了1800B,OpenAI团队使用了25000张A100,并花了90-100天的时间才完成了单次训练,总耗电在2.4亿度左右,成本约为6300万美元。
仓巍指出,在惊人数据量的背后还潜藏着AI对半导体行业的四大挑战,包括算力挑战、存力挑战、运力挑战和电力挑战。具体来讲,随着人工智能和高性能计算等技术的发展,对算力的需求正以前所未有的速度增长,然而算力的增长速度远远跟不上这种需求的增长,尤其是内存带宽的提升速度也落后于算力的提升,这限制了数据中心的整体计算能力。此外,数据中心的能源消耗问题也日益凸显,预计到2026年将大幅增加,对可持续发展构成了挑战。在这样的背景下,行业需要从算力、场地布局和能源效率等多个方面寻求突破,以应对这些挑战。
关于耗电量这个被认为是未来制约AI发展的主力因素,仓巍透露:“2022年,全球数据中心的用电量相当于法国一年的用电量,所以近期我们常听到一些数据中心的运营商在积极购买核电,比如亚马逊等。”
此外,我们看到,即使摩尔定律延续,单位面积内的晶体管数量保持在每18至24个月内翻一番的增长速度,仅凭这一发展已无法满足人类社会算力需求的爆发式增长。据IDC的统计,全球算力需求平均每3.5个月翻一倍。面对超大规模数据处理的需求,芯片行业发展的关键点已从晶体管密度转移至更为多元的性能增长点。其中,芯片架构的创新成为行业研发环节的重中之重。
仓巍给出了一组数据,当前采用传统架构下的芯片最多集成了2000亿颗晶体管,而采用Chiplet架构的芯片已经实现10000亿颗晶体管的集成。
事实上,Chiplet技术通过将不同功能的芯片模块(如CPU、GPU等)以先进封装的形式组合在一起,不仅能够提高大型芯片的良率,降低设计的复杂度和制造成本,还能满足多样化市场需求,尤其是对定制芯片的需求。这种技术的发展,被看作是后摩尔时代持续提高集成度和芯片算力的重要途径。预计到2024年,Chiplet的市场规模将达到58亿美元,到2035年超过570亿美元,将迎来快速增长。
当然,在异构集成方案下,我们还需要不断提升互联接口速率。以英伟达今年发布的Blackwell GPU为例,它就采用了Chiplet架构,集成了两颗最大尺寸的GPU Die,通过NVLink 5.0高速互连技术连接在一起,形成一个统一的GPU,还配置了192G HBM3e,以及高达8TB/s的内存带宽。
图 | 芯片公司向系统发展;来源:与非网摄制
此外,我们还看到英伟达通过NVLink互联,整合了Blackwell GPU、Grace CPU,形成了GB200超级芯片,再通过NVLink Switch将2颗GB200超级芯片和Bluefield NPU打通,形成板卡级的“超异构”加速计算平台;18个“超异构”加速计算平台又可以形成一个GB200 NVL72服务器机架;8个GB200 NVL72服务器机架加上1台QUANTUM INFINIBAND交换机又形成了一个GB200计算机柜。通过这样的级联方式,当前英伟达的AI工厂已经集成了32000颗GPU,13PB内存,58PB/s的带宽,AI算力达到645 exaFLOPS。
参考英伟达的案例,集成系统的规模化可以从垂直层面进行扩展,另一方面可以增加并行的节点来增加总体算力。而在这个集成过程中,高速、高频传输已经成为制约数据中心发展的关键要素。与此同时,Chiplet异构集成正在加入更多的功能,比如台积电将硅光技术融入芯片系统,接下来还会有传感等。
为了应对这些挑战,首先需要可靠的EDA平台来支撑。因此,我们看到越来越多的EDA厂商正在从从传统芯片EDA设计公司,转向系统设计的公司。以EDA三大家为例,他们都在通过收购和产品更新来增强自身实力,如Synopsys斥资350亿美元收购了Ansys,西门子EDA斥资106亿美元收购了Altair,Cadence斥资12.4亿美元收购了BET CAE。
图 | 芯和半导体正在构建系统级EDA平台;来源:与非网摄制
除了国外EDA市场有动作外,我们看到芯和半导体也在构建系统级EDA平台,通过端到端多物理场仿真EDA,赋能AI硬件系统设计。
AI芯片:CoWoS/HBM技术方向与未来展望
毫无疑问,今天AI领域最主要的企业是英伟达,而CoWoS和HBM是英伟达GPU最关键的两项技术。
据悉,英伟达的GPU,特别是其数据中心GPU,如P100、V100和A100,都采用了CoWoS技术,这些产品在TOP 500超算中占据了超过一半的算力。
图 | 台积电AI相关的营收表现;来源:与非网摄制
翊杰科技执行长兼总经理苏进成指出,CoWoS技术的大规模采用也同步驱动了台积电AI相关的营收表现,2024年CoWoS与晶圆测试带来的营收约为100亿美元,占其总营收的比例不到18%,但预计到2027年,该项营收将增长至近300亿美元,营收占比高达20%。
为了进一步展示CoWoS+HBM技术的特色和优势,苏进成还邀请了他的朋友作具体的技术介绍。
根据该嘉宾的介绍,存储墙(传输带宽慢或容量有限)是算力提升的重要瓶颈,从存储器到处理器,数据搬运会面临2个问题,分别为:数据搬运慢和搬运能耗大。
的确,在经典的冯诺依曼架构下,数据的存储和计算是分开的,处理器CPU和存储器之间通过数据总线进行数据交换,但由于处理器和存储器的内部结构、工艺和封装不同,二者的性能也存在很大的差别。从1980年开始,处理器和存储器的性能差距不断拉大,存储器的访问速度远远跟不上CPU的数据处理速度,这就在存储器和处理器之间行程了一道“存储墙”,严重制约了芯片的整体性能提升。
与此同时,由于处理器和存储器的分离,在处理数据的过程中,首先需要将数据从存储器通过总线搬运到处理器,处理完成后,再将数据搬运回存储器进行存储。数据在搬运过程中的能耗是浮点运算的4-1000倍。随着半导体工艺的进步,虽然总体功耗下降,但是数据搬运所占的功耗比越来越大。据研究显示,在7nm时代,访存功耗和通信功耗之和占据芯片总功耗的63%以上。
为此,业内提出了三个方向的解决方案,包括光互联和2D/3D堆叠等高速带宽数据通信、近存储运算,以及将存储器本身进行算法嵌入的存算一体。
其中,CoWoS作为一种先进的2.5D多芯片封装技术,它能够有效解决一系列以上提到的在高性能计算和集成电路领域中遇到的存储墙、系统性能和功耗问题,因此广受欢迎。
图 | CoWoS的种类、产品与产能;来源:与非网摄制
但CoWoS今天面临产能紧张和价格太高的问题,因此一方面台积电在努力扩产能,另一方面也在寻求降本,于是CoWoS也衍生出了三大种类,分别是CoWoS-S、CoWoS-R和CoWoS-L,其中英伟达前代的产品H100、H200,AMD MI300、英特尔Gaudi 2&3&Falcon Shores、谷歌TPU均采用了性能最高价格也最贵的CoWoS-S;而英伟达最新推出的Blackwell&robin则采用了有重新布线层(RDL)中介层的CoWoS-R;但有时候CoWoS-R不能满足复杂系统的集成,因此有的厂商采用了结合局部硅互连和RDL中介层的CoWoS-L,如AWS inferential、Trainium。
此外,从存储的角度,作为一种新型的CPU/GPU内存芯片,HBM从结构上拥有两大特点:
(1)3D堆叠结构并由TSV互连:HBM 由多颗DRAM die堆叠成3D结构,使用TSV技术实现信号的共享与分配;
(2)高I/O数量带来高位宽:HBM的每颗DRAM Die包含多个通道,可独立访问。每个通道又包含多个I/O口,位宽64/128bit,使 HBM的总位宽高达1024bit。
图 | TSV在HBM中的结构
2009年AMD与SK海力士开始研发探索HBM相关产品,并于2013年联合首发全球首款HBM。目前,HBM已经演进到了第五代,第六代HBM4量产在即。
在此基础上,苏进成分享了AI芯片/CoWoS产业生态结构及代表厂商,他指出:“美国在整个AI产业中占据优势,而中国也是全球AI芯片产业战列要冲。当前中国大陆厂商华为正快速崛起,市场需求量呈现出爆发式增长,根据华为内部和采购方渠道透露的信息,2023年华为算力GPU出货量约十万片,而2024年产能增加到几十万片,下单需求已经达到上百万片。”
图 | AI芯片/CoWoS产业生态结构及代表厂商
图 | 全球AI芯片产业战略要冲
FOPLP应用于AIHPC异构集成封装,从玻璃载体到玻璃基板
Marvell的创始人Sehat Sutardja教授在2015年的ISSCC上提出了Mochi架构的概念。这个想法最终发展成为现在广为人知的Chiplet技术。Mochi架构的核心思想是通过一种新的内连技术实现SoC的功能,降低研发与生产成本,并且加快上市时间。MoChi互连芯片是基于运行速度高达8Gbps甚至更快的ARM AXI链路,它可以保持很低的芯片到芯片时延,将多个芯片以菊花链的形式连在一起,并且可以实现紧凑型串行/解串器(micro-serdes)和低电压差分信号。
后来,AMD在这一领域取得了显著的进展,成为了Chiplet技术的最大影响者之一。AMD的技术和产品,特别是其Ryzen系列处理器,采用了全新的Zen架构,推动了Chiplet技术的发展和应用。随后,英特尔也开始投入到Chiplet技术的研发中,以应对AMD在性能和功耗方面的竞争压力。英特尔的技术进步相对缓慢,而AMD的持续技术创新和产品更新,使得AMD在性能和功耗方面的优势越来越明显,迫使英特尔需要更多的时间和资源来追赶。
伴随着Chiplet技术以及AI大芯片的快速发展,先进封装乘势而起,封装技术从二维转向三维,从最初的封装元件转向封装系统。
提到先进封装就不得不提到RDL(Redistribution Layer,重布线层),而RDL在大部分场景下的目的都是Fan Out (扇出),以实现更轻薄、更多的IO接口、更好的电性能。
图 | 全球扇出型封装市场规模,来源:Yole,亚智科技
根据Yole 2022年12月发布的数据显示,全球扇出型封装产值预计将在2028年达到38亿美元, 2022-2028年复合年增长率为12.5%。其中,FOPLP(扇出型板级封装)占据了整个扇出型封装市场约5-10%的市场,并且未来几年还将不断增长。
虽然,在扇出型封装技术中,FOWLP(扇出型晶圆级封装)依旧是主流,但未来随着芯片越做越大,比如英伟达的B200就有半个巴掌大,FOWLP小于85%的面积使用率就成了短板,单位晶圆可放置的芯片数量远小于FOPLP。因此,在产品面世时间和成本的多维度考量下,芯片设计和制造企业在封装技术的选择上,正在逐渐由FOWLP部分转向FOPLP。
对此,奕成科技VP &CTO方立志表示:“FOPLP相比FOWLP产出效率为4~6倍,成本相对降低;之前FOPLP用于低阶产品,而FOWLP用于高阶和低阶产品,自从台积电投入FOPLP应用于ALHPC之后,改变了现状;所以,未来的重点是FOPLP的工艺技术能力与 FOWLP 相同才具有竞争优势,换言之,只有高阶的FOPLP才有竞争力,低阶的FOPLP将是红海市场。”
图 | 由FOWLP部分转向FOPLP演进;来源:与非网摄制
不过当前,FOPLP的量产落地还面临四大挑战:芯片位移、细线路、翘曲和细间距。面对这些挑战,方立志介绍了当前的解决方案,在芯片位移方面,可以在设计时做补偿,并且不同的设计要搭配相对应精度的设备;在细线路方面,需要采用更高精度的光刻机实现更高精度的曝光,同时配套优化刻蚀以及材料的选择;在翘曲方面,需要结合仿真来做预补偿,在改善结构材料CTE的匹配度的同时,进行Dummy区设计以及增加翘曲工艺;在细间距方面,需要采用低震动的工艺,同时将Mass Reflow转向TCB。
FOPLP应用于AI HPC是大势所趋,当前市场头部的企业已经决定往 FOPLP 的技术开发,在其带领下越来越多的设备和材料供应商加入这一领域,FOPLP的生态系统将逐步完善。
图 | 奕成科技板级高密FOMCM平台批量量产;来源:与非网摄制
方立志透露:“业界正在利用板级技术将更多的芯片、元器件整合在FOPLP里,目前已经开始小量生产。奕成科技是国内第一家量产板级FOMCM用于高密信号互连AI HPC的产品。”
图 | FOPLP技术演化;来源:与非网摄制
“此外,Glass Substrate玻璃基板未来或可替代Fanout on Substrate,但在2-3年内大批量量产还需要业界共同的努力。因为目前玻璃基板工艺还面临四大挑战:TGV开孔形状和良率、玻璃上金属化、玻璃基板操作与切割,非对称结构翘曲。” 方立志补充道
方立志认为,板级工艺应用场景广,未来比晶圆级工艺更有前景。他呼吁更多的行业从业者参与,共同推动这一技术的落地。