芯片老化问题到底有多严重?

(本文编译自Semiconductor Engineering)


没有什么是永恒的,但在半导体领域,产品往往在其生命周期结束之前就变得过时了。但随着新型节点的出现,情况已不再如此,这在汽车等安全至关重要的市场中引发了担忧。


完全了解芯片内部发生的情况行业仍在努力中,分析方法也在努力跟上这一步伐。在此之前,增加额外的裕量是唯一能保护自己的方法。


Cadence产品管理总监Dan Lee表示:“从历史上看,我们在设计方面非常保守。我们尽可能地进行分析,但到目前为止,我们还没有看到很多关于老化是导致故障原因的报道或报告。”


部分原因是缺乏良好的数据。西门子EDA Tessent高级工程总监NilanjanMukherjee表示:“静默数据错误损坏突然成为了一个热门话题。现在,当人们遇到故障部件时,他们必须将其退回制造商(RMA),他们必须进行诊断以确定故障原因。整个行业都一致认为,他们看到的故障大多与小延迟缺陷有关,这意味着有些缺陷导致电路中的某些路径超出时钟周期,从而导致故障。”


在完全理解之前,需要征收裕量税。“我们一直在考虑老化问题,但他们的做法是在静态时序分析(STA)中设置保护带,”新思科技高级产品经理 Manoz Palaparthi表示,“他们有幅度高达5%-10%的保护带。他们对整个设计进行降额,就像对设计中的所有单元征收统一税一样,然后将其用作适用于设计的任何老化影响的阈值。但现在的情况是,我们的客户希望能够减少这些保护带并改善PPA。”


理解故障


半导体老化的原因有很多。“有多个因素,例如热载流子禁令和偏置温度不稳定性(BTI),”新思科技的Palaparthi表示,“这些影响会因电压和温度以及所施加的应力条件而加速。应力还来自信号活动——占空比。所有这些因素都会加速设计的老化问题。”


虽然这些影响一直存在,但它们正被最新的技术节点放大。“我们正在研究非常小的特征,”Ansys高级首席应用工程师Kelly Morgan表示,“如果它们有任何变化,会对热可靠性和机械可靠性产生什么影响呢?如果我们稍微改变一些尺寸,再进行敏感性研究,从制造角度看,是否会出现一些问题,比如太薄或太厚,这会在某种程度上影响性能吗?”


这需要进行一些特殊类型的分析。“对于老化为题,就像热分析一样,你通常会考虑随时间变化的平均值,因此你不太担心小的峰值事件。”Ansys产品营销总监Marc Swinnen表示,“这更多关注的是长期活动和长期热图。由于老化与时间有关,因此不需要精确建模。它不像时序分析那样,单个事件就会导致时序失败。老化的情况并非如此。任何单一事件都不会产生太大的影响,它更多的是随时间变化的平均值。”


图片

图 1:用于预测老化的热感知统计电磁仿真。

(来源:Ansys


故障总是遵循传统的浴缸曲线。早期故障,即为时间t=0故障,通常在测试期间被发现,且看起来具有一定的随机性。但这些故障与老化或磨损故障不同。


“现场发生的故障大多都发生在早期生命周期,”Mukherje表示,“这些故障可分为两种不同类型的故障。一种是潜在缺陷,即我们在制造测试中没有对晶体管施加足够的压力。第二种是间歇性缺陷,即部件已在制造测试中进行了测试,但环境条件(例如电源轨上的电压下降和软件工作负载)无法模拟。这些是数据中心运行时存在的条件,而这些故障会在特定时间出现。如果改变工作负载,故障就不会出现。但如果运行相同的工作负载,故障就会出现。这些被称为间歇性缺陷。这种情况通常发生在前两周或一个月内,但六个月或一年后也可能会出现故障。这是因为晶体管老化,特别是由于工作负载导致的老化,因为工作负载已经连续数月运行。”


3D-IC影响


与3D-IC相关的一个问题是热量的产生以及如何消除它。“热学很有趣,因为许多电气特性和材料特性往往与温度有关,”Ansys的Morgan表示,“随着温度的升高,会影响电气特性,进而影响热量的产生,然后又回到热学。对这一循环有很好的理解可能会产生影响。”


老化与热量成正比。“问题在于,我们谈论的是一个复杂的结构,”Cadence的Lee表示,“虽然你可以应用诸如外推法之类的技术,也可以尝试将零碎的分析拼凑起来,但你面对的是一个高度复杂的问题,从技能角度来看,这个问题很难分析。方法和工具可能已经跟上了这一发展,也可能没有,但当你试图分析整个3D堆栈时,其规模实在是太大了。”


这需要重新考虑平面技术。“以前,设计师假设单个芯片上的热梯度分布是均匀的,”新思科技的Palaparthi表示,“但当两个芯片堆叠在一起时,这个假设就不再成立了。你会遇到截然不同的局部热效应。而且热分布变化的影响也会影响老化应力条件。导致器件老化的关键加速因素之一就是应力条件,包括工艺-电压-温度(PVT)方面、信号活动因素和占空比。作为PVT的一部分,如果你的温度对多芯片设计产生更大的影响,那么整个设计的老化就会加速。”


所有这些又增加了一层复杂性。“设计师还没有进行过真正的热分析和网格划分等,”Ansys的Swinnen表示,“他们使用功率密度作为温度的替代指标。传统的芯片工具可以计算功率密度,即每平方微米使用多少功率,他们使用功率密度作为温度的替代指标。他们认为更高的功率密度意味着更高的温度,并据此进行判断。”


关键问题领域


设计的某些部分可能更容易老化。“即使你拥有最先进的数字设计,也需要有一些模拟元件来维持电压或电源,”Lee表示,“这些模拟元件都相当庞大。对这些元件进行老化模拟非常常见,因为它们的电流消耗很大,会造成很大的压力。这是我们真正需要重点关注老化分析的地方,以确保尺寸设计合理,确保产品的使用寿命可以达五年而不是六个月。在任务关键型应用中,物理层(PHY)是另一个需要关注的领域。它们是混合信号设计,会始终承受很大的电应力,因此将老化分析重点放在这些方面非常有意义。”


时钟树可能会非常活跃。“人们希望了解时钟网络的老化情况,”Palaparthi表示,“时钟通常以3GHz或更高的频率运行。我的新时钟抖动情况如何?两年后的老化抖动是多少?我的不确定性有多大,占空比失真是什么样的?这些影响在设计中始终存在。与老化类似,客户会插入裕量来抵消这些影响。在高频设计中,人们希望量化和调整这些裕量。”


在线路方面,情况也越来越糟。“物理尺寸在按一定比例缩小,但电源电压却没有缩小,”Lee表示,“在采用更先进的技术时,你可以容忍互连中的小缺陷,但如今,即使是一个缺陷也会损害互连的容量。切换几个MOSFET栅极所需的电流或电荷量也没有缩小电源电压。关键是,‘对电流密度的需求,即流过横截面的电流量,正在增加。’我们已经接近一个难以支撑密度的临界点。”


人们开始担心其他几个领域,但目前还没有足够的数据来判断这些问题有多严重。虽然业界还没有听说过3D-IC集成电路存在问题,但目前还不清楚是否会公布这些问题。即将出现的晶体管变化、背面功率和时钟、翘曲、膨胀系数不匹配以及更薄的基板都在关注范围内。


进行分析


当前的标准做法是从晶圆代工厂获取预先表征的老化库。这些库表示器件在典型条件下会如何退化。“问题是它假设所有晶体管的老化都是一致的。但实际上,老化取决于温度和活动桩体,”Swinnen表示,“设计中活跃的部分会比很少激活的部分老化得更快,而设计中温度较高的部分会老化得更快。整个设计的老化并不均匀。如果一组晶体管变慢而其他晶体管没有变慢,这可能会导致建立和保持时间的问题。捕捉这一点一直是个问题,因为需要考虑随时间变化的平均活动状态,然后将不同的库分配给不同的单元。将所有元件同等老化并不是最坏的情况,这才是问题所在,而且这种方法有些过于乐观。”


根据所需的精度,行业提供了一系列的解决方案。Palaparthi列举了四种可能性:


  • 保护带:在整个设计中采用统一降额。这是一种简单的方法,但不够准确,因为它没有考虑局部效应。

  • 晶圆代工厂模型:这种方法使用晶圆代工厂提供的老化库。它可以包含工作负载、信号概率、活动因素、年龄和时间的规范。使用这些信息,可以在给定的机器配置下对所有单元进行老化处理,并对老化后的单元进行表征。

  • 增加灵敏度:您采用现有的晶圆代工厂老化库,并添加一个灵敏度库。你可以对标准单元的时序、延迟、斜率进行表征,并施加老化应力,并针对这些因素增强自定时行为。在时序分析期间,它会计算STA中的松弛偏移,并考虑老化效应。

  • SPICE 级别:在不同的PVT应力条件和模式下对器件进行激励,然后计算退化的程度。这是最准确的方法,但非常耗费资源。


通过提高精度水平,保护带可以从5%-10%的范围减少到2%左右。


大多数公司都会提供某种基于活动的敏感性分析,但这种分析形式可能会引入更多的老化因素,例如局部温度或其他形式的应力。


此外,还有一个新的转折点。“我们开始考虑局部布局效应(LLE)等影响,”Palaparthi表示,“晶圆代工厂正在增加对LLE的要求,即对当前单元附近布局的影响,以观察它如何影响开关或其他参数,如当前单元的延迟。”


处理错误


芯片行业正处于智能处理老化的早期阶段。智能处理老化不仅可以检测出老化何时会成为问题,还可以部署一些策略来确保即使设备部分退化也可以继续运行。


这一切在很大程度上都得益于内置监测器的使用。“有三件事需要做,”Mukherjee表示,“首先,我们必须确定监视器的放置位置。其次,如何跨路径共享这些监视器,以便最大限度地覆盖关键晶体管?第三,如何将数据传入和传出监视器?”


这些监测器可用于评估老化程度,并且数据还可反馈到控制系统,实现自适应电压或频率控制。设备可以减速运行,也可以提高电压,使系统恢复到工作范围。内


监视器还可用于确定发生故障的原因。“如果我可以在现场应用结构化、确定性模式,并确保我关注的是最关键的路径,那么我就可以开始进行相关性分析,”Mukherjee表示,“如今,当监视器显示某个部分发生故障时,它已经失效了。但你无法弄清楚它为什么会失效。一旦你有了结构化模式,它就可以为你提供这些信息。它可以提供更多的诊断信息。我可以了解设计的哪一部分或哪些逻辑锥更容易发生故障,而哪些锥不容易发生故障。现在我开始预测。我不需要等到路径发生故障。就可以预测它们距离故障还有多远。”


结论


老化可以对半导体性能产生巨大影响,在每一个百分点都至关重要的时代,老化是一个必须获得更好理解的问题。如果不采用正确的方法和工具,这种负担将随着每个节点而增加。业界正在努力解决这个问题,但没有人真正知道设计离边缘有多近,或者什么时候会达到那个临界点。虽然更详细的分析是不可避免的,但也有可能得不偿失。