硬核干货:失效率、失效模式以及影响分析,一文全看懂

在汽车电子领域,从自动驾驶的感知决策到动力系统的能量控制,从车载电源的稳定输出到底盘电子的精准响应,每一个环节的集成电路失效都可能引发车辆失控、功能瘫痪等安全风险 —— 这也使得功能安全成为汽车电子设计的 “生命线”。无论是面向电动化的 BMS(电池管理系统)、支持 L2 + 及以上自动驾驶的域控制器,还是保障整车供电的电源管理芯片,其设计都必须满足 ISO 26262 汽车功能安全标准的严苛要求,而集成电路的失效率、失效模式及诊断能力,正是决定系统能否达到 ASIL-B 至 ASIL-D 不同安全等级的核心前提。

集成电路的功能安全特性直接决定了系统能否满足 IEC 61508、ISO 13849 等标准的合规要求。下面我们通过三篇系列文章,系统拆解集成电路功能安全的关键技术要点,为系统集成商提供从基础理论到实践应用的完整指引。

第一部分:失效率

本文阐述了三种最常用的集成电路失效率可靠性预测方法,以及安全应用笔记如何提供此类失效率相关信息。

  • 失效率(基础失效率)的定义及相关可靠性预测技术

失效率,或称基础失效率,指单位时间内的故障次数,通常以故障数/十亿小时(FIT)为单位,即十亿小时内出现一次故障,该指标用于表征产品在使用寿命期内的预期故障概率。图1展示了电子元器件的可靠性浴盆曲线模型,该曲线可划分为三个阶段:早期失效阶段(又称早期损耗失效)、使用寿命阶段(又称恒定失效/随机失效)以及耗损失效阶段。因此,本文重点研究元器件使用寿命阶段的失效率。

图片图1为可靠性浴盆曲线示意图

掌握电子系统中各元器件的失效率,是开展可靠性预测、评估系统整体可靠性的关键前提。可靠性预测工作需明确可靠性模型、假设的故障模式、诊断间隔以及诊断覆盖率,其预测结果可作为各类可靠性建模技术的输入依据,例如故障模式与影响分析(FMEA)、可靠性框图分析(RBD)、故障树分析(FTA)等。在功能安全领域,针对安全相关系统(SRS)的随机硬件故障,需结合安全完整性等级(SIL)目标开展定量可靠性预测,这一要求源自基础功能安全标准IEC 61508 的第二部分。该部分明确了安全相关系统硬件层面的技术要求,下表列出了与安全相关系统危险故障概率对应的SIL等级目标。

图片

  • 如何开展系统可靠性预测

目前已有多款数据库可提供失效率数据,供系统集成商在系统设计阶段使用。常见的电子与非电子元器件失效率数据源包括:IEC技术报告 62380:2004、西门子标准 SN 29500、元器件平均故障前时间(MTTF)数据、现场退货数据及专家评估数据。

元器件平均故障前时间(MTTF)数据可通过的可靠性板块查询。在“可靠性数据与资源”栏目下,包含晶圆制造数据、封装/组装工艺数据、Arrhenius方程/FIT值计算器、百万失效率(PPM)计算器及可靠性手册。图2展示了各资源子栏目包含的具体内容。

图片

为帮助读者理解前三种半导体失效率数据源的差异——即基于阿仑尼乌斯高温工作寿命(HTOL)测试的元器件MTTF数据、西门子标准SN 29500、IEC技术报告62380:2004,下文将分别介绍各方法的技术原理及对应的数据库特点。

  • 什么是阿仑尼乌斯高温工作寿命(HTOL)测试?

高温工作寿命(HTOL)测试是JEDEC标准中定义的最常用加速寿命测试方法之一,用于评估元器件失效率。该测试的核心目的是通过高温环境模拟器件工作状态,实现加速老化,以此等效模拟器件在常温(通常为55°C)下长达数年的实际工作寿命。简言之,HTOL测试通过施加高温应力并维持器件工作电压,压缩时间尺度来模拟元器件的全生命周期,进而评估半导体器件的长期可靠性(如平均故障前时间MTTF)。

在可靠性计算的具体实践中,需将HTOL加速测试条件(125°C下测试1000小时或等效条件)下获取的数据,通过阿仑尼乌斯方程(激活能取值0.7电子伏特)换算为终端用户实际工作条件(55°C下工作10年)下的寿命数据。同时,基于HTOL测试的样品数量,采用卡方统计分布计算失效率数据的置信区间(通常取60%和90%)。

参数说明:

X2 — 卡方分布的逆函数,其数值取决于故障次数和置信区间

N — 参与HTOL测试的样品数量

H — HTOL测试时长

A*t — 基于阿仑尼乌斯方程计算的“测试-实际使用”条件加速因子

晶圆制造数据是器件官网提供的可靠性数据资源之一。点击进入该栏目,可查看产品的整体寿命测试数据汇总,包括总样品量、故障样品数、55°C等效器件工作小时数、基于HTOL数据的FIT值,以及60%和90%置信水平下的MTTF数据。图3为该数据的示例展示。

图片

功能安全领域通常要求70%的置信水平,因此可保守采用90%置信水平下的数据,或参考《如何调整可靠性预测的置信水平》一文中的方法进行置信区间转换。

  • 什么是西门子标准SN 29500?

西门子标准SN 29500是一款基于查表法的标准,由西门子公司主导制定,目前被广泛用作ISO 13849标准中可靠性预测的基础依据。依据该标准,可靠性预测通过失效率计算实现,其中失效率定义为:在特定环境与工作条件下,某一时间区间内元器件的平均预期故障比例。该标准被公认为确定元器件失效率的保守型方法。各类器件的参考FIT值主要基于对应元器件品类的现场退货数据确定。因此,其涵盖的故障类型包括应用场景中出现的所有故障形式,不仅限于前文HTOL测试所模拟的器件本征故障,还包括在HTOL受控实验室环境中不会发生的电过应力(EOS)故障。

公式2展示了SN 29500-2标准中集成电路失效率的计算方法。该标准首先定义了参考失效率,对应元器件在标准规定的参考条件下的故障概率;针对非参考工作条件的场景,标准同时提供了转换模型,可结合电压、温度、漂移灵敏度等应力条件计算实际失效率,具体如公式2所示。

图片

式中参数说明:

λref — 参考条件下的失效率,与晶体管数量呈正相关

πU — 电压影响因子

πT — 温度影响因子

πD— 漂移灵敏度因子

根据集成电路的类型差异,公式2的形式可灵活调整。例如,对于工作电压范围较宽的模拟集成电路,可直接使用公式2计算;对于其他工作电压固定的模拟集成电路,电压影响因子πU取值为1;对于数字CMOS-B系列器件,漂移灵敏度因子πD取值为1;其余类型集成电路的电压影响因子πU与漂移灵敏度因子πD均取值为1。 需注意,IEC 61709标准规定了可靠性预测在不同条件下的转换方法,该标准是西门子标准SN 29500的理论基础。

  • 什么是IEC技术报告62380:2004?

IEC 62380是另一款常用的集成电路失效率评估标准,发布于2004年,后被IEC 61709标准取代。尽管如此,该标准仍被纳入汽车功能安全标准ISO 26262:2018的第11部分,作为电子元器件可靠性预测的参考模型。 依据IEC 62380标准,集成电路的总失效率为芯片失效率、封装失效率与过应力失效率三者之和。IEC技术报告62380及ISO 26262-11:2018中规定的FIT值计算公式如公式3所示

图片

式中参数说明:

λdie — 芯片失效率,与晶体管数量、集成电路品类、制造工艺、任务剖面数据(如温度、工作时长、年循环影响因子)相关

λpackage — 封装失效率,与热因子、热膨胀系数、任务剖面温度循环因子、集成电路封装形式相关

λoverstress — 过应力失效率,包含针对不同外部接口的分项计算因子

  • 安全应用笔记中的失效率数据

元器件的可靠性预测数据可在集成电路安全应用笔记中查询——通常标注为“功能安全(FS)兼容”的器件均会提供该文档。例如,LTC2933芯片的安全应用笔记中,就展示了基于HTOL、SN 29500、IEC 62380三种可靠性预测方法得出的FIT值,具体数据分别见图4、图5、图6。

图片

图片

图片

上述图表在展示FIT值的同时,标注了计算过程中采用的各项条件。若系统集成商需针对不同工作条件计算FIT值,可参考图表下方提供的参数信息自行完成测算。

  • 结论

本文概述了三种最常用的集成电路可靠性预测技术:

阿仑尼乌斯高温工作寿命(HTOL)测试法、西门子标准SN 29500法和IEC技术报告62380法。

——基于HTOL测试数据与阿仑尼乌斯方程的计算方法,可直接得出以FIT为单位的失效率;

——西门子标准SN 29500提供了参考失效率及转换模型,可适配不同应力工作条件下的失效率计算;

——IEC 62380标准则将电子元器件总失效率拆解为芯片失效率、封装失效率与过应力失效率三部分,通过分项求和得到最终结果。

对于元器件,其失效率数据可通过官网或对应器件的安全应用笔记查询。安全应用笔记的优势在于,同步提供基于上述三种方法的可靠性预测结果,并公开FIT值的计算参数,方便系统集成商针对特定工作条件重新完成失效率测算。

第二部分:失效模式分布

失效模式、影响及诊断分析(FMEDA)是常用的安全分析工具之一,可依据诸如 IEC 61508 之类的功能安全标准要求,对安全相关系统的设计方案开展合规性评估。

  • 故障模式与影响分析(FMEA)的定义及应用

故障模式与影响分析(FMEA)是一种安全分析工具与方法,用于对系统或流程开展评估,明确其可能发生的各类故障形式。同时,该方法还会分析这些故障模式对系统/流程自身性能及周边环境造成的影响。FMEA通常以迭代方式开展,其分析结果可支撑相关决策制定,降低故障发生的概率及影响程度,进而帮助提升系统与流程的稳定性和可靠性。

图1展示了典型FMEA的构成要素,以及两种广为人知的衍生分析方法:故障模式、影响及致命度分析(FMECA)与故障模式、影响及诊断分析(FMEDA)。开展FMEA分析通常需基于以下信息:系统或流程的基本情况、待分析的功能模块、组成系统的各类元器件、各元器件的故障模式,以及故障产生的局部影响与全局影响等。

图片图1为FMEA及其衍生方法示意图

若在FMEA分析过程中,按照故障模式的重要程度进行优先级排序,该分析过程则被称为故障模式、影响及致命度分析(FMECA);若在FMEA分析中引入量化指标,用于衡量诊断功能的有效性,该分析过程则被称为故障模式、影响及诊断分析(FMEDA)。

在安全相关系统的设计工作中,FMEDA分析通常用于实现以下目标:

给出基于各类故障模式的器件级失效率数据;

量化评估自动诊断功能的有效性;

将定量可靠性分析结果用于指导设计决策;

论证最终设计方案相比其他备选方案更具优势;

证明硬件设计符合IEC 61508标准的要求。

  • 一则FMEDA分析实例

下表为依据IEC 60812:2018标准给出的FMEDA分析示例。尽管该示例内容并不完整,但清晰展示了电源电路核心部件的评估方法。该电源电路采用线性稳压器,为某器件提供内部供电电压。

图片

该FMEDA分析表给出了多种失效率数值,包括安全失效率(λₛ)、无影响失效率(λne)、危险可检测失效率(λdd) 以及危险不可检测失效率(λdu)——上述指标均是计算安全失效比例(SFF) 的关键参数。 安全失效比例(SFF)计算公式如下:

假设现有诊断功能对电阻R100短路故障的诊断覆盖率为60%,对集成电路IC18危险故障的诊断覆盖率为0%,经计算,该电源电路的安全失效比例(SFF)为76.94%。若此电源电路仅用于单通道系统,其安全完整性等级(SIL)最高仅能达到SIL 1级。

若通过优化设计,新增一项诊断功能以覆盖集成电路IC18的危险故障,且该诊断功能的诊断覆盖率达到99%,则IC18对应的危险不可检测失效率(λdu)将从7.5 FIT降至0.075 FIT,危险可检测失效率(λdd)将从0.006 FIT升至7.431 FIT;电路整体的危险不可检测失效率(λdu)将降至0.079 FIT,安全失效比例(SFF)将提升至99.76%。

每小时故障概率(PFH)计算公式:

图片

同时,电源电路的总危险不可检测失效率(λdu)需满足IEC 61508标准中关于危险故障概率的要求。降低安全相关系统(包括电源电路及其诊断模块)的总危险不可检测失效率(λdu),将对应降低危险故障的平均每小时发生频率,从而更易满足更高的安全完整性等级(SIL)要求。

值得注意的是,分析表中有三列数据会直接影响FMEDA的失效率计算结果,分别为元器件失效率、故障模式分布(FMD) 以及诊断覆盖率。其中,元器件失效率通常由元器件制造商提供,也可通过各类可靠性预测方法计算得出。

故障模式分布(FMD) 指的是元器件的总失效率在其各类故障模式中的分配比例,该数据通常同样由元器件制造商提供。

最后,诊断覆盖率是衡量诊断功能故障检测能力的指标,这也是系统集成商在设计过程中唯一可自主优化的因素——可通过新增诊断功能或采用更先进的诊断方案来提升该指标。

  • 加速系统FMEDA分析流程

本系列文章的第一部分提到,LTC2933芯片的安全应用笔记中提供了基于不同可靠性预测方法得出的基础失效率数据。如图2所示,该文档中同时还提供了可直接调用的故障模式分布(FMD)信息。借助集成电路的这些现成数据,可大幅加快系统级FMEDA分析的完成速度。此外,该安全应用笔记还明确了所假设的系统功能,以及该集成电路应用电路的具体设计方案。

图片

借助安全应用笔记,安全分析工作的准确性可得到显著提升。这些数据均直接来源于元器件制造商,相比“将元器件总失效率全部归入危险失效率”或“基于特定假设推导故障模式分布(FMD)”的做法,参考价值更高。

第三部分:引脚失效模式与影响分析

本文深入阐释了集成电路引脚失效模式与影响分析(FMEA)的重要意义,及其在满足 IEC 61508、ISO 13849 等功能安全标准要求过程中所发挥的作用。

本文是系列文章的最后一部分,旨在探讨半导体的安全应用笔记,如何为设计安全相关系统(SRS)的系统集成商提供技术安全分析所需的关键信息。第一部分阐述了此类应用笔记如何基于阿伦尼乌斯高温工作寿命(HTOL)、SN 29500 及 IEC 62380 标准,给出集成电路的失效率数据;第二部分则介绍了如何通过失效模式分布(FMD)捕捉各类相关失效模式。

本部分作为收官之作,将深入分析在设计安全相关系统时,集成电路引脚失效模式与影响分析的相关内容,同时说明半导体的安全应用笔记中如何提供此类引脚失效模式与影响分析信息。

  • 什么是引脚失效模式与影响分析?(Pin FMEA)

引脚失效模式与影响分析聚焦于集成电路封装的潜在失效模式,及其对系统功能造成的影响。该分析方法可与通过特定标准(如 IEC 62380)计算得出的封装失效率结合使用,进而确定集成电路的失效率分布情况,具体可参见图。

图片失效率分布示意图

基于上述分析,失效率分配可划分为安全失效、危险失效、无影响失效和无器件关联失效四类。此类失效率分类,是推导安全相关系统的安全失效分数(Safe Failure Fraction, SFF) 及危险失效概率的关键前提。

集成电路引脚失效模式与影响分析,是半导体安全应用笔记提供的另一项核心安全信息,能够助力系统集成商开展技术安全分析工作。图 2 展示了 LTC2933 芯片的引脚失效模式与影响分析内容,该数据可在其对应的安全应用笔记中查询。借助这类应用笔记,工程师能够明确引脚故障对系统造成的影响 —— 是引发设备损坏,还是仅导致运行异常。

图片LTC2933 集成电路引脚失效模式与影响分析

  • IEC 61508 标准有何规定?

基础功能安全标准的表 A.1 明确了两类失效的界定要求:一是在量化随机硬件失效影响时,需纳入考量的失效类型;二是在推导安全失效分数时,需重点分析的失效类型。值得注意的是,在采用直流故障模型时,需考虑以下失效模式:固定型故障、开路故障、输出开路或高阻态故障、信号线间短路故障,以及针对集成电路的任意两个连接点(引脚)间短路故障。

引脚失效模式与影响分析,涵盖了上述所有假定失效类型,具体包括:固定型故障(电源短路故障、接地短路故障)、开路或高阻态故障,以及任意两个相邻连接点间的短路故障(相邻引脚短路故障)。

  • 其他标准有何要求?

功能安全合规认证通常要求系统同时满足多项标准的规定。除 IEC 61508 标准外,设计安全相关系统的集成商,还需遵循其他适用标准。这些标准的适用依据可能包括国家法律、国家指令,或是行业特定、产品特定、应用特定的规范文件。通常情况下,各类标准都会划分规范性条款(强制要求) 和资料性条款(非强制要求) 两部分内容。

以 ISO 13849-2 标准的附录 D 为例,该部分属于资料性附录,明确了针对不同元器件需假定的失效类型。表 1 列出了面向可编程及复杂集成电路的假定失效类型;而对于非可编程或非复杂集成电路,则无需考虑表中所列的首项与末项假定失效类型。若系统集成商需自主开展集成电路失效模式分布的推导分析,可参考该附录内容。

图片可编程及复杂集成电路的故障类型

此外,集成商也可直接采用元器件制造商提供的现成数据,例如本系列文章之前提及的,半导体安全应用笔记中收录的相关内容。

印刷电路板(Printed Circuit Board, PCB)同样是技术安全分析的重要对象。ISO 13849-2:2012 标准针对印刷电路板,推荐了需考量的故障(失效模式)类型及可豁免的故障情形。该标准明确,若印刷电路板的设计满足特定要求(例如表 2 “备注” 栏中所列的设计规范),则允许豁免部分推荐的假定失效模式。

图片表 2 印刷电路板的故障类型

基于印刷电路板的上述假定失效类型(尤其是板载元器件的失效情形),系统集成商需掌握此类印刷电路板失效对集成电路运行产生的影响 —— 这类影响可能会危及系统的安全功能。

需要注意的是,两条相邻走线 / 焊盘间的短路故障,可能表现为多种形式:引脚与电源短路、引脚与接地短路,以及相邻引脚间短路。与此同时,走线开路故障则可能导致集成电路出现开路故障。半导体安全应用笔记中的引脚失效模式与影响分析,已全面涵盖上述所有失效情形,系统集成商可直接在功能安全型器件的官方网页中,便捷获取这些资料。

结语

本系列文章重点阐述了如何运用半导体安全应用笔记中蕴含的技术信息,其中前两部分分别介绍了失效率与失效模式分布的相关内容,本部分则结合 IEC 61508 与 ISO 13849 两项标准,深入探讨了引脚失效模式与影响分析。

此外,本系列文章旨在帮助读者了解半导体元器件(尤其是标记为功能安全型器件的产品)配套安全应用笔记的存在价值。这类功能安全型器件本质上仍属于标准集成电路,尽管其研发流程未完全遵循功能安全标准,但依然可应用于各类安全关键型场景。

翻译自ADI

作者声明:个人观点,仅供参考