【原创佳文】故障树分析(FTA)方法综述
点击标题下方翼知堂,关注更多精华知识
故障树分析,作为一种非常传统的工具,从1960年代被创造出来,经过了岁月的洗礼,经久不衰,在现代的安全性分析工作中,仍发挥着重要的作用。今天Dr. RAMS以故障树分析基本知识和方法论为起点,回归故障树的建树本源和基本原则,如基本概念失效机制、失效模式、失效影响的差异;主要的、次要的和指令的组件失效模式分类原则;建树时使用I-N-S, SS-SC和P-S-C原则;最小割集定义和分析等。这些基本理论为应用好故障树分析这个传统的安全性分析工具打下坚实的基础。。
故障树分析简介
故障树分析(Fault Tree Analysis,简称FTA)是一种具有推理性(deductive)的或福尔摩斯(Sherlock Holmes)式的系统安全性评估技术。FTA最主要也是最重要的目的是通过关注某个特定的不期望发生事件,自上而下逐级进行推理分析,建立逻辑因果关系图模型,进而对导致不期望发生事件的产生根源,各根源之间的关系以及发生概率等作定性或定量的系统分析。可以说,FTA模型是从故障的角度,对系统设计的一种映射。
在系统分析中FTA通常有两类应用。最常见的一类用于设计评估,即主动式FTA(proactive FTA),通过预测和预防未来可能出现的问题来影响系统设计,其在系统研发阶段进行。另一类应用是事故调查,即被动式FTA(reactive FTA),通常在事故或灾难已经发生后进行。这两类应用在方法上没有任何区别,除了被动式FTA使用灾难证据以及证据事件门。
FTA在设计决策中发挥重要作用,主要有根源分析,风险评估和设计评估。
作为系统分析工具,FTA提供了对复杂系统和系统之间关系的评估,图像化模型和概率模型。
作为系统评估工具,FTA主要是针对安全性,可靠性和系统性能进行评估。
作为系统安全性分析工具,FTA分析关系到确保识别和控制系统/设备完成其预期的安全性功能。通过定性和定量的评估,其主要作用具体包括:
便于技术/审定当局的评估和评审。
评估设计更改对安全性的影响。
量化顶事件的发生概率。
向低一层级事件分配概率预算。
同时提供定性和定量的评估,将研发错误对不期望事件的贡献作可视化的展现。
评估单个和多个故障影响。
评估暴露时间间隔,潜伏时间,以及“处于风险中”的时间间隔对系统的综合影响。
将可能的共因边界作可视化的展示。
评估共因故障源。
评估失效-安全特性(容错和容差)。
历史
1961-1962年,美国贝尔实验室的H.Watson和Allison B. Mearns开发了故障树分析技术,并首次在民兵制导系统中应用。
之后,波音公司的DaveHaals认识到FTA的强大功能并将其应用到整个民兵武器系统的定量安全分析中。
商用航空工业和核工业在认识到该技术作为分析工具的强大作用以及成功后,也开始应用于各工程领域的安全性评估工作。随着不断的实践应用和计算机技术的发展,FTA已逐步形成了一套完整的理论、方法和应用分析程序,并且得到不断的改进。
可以说FTA已经成为当今系统安全性评估中最重要的逻辑和概率分析工具之一。
故障树分析方法论
FTA基本过程概述
如图1所示,构建成功的故障树一般需要包括以下步骤:
确定FTA目标;
定义FT顶层事件;
定义FT范围;
定义FT分解;
定义FT基本原则;
构建FT;
评估FT;
解读/介绍结果。
其中,前5步可归纳为对该FTA的问题界定。建树过程中大多数步骤是串行的,而第3-第5步可以同步进行。在构建FT和评估FT时,通常会产生对第4步定义FT分解和第5步定义FT基本原则的反馈。
图1 FTA基本过程
问题界定和准备
1. 确定目标
确定目标是成功FTA的第一步。成功的目标设定应从系统失效的角度进行描述。例如,如果总目标是评估某个任务的不同设计,那么需要识别并定义特定失效,即那些可以描述任务失败特征的并且可以用来分析评估设计的特定失效。
定义目标的同时,需要充分理解系统设计和运行,并且需要获取当前可用的设计数据,包括结构图、原理图等等。
2. 定义顶事件
一旦确定FTA分析目标,顶事件相应也得到了确定。
顶事件定义了有待分析的系统失效模式,是不期望发生的事件,有待分析得出其失效原因,并确定其失效概率。
顶事件的定义非常关键,其直接指导了余下所有分析工作。若顶事件定义不正确,则FTA整个分析就是错误的,并导致错误的决策。因此,正确定义和理解分析目标和待解决问题非常重要。
定义顶事件的基本原则如下:
为了定义顶事件,先定义事件发生的准则。对于系统失效,先定义系统成功准则。
确保顶事件与待解决的问题和分析目标保持一致。
若对顶事件定义没有把握,先定义可以覆盖顶事件的替代定义,然后对这些替代定义进行评估选择。
3. 定义范围
故障树实际展现的是在给定时间,给定构型和给定边界下给系统拍摄的一张快照。
与所有模型化方法一样,故障树在建树前也需要定义分析范围,或分析边界(boundaries),即确定哪些在分析内,哪些在分析外。此外还有一些边界上的贡献者,它们的定义将影响分析内贡献者状态。这些即是接口状态,需要以假设方式作为系统输入进行定义。在建树过程中,边界可能会发生改变,需要对这些边界进行跟踪、管理和记录。
故障树的范围可能包括特定的设计版本,待分析系统相关的历史时间,组件的初始状态,系统假设输入,系统接口等。例如,假设需要分析飞控系统的失效。当定义分析范围时,需要确定该飞控系统的设计版本,运行模式,需考虑哪些组件失效,以及与飞控系统的接口(如,支持系统/能源系统,作动信号等)的失效模型或假设这些接口是完好的。
4. 定义分解程度
如果不对分解程度(或称建树深度)做初步规划和定义,不仅可能在建树过程中迷失目标,更可能建成庞大繁琐丧失结构化又失去分析意义的无用树。因此,定义故障树的分解程度非常重要。
分解程度的一般原则是,建到足以识别功能依赖性的深度,或者是建到与可用数据和分析目标一致的深度。例如,如果顶事件是系统功能失效,一般分解到系统主要组件即可。如果需要做定量分析,则以获得对顶事件最优估计为目标,在考虑现有数据和其他信息的前提下,通常分解到有最佳可用概率数据的程度。
5. 定义基本原则
定义基本原则的主要目的是保证不同的人员在做不同故障树分析时保持一致性。
建故障树的最最基本原则就是“往小里想”(“Think small”),或者更精确地说是“往近处想”(“Think myopically”)。每次只想一小步,确保覆盖所有的主要原因以及它们之间的关系,不要直接跳跃到基本原因事件。基本原则涉及程序规定和命名方式,特定组件失效,人为差错,共因失效等模式方面。主要的基本原则有:
描述原则:
完成每一个故障树节点的基本数据;
所有事件框都要填写,不得留白;
定义有意义的统一命名规范,为每一个故障树节点作唯一命名。
以故障的方式将描述写入事件框;清楚地描述故障是什么以及在什么条件下发生。不要将故障和成功混在一起。使用状态转换语言描述故障。
“无奇迹”原则:如果某个组件的正常运行会传播某个失效序列,则假设该组件运行正常。
“完成门”原则:在对所有输入中的任一个做进一步分析前,所有输入及逻辑门应得到完整的定义。
“不允许门对门”原则:门的输入对象应合适地被定义为故障事件,门不应直接与其它门对接。
6. 建树
l 失效机制(Failure Mechanism),失效模式(Failure Mode)和失效影响(Failure Effect)
FTA是自上而下逐级推理分析,因而通常对系统,子系统,组件进行层次化定义,目的是为了界定问题边界和层级,便于分析的顺利开展。在建故障树时,失效影响,失效模式,失效机制这些基本概念在确定事件之间恰当的内在关系时非常重要。
当失效影响确定时,则关注为什么关心某个特定的失效,如,如果发生该失效对系统有什么影响?当对失效模式进行细节描述后,需要切实关注组件失效的哪些方面?当列出失效机制后,某个特定失效模式是如何发生的?失效机制即是失效模式得以发生的手段,反过来说,失效机制是更为基本原因产生的影响。或者说,失效机制产生了失效模式,而反过来,对系统运行产生了某些影响。
事件描述 | 系统 | 子系统 | 组件 | 元件 |
从子系统角度描述 | 失效机制 | 模式 | 影响 | |
从组件角度描述 | 失效机制 | 模式 | 影响 | |
从元件角度描述 | 失效机制 | 模式 | ||
直接原因 | 失效机制 |
表1 系统失效分析事件关系表
如表1所示,系统工程师,从系统的角度定义的失效模式;对子系统工程师而言,是他的失效影响,由子系统工程师去寻找导致该失效影响的失效模式。而对组件工程师而言,所有子系统和系统失效,都是代表了更高级别的失效影响,即是某个组件失效后导致的结果。组件工程师,从他的角度寻找组件的失效模式,而这个对于子系统工程师而言,就是导致某子系统失效模式的失效机制。
l 组件失效模式分类:主要的(Primary),次要的(Secondary)和指令的(Command)
任何组件的失效模式只有三种,即主要失效模式,次要失效模式和指令失效模式,如图2,组件失效模式概念图所示。
图2 组件失效模式概念图
主要失效模式指的是,在预期的环境条件下组件本身发生的故障。因此,主要失效是组件的固有失效,如舵面卡阻。对主要失效的建树分解,是基于各组件独立的假设,并应该分解到可识别的直接导致顶事件发生的基础事件。
次要失效模式指的是,在不利环境下组件可能发生的故障。因此,次要失效是由于外力对组件的影响结果。对次要失效模式的建树分解,要求对影响系统组件的外部环境有全面的了解,如过热环境,振动,EMI等。对于某个组件的失效与其它组件的失效相关时,这类失效不是由于主要失效引起而是有其他原因。
指令失效模式指的是,由于特定失效导致的系统在非预期时间或地点发生的预期事件。即该事件是预期要发生的,但是发生的时间或地点不对,例如延迟。指令路径是描述指令失效事件如何通过系统路径的事件链。当完成分析后,可将故障树和系统指令信号流图做一对比分析,可以表明故障树指令路径代表了信号流沿着单线通过系统的过程。
l 基本方法论和步骤
故障树的构建是一个不断迭代的过程,从定义顶事件开始,在基本原则的指导下,反复应用基本方法论三个概念,逐级向下推理,确定各层级逻辑门的类型以及逻辑门的输入条件,包括系统正常的和失效事件,直到所有事件是可识别的硬件失效,软件失效和人为差错这些基础事件为止。
构建故障树的基本方法论包括三个概念的应用,分别是:I-N-S,SS-SC,P-S-C概念。
1. I-N-S概念。应用该概念即不断回答问题“引起该事件发生的直接的I(Immediate),必要的N(Necessary)和充分的S(Sufficient)原因有哪些?”。应用该概念,使得分析人员从不同角度确定2.3.1节所介绍的失效机制,失效模式和失效影响,逐步推进故障树向下分解,从而避免分析人员跳跃性的思考,帮助将分析聚焦在识别原因——影响链(cause-effect chain)中的紧跟事件。
2. SS-SC 概念。应用该概念要求回答“该故障是组件失效吗?”如果回答“是”,则将该事件归为“组件失效状态”如果回答是“否”,则将该事件归为“系统失效状态”。应用该概念,主要是为了区分“系统状态SS(state-of-the-system)”和组件状态“SC(state-of-the-component)”。如果是系统失效状态,则重新应用概念1. I-N-S概念,继续做进一步的状态分解。而如果是组件失效状态,则应用3. P-S-C概念,确定导致该组件的失效模式。
3. P-S-C概念。2.3.2节已介绍了组件失效模式分类的三种类型。如果通过应用SS-SC概念,确定是组件状态,则对该组件应用P-S-C概念,即回答“该组件失效事件的主要的,次要的和指令的失效原因有哪些?”继续推动故障树的分解。
因此,故障树的构建是一个不断迭代的过程,如图3故障树构建步骤所示。
图3故障树构建步骤
构建故障树的迭代过程就是不断应用三个概念,提出三个问题,即I-N-S, SS-SC和P-S-C。在回答这些问题的同时确定逻辑门和门输入。通过图4,我们可以看出迭代过程在不断向下推进的同时确定向上的原因——影响(cause-effect)关系。一般,建树基本步骤如下:
充分理解和评估顶事件;
通过应用方法论,回答以下问题来识别确认所有可能原因:
是否直接的,必要的和充分的?I-N-S;
是组件状态还是系统状态?SS-SC;
如是组件状态,是主要的,次要的还是指令的?P-S-C;
识别确认原因事件之间的关系以及原因——影响事件逻辑关系;
根据3得出的逻辑门和门输入,构建该层级的树;
再次确认逻辑关系,避免思维跳跃;
持续回顾并确认所有已识别的事件没有重复;
针对下一事件,重复1-6步骤。
建树关键点
在建树过程中,除遵循基本原则和方法论外,有必要注意以下几点:
如可能,在设计过程中尽可能早地应用;
沿信号流或逻辑流回顾系统;
描述的措辞应清楚,准确和完整;
核实确认所有框内描述内容没有重复;
确保分析没有跳跃错过任何可能的失效事件;
寻求组件或失效事件的转换状态(如,“组件A没有输出信号”,“阀V1没有输入”)
7. 评估
评估FT,包括定性和定量评估。“最小割集”是非常重要的评估工具。定量评估,不仅计算出顶事件的发生概率,还包括主最小割集,以及各基础事件对顶事件的贡献程度。
l 割集、最小割集和割集阶次
割集(Cut Set, CS),即导致顶事件发生的所有事件的集合,也称故障路径(a fault path)。
最小割集(MinimalCut Set, MinCS or MCS),即导致顶事件发生的最少数量基础事件的集合。该集合中的事件不能再减少才能保证顶事件的发生。
割集阶次(Cut SetOrder),CS中事件的数量。单阶次CS是单点失效,两阶次CS表示该割集中有两个事件,且是和的关系。
割集确定了导致顶事件的事故链中所有组件失效和/或事件组合,提供了概率计算机制,最重要的是,通过确定安全性问题相关组件,高概率等信息,判断出系统设计的关键点和薄弱环节,进而指导设计。
最小割集的确定方法通常有MOCUS(Method of obtaining cut sets),由J. Fussell和W. Vesely创造,以及自下而上法(Bottom-up)。对于较大故障树,可应用成熟软件计算最小割集。
l 定性评估
故障树本质上来说,是定性分析模型。故障树分析一个最重要的定性分析结果就是:顶事件的最小割集。最小割集是可导致顶事件的基础事件的最小组合。因此,最小割集将顶事件与其基础事件原因直接联系。最小割集代表了基础事件可以导致顶事件的所有方式。也被叫做“最小失效集”。
通过对最小割集的分析可以获得大量信息,例如:
低阶次的MCS表明具有较高安全漏洞。单阶次MCS(如单点失效)将导致最高的风险。即只有一个基础事件的最小割集即单个失效或单个事件会引起顶事件发生。这些单个失效就是薄弱环节,需要升级和采取预防措施。
最小割集中的事件如果都具备相同的特性,则暗示了这些失效具有相关性,或会由于共因而破坏冗余。
高阶次的MCS表明具有较低安全漏洞。高阶次MCS(如,具有5个输入的与门事件)具有相对较小的概率值因而表现出较低得系统风险。
对于MCS总数非常庞大的情况,分析人员应评估顶事件的累积风险。
定量评估
FT的定量评估主要用于确定顶事件发生概率和基础事件的重要度。
通常通过计算各最小割集的发生概率,并相加得到顶事件发生概率值,进而通过最小割集发生概率与顶事件概率值的比值,可确定各最小割集的重要度。其中,对顶事件发生概率贡献最大的割集称为主导割集(dominant cut sets)。此外,定量评估还可以确定各基础事件的重要度。这些定量评估的主要作用是,可以根据导致顶事件的重要度排序,对措施和资源进行优化排序。
通常,有三类衡量重要度的定量评估方法:
各事件除顶事件概率;
假设防止该事件的发生,顶事件概率的减少程度;
假设该事件发生,顶事件概率的增加程度。
8. 解释说明
对结果的解释说明和介绍,应重点放在解释说明而不仅仅是介绍。分析结果必须解读得够给力并给出切实的意义,尤其是可能对目标产生潜在影响的部分应重点突出。如果只是向决策者和高层展现一大堆的阈值和术语,那么这个分析就毫无影响力,并且还可能影响高层对下一个FTA的投入考虑。