【精彩论文】电力信息物理系统入侵容忍能力评估方法
电力信息物理系统入侵容忍能力评估方法
姚鹏超, 颜秉晶, 郝唯杰, 杨强
(浙江大学 电气工程学院,浙江 杭州 310027)
引文信息
姚鹏超, 颜秉晶, 郝唯杰, 等. 电力信息物理系统入侵容忍能力评估方法[J]. 中国电力, 2022, 55(4): 13-22.
YAO Pengchao, YAN Bingjing, Hao Weijie, et al. An intrusion tolerance assessment method for cyber-physical power system[J]. Electric Power, 2022, 55(4): 13-22.
引言
1 CPPS网络架构与渗透模型
典型的电力工业控制系统具有明显的分层结构,可分为网络层与物理层,网络层又自上而下分为办公网络、生产管理网络、生产控制网络[19]。以图1 的CPPS安全试验场网络架构为例,其办公网络包含Web服务器、办公自动化(office automation, OA)服务器、邮箱服务器等设备,主要功能为提供Web服务、办公自动化与邮箱服务。生产管理网络包含生产控制站、设备管理站等设备,主要功能为自动化管理控制过程与设备。生产控制网络包含工程师站、操作员站等设备,主要功能为组态开发以及通过控制协议与控制器的直接通信。物理层包括由传感设备、控制设备、执行设备等设备组成的物理网络,其基于微缩装置模拟了大型火力发电场景:通过燃烧煤加热水,形成水蒸气给锅炉加压,增加的空气压力使阀门打开排气,推动电机旋转发电。
由于电力工业控制系统不同网络之间存在网络隔离与防火墙规则限制,攻击者想要破坏电力系统的物理过程,一般需要从办公网络发动攻击并逐步渗透直至取得主机权限。如图2所示,攻击者首先需要利用漏洞攻击办公层的Web服务器等设备获取内部局域网的权限,再依次渗透至生产管理网络与生产控制网络,最后对电力系统的物理运行过程进行破坏。
Fig.2 The cyber penetration model
传统的IT领域一般只考虑通信和计算机的安全问题,即图2中的网络层,然而,网络攻击一旦渗透到物理层,就会对电力系统造成巨大的破坏。因此为提高CPPS的入侵容忍能力,需要对来自网络层的攻击给予更多的重视。
2 CPPS入侵容忍能力模型
2.1 半马尔科夫链模型
攻击者持续渗透攻击CPPS的过程中,会经历多个进攻阶段,APT攻击链模型中将网络攻击分为信息侦查、武器构建、载荷攻击、漏洞利用、安装植入、命令控制6个阶段,其中关键在于发现并利用主机上存在的漏洞[20]。在攻击者渗透攻击的过程中,防御者也会进行入侵检测,装备入侵检测系统(intrusion detection system,IDS)、防火墙等防御设施,修复自身存在的漏洞来抵御攻击。以APT攻击链模型为基础,本节采用半马尔科夫链模型对CPPS的攻击入侵过程进行建模,评估CPPS的入侵容忍能力。图3描绘了由一系列状态组成的网络攻击入侵过程,状态集可以表示为 Γ={G,C1∼C4,V1∼V11,H1∼H7,F} 。其中 Γt= {G,C1∼C4,V1∼V11,H1∼H7} 为转移状态, F 为吸收状态,描述如表1所示。图4描述了SMC模型中攻击者发动APT攻击的详细流程,右侧表示当前流程在图3中所对应的状态。APT攻击链的一次攻击过程可以描述为 ⟨∗→Ci→Vi→Hi⟩ ,分别代表着从初始状态进行信息侦查、武器构建进入到内网,到载荷攻击、漏洞利用,再到安装植入、命令控制从而获得主机权限。攻击者的最终目的是对CPPS的物理过程进行破坏,一般需要完整进行4次APT攻击才能进入到物理网络并进行破坏。
图3 半马尔科夫链APT攻击模型
Fig.3 The SMC model of APT attack
表1 SMC状态描述
Table 1 The state description of SMC
在本文中,基于APT攻击链的SMC模型共有23个状态,图3中同样说明了不同状态之间相应的转移概率,定义转移概率矩阵 P ,大小为23×23,用于描述不同状态之间的转换关系, pji 为矩阵中第 i 列第 j 行的元素,满足
表2 SMC转移概率
Table 2 The transition probability of SMC
2.2 CPPS入侵容忍能力量化评估
将CPPS遭受APT攻击并最终物理发电过程遭受破坏的持续时间表示为CPPS的平均失效时间 tMTTF ,以评估CPPS的入侵容忍能力[12]。在整个渗透攻击过程中,攻击者在每一个转移状态 i∈Γt 上都可能会停留数次,将 Ni 定义为在转移状态 i 上的停留次数, Ti 为在状态 i 上的平均停留时间,其值根据试验场实际攻防演练时在每一状态的平均花费时间经验值得到。tMTTF 计算方法为其中停留次数遵循关系为
其中 NG=1 代表攻击者的初始位置。为评估CPPS安全试验场的入侵容忍能力即 tMTTF 指标,则首先需要求解得到 Ni 。在此对状态转移矩阵 P 进行矩阵划分,得到包含转移状态 Γt 的子矩阵 Pt ,大小为22×22,则可将 Pt 中的元素与(3)联立组成线性方程组求解 Ni 。由于 Pt 是一个非零矩阵,易知 Ni 仅有唯一解。
为求解 Ni ,需确定状态转移矩阵 Pt 中的概率元素,其分解为子集 p*C 、 p∗V 、 p∗H 。攻击者在进行APT攻击时的行为概率选择显然受到防御者防御行为、防御强度的影响,同样防御者在布置防御措施时也会考虑攻击者的行为,这是一个博弈交互的过程。相应的概率 p*C 、 p∗V 、 p∗H 可由攻防博弈过程求解得到纳什均衡解,从而预测攻击者的行为动作,做出最优、最理性的防御策略选择。
故障率 λ(t) 为CPPS运行时单位时间内发生故障的概率,是一个与时间t有关的函数。为简化运算,假设CPPS在遭受网络攻击时的故障率 λ(t) 为一常量 λ ,理想情况下CPPS经过 tMTTF 的时间会发生一次故障,则 λ 由 tMTTF 计算[21]得到
CPPS的可靠度是指从CPPS开始正常运行至某一时刻 t 这段时间内正常运行的概率,用 R(t) 表示。可靠度 R(t) 可由CPPS的故障率 λ 计算[21]得到
基于 tMTTF 、故障率 λ 与可靠度 R(t) 指标,可对CPPS的入侵容忍能力进行量化评估,为防御资源的最优分配提供参考。
3 基于随机博弈的攻击预测
3.1 随机博弈预测模型
随机博弈是由一系列状态组成的多个参与者进行的具有状态概率转移的动态博弈,在每一状态下,参与者可以从动作集中选择不同的动作,并获得取决于当前状态与行动的收益[22]。每一状态的博弈过程可以分解为矩阵博弈,并根据动作概率分布转移到下一状态。假定攻防双方的目的都是为了取得最大化的收益,即均为绝对理性。本节采用随机博弈模型来预测求解攻击方在进行APT攻击时的最优策略,以及防御方在防御时的最优防御策略[23]。CPPS遭受攻击者破坏物理过程需要成功进行4次APT攻击,划分4次博弈状态 S={S1,S2,S3,S4} ,分别代表在办公网络、生产管理网络、生产控制网络、物理网络中攻防交互过程。博弈攻防双方 N={Na, Nd} 分别表示攻击者与防御者,攻防双方动作集为 A={a1,a2,⋯,aM} 与 D={d1,d2,⋯,dN} 。3.2 基于强化学习的博弈求解方法
在CPPS中,攻击者和防御者彼此没有对方完整的信息,本文选择采用强化学习的算法来求解博弈的纳什均衡策略。因为该场景中涉及2个智能体,所以在此采用minimax极大极小方法和 Q-learning相结合的minimax-Q 算法[25-26]。首先,minimax-Q 采用极大极小法,通过线性规划求解每个特定状态的矩阵博弈的纳什均衡策略,最后运用 Q-learning方法迭代学习状态值和最优策略。状态 Sk 时攻击者的状态值 Ek 定义为Q 函数 QA(Sk,ak,i,dk,j) 的更新公式为
3.3 攻击预测
p*C 为攻击者绕过IDS、防火墙等检测装置进入到内部网络的概率,APT攻击初始阶段成功的概率,受防御者在边界处部署的防御设备影响。易知
表3 矩阵博弈
Table 3 The matrix game
其中,当攻击成功时攻击者会得到W1~ W4的正收益,根据矩阵博弈可预测求解攻击者在APT攻击初始阶段的使用不同攻击手段的概率分布 {α1,α2,α3} 。则防御者在网络边界处部署不同的防御设备时的概率分布 p*C 为
4 实验设计与算例验证
4.1 实验参数
CPPS安全试验场模拟了真实场景下自上而下的工业控制系统控制过程。攻击者试图通过办公网络逐步渗透至工控系统,操纵传感器或是控制器来破坏火力发电过程。防御者对设备上的漏洞进行修补防止攻击者渗透利用,并在网络边界处安装防火墙或入侵检测系统来防御攻击者入侵。试验场具有开展网络攻防渗透测试的功能,因此本节将基于实际网络测试的结果进行仿真实验。表4描述了CPPS安全试验场上设备的漏洞信息, 并给出了通用漏洞披露(common vulnerabilities & exposures,CVE)漏洞编号及成功利用后系统所需恢复时间 ∂ 。A 和 D 的攻防行为如表5所示,并且描述了采取相应行为所需要的时间成本。半马尔科夫链中每一状态的 Ti 为表4 漏洞信息Table 4 The information of vulnerabilities
表5 攻防行为表Table 5 The actions of attackers and defenders
4.2 攻击预测结果
首先对APT攻击初始阶段攻击者信息侦查、武器构建进入到内网的行为进行预测。正收益参数W1=10,W2=8,W3=4,W4=5。求解矩阵博弈预测攻击者行为概率分布 {α1,α2,α3} = {0.32,0.43,0.25} 。由式(12)可求解在不同防御等级下 p*C 值。利用随机博弈minimax-Q 算法攻击者进入内网利用漏洞安装植入、命令控制从而获得主机权限的行为进行预测。算法参数设置 β=1 , α=0.5 , γ=1 。攻击者在办公网络、生产管理网络、生产控制网络、物理网络4次APT攻击状态的行为集为 A1={a1,a2,a3} , A2={a4,a5} , A3={a6,a7,a8} , A4={a9,a10,a11} ,攻击行为预测求解如图5所示。图5 攻击者动作预测
Fig.5 Prediction of attacker's actions
防御者在每个状态的行为集为 D1={d1,d2,d3} , D2={d4,d5} , D3={d6,d7,d8} , D4={d9,d10,d11} 。同采取minimax-Q 算法求解最优防御行为措施,如图6所示。
求解攻防双方的策略如表6所示,将结果
表6 攻防双方最优策略
Table 6 Optimal strategy for attackers and defenders
4.3 入侵容忍能力评估结果
考虑CPPS试验场的防御资源有限,配备IDS系统1套、防火墙2套。防御资源可安装至外部网络至办公网络边界( C1 )、办公网络至生产管理网络边界( C2 )、生产管理网络至生产控制网络边界( C3 );生产控制网络至物理网络边界( C4 )。将防御资源的分配方案表示为 (Ck,CiCj)=(IDS位置k,防火墙位置i防火墙位置j) 。目前试验场的分配方案为( C1,C2C3 ),则由式(12)得
考虑在有限防御资源下的最优分配方法使得CPPS的入侵容忍能力最强,分配方案结果如图7所示。实验结果表明最优资源分配方案为( C2,C2C3 ),此时CPPS的入侵容忍能力最强, tMTTF=400.21min 。攻击者需要消耗8 h 才能成功利用漏洞对发电物理过程进行破坏,如下发异常断电指令或篡改传感器数据等。在最优防御资源分配情况下,CPPS的可靠度曲线如图8所示。最优资源分配情况下,可靠度最高,随着时间可靠度下降幅度最小。
图7 防御资源分配方案结果
Fig.7 Result of the defense resource allocation scheme
5 结语
(责任编辑 张重实)
作者介绍
姚鹏超(1997—),男,硕士研究生,从事电力信息物理系统攻防博弈研究,E-mail:pcyao@zju.edu.cn;★
颜秉晶(1996—),男,博士研究生,从事电力信息物理系统攻防博弈研究,E-mail:yanbj@zju.edu.cn;
★
郝唯杰(1995—),男,博士研究生,从事工业信息物理系统安全及网络流量分析研究。E-mail:wjhao@zju.edu.cn;
★
杨强(1979—),男,通信作者,教授,博士生导师,从事电力信息物理系统智能与安全、能源电力系统数据智能与决策研究,E-mail:qyang@zju.edu.cn.
往期回顾
◀审核:方彤
根据国家版权局最新规定,纸媒、网站、微博、微信公众号转载、摘编《中国电力》编辑部的作品,转载时要包含本微信号名称、二维码等关键信息,在文首注明《中国电力》原创。个人请按本微信原文转发、分享。欢迎大家转载分享。