查看原文
其他

【精彩论文】基于函数挖掘的能源信息物理系统数据安全风险识别算法

中国电力 中国电力 2023-12-18


基于函数挖掘的能源信息物理系统数据安全风险识别算法


邓松1, 蔡清媛1, 高昆仑2,3, 张建堂1, 饶玮2,3, 朱力鹏2,3

(1. 南京邮电大学 先进技术研究院,江苏 南京 210023; 2. 国网智能电网研究院有限公司,北京 102209; 3. 电力系统人工智能(国网智能电网研究院有限公司)国家电网公司联合实验室,北京 102209)


摘要:数据安全风险评估对于能源信息物理系统安全稳定运行至关重要。现有的从二次设备、信息等角度来分析数据安全风险已经无法满足能源信息物理系统广泛的能源接入和各能源之间的能量、信息交互需求。首先提出基于粗糙集的数据安全风险要素特征选择算法,对影响能源信息物理系统中数据的安全风险特征集进行特征选择,降低能源信息物理系统数据安全风险要素集的维度;在此基础上,利用基因表达式编程(gene expression programming, GEP)的函数挖掘特性,提出基于混合GEP的能源信息物理系统数据安全风险识别算法,通过设计小生境种群生成策略以及动态自适应变异概率动态调整策略来提高数据安全风险识别的准确率和效率。仿真实验结果表明,所提算法对于复杂高维的能源信息物理系统数据安全风险集的识别和预测具有较高的准确率和较强的实用性,可为下一步制定能源信息物理系统数据安全防护策略提供理论方法支撑。


引文信息

邓松, 蔡清媛, 高昆仑, 等. 基于函数挖掘的能源信息物理系统数据安全风险识别算法[J]. 中国电力, 2021, 54(3): 23-30, 37.

DENG Song, CAI Qingyuan, GAO Kunlun, et al. Data security risk recognition algorithm for energy cyber physics system based on function mining[J]. Electric Power, 2021, 54(3): 23-30, 37.


引言


数据是能源互联网的核心资产,未来能源互联网的数据来源将覆盖能源生产、传输、交易、消费等各个环节,总体呈现来源广泛、规模庞大以及类型复杂的特征[1-3]。然而,能源互联网的开放、互联及共享机制将导致恶意的网络攻击不断,这些恶意网络攻击利用能源互联网中广泛的信息物理系统间的耦合而产生交互传播的跨空间、跨系统、跨平台的连锁反应,从而不可避免地对能源互联网生产、传输、交易及消费各环节业务系统数据在采集、传输、存储、处理、交换和销毁等全生命周期过程中的安全性产生极大的威胁。和智能电网相比,能源互联网具有更加开放的信息网络,更多层面的数据来源;同时由于开放的信息网络通道使得发生网络攻击的频率越来越频繁,范围越来越广,这都给能源互联网下的数据安全防御提出了更高的要求。及时有效的数据安全风险识别和评估是能源信息物理系统下数据总体安全防护的基础。国内外众多学者对此开展了深入研究。文献[4]提出一种基于攻击预测的电力CPS风险评估方法,通过IEEE 33节点仿真验证了系统的可行性和有效性。文献[5]构建了智慧城市信息安全风险评估指标体系,利用贝叶斯网络对中国20个智慧城市试点地区的信息安全风险进行量化评估。文献[6]将层次分析法(AHP)引入到风险评估机制中,设计出一种基于模糊数学的新型信息安全风险评估模型。文献[7]提出了基于云计算的船舶通信网络安全风险评估模型。文献[8]利用可拓识别方法对高校信息系统的安全性进行风险综合评估。文献[9]利用小波神经网络算法有效解决集合信息存在的虚假相关, 能有效提高信息安全风险评估精度。文献[10]基于等级测评和风险评估相结合的理论,将信息风险和对应的风险等级建立连接。文献[11]利用层次分析法建立风险评估层次分析模型。文献[12]基于D-S证据理论确定各指标体系的权重,实验表明组合规则显著提高了网络风险水平的可靠性。文献[13]提出一种基于D数层次分析法(D-AHP)与灰色理论的信息安全风险评估方法。文献[14]提出一种基于模糊层次分析法的电力边缘计算信息系统安全风险评估方法。文献[15]提出了一种基于全概率公式和条件风险价值的风险度量。文献[16]通过改进型AHP与证据理论来规避评估过程中的主观性和不确定性。文献[17]基于贝叶斯网络建立了一个风险概率传递关系模型。文献[18]运用网络分析法和灰色统计理论确定各威胁指标的灰数及信息系统风险等级。文献[19]以个性化、及时和连续的方式评估和交流用户和系统层面的风险。文献[20]构建了基于量子门线路神经网络的信息安全风险评估模型。但以上研究仅针对信息系统安全风险评估开展研究,鲜有针对数据安全风险评估的研究。文献[21]通过动态加密技术,有效保护主动配电网中各个分布式通信参与者的数据隐私性。文献[22]提出了面向能源互联网的数据一致性框架和协议。文献[23-26]梳理出针对智能电网的数据注入攻击以及数据完整性攻击形式,详细地给出相应的防护策略。通过分析上述文献发现:现有针对能源互联网或者电力信息物理融合系统的数据安全防护技术较多,但也仅限于数据一致性、数据注入及完整性攻击方面的论述。目前鲜有文献对能源信息物理系统下数据安全风险进行量化识别和评估,从而无法对各类针对数据的网络攻击提供有效的分析和防御决策。同时现有的基于人工智能的安全风险评估方法都是定性分析,无法定量评估安全风险。基因表达式编程(gene expression programming, GEP)是一类定量挖掘样本数据函数模型的进化算法[27]。因此,本文利用GEP强大的函数挖掘特性,提出基于混合GEP的能源信息物理系统数据安全风险识别算法(data security risk recognition algorithm for energy cyber physics system based on hybrid gene expression programming, DSRR-HGEP),仿真实验结果表明本文所提的DSRR-HGEP算法具有较高的数据安全风险识别的准确率和效率。


基于粗糙集的数据安全风险要素特征选择算法


为了降低后期能源信息物理系统数据安全风险识别模型挖掘的复杂度,首先需要做的就是对整个影响能源信息物理系统中数据安全的风险要素进行特征选择,在不影响风险识别准确率的前提下,保留最少的数据安全风险要素。与传统的主成分分析和奇异值分解等特征提取方法相比,基于粗糙集的特征选择在降维的同时,还不影响降维后原始数据的决策。为此,本文提出基于粗糙集的数据安全风险要素特征选择算法(feature selection algorithm of data security risk features based on rough set, FSDSRF-RS)。为了更好地描述问题,首先给出有关FSDSRF-RS算法中的相关定义。(1)定义1。设 S=<U,CD,V,f> , CD=RV=vryr,rRf:U×RV ,则称满足上述条件的 S 为能源互联网数据安全风险决策表。其中 U 为能源信息物理系统中所有数据安全风险要素及风险等级值的集合;C={ci},i∈[1,n] 为影响能源互联网数据安全风险要素集的条件属性集合(包括防火墙、入侵检测、加解密、访问控制等);D={di},i∈[1,m] 为影响能源互联网数据安全风险要素集中的风险等级集合(包括低、中、高3个等级);V 是影响能源互联网数据安全风险要素集中各类风险值及对应的风险等级值的集合, vr 表示条件属性集合 C 中任意一个数据安全风险要素的取值, yr 表示风险等级集合 D 的取值;f 表示 U 中每一对象 x 的属性值,即对于 ∀rR,xU ,有 f(x,r)∈vryr图1给出了能源互联网数据安全风险决策表的示意。

图1  能源互联网数据安全风险决策表示意Fig.1  Data security risk decision-making diagram for energy Internet
(2)定义2。设能源互联网数据安全风险决策表 S=<U,CD,V,f> ,其中 CD=R ,对于 ∀PR, 且x,yU ,当且仅当对于 ∀rPf(x,r)=f(y,r) 时,称能源互联网数据安全风险要素及风险等级集合 U 中的对象 xy 是不可分辨的,记为 IND(P)={(x,y)∈ U|∀rP,f(x,r)=f(y,r)} 或 U/R(3)定义3。设能源互联网数据安全风险决策表 S=<U,CD,V,f> ,若 U/C=U/(Cci) ,则称影响能源互联网数据安全风险要素集的条件属性集合中某一要素 ci 可约简。整个FSDSRF-RS算法描述如下。


基于混合GEP的能源信息物理系统数据安全风险识别算法


从定量分析的角度,数据安全风险识别可以理解为挖掘影响数据安全的风险因素和安全风险类型之间的函数模型。基因表达式编程是一种智能化、自动化的函数模型挖掘算法,因此在FSDSRF-PCA算法基础上,本文提出的DSRR-HGEP算法无须事先设置函数模型,直接通过对影响数据安全的风险因素进行基因编码,同时借助相应的生物进化操作最终挖掘出相应的数据安全风险识别函数模型,以此模型来识别数据安全风险。

2.1  基于小生境的GEP种群生成策略

在自然界中,小生境(Niche)是指特征相似的种群聚集在一起,并在同类中交配繁衍后代,在基因表达式编程算法中,各类遗传操作是基于一定概率随机的,这种方式在算法初始阶段的确保持了种群的多样性,但在进化到一定代数后,大量个体的适应度值都会集中在某一个局域,从而后代会造成近亲繁殖,大大降低种群的多样性。因此,本文将小生境技术运用到基因表达式编程中,提出基于小生境的GEP种群生成策略(population generation for GEP based on niche, PG-NGEP)。其基本思想是:首先计算GEP初始种群中所有个体的适应度值,从中选择前K个最大适应度值的个体组成小生境;然后在小生境的所有个体中两两计算海明距离,并基于该距离动态调整适应度值较小的个体,使得该个体能被遗传到下一代的概率大大降低;最后对所有调整后的个体适应度进行排序,产生下一代种群,循环往复,直到算法结束。

2.2  基于种群密度的变异概率自适应调整策略

变异概率的选择会直接影响GEP算法的收敛性。变异概率过小,GEP算法不易产生新的个体,种群多样性会受到很大影响;变异概率过大,GEP算法就变为纯粹的随机搜索算法。因此如何选择一个适当的变异概率值对于GEP挖掘数据安全风险识别函数模型至关重要。从生物进化的角度来看,种群中个体越密集,则进化出新物种的概率就越小。因此,本文提出基于种群密度的变异概率自适应调整策略(adaptive adjustment of mutation probability based on population density, AAMP-PD)。设当前种群的最大适应度值为 fmax ,平均适应度值为 favg ,AAMP-PD算法中,变异概率Pm的调整策略可表示为

式中:2≤α≤5 ;0<β<0.5 ;0.5<χ<1 。

当 χfmaxfavg 时,表明当前种群中个体较为集中,容易陷入局部最优,通过增加变异概率 P来使得个体更加多样化;否则,则表明当前种群中个体较为分散,通过减小变异概率 P来保持个体多样化,避免陷入局部最优。

2.3  DSRR-HGEP

针对能源信息物理融合系统中的数据安全风险识别的目标是识别能源生产、传输、交易及消费过程中信息物理系统自身及交互所面临的数据威胁。为了全局掌握能源信息物理系统中多维度数据的安全态势,本文提出混合GEP的能源信息物理系统数据安全风险识别算法(DSRR-HGEP),利用基因表达式编程算法来挖掘针对能源信息物理系统数据安全的风险要素与风险等级之间的复杂函数关系模型,定量识别能源信息物理系统下数据安全风险等级。

为了更好理解GEP挖掘能源信息物理系统下数据安全风险要素与风险等级之间的函数关系,首先给出如下定义。

定义4:设函数集 F 包含基本初等数学函数,终端集 T={d1,d2,⋯,dm} ,则称 Dg=⟨F,T|h,t⟩ 为能源信息物理系统数据安全风险识别基因。其中 di,i∈[1,m] 表示影响能源信息物理系统下数据安全风险要素,ht分别表示为上述基因的头长和尾长,二者之间的关系为

式中:n 表示函数集 F 中初等函数所包含的最大运算操作目数。例如,初等函数为 +,−,∗,/ 等时, n=2 ;初等函数为 sin,cos,log,exp 等时, n=1 。

一个或多个 Dg 构成能源信息物理系统数据安全风险识别染色体。

整个算法描述如下所示。


仿真实验与结果分析


为了更好地验证本文所提出算法的可行性和有效性,在实验室环境下做了相应的仿真实验。其中数据安全风险要素特征选择基于Python实现,实验平台为Win10 + Python 3.7+ PyCharm 2019.2.2;数据安全风险识别模型挖掘基于Java实现,实验平台为Win10 + Eclipse 3.2+Java1.8。本实验数据以电网业务系统中数据安全风险来模拟,假设电网业务系统中数据主要考虑传输数据机密性破坏、传输数据完整性破坏以及传输数据被篡改等几个方面的安全风险,并结合边界、网络、主机及应用等4个方面构建如表1所示的用电信息采集系统数据安全风险要素集。


表1  电网业务系统数据安全风险要素集

Table 1  Data security risk element set of power grid business system


根据表1给出的数据安全风险要素集,结合网络安全日志文件,并通过量化后生成相应的仿真实验数据集。该数据集共包括30条实验数据,其中21个条件特征,1个风险等级特征,数据安全风险分为低、中、高3个等级。整个实验数据集分为训练数据集(前20条数据)和测试数据集(后10条数据)。表2给出实验数据集描述。


表2  实验数据集描述

Table 2  Description of experimental dataset


(1)实验1:针对表2中给出的实验数据集,表3给出FSDSRF-RS、主成分分析法(principal component analysis, PCA)、互信息法(mutual information,MI)、随机森林(random forest, RF)以及方差过滤(variance threshold, VR)进行特征选择前后条件属性个数变化。表4显示上述3种特征选择算法最后的结果。


表3  基于5种算法的特征选择前后条件属性个数变化

Table 3  The number of conditional attributes before and after feature selection based on FSDSRF-RS, PCA, MI, RF and VR


表4  实验数据集描述Table 4  Description of experimental dataset


从表3可以看出,与特征选择前相比,基于FSDSRF-RS算法的特征选择后的条件属性个数减少了76.19%。与PCA(按信息量保存65%,95%和98%),MI,RF以及VR算法相比,基于FSDSRF-RS算法的特征选择后的条件属性个数分别减少了28.57%,66.67%,70.59%,54.55%,50%,37.5%。由此可见,针对表2中所示的实验数据,FSDSRF-RS算法是有效的。同时,从表4可以看出,特征选择后,FSDSRF-RS和MI算法所保留的条件属性中3个相同的条件属性,FSDSRF-RS算法所保留的条件属性中全部都在基于RF特征选择的结果中,这也说明不同的特征选择算法可以选择出对数据安全风险等级识别最关联的条件属性;而PCA由于属于特征的线性组合内容,基于PCA的特征选择结果不是原有的条件属性,而是原有条件属性之间的组合。(2)实验2:在实验1的基础上,针对约简后形成的能源信息物理系统数据安全风险决策表,本实验阐述了DSRR-HGEP的性能。整个实验中DSRR-HGEP的参数如表5所示。图2给出了重复5次实验中,特征选择前后的能源信息物理系统数据安全风险决策表进行函数挖掘时的最优适应度与最大适应度值差值的比较。图3显示了在重复5次实验,每次实验算法运行10次的条件下,特征选择前后数据安全风险识别函数挖掘得到最优解的耗时比较。图4比较了传统GEP算法和DSRR-HGEP算法的收敛速度。图5显示了基于DSRR-HGEP挖掘得到的数据安全风险识别函数模型对特征选择前后测试数据的模型值与真实值之间的比较。


表5  DSRR-HGEP参数Table 5  Parameters of DSRR-HGEP

图2  特征选择前后最优适应度值与最大适应度值差值比较Fig.2  Comparison of the difference between the optimal fitness value and the maximum fitness value before and after feature selection

从图2可以看出,针对表2所示的训练数据集,与特征选择前相比,特征选择后基于DSRR-HGEP算法进行数据完全风险识别函数挖掘所得到的最优适应度值与最大适应度值差值最大为64.92%。这表明针对高维数据安全风险数据集,在不改变现有该数据集风险决策能力的前提下,特征选择大大提高数据完全风险识别函数挖掘的成功率。同时与传统的GEP算法相比,DSRR-HGEP算法中所采用的小生境种群生成以及动态自适应变异概率动态调整策略也大大加速了算法收敛。与此同时,图3显示,针对表2所示的训练数据集,特征选择大大降低了数据完全风险识别函数挖掘的平均耗时,5次相同参数的实验中平均耗时最大下降80.33%。


图3  特征选择前后数据安全风险识别函数挖掘得到最优解的耗时比较

Fig.3  Time-consuming comparison of data security risk identification function mining to obtain the optimal solution before and after feature selection


同时为了验证DSRR-HGEP算法比传统GEP算法(traditional GEP, TGEP)的性能要优越,本文还比较2种算法运行5次的收敛速度。设 fmax 为对应当前样本数据下TGEP和DSRR-HGEP算法的最大适应度值,N为TGEP和DSRR-HGEP算法的最大运行代数,P为TGEP和DSRR-HGEP算法运行到最优解 fopt 时所对应的运行代数,则表示TGEP和DSRR-HGEP算法的收敛速度。在保证求解到问题最优解的条件下, C越小,表明算法的收敛速度越快。从图4可以看出,5次实验运行过程中,DSRR-HGEP算法的收敛速度都要优于TGEP算法。这也说明DSRR-HGEP算法中采用的小生境种群生成以及动态自适应变异概率动态调整策略大大加速了算法收敛,从而加快了求解出最优解的速度,减少了算法的耗时。


图4  GEP算法和DSRR-HGEP算法的收敛速度比较

Fig.4  Comparison of convergence speed between traditional GEP and DSRR-HGEP


图5反映了特征选择前后测试数据真实值与模型值之间的拟合程度。从图5可以看出,特征选择前测试数据真实值与模型值之间最大的误差为0.81,最小为0。而特征选择后真实值与模型值之间最大的误差为0.49,最小为0.0008。由此可以看出该模型具有较高的预测精度。


图5  特征选择前后测试数据真实值与模型值比较

Fig.5  Comparison between real value and model value for testing data before and after feature selection


4  结语


为了更好地处理能源互联网下数据安全风险识别,本文提出了基于混合GEP的能源信息物理系统数据安全风险识别算法。首先构建能源信息物理系统数据安全风险决策表,并基于粗糙集对该数据安全风险决策表进行特征选择;在此基础上通过构建小生境种群生成策略以及动态自适应变异概率动态调整策略来构建基于混合基因表达式编程的数据安全风险识别模型。仿真实验表明本文所提出算法具有较强的高维数据处理能力以及数据安全风险识别准确率和预测精度。数据安全风险识别是制定数据安全防护策略的前提和基础,本文研究工作可为能源互联网数据安全防护提供方法支撑。实际中能源互联网数据来源广泛,数据类型复杂,数据量较大,影响数据安全的风险要素众多,为了能对能源互联网数据实现全生命周期的安全防护,下一步将从数据采集、传输、存储、应用等角度梳理数据安全风险要素,构建一个数据全生命周期的数据安全风险要素集,并通过UML建模和关联分析的方法分析每一个数据安全风险要素之间的关系。

(责任编辑 李博)



作者介绍

邓松(1980—),男,博士,副研究员,从事电网信息安全与防护,电力大数据及数据挖掘研究,E-mail:ds16090311@163.com;

蔡清媛(1997—),女,硕士研究生,从事电网信息安全与防护、电力大数据及数据挖掘研究,E-mail:dmccxysc@163.com;

高昆仑(1972—),男,博士,高级工程师(教授级),从事电力系统自动化与信息化技术研究,E-mail:gkl@geiri.sgcc.com.cn.






 往期回顾 


《中国电力》2022年第3期详览
【精彩论文】柔直换流阀损耗解析计算及其误差分析
【精彩论文】新一代智能变电站采控装置
【精彩论文】基于模糊测试的GOOSE协议解析漏洞挖掘方法
【精彩论文】用于城轨直流牵引系统的混合型MMC全桥子模块比例设计方法
【新能源专题征稿】“海上风电送出与并网技术”专题征稿启事
【征稿启事】“新能源基地经直流送出系统稳定性分析与控制技术”专题征稿启事
【征稿启事】“碳中和背景下农业农村综合能源系统”征稿启事
【征稿启事】“面向数字配电网的边缘计算与控制技术”专题征稿启事

编辑:杨彪
校对:蒋东方

审核:方彤

声明

根据国家版权局最新规定,纸媒、网站、微博、微信公众号转载、摘编《中国电力》编辑部的作品,转载时要包含本微信号名称、二维码等关键信息,在文首注明《中国电力》原创。个人请按本微信原文转发、分享。欢迎大家转载分享。

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存