基于皮尔逊相关系数融合密度峰值和熵权法典型场景研究｜《中国电力》

中国电力中国电力 2023-12-18

来源：《中国电力》2023年第5期

引文：赵源上, 林伟芳. 基于皮尔逊相关系数融合密度峰值和熵权法典型场景研究[J]. 中国电力, 2023, 56(5): 193-202.

点击文章底部左下角“阅读原文”可在手机端查看论文全文，登录官网www.electricpower.com.cn可免费下载全文。

编者按

随着中国新型电力系统的建设，风电和光伏将逐渐成为未来新型电力系统的供能主体。由于风电和光伏发电功率受天气、季节等自然条件影响，具有波动性、随机性等特点，需要考虑的出力场景愈加繁杂，而这些出力场景也是后续开展规划和运行分析的关键数据，因此如何获得出力典型场景成为亟须解决的关键问题之一。《中国电力》2023年第5期刊发了赵源上等人撰写的《基于皮尔逊相关系数融合密度峰值和熵权法典型场景研究》一文。文章提出了融合密度峰值和熵权法选取聚类中心的方法。首先，采用密度峰值方法选取初始聚类中心，然后，基于熵权法选取后续聚类中心。随后，通过采用后向场景缩减方法获得最终典型场景，构建了确定新能源典型出力场景的整体方案。该方案考虑了原始出力场景间的时间相关性。最后，分别以2021年华北某地风电、光伏的日出力场景进行算例分析及对比验证。

摘要

新能源出力的波动性、随机性使得新型电力系统在规划以及运行分析时，如何获得典型出力场景是亟须解决的关键问题之一。提出了基于皮尔逊相关系数融合密度峰值和熵权法的典型场景聚类中心确定方法。首先，采用密度峰值方法选取初始聚类中心；然后，基于熵权法选取后续聚类中心；接着，采用后向场景缩减方法获得最终典型场景，以该方法为核心，构建了确定新能源典型出力场景的整体方案；最后，以2021年华北某地风电与光伏的日出力场景进行算例分析及对比验证，验证所提方法的准确性和有效性。研究成果将为电力系统规划与运行提供更为准确的数据支撑。

基于皮尔逊相关系数融合密度峰值和熵权法的聚类中心确定方法

本章重点阐述后续聚类中心的确定方法。

假设原始场景集合 S=[s₁,⋯,s_i,⋯,s_n] ，其中 s_i为集合S中第 i 个出力场景；n为集合S中场景的个数。假设聚类中心场景数量为k，建立集合S中其他场景与聚类中心场景之间的皮尔逊相关系数矩阵X为

式中：c(s_m,z_i) 为场景 s_m和 z_i之间的皮尔逊相关系数；z_i为第 i 个聚类中心场景；μ_s(m) 为 s_m中功率点的均值；μ_zi为 z_i中功率点的均值；σ_s(m) 为 s_m中功率点的标准差；σ_zi为 z_i中功率点的标准差。x_mi取为 [0,2] ，场景形态越接近，则数值越小。

第m个聚类中心的信息熵 H_m为

第m个聚类中心的权重系数 α_m为

当不同聚类中心的信息熵差别不大时，其对应权重数值接近。

场景 s_i与聚类中心整体的皮尔逊相关系数c_i为

集合 S 中，若场景 s_i的c_i值最大，则 s_i 为下一个聚类中心，并移除数据集合 S 中的场景 s_i ，通过循环迭代，确定新的式（5），并通过式（6）确定下一个新的聚类中心，直到获取所需要的全部聚类中心。

确定新能源典型出力场景的整体方案构建

本章构建了确定新能源典型出力场景的整体方案，主要包括数据预处理、利用本文提出的基于皮尔逊相关系数融合密度峰值和熵权法进行场景聚类、对聚类后各个簇中场景进行缩减，以及对获取的典型场景进行评估等。

2.1 数据预处理

数据在进行采集过程中存在缺失等问题，因此需要对出力场景集进行数据清洗。针对新能源日出力数据中存在单个采样点记录缺失，利用拉格朗日插值法进行数据填充。针对多个采样点记录缺失数据，利用数据所在当月对应时刻采样点平均值进行数据填充。

数据清洗后，针对数据在采集中可能受设备故障、信号干扰存在采集不稳定等问题，致使数据集失真，场景不光滑，影响场景集的聚类和典型场景提取，通过扩展卡尔曼滤波（extended Kalman filter，EKF）法对数据进行降噪，使数据场景更加平滑。

2.2 基于皮尔逊相关系数融合密度峰值和熵权法的聚类中心确定方法

2.2.1 基于密度峰值确定第一个初始聚类中心

本文利用高斯核求解方式确定密度峰值，首先需要通过计算场景集合 S 中任意2个场景之间的皮尔逊相关系数，共得到B=n(n–1)/2个相关性系数值。

将B个相关性系数值按从小到大进行排序，设置排序中第q（ q∈[0.01B,0.02B] ）个对应的相关性系数为截断系数d。利用高斯核求解方法确定场景 s_α的局部密度 ρ_α为

根据密度峰值的原理，第一个初始聚类中心为场景集合 S 中对应 ρ_α最大的场景，记为 z₁。

2.2.2 基于熵权法确定其余聚类中心

基于密度峰值确定初始聚类中心后，利用本文第1章中提出的基于熵权法确定后续聚类中心。

确定所有聚类中心后，每一个聚类中心形成一个数据簇，计算S中其余场景（除聚类中心外）按与各初始聚类中心的皮尔逊相关系数最小原则，将场景分配到对应聚类中心簇中。

为进一步提高聚类准确性，还须计算各个簇中场景的数据平均值作为新的聚类中心 z_a，如式（8）所示。然后，依据原场景集合S中数据与新的聚类中心的皮尔逊相关性系数进行重新分簇，同时利用式（8）重新获取聚类中心，直到连续2次聚类中心数据满足式（9）时结束。

式中：N_a为第 a 类分簇中场景个数；s_a_,u为第 a 类分簇中第u个场景 (u=1,2,⋯,N_a) ；为第d次迭代获取的新的第 a 个聚类中心。

2.2.3 确定最优聚类个数

由于簇的个数对聚类质量和后续场景缩减有很大的影响，因此确定最优的聚类个数可以平衡好不同分簇之间场景的特征差异，更有利于获取有代表性的典型场景。本方案通过肘部法则和戴维森堡丁指数（Davies-Bouldin index，DBI）进行综合研判，确定最优聚类个数。

1）肘部法则。

利用皮尔逊相关系数进行度量的聚类方法常采用肘部法则确定最优聚类个数，肘部法则对应计算表达式为

式中：Z_B为簇中数据与簇聚类中心数据的皮尔逊相关系数之和；A为总分簇数。

Z_B随着聚类簇数量的增加，簇中数据与聚类中心的相关性增大，数值减小，簇的畸变程度降低，当聚类个数增加到某个临界点时， Z_B 下降趋缓，则表示可以选择这个临界点作为聚类性能较优的点。

2）DBI指标 I_DB为

式中：分别为2个簇中样本与对应簇聚类中心的皮尔逊相关系数均值；z_j为第 j 个簇的聚类中心。

式（11）中DBI指标用皮尔逊相关系数进行度量，指标含义为簇间系数与簇内系数的比值，数值越小，表明聚类效果更优。

为提高最优聚类个数研判的准确性，避免单一聚类指标在皮尔逊相关系数进行度量的不适应性，本方案首先依据肘部法则确定临界点，在临界点附近依据DBI指标最小原则选择最优聚类个数。

2.3 后向场景缩减法获取典型场景

场景聚类后，利用场景缩减方法对聚类后各个簇中的场景进行典型场景提取，使最后保留的场景更好代表原始场景集。本文采用基于皮尔逊相关系数的后向场景缩减算法获取典型场景，避免采用欧式距离方法时簇内离群点的影响产生较大误差。该方法中，各个簇中保留的典型场景满足

式中：p_a_,u为场景 s_a_,u的概率；J 为删除场景集合。

为实现式（12），基于皮尔逊相关系数的后向场景缩减算法提取典型场景的7个步骤如下。

步骤1）：初始化设置，设第 a 类分簇的原始场景集合为 S_a，初始删除场景集合 J 为空，并设置各场景概率均为 p_a_,u=1/N_a。

步骤2）：计算簇中与簇内场景 s_a_,u相关性系数最接近的场景 s_a_,b，并计算两场景之间的皮尔逊相关系数乘以场景概率 p_a_,u的值，计算结果对应的 l_ub值为

步骤3）：确定最小 l_ub对应的场景 s_a_,u，并将其场景概率添加到与其皮尔逊相关系数最小值对应场景 s_a_,b中，使场景 s_a_,b的概率为

步骤4）：更新场景集合 S_a和删除场景集合J，新的场景集合和删除场景集合分别为

步骤5）：更新场景数 N_a= N_a−1 。

步骤6）：重复步骤2）~5），直到当集合 S_a中的场景个数为1时停止迭代，最后保留的一个场景则为场景缩减后的一个典型场景。

步骤7）：计算第 a 类簇中保留的典型场景概率为

2.4 典型场景评价指标

对生成的典型新能源出力场景进行评价，需要验证典型场景是否能够表征原始场景集的波动特性和相关性特性。本文采用爬坡相似度指标和动态相关性指标进行评价。

1）场景爬坡相似度为实际出力场景爬坡与典型场景爬坡之差的均值，用以验证典型场景与实际场景之间的波动特性，相似度 X 为

式中：ΔP_t_,t+1、 ΔP_a_,t,t+1分别为实际场景和第a个典型场景t时刻与t+1时刻出力差值。

当X值越小时，表明获取的典型场景爬坡情况与实际场景越接近，典型场景越接近真实场景。

2）场景动态相关性可表示为一段时间中典型场景出力与实际出力场景轨迹的变化量，验证场景之间的相关性水平。动态相关性可通过布莱尔分数（Brier score，BS）在一定置信水平下进行评价。基于BS的动态相关性S_B为

式中：E为评价的时间数目；θ为动态相关性事件，可表示为一定时间范围内的场景波动变化量是否大于设定的值；P_e[f(S_z;θ)] 为典型场景数据集合发生事件θ的概率， f(s^e;θ) 为实际场景在第e个时间段内是否发生事件θ，当发生事件θ时， f(⋅) 为1，不发生为0。

S_B值越小表示置信水平越高，典型场景与实际出力场景之间相关性越高。

2.5 整体方案流程

本文所提基于皮尔逊相关系数融合密度峰值和熵权法提取新能源出力典型场景整体方案流程如图1所示。

图1 整体方案流程

Fig.1 Overall scheme flow chart

算例验证

本文以华北电网某地2021年全年风电、光伏日出力监测数据为基础，通过Matlab R2016a实现本文所构建的确定新能源典型出力场景的整体方案，并进行算例验证。对比基于欧式距离关系融合密度峰值和熵权法、传统K-means聚类方法，提取典型场景的爬坡相似度、动态相关性指标，验证本文所提方法的可行性和有效性。

3.1 风电场景算例分析

3.1.1 风电典型场景生成

不同聚类中心个数对应肘部法则ZB结果（反映簇的畸变程度）和DBI指标IDB结果如图2所示。由图2可知，当聚类个数达到4以后，簇的畸变程度下降相对趋缓，因此聚类个数应大于4。同时，在DBI指标中，聚类数为6时，指标值最小，因此风电的最佳聚类个数选为6。

图2 风电聚类评价指标

Fig.2 Evaluation indicators of wind power clustering

通过本文提出的聚类中心确定方法，可获得每个月的聚类结果如图3所示。其中，不同颜色表示不同的分簇。由图3可知，本算例中风电聚类结果时间较为分散，无明显的季节性。

图3 风电聚类标签

Fig.3 Wind power clustering label

随后，通过基于皮尔逊相关系数的后向场景缩减算法对6个风电聚类簇进行场景缩减，获取典型风电场景。获取的6个典型风电场景图、典型场景概率如图4和表1所示。

图4 典型风电场景

Fig.4 Typical wind power scenarios

表1 典型风电场景概率

Table 1 Typical wind power scenario probability

由图4可知，获取的6个典型风电场景一天内的变化趋势各不相同，峰谷值可能出现在不同的时间段内，能够表征一定的差异性。由表1可知，6个典型场景发生的概率存在一定的差异性，其中场景6发生概率仅为0.044，能够适应一定的极端场景需求。

3.1.2 风电典型场景有效性分析

为验证本文所提出的基于皮尔逊相关系数融合密度峰值和熵权法的有效性，分别与基于欧式距离融合密度峰值和熵权法和应用最为广泛的传统K-means聚类方法进行对比分析。将3种方法获取的典型场景与月平均出力场景爬坡相似度、动态相关性指标进行对比，验证所提方法的有效性。其中，基于欧式距离融合密度峰值和熵权法和传统K-means聚类方法通过综合聚类指标确定最优典型风电场景个数，提取的典型场景数分别为8个和5个。

爬坡相似度对比结果如表2所示，动态相关性指标S_B值如表3所示。

表2 不同方法典型风电场景爬坡相似度X值

Table 2 Climbing similarity X of typical wind power scenarios by different methods

表3 不同方法典型风电场景动态相关性指标S_B值

Table 3 Dynamic correlation index S_B of typical wind power scenarios by different methods

由表2可知，除2月与12月平均日出力算例外，本文所提方法获取的典型风电场景与各月平均日出力场景的爬坡相似度X值均小于其他2种方法，表明该方法整体获取的典型场景与实际出力场景更为接近。由表3可知，除4月与5月平均日出力算例外，本文所提获取的典型风电场景与各月平均日出力场景的S_B值整体小于其他2种方法，表明本文提出的方法的置信度更高，典型场景与实际场景相关性更高。

3.2 光伏场景算例分析

3.2.1 光伏典型场景生成

与风电典型场景生成类似，通过本文提出的基于皮尔逊相关系数融合密度峰值和熵权法的聚类中心确定方法对光伏场景进行聚类，不同光伏聚类中心个数的肘部法则Z_B和DBI指标I_DB如图5所示。

图5 光伏聚类评价指标

Fig.5 Evaluation indicators of photovoltaic clustering

由图5可知，当光伏聚类个数达到4以后，簇的畸变程度下降趋缓，聚类数等于4为临界点；当聚类数大于4后，聚类数为5时，DBI指标值最小。因此光伏的最佳聚类个数选择5。

光伏聚类结果标签如图6所示。由图6可以看出，光伏场景聚类结果有明显的时间相关性。簇1主要包含4—9月的光伏日出力场景；簇2主要包含3—9月的光伏日出力场景；簇3主要包含1月、11月、12月的光伏日出力场景；簇4主要包含2月、3月、9月、10月和11月光伏日出力场景；簇5主要包含2月和3月光伏日出力场景。

图6 光伏聚类标签

Fig.6 photovoltaic clustering label

确定最佳聚类个数后，通过2.3节中的基于皮尔逊相关系数的后向场景缩减算法对5个光伏聚类簇进行场景缩减，获取的5个典型光伏场景如图7所示，典型场景概率如表4所示。

图7 典型光伏场景

Fig.7 Typical photovoltaic scenarios

表4 典型光伏场景概率

Table 4 Typical photovoltaic scenario probability

由图7可知，获取的5个典型风电场景图形差异不大，出力峰值集中在中午时段。由表4可知，5个典型光伏场景发生的概率差异不大，主要与季节相关。

3.2.2 光伏典型场景有效性分析

将3种方法获取的典型光伏场景与各月平均出力场景进行爬坡相似度和动态相关性的对比，验证所提方法的有效性。其中，基于欧式距离融合密度峰值和熵权法和传统K-means聚类方法通过综合聚类指标确定的最优典型场景个数分别为4个和6个。爬坡相似度对比结果如表5所示，动态相关性指标S_B值如表6所示。

表5 不同方法典型光伏场景爬坡相似度X值

Table 5 Climbing similarity X of typical photovoltaic scenarios by different methods

表6 不同方法典型光伏场景动态相关性指标S_B值

Table 6 Dynamic correlation index S_B of typical photovoltaic scenarios by different methods

从表5可以看出，除5月和8月平均日出力算例外，本文提出的方法获取的典型光伏场景与各月平均日出力场景的爬坡相似度X值均小于方法2和方法3，表明该方法获取的典型场景与实际出力场景更加接近。表6动态相关性检验结果中，除12月平均日出力算例外，本文提出的方法获取的典型光伏场景与各月平均日出力场景的BS值整体小于方法2和方法3，表明该方法的置信度更高，典型场景与实际场景相关性更高。

结论

本文提出了基于皮尔逊相关系数融合密度峰值和熵权法的聚类中心确定方法，并以此为核心，构建了确定新能源典型出力场景的整体方案。结合实际算例，得出以下结论。

1）应重视典型日出力场景的研究，选取合适的典型场景集可避免海量场景下计算的复杂度，同时能够凝练原始数据的出力特征。

2）相比于传统基于欧式距离进行度量的典型场景提取方法，本文采用基于皮尔逊相关系数进行度量，提取场景集下的典型场景，更好保留场景之间的时序特征，减少测量点受到的环境干扰。

3）通过算例，验证了本文所提基于皮尔逊相关系数融合密度峰值和熵权法的典型新能源出力场景研究思路获取典型场景的爬坡相似度P_a指标和动态相关性指标BS指标优于基于欧式距离的所提改进典型场景提取方法以及应用较为广泛的获取典型场景的传统方法，所提方法的准确性和可行性整体更优。

未来，将进一步探究利用提取的典型场景在电力系统规划、调度运行等方面的应用研究。

注：本文内容呈现略有调整，如需要请查看原文。

往期回顾

◀《中国电力》2023年第10期目录◀【好文推荐】配电网运行异常数据识别方法◀【好文推荐】混杂Petri-net的配电网多层级节点电压混杂控制◀【好文推荐】面向配电网多业务资源智能调度的边缘容器迁移优化方法◀【好文推荐】基于对抗性强化学习的配电网融合通信效率提升方法◀ “新型电力系统储能规划与运行关键技术”专题征稿启事◀ “面向现代智慧配电网的二次系统规划”专栏征稿启事◀ “面向电力基础设施的跨域攻击威胁与防御”专栏征稿启事◀ “面向新型电力系统的城市电网关键技术”专题征稿启事

编辑：于静茹

策划：蒋东方

审核：方彤

声明

根据国家版权局最新规定，纸媒、网站、微博、微信公众号转载、摘编《中国电力》编辑部的作品，转载时要包含本微信号名称、二维码等关键信息，在文首注明《中国电力》原创。个人请按本微信原文转发、分享。欢迎大家转载分享。

继续滑动看下一个

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

刑讯逼供、管辖异议，唐山杨立国涉黑案争议

大瓜！找工作太难了：私募大佬白嫖95后小姐姐事件刷屏！

深度 |台积电断供大陆芯片，任正非罕见感谢特朗普，美霸权摇摇欲坠

基于皮尔逊相关系数融合密度峰值和熵权法典型场景研究｜《中国电力》

您可能也对以下帖子感兴趣

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

刑讯逼供、管辖异议，唐山杨立国涉黑案争议

大瓜！找工作太难了：私募大佬白嫖95后小姐姐事件刷屏！

深度 |台积电断供大陆芯片，任正非罕见感谢特朗普，美霸权摇摇欲坠

生成图片，分享到微信朋友圈

基于皮尔逊相关系数融合密度峰值和熵权法典型场景研究｜《中国电力》

您可能也对以下帖子感兴趣