今日导读与您分享,欢迎关注!
基于皮尔逊相关系数融合密度峰值和熵权法典型场景研究
赵源上, 林伟芳
(中国电力科学研究院有限公司, 北京 100192)
摘要: 新能源出力的波动性、随机性使得新型电力系统在规划以及运行分析时,如何获得典型出力场景是亟须解决的关键问题之一。提出了基于皮尔逊相关系数融合密度峰值和熵权法的典型场景聚类中心确定方法。首先,采用密度峰值方法选取初始聚类中心;然后,基于熵权法选取后续聚类中心;接着,采用后向场景缩减方法获得最终典型场景,以该方法为核心,构建了确定新能源典型出力场景的整体方案;最后,以2021年华北某地风电与光伏的日出力场景进行算例分析及对比验证,验证所提方法的准确性和有效性。研究成果将为电力系统规划与运行提供更为准确的数据支撑。
引文信息
赵源上, 林伟芳. 基于皮尔逊相关系数融合密度峰值和熵权法典型场景研究[J]. 中国电力, 2023, 56(5): 193-202.
ZHAO Yuanshang, LIN Weifang. Research on typical scenarios based on fusion density peak value and entropy weight method of pearson’s correlation coefficient[J]. Electric Power, 2023, 56(5): 193-202.
引言
随着中国新型电力系统的建设,风电和光伏将逐渐成为未来新型电力系统的供能主体[1] 。由于风电和光伏发电功率受天气、季节等自然条件影响,具有波动性、随机性等特点,需要考虑的出力场景愈加繁杂,而这些出力场景也是后续开展规划和运行分析的关键数据,因此如何获得出力典型场景成为亟须解决的关键问题之一[2-6] 。获取新能源典型出力场景通常采用场景聚类方法[7] 。K-means聚类算法具有结构简单、时间复杂度低的优势,在利用场景聚类方法提取典型场景中有着广泛应用[8-13] 。文献[8]在配电网多场景规划模型中,使用K-means聚类算法将日新能源出力和负荷数据进行聚类,为规划模型提供所需的典型场景。文献[9]在研究综合能源站储能配置提高风电消纳率中,利用K-means聚类算法提取综合能源系统冬、夏、过渡季的典型场景。但传统K-means聚类方法选取聚类中心具有随机性特点,对聚类中心位置敏感不足[10] 。因此,一些文献提出了基于密度峰值选取聚类中心,对传统K-means聚类方法进行改进,提高典型场景提取的准确性[11-13] 。该方法假设密度中心数据局部密度最高,密度中心即为初始聚类中心。目前确定密度峰值的方法主要有截断核和高斯核2种方法[12] 。如文献[11]采用截断核方法确定密度峰值,文献[12]采用高斯核方法确定密度峰值,选取阈值距离范围内高密度的点为初始聚类中心。文献[13]首先对可再生能源每天不同监测点进行赋权,随后利用高斯核方法确定密度峰值,选取初始聚类中心。相比截断核方法,高斯核求解方法能有效避免不同数据点具有相同局部密度,引起聚类中心选取具有不确定性。同时,聚类中心往往为各场景取平均后的结果,将聚类中心作为典型场景,存在着无法表征原始出力场景间时间相关性的问题。如在进行电力系统日前调度过程中,聚类中心作为典型场景,其场景形态与实际场景之间存在一定的差异,在调度过程中不能较好地表征原始场景时序特征。为解决这一问题,一些文献在聚类结束后又进一步进行场景缩减[14-15] 。场景缩减后保留的场景为原始场景集中的实际场景,与聚类中心作为典型场景相比,能较好地保留原始场景集合的时序性特征[7] 。文献[14]在使用传统K-means算法对预测生成的风光场景进行初始聚类后,使用后向场景缩减算法获取西北某地冬季日前调度所需的典型场景。文献[15]在聚类后进行各类出力场景缩减,依据相关性之和最大的方法提取风光典型日场景,最后保留的典型场景与簇中原始场景出力实际特征相符合,具有相同的变化规律。在场景缩减方法中,后向场景缩减算法计算效率较高,常用来提取场景集中的典型场景[7,16] 。场景聚类、场景缩减方法提取典型场景的研究方法众多,在进行场景相似度量时,均主要以欧式距离为判断的主要依据。但是,欧式距离易对有形态差异的场景进行误匹配,同时欧式距离假设各测量点的获取数据条件相同,没有考虑各测量时间点可能受到的环境干扰,在提取典型场景时可能产生较大误差[17-18] 。皮尔逊相关系数在欧式距离的基础上进行了优化,能够表征数据之间的形态相关性,并考虑到了微小的局部形态差异,且不需要预先数据标准化,保留了原始数据特征[19-21] 。文献[20]在负荷分层聚类时首先依据皮尔逊相关系数初始化聚类中心,之后再基于欧式距离进行幅值相近聚类,避免单一使用欧式距离使簇内场景形态差异巨大。文献[21]在进行居民用电负荷预测时,依据负荷间的皮尔逊相关系数进行负荷精细聚类。综上,为解决传统K-means聚类方法选取初始聚类中心的随机性,本文提出了融合密度峰值和熵权法选取聚类中心的方法。首先,采用密度峰值方法选取初始聚类中心,然后,基于熵权法选取后续聚类中心。随后,通过采用后向场景缩减方法获得最终典型场景,构建了确定新能源典型出力场景的整体方案。该方案考虑了原始出力场景间的时间相关性。最后,分别以2021年华北某地风电、光伏的日出力场景进行算例分析及对比验证。
1 基于皮尔逊相关系数融合密度峰值和熵权法的聚类中心确定方法
初始聚类中心采用密度峰值方法,该方法基本与文献[12-13]相同。本章重点阐述后续聚类中心的确定方法。
假设原始场景集合 S =[s 1 ,⋯,si ,⋯,sn ] , 其中 si 为集合S 中第 i 个出力场景;n 为集合S 中场景的个数。假设聚类中心场景数量为k ,建立集合S 中其他场景与聚类中心场景之间的皮尔逊相关系数矩阵X 为
式中: c (sm ,zi ) 为 场景 sm 和 zi 之间的皮尔逊相关系数; zi 为第 i 个聚类中心场景; μ s (m ) 为 sm 中 功率点的均值; μ zi 为 zi 中功率点的均值; σ s (m ) 为 sm 中 功率点的标准差; σ zi 为 zi 中 功率点的标准差。 xmi 取为 [0,2] ,场景形态越接近,则数值越小[19-20] 。第m 个聚类中心的信息熵 Hm 为 第m 个聚类中心的权重系数 αm 为 当不同聚类中心的信息熵差别不大时,其对应权重数值接近[22] 。场景 si 与聚类中心整体的皮尔逊相关系数c i 为集合 S 中,若场景 si 的c i 值最大,则 si 为下一个聚类中心,并移除数据集合 S 中的场景 si ,通过循环迭代,确定新的式(5),并通过式(6)确定下一个新的聚类中心,直到获取所需要的全部聚类中心。
2 确定新能源典型出力场景的整体方案构建
本章构建了确定新能源典型出力场景的整体方案,主要包括数据预处理、利用本文提出的基于皮尔逊相关系数融合密度峰值和熵权法进行场景聚类、对聚类后各个簇中场景进行缩减,以及对获取的典型场景进行评估等。
2.1 数据预处理
数据在进行采集过程中存在缺失等问题,因此需要对出力场景集进行数据清洗。针对新能源日出力数据中存在单个采样点记录缺失,利用拉格朗日插值法进行数据填充。针对多个采样点记录缺失数据,利用数据所在当月对应时刻采样点平均值进行数据填充[23] 。
数据清洗后,针对数据在采集中可能受设备故障、信号干扰存在采集不稳定等问题,致使数据集失真,场景不光滑,影响场景集的聚类和典型场景提取,通过扩展卡尔曼滤波(extended Kalman filter,EKF)法对数据进行降噪,使数据场景更加平滑[24] 。
2.2 基于皮尔逊相关系数融合密度峰值和熵权法的聚类中心确定方法
2.2.1 基于密度峰值确定第一个初始聚类中心
本文利用高斯核求解方式确定密度峰值,首先需要通过计算场景集合 S 中任意2个场景之间的皮尔逊相关系数,共得到B =n (n –1)/2个相关性系数值。
将B 个相关性系数值按从小到大进行排序,设置排序中第q ( q ∈[0.01B,0.02B ] )个对应的相关性系数为截断系数d [11] 。利用高斯核求解方法确定场景 sα 的局部密度 ρα 为
根据密度峰值的原理,第一个初始聚类中心为场景集合 S 中对应 ρα 最大的场景,记为 z 1 。2.2.2 基于熵权法确定其余聚类中心 基于密度峰值确定初始聚类中心后,利用本文第1章中提出的基于熵权法确定后续聚类中心。确定所有聚类中心后,每一个聚类中心形成一个数据簇,计算S 中其余场景(除聚类中心外)按与各初始聚类中心的皮尔逊相关系数最小原则,将场景分配到对应聚类中心簇中。为进一步提高聚类准确性,还须计算各个簇中场景的数据平均值作为新的聚类中心 za ,如式(8)所示。然后,依据原场景集合S 中数据与新的聚类中心的皮尔逊相关性系数进行重新分簇,同时利用式(8)重新获取聚类中心,直到连续2次聚类中心数据满足式(9)时结束。 式中: Na 为第 a 类分簇中场景个数; sa ,u 为第 a 类分簇中第u 个场景 (u =1,2,⋯,Na ) ;为第 d 次迭代获取的新的第 a 个聚类中心。 2.2.3 确定最优聚类个数 由于簇的个数对聚类质量和后续场景缩减有很大的影响,因此确定最优的聚类个数可以平衡好不同分簇之间场景的特征差异,更有利于获取有代表性的典型场景。本方案通过肘部法则和戴维森堡丁指数(Davies-Bouldin index,DBI)进行综合研判,确定最优聚类个数。1)肘部法则。利用皮尔逊相关系数进行度量的聚类方法常采用肘部法则确定最优聚类个数[19-20] ,肘部法则对应计算表达式为 式中: Z B 为簇中数据与簇聚类中心数据的皮尔逊相关系数之和;A 为总分簇数。 Z B 随着聚类簇数量的增加,簇中数据与聚类中心的相关性增大,数值减小,簇的畸变程度降低,当聚类个数增加到某个临界点时, Z B 下 降趋缓,则表示可以选择这个临界点作为聚类性能较优的点[15] 。2)DBI指标 I DB 为 式中:分别为2个簇中样本与对应簇聚类中心的皮尔逊相关系数均值; zj 为第 j 个簇的聚类中心。 式(11)中DBI指标用皮尔逊相关系数进行度量,指标含义为簇间系数与簇内系数的比值,数值越小,表明聚类效果更优。为提高最优聚类个数研判的准确性,避免单一聚类指标在皮尔逊相关系数进行度量的不适应性,本方案首先依据肘部法则确定临界点,在临界点附近依据DBI指标最小原则选择最优聚类个数[15,19,25] 。2.3 后向场景缩减法获取典型场景 场景聚类后,利用场景缩减方法对聚类后各个簇中的场景进行典型场景提取,使最后保留的场景更好代表原始场景集[26] 。本文采用基于皮尔逊相关系数的后向场景缩减算法获取典型场景,避免采用欧式距离方法时簇内离群点的影响产生较大误差[15] 。该方法中,各个簇中保留的典型场景满足 式中: p a ,u 为场景 sa ,u 的 概率; J 为删除场景集合。为实现式(12),基于皮尔逊相关系数的后向场景缩减算法提取典型场景的7个步骤如下。步骤1):初始化设置,设第 a 类分簇的原始场景集合为 Sa ,初始删除场景集合 J 为空,并设置各场景概率均为 pa ,u =1/Na 。步骤2):计算簇中与簇内场景 sa ,u 相关性系数最接近的场景 sa ,b ,并计算两场景之间的皮尔逊相关系数乘以场景概率 pa ,u 的值,计算结果对应的 lub 值为 步骤3):确定最小 lub 对应的场景 sa ,u ,并将其场景概率添加到与其皮尔逊相关系数最小值对应场景 sa ,b 中,使场景 sa ,b 的概率为 步骤4):更新场景集合 Sa 和删除场景集合J ,新的场景集合和删除场景集合分别为 步骤5):更新场景数 Na = Na −1 。步骤6):重复步骤2)~5),直到当集合 Sa 中的场景个数为1时停止迭代,最后保留的一个场景则为场景缩减后的一个典型场景。步骤7):计算第 a 类簇中保留的典型场景概率为2.4 典型场景评价指标 对生成的典型新能源出力场景进行评价,需要验证典型场景是否能够表征原始场景集的波动特性和相关性特性[27] 。本文采用爬坡相似度指标和动态相关性指标进行评价[25,28] 。1)场景爬坡相似度为实际出力场景爬坡与典型场景爬坡之差的均值,用以验证典型场景与实际场景之间的波动特性,相似度 X 为 式中: ΔPt ,t +1 、 ΔPa ,t ,t +1 分别为实际场景和第a 个典型场景t 时刻与t+ 1时刻出力差值。当X 值越小时,表明获取的典型场景爬坡情况与实际场景越接近,典型场景越接近真实场景。2)场景动态相关性可表示为一段时间中典型场景出力与实际出力场景轨迹的变化量,验证场景之间的相关性水平。动态相关性可通过布莱尔分数(Brier score,BS)在一定置信水平下进行评价。基于BS的动态相关性S B 为 式中:E 为评价的时间数目;θ 为动态相关性事件,可表示为一定时间范围内的场景波动变化量是否大于设定的值; P e [f (Sz ;θ )] 为典型场景数据集合发生事件θ 的概率, f (se ;θ ) 为实际场景在第e 个时间段内是否发生事件θ ,当发生事件θ 时, f (⋅) 为1,不发生为0。S B 值越小表示置信水平越高,典型场景与实际出力场景之间相关性越高。2.5 整体方案流程 本文所提基于皮尔逊相关系数融合密度峰值和熵权法提取新能源出力典型场景整体方案流程如图1所示。
图1 整体方案流程
Fig.1 Overall scheme flow chart
3 算例验证
本文以华北电网某地2021年全年风电、光伏日出力监测数据为基础,通过Matlab R2016a实现本文所构建的确定新能源典型出力场景的整体方案,并进行算例验证。对比基于欧式距离关系融合密度峰值和熵权法、传统K-means聚类方法,提取典型场景的爬坡相似度、动态相关性指标,验证本文所提方法的可行性和有效性。3.1 风电场景算例分析 3.1.1 风电典型场景生成 不同聚类中心个数对应肘部法则Z B 结果(反映簇的畸变程度)和DBI指标I DB 结果如图2所示。由图2可知,当聚类个数达到4以后,簇的畸变程度下降相对趋缓,因此聚类个数应大于4。同时,在DBI指标中,聚类数为6时,指标值最小,因此风电的最佳聚类个数选为6。
图2 风电聚类评价指标
Fig.2 Evaluation indicators of wind power clustering
通过本文提出的聚类中心确定方法,可获得每个月的聚类结果如图3所示。其中,不同颜色表示不同的分簇。由图3可知,本算例中风电聚类结果时间较为分散,无明显的季节性。
图3 风电聚类标签
Fig.3 Wind power clustering label
随后,通过基于皮尔逊相关系数的后向场景缩减算法对6个风电聚类簇进行场景缩减,获取典型风电场景。获取的6个典型风电场景图、典型场景概率如图4和表1所示。
图4 典型风电场景
Fig.4 Typical wind power scenarios
表1 典型风电场景概率
Table 1 Typical wind power scenario probability
由图4可知,获取的6个典型风电场景一天内的变化趋势各不相同,峰谷值可能出现在不同的时间段内,能够表征一定的差异性。由表1可知,6个典型场景发生的概率存在一定的差异性,其中场景6发生概率仅为0.044,能够适应一定的极端场景需求。3.1.2 风电典型场景有效性分析 为验证本文所提出的基于皮尔逊相关系数融合密度峰值和熵权法的有效性,分别与基于欧式距离融合密度峰值和熵权法和应用最为广泛的传统K-means聚类方法进行对比分析。将3种方法获取的典型场景与月平均出力场景爬坡相似度、动态相关性指标进行对比,验证所提方法的有效性。其中,基于欧式距离融合密度峰值和熵权法和传统K-means聚类方法通过综合聚类指标确定最优典型风电场景个数[29] ,提取的典型场景数分别为8个和5个。爬坡相似度对比结果如表2所示,动态相关性指标S B 值如表3所示。
表2 不同方法典型风电场景爬坡相似度X值
Table 2 Climbing similarity X of typical wind power scenarios by different methods
表3 不同方法典型风电场景动态相关性指标SB值
Table 3 Dynamic correlation index SB of typical wind power scenarios by different methods
由表2可知,除2月与12月平均日出力算例外,本文所提方法获取的典型风电场景与各月平均日出力场景的爬坡相似度X 值均小于其他2种方法,表明该方法整体获取的典型场景与实际出力场景更为接近。由表3可知,除4月与5月平均日出力算例外,本文所提获取的典型风电场景与各月平均日出力场景的S B 值整体小于其他2种方法,表明本文提出的方法的置信度更高,典型场景与实际场景相关性更高。3.2 光伏场景算例分析 3.2.1 光伏典型场景生成 与风电典型场景生成类似,通过本文提出的基于皮尔逊相关系数融合密度峰值和熵权法的聚类中心确定方法对光伏场景进行聚类,不同光伏聚类中心个数的肘部法则Z B 和DBI指标I DB 如图5所示。
图5 光伏聚类评价指标
Fig.5 Evaluation indicators of photovoltaic clustering
由图5可知,当光伏聚类个数达到4以后,簇的畸变程度下降趋缓,聚类数等于4为临界点;当聚类数大于4后,聚类数为5时,DBI指标值最小。因此光伏的最佳聚类个数选择5。光伏聚类结果标签如图6所示。由图6可以看出,光伏场景聚类结果有明显的时间相关性。簇1主要包含4—9月的光伏日出力场景;簇2主要包含3—9月的光伏日出力场景;簇3主要包含1月、11月、12月的光伏日出力场景;簇4主要包含2月、3月、9月、10月和11月光伏日出力场景;簇5主要包含2月和3月光伏日出力场景。
图6 光伏聚类标签
Fig.6 photovoltaic clustering label
确定最佳聚类个数后,通过2.3节中的基于皮尔逊相关系数的后向场景缩减算法对5个光伏聚类簇进行场景缩减,获取的5个典型光伏场景如图7所示,典型场景概率如表4所示。
图7 典型光伏场景
Fig.7 Typical photovoltaic scenarios
表4 典型光伏场景概率
Table 4 Typical photovoltaic scenario probability
由图7可知,获取的5个典型风电场景图形差异不大,出力峰值集中在中午时段。由表4可知,5个典型光伏场景发生的概率差异不大,主要与季节相关。3.2.2 光伏典型场景有效性分析 将3种方法获取的典型光伏场景与各月平均出力场景进行爬坡相似度和动态相关性的对比,验证所提方法的有效性。其中,基于欧式距离融合密度峰值和熵权法和传统K-means聚类方法通过综合聚类指标确定的最优典型场景个数分别为4个和6个。爬坡相似度对比结果如表5所示,动态相关性指标S B 值如表6所示。
表5 不同方法典型光伏场景爬坡相似度X值
Table 5 Climbing similarity X of typical photovoltaic scenarios by different methods
表6 不同方法典型光伏场景动态相关性指标SB值
Table 6 Dynamic correlation index SB of typical photovoltaic scenarios by different methods
从表5可以看出,除5月和8月平均日出力算例外,本文提出的方法获取的典型光伏场景与各月平均日出力场景的爬坡相似度X 值均小于方法2和方法3,表明该方法获取的典型场景与实际出力场景更加接近。表6动态相关性检验结果中,除12月平均日出力算例外,本文提出的方法获取的典型光伏场景与各月平均日出力场景的BS值整体小于方法2和方法3,表明该方法的置信度更高,典型场景与实际场景相关性更高。
4 结论
本文提出了基于皮尔逊相关系数融合密度峰值和熵权法的聚类中心确定方法,并以此为核心,构建了确定新能源典型出力场景的整体方案。结合实际算例,得出以下结论。1)应重视典型日出力场景的研究,选取合适的典型场景集可避免海量场景下计算的复杂度,同时能够凝练原始数据的出力特征。2)相比于传统基于欧式距离进行度量的典型场景提取方法,本文采用基于皮尔逊相关系数进行度量,提取场景集下的典型场景,更好保留场景之间的时序特征,减少测量点受到的环境干扰。3)通过算例,验证了本文所提基于皮尔逊相关系数融合密度峰值和熵权法的典型新能源出力场景研究思路获取典型场景 的爬坡相似度P a 指标和动态相关性指标BS指标优于基于欧式距离的所提改进典型场景提取方法以及应用较为广泛的获取典型场景的传统方法,所提方法的准确性和可行性整体更优。未来,将进一步探究利用提取的典型场景在电力系统规划、调度运行等方面的应用研究。(责任编辑 许晓艳)
作者介绍
赵源上(1998—),男,硕士研究生,从事新型电力系统规划及运行研究,E-mail:982290628@qq.com; ★
林伟芳(1983—),女,通信作者,高级工程师(教授级),从事新型电力系统规划及运行研究,E-mail:86257922@qq.com.