基于t-SNE降维和放射传播聚类算法的低压配电网相位识别
柳守诚, 王淳, 邹智辉, 陈佳慧, 周晗, 刘伟, 张旭
(南昌大学 信息工程学院, 江西 南昌 330031)
摘要: 智能电表的广泛普及和高级测量体系(advanced metering infrastructure,AMI)的建立为分析配电网运行情况提供了大量监测信息与测量数据,而台区用户的相位信息变动又为准确掌握台区运行情况带来难题。针对台区用户的相位识别问题,提出了一种基于用户电压数据的t分布随机邻接嵌入(t-distributed stochastic neighbor embedding,t-SNE)特征提取及放射传播(affinity propagation,AP)聚类算法的相位识别方法。先对提取出的用户电压数据进行Z-score数据标准化处理,由t-SNE降维提取出数据特征,再采用放射传播聚类算法对用户进行相位识别。选取某市2个小区进行算例分析,采用评价指标比较了不同识别方法的识别效果,并分析了数据采集频率和计量误差对识别效果的影响。实际台区算例分析验证了所提方法的准确性,说明所提方法能够有效解决台区用户相位识别问题。
引文信息
柳守诚, 王淳, 邹智辉, 等. 基于t-SNE降维和放射传播聚类算法的低压配电网相位识别[J]. 中国电力, 2023, 56(5): 108-117.
LIU Shoucheng, WANG Chun, ZOU Zhihui, et al. Phase identification of low voltage distribution network based on t-sne dimension reduction and affinity propagation clustering algorithm[J]. Electric Power, 2023, 56(5): 108-117.
引言
低压配电网台区用户的相位信息对从业人员全面管理用户台区具有重要意义,是供电网络线损计算、电能质量改善、供电可靠性提高等工作的重要基础,也是负荷不平衡治理的重要依据。随着智能电网建设进程的不断推进,智能电表得到广泛普及,这为分析配电网运行情况提供了大量监测信息与测量数据[1-3] 。通过高级测量体系(advanced metering infrastructure,AMI),配电公司得以掌握海量的用户配电数据。同时随着经济发展及人们生活质量的改善,低压台区用户的数量大量增长,用户的相位信息及台区隶属关系发生变动时,会带来一系列相位信息更新不及时、信息错误、信息缺失等问题,如采用人工排查的方式,不仅费时费力,而且准确率难以保障。海量监测信息与测量数据具有解决相位识别问题的强大潜力,充分利用数据分析的方式开展相位识别工作在实际工程中是十分必要的,智能电表的广泛普及又为数据分析解决相位识别问题提供了可行性[4-7] 。当前,国内外相关人员针对低压配电网台区用户的相位识别问题开展了大量研究,具体而言有以下几个方面。从拟合法[8-11] 出发,文献[8]基于多元线性回归原理,以关口电压、电流和用户电表电流为自变量,用户电表电压为因变量,构建多元线性回归方程,以决定系数判断相位信息。文献[9]基于电功率时间序列,采用整数规划和连续松弛有效检索用户相位信息。拟合法根据最优组合来判断用户相位,若用户数量增加,计算复杂度将上升较快,这类方法没有充分考虑用户数据本身的特征。从机器学习[12-20] 方法出发,文献[12]考虑到三相表特征约束,在K -Medoids半监督聚类算法中嵌入快速收敛机制,能够有效辨识三相表不规范接线问题。文献[14]通过建立混合整数线性规划模型(mixed integer linear program,MILP),利用谱聚类的方法识别相位信息。文献[15]基于逆舒尔数据选取与信息加载技术,提出了基于信息损失理论的带监督学习方法,在大多数极限场景都能实现高准确率的相位识别。文献[16]采用机器学习中的t分布随机邻接嵌入(t-distributed stochastic neighbor embedding,t-SNE)降维方法对用户特征进行提取,采用无监督学习中的BIRCH聚类识别各个台区用户的相位信息。从图论理论[21-22] 出发,文献[21]基于能量守恒原理和图论理论,从能量测量的时间序列中识别相位信息,并考虑了随机误差和因智能电表同步时间不齐带来的误差。文献[22]分析知识图谱的构建方法,运用知识图谱技术对配电数据进行整合,挖掘数据之间的联系。从相关性[23-26] 出发,文献[23]利用沿线分布负荷对系统电压电流影响小的特性,通过计算相邻配电终端采集电气量的相似系数和相角差,判断保护区内线路以何种方式换相及换相次数,实现相位识别。文献[24]基于地理信息系统(geographic information system,GIS),通过用户电压分布相关分析识别相邻电表,由电压幅值推测用户上下游关系。这类方法判断角度单一,在面对配电数据特征高度相似的用户群可能出现识别效果不理想的问题。为解决低压配电网用户的相位识别问题,本文从用户日电压数据集入手,提出一种基于用户电压数据的t-SNE特征提取以及放射传播(affinity propagation,AP)聚类算法的相位识别方法。该方法首先对提取出的用户电压数据做Z-score数据标准化处理,由t-SNE降维提取数据特征,然后由AP算法对用户进行相位识别。并采用评价指标比较不同识别方法的识别效果,分析不同采集频率和不同计量误差给识别效果带来的影响。应用实际台区算例验证本文所提方法的可行性和有效性。相较于传统方法,本文所提方法对数据集进行处理,有效保留了原始数据的主要特征,且本文所采取的AP聚类算法具有对初始值不敏感、以已有的数据点作为聚类中心、无须指定最终聚类簇的个数等优点,相比于现有方法准确率更高,稳定性更好。
1 数据预处理
通过AMI,配电公司得以掌握海量的用户配电数据。然而所获得的用户配电数据往往具有数量庞大、密度高、数据间特征差异不明显、部分数据丢失等特点,带来求解速度慢、结果准确率低、算法耗时较长等问题。获得的配电数据不宜直接使用,需要经过一系列数据预处理,本文采用Z-score数据标准化放大数据特征差异,采用t-SNE降维处理降低数据密度,削弱畸形数据干扰,实现保留数据主要特征、凸显特征差异、提纯数据的目的,为后续算法实现相位识别提供数据基础。1.1 Z-score数据标准化 在相位识别时,希望能保留用户数据的整体分布特性,避免数据量级差异过大干扰分析结果。Z-score标准化是一种特征缩放的方法,它可以将原始的有量纲数据变为无量纲数据,在不改变数据分布的同时,将原有的数据分布变换为均值为0、方差为1的标准正态分布,使数据按照比例缩放,落入指定区间。该方法保留了原始数据特征,适合处理用户配电数据。Z-score标准化过程如下。
本文选取用户台区同一日内相同时刻下用户日电压数据作为分析数据。定义用户日电压数据矩阵U 为
式中:N 为台区用户总数;t 为该日选取的时刻点总数。以用户1在该日的日电压数据向量 U 1 =[u 1,1 u 1,2 ⋯u 1,t ] 为例,Z-score标准化的计算方式为 式中: μ 1 为用户1的日电压数据的均值; σ 1 为用户1的日电压数据的标准差;为经过Z-score标准化处理后的用户1的日电压数据向量。 通过上述公式,可得到处理后的标准化用户电压数据,此时该数据维数仍与原数据维数保持一致,但数据分布变为标准正态分布。1.2 t-SNE降维处理 流形学习(manifold learning)是在2000年被首次提出的概念,如今已成为信息科学领域的研究热门。流形学习假设数据是由一个低维流形向高维欧氏空间映射的结果,而流形学习的方法就是从高维欧氏空间中把低维流形的结构恢复出来,并求出相应的嵌入映射,实现数据简化。随机邻域嵌入(stochastic neighbor embedding,SNE)是一种典型的流形学习方法,该方法基于高斯分布,但存在梯度计算复杂、数据拥挤问题。t-SNE是将t分布和SNE结合起来的改进方法[13-14] ,解决了原SNE存在的数据拥挤问题,对高维数据集有良好的处理效果。t-SNE共分为3个步骤。1)求解标准化用户数据集的高斯概率分布矩阵P 。对于P 中第i 行第j 列的元素p ij ,计算公式为 式中: pj |i 为用户j 是用户i 邻近点的概率;p ij 为用户i 和用户j 之间的联合概率密度; σi 为以用户i 为中心的高斯概率分布的标准差,通常由二分搜索的方式求解得出。2)求解低维用户数据集的t概率分布矩阵Q 。对于Q 中第i 行第j 列的元素q ij ,计算公式为 式中:Y 为随机选定的一个初始化低维数据集;q ij 为低维空间中用户i 和用户j 之间的联合概率密度。3)计算Kullback-Leible(KL)散度,迭代求解出低维数据集Y 。为衡量高维空间和低维空间之间的相似性,可采用KL散度的概念,KL散度主要用来描述2个概率分布的差异,KL散度 C 定义为 C 的值越小,说明降维前后用户之间的相对分布越一致,意味着经过处理后所得的低维数据集越能代替标准化用户数据集。 由 C 对 Y i 求偏导得 迭代计算式为式中: η 为学习率; α 为动量因子。反复迭代,求解式(9)直至ΔY 小于等于设定阈值,此时所得的低维数据集Y 与标准化用户数据集数据分布保持一致,有效剔除了标准化数据集中的无用信息,降低了标准化数据集的维度。
2 放射传播聚类算法
AP聚类算法是一种基于信息传递的无监督学习算法[27] ,其基本思想在于认为所有数据点都有成为聚类中心的可能,通过在不同点之间传递信息,逐步筛选出聚类中心,直至聚类中心稳定。2.1 相似度 AP聚类算法以数据点之间的相似度距离构成的相似度矩阵S 作为输入,根据实际情况可采用不同的距离概念如欧式距离、夹角余弦、曼哈顿距离等。本文采用数据点i 、k 之间欧式距离的负值定义相似度矩阵元素 S (i ,k ) ,假如以二维空间为例,相似度计算公式为
式中:x i 和x k 分别为二维数据点i 和k 的横坐标;y i 和y k 分别为二维数据点i 和k 的纵坐标,其他维空间的相似度计算公式亦是同理。 S (i ,k ) 越大,说明点i 和点k 越相似,也表示点k 作为点i 的聚类中心的能力越强。对于相似度矩阵主对角线元素 S (k ,k ) ,称其为参考度p , S (k ,k ) 表示的是点k 作为聚类中心的可能程度,由相似度的概念可知 S (k ,k ) 应为0,但在AP聚类算法中, S (k ,k ) 设置为相似度矩阵的平均值或最小值,本文取平均值。2.2 吸引度和归属度 定义 r (i ,k ) 为点k 对点i 的吸引度,表示的是点k 适合作为点i 的聚类中心的程度;定义 a (i ,k ) 为点i 对点k 的归属度,表示的是点i 选择点k 作为其聚类中心的认可程度。 r (i ,k ) 和 a (i ,k ) 共同反映点k 作为点i 的聚类中心的可能性。AP聚类算法通过不断地交替更新每个点的吸引度和归属度的值,直至达到最大迭代次数或聚类中心稳定不再改变。2.3 更新过程 在算法开始时,所有数据点的吸引度和归属度均置为0。首先计算吸引度。当 i ≠k 时,吸引度 r (i ,k ) 为 当 i =k 时,吸引度 r (k ,k ) 为 式(11)和(12)说明所有候选点即有机会成为聚类中心的点之间相互影响,所有候选点都将参与到点的归属权中,更新后 r (i ,k ) 表示相比于最强的竞争点,点k 在争取点i 时所具有的优势程度。此时 r (i ,k ) 仅考虑了点k 成为点i 聚类中心的可能性,但没有考虑点k 是否会成为其他点的聚类中心,所以还需要计算归属度。当 i ≠k 时,归属度 a (i ,k ) 为 当 i =k 时,归属度 a (k ,k ) 为 式(13)说明更新后 a (i ,k ) 等于自我吸引度 r (k ,k ) 加上来自除点i 、k 外其他点的正向吸引度之和,且求出的值不得超过0。式(14)说明自我归属度 a (k ,k ) 的值等于从除点k 外其他点的正向吸引度之和。吸引度和归属度更新的示意如图1所示。
图1 更新示意
Fig.1 Update diagram
在更新过程中,为防止出现数据振荡,导致聚类中心不能稳定下来,影响聚类效果,引入阻尼因子 λ ,即
式中:t 为迭代的次数; λ ∈(0,1) ,本文 λ =0.5 。反复迭代更新,直至吸引度和归属度稳定后,数据点i 所归属的聚类中心k 为 即k 为使 a (i ,k )+r (i ,k ) 取得最大值时的取值。2.4 评价指标 为判断相位识别结果的好坏,须采用合适的评价指标衡量识别结果。评价指标分为内部指标和外部指标,外部指标需要借助实际结果情况做出比对分析,内部指标则直接对计算结果做出评估,无须借助实际结果。本文采取以下几个外部指标衡量识别效果。1)改进兰德系数(adjusted Rand index,ARI)。兰德系数(Rand index,RI)是一种常见的聚类评价指标,用来衡量两个数据集的吻合程度。现定义兰德系数 λ RI 为 式中:λ TP 指在实际结果中被归为同一类,在聚类结果中也被归为同一类的数据点对数;λ TN 指在实际结果中被归为不同类,在聚类结果中也被归为不同类的数据点对数;N 为数据点总数;C N 为数据点总数为N 的组合数。RI的缺点在于区分度不够,因此更多采用的是改进兰德系数λ ARI ,即 式中: E (λ RI ) 指RI的数学期望。λ ARI 用于衡量分类正确的用户在所有用户中的占比,取值为[–1,1],聚类结果越准确,λ ARI 的值越接近1。2)FM指数(Fowlkes Mallows index,FMI)是由聚类结果和实际结果计算得到的准确率和召回率的几何平均值,则FM指数 λ FMI 为式中:λ FP 指在实际结果中被归为不同类,但在聚类结果中被归为同一类的数据点对数;λ FN 指在实际结果中被归为同一类,但在聚类结果中被归为不同类的数据点对数。λ FMI 用于衡量分类正确和分类错误的用户间相对比例,取值为[0,1],λ FMI 越接近1,说明聚类结果和真实情况越吻合。
3 相位识别流程
采用第1章的数据预处理方法,得到保留主要特征的数据集,作为第2章的放射传播聚类算法的输入,得到识别结果,与真实结果相比较,完成对低压台区用户相位的识别,具体步骤为:1)对原始数据集进行数据清洗,去除电压值全为零、计量周期内电压不变、数据缺失严重的用户。2)使用Z-score标准化和t-SNE降维对清洗后的数据集进行处理,获得包含主要数据特征和数据分布特性的降维后数据集。3)设定AP聚类算法的参考度p 、最大迭代次数n 、阻尼因子 λ ,计算相似度矩阵S ,初始化吸引度r 和归属度a 。4)由式(11)~(14)更新吸引度和归属度,直至吸引度和归属度稳定或迭代次数达到最大值。5)确定所有点的聚类结果,根据评价指标,评估聚类效果。识别流程如图2所示。
图2 相位识别流程
Fig.2 Flow chart of phase identification
4 算例分析
本文以某市2个小区为例,按照15 min的时间间隔采集一天共96个计量点(T =96)的电压数据,小区1共包含136个用户,小区2共包含147个用户,对于部分缺失值,采用插值法补全。部分台区用户日电压曲线如图3和图4所示。
图3 台区1用户日电压曲线
Fig.3 Daily voltage curve of station area 1 users
图4 台区2用户日电压曲线
Fig.4 Daily voltage curve of station area 2 users
4.1 t-SNE处理前后相关性分析 对台区1、2用户日电压数据做出Z-score数据标准化后,采用t-SNE对台区1、2标准化用户日电压数据集降维处理。为分析t-SNE降维效果,以台区2为例,设定t-SNE降维的目标维数为2维,根据处理前后的用户日电压数据集计算用户间电压相关系数,并绘制相关系数热力图如图5和图6所示。
图5 经t-SNE处理前台区2用户相关系数热力图
Fig.5 Thermal diagram of station area 2 users related index before t-SNE processing
图6 经t-SNE处理后台区2用户相关系数热力图
Fig.6 Thermal diagram of station area 2 users related index after t-SNE processing
由图5分析可知:经t-SNE降维处理前的台区2用户间相关系数均大于0.95,由相关系数阈值表可知,经t-SNE降维处理前用户间相关性极强,用户间区分彼此的特征不明显,说明经t-SNE降维处理前的台区2用户日电压数据集不利于后续算法抓住用户日电压曲线特征进行区分;经t-SNE降维处理后,相关系数热力图出现明显变化,由图6可看出,用户间相关系数大幅度降低,部分用户间已无相关性,此时用户日电压曲线特征得以凸显,且处理后的用户日电压数据集降到2维,数据维度得到极大压缩的同时还保留了数据特征,证明了本文采取的t-SNE降维处理的有效性。4.2 识别结果分析和对比方法分析 对原有用户日电压数据做出数据预处理后,采用AP聚类算法,对得到的用户日电压低维数据集进行聚类,依次取不同的参考度,计算后得到聚类簇数变化如图7所示。
图7 台区1和2取不同参考度的聚类簇数
Fig.7 The number of clusters with different preferences in station areas 1 and 2
由图7可以看出,聚类簇数随参考度绝对值的不断增大而逐渐减少,簇数为3或者1 时逐渐稳定。考虑到当参考度绝对值足够大时,所有用户必然归于同一集合,因此聚类簇数为1不具有实际意义,实际簇数应为3。对于台区1,当参考度达到–450时,簇数达到3并且趋于稳定;对于台区2,当参考度达到–400时,簇数达到3并且趋于稳定。选取台区1参考度为–450,台区2参考度为–400时,两台区的聚类效果如图8和图9所示。
图8 台区1聚类效果
Fig.8 Cluster effect of station area 1
图9 台区2聚类效果
Fig.9 Cluster effect of station area 2
为证明本文方法在相位识别问题中的准确性,采用相同的评价指标,将本文方法与未经标准化和降维处理的AP聚类、相关系数法、多元线性回归做比较,分别计算评价指标,识别结果评价指标对比如表1所示。
表1 各相位识别方法评价指标对比
Table 1 Comparison of evaluation indexes of each phase identification method
由表1可知,对于台区1和台区2用户日电压数据,本文所采用的方法在评价指标上均为最高。对原始用户日电压数据集不采用数据预处理,直接使用放射传播聚类算法进行相位识别,ARI和FMI指数出现明显下降,这证明本文采用的Z-score数据标准化和t-SNE降维的数据预处理方法有效提高了识别准确率,说明降维后的用户日电压数据集保留了原始数据集的主要特征和数据分布,减少了高维数据集带来的冗余信息的干扰。为进一步验证本文方法的有效性,采取其他降维方式如线性降维中的典型方法—主成分分析(PCA)以及不同聚类方法进行相位识别,并设置不同降维维度做横向比较,结果如表2~4所示。
表2 各相位识别方法评价指标对比(维度为2)
Table 2 Comparison of evaluation indexes of each phase identification method (dimension is 2)
表3 各相位识别方法评价指标对比(维度为3)
Table 3 Comparison of evaluation indexes of each phase identification method (dimension is 3)
表4 各相位识别方法评价指标对比(维度为4)
Table 4 Comparison of evaluation indexes of each phase identification method (dimension is 4)
由表2~4可以看出,采用相同聚类算法时,作为非线性降维的t-SNE降维识别准确率要大于作为线性降维的PCA,这是因为PCA易丢失数据的分布特性,导致压缩后的数据集信息完整程度下降,所以不同维度时整体的识别准确率要低于保留了完整数据分布特性的t-SNE降维。此外,由表2~4还可以看出,不同维度但降维方法相同时,AP聚类的识别准确率整体上要高于DBSCAN聚类,说明AP聚类算法在相位识别问题上具有一定的优势。在降维维度等于2时,使用t-SNE降维的识别准确率较高,说明选取该维度作为目标维度较合适,符合以往行业人员的经验。4.3 数据采集频率及计量误差对识别效果的影响分析 在实际现场中,由于不同用户智能电表可能存在配置不同或老化问题等原因,所采集的电压数据可能存在采集频率不同和计量误差问题,为分析这些因素带来的影响,本文设置15 min、30 min、1 h、3 h等4种采集间隔,以及0、0.1%、0.3%、0.5%等4种计量误差,重新进行相位识别,计算得到评价指标结果对比如表5和表6所示。
表5 台区1评价指标变化
Table 5 Evaluation indexes under different acquisition frequencies and measurement errors in station area 1
表6 台区2评价指标变化
Table 6 Evaluation indexes under different acquisition frequencies and measurement errors in station area 2
由表5和表6可看出,在计量误差偏小时,本文方法在台区1和2中均能保持较高的识别准确率。当计量误差逐渐增大时,准确率有所下降,但在采集频率为15 min时,准确率下降程度较少,这是因为高采集频率能够有助于原始用户日电压数据集保留更多数据特征,有利于后续方法对数据特征的提取,说明高采集频率有利于对抗来自高误差的干扰,但高采集频率也意味着智能电表要承受更大的数据记录负担,可能会影响智能电表的使用寿命和计量数据值出现偏差等问题。
5 结语
针对用户的相位信息及台区隶属关系变动带来的一系列相位信息更新不及时、信息错误、信息缺失等问题,运用t分布随机邻接嵌入特征提取及放射传播聚类算法进行相位识别。算例分析表明,本文所提方法具有较高的识别准确率,相比于传统方法具有一定的优势,并分析了t分布随机邻接嵌入特征提取前后用户数据相关性的变化以及不同数据采集频率及计量误差下识别效果的变化。本文针对单相用户展开相位识别研究,对于三相用户电压特征的提取有待进一步展开研究。(责任编辑 张重实)
作者介绍
柳守诚(1998—),男,硕士研究生,从事低压配电网拓扑研究,E-mail:841888994@qq.com; ★
王淳(1963—),男,通信作者,博士,教授,从事电力系统分析与优化、智能电网研究,E-mail:cu_wang@126.com; ★
邹智辉(1999—),男,硕士研究生,从事配电网故障分析研究,E-mail:1004216386@qq.com; ★
陈佳慧(1996—),女,硕士研究生,从事配电网拓扑分析研究,E-mail: 380087695@qq.com; ★
周晗(1993—),男,硕士研究生,从事风电负荷预测研究,E-mail: 516048940@qq.com; ★
刘伟(1997—),男,硕士研究生,从事电网投资经济性分析研究,E-mail: 411050362@qq.com; ★
张旭(1998—),男,硕士研究生,从事配变侧储能配置优化研究,E-mail: 763038579@qq.com.