查看原文
其他

【精彩论文】继电保护装置缺陷文本专业词典构建及其语言特性分析

中国电力 中国电力 2023-12-18






观点凝练





摘要:继电保护装置缺陷文本缺乏基于专业词典的数据挖掘,对继电保护缺陷定级、诊断和消除支撑不足,无法满足高效运维需求。结合某区域电网继电保护缺陷数据,提出了适用于继电保护装置缺陷的专业词典构建方法,并构建了相关专业词典。首先,汇总了该区域继电保护装置缺陷文本数据,形成缺陷文本语料库;其次,应用基于正则表达式的停用词识别方法,实现缺陷文本中无关字词的剔除;然后,采用机器与人工相结合的方法,构建了缺陷文本分词词典,采用潜在语义分析和决策树分类,实现了同义词合并;然后,通过整合停用词表、分词词典、同义词表,构建了该区域电网保护装置缺陷专业词典;最后,对比了使用词典前后的专业词汇齐普夫分布和语料库信息熵,验证了所构建专业词典的有效性。
结论:本文汇总了某区域电网继电保护装置缺陷处理日志、装置台账和装置缺陷管理办法,形成了包含长文本/短文本、非结构化/半结构化等不同数据类型的继电保护装置缺陷文本语料库。应用基于正则表达式的停用词识别方法,实现了缺陷文本中无关字词的剔除;利用机器与人工相结合的方法,构建了继电保护缺陷文本分词词典;利用潜在语义分析和决策树分类方法,实现了缺陷文本中的同义词合并;最终形成了某区域电网保护装置缺陷文本专业词典,并得到如下结论。

1)所构建的词典能够正确识别停用词和专有名词,并实现同义词合并,以2009—2018年某区域电网的数据为例,将缺陷记录文本的分词精确率由81.3%提高到98.3%。

2)专业字词齐普夫定律分析和使用词典后的语料库信息熵分析表明,该专业词典可提高缺陷文本切分质量、降低词汇维度。

基于本文构建的词典,可以获得保护装置缺陷记录高质量切分文本,为基于文本挖掘、知识图谱技术辅助保护装置的缺陷诊断与消除奠定了基础。但本文仅选取某区域电网数据,后续仍须进一步完善内容,以提高在各类电网的适应性。


引文信息

刘中硕, 郑少明, 陶畅, 等. 继电保护装置缺陷文本专业词典构建及其语言特性分析[J]. 中国电力, 2023, 56(7): 146-155.LIU Zhongshuo, ZHENG Shaoming, TAO Chang, et al. The construction of the professional dictionary of relay protection defect text in a regional power grid and its natural language characteristics analysis[J]. Electric Power, 2023, 56(7): 146-155.


欢迎点击文后“阅读原文”跳转期刊官网,获取更多信息!




 往期回顾 


《中国电力》2023年第7期目录
【精彩论文】考虑源荷不确定性的氢能微网容量优化配置【精彩论文】惰转并网调相机同期系统定值整定及调整方法【精彩论文】C型阻尼滤波器内在特性分析及最优应用场景【精彩论文】基于氢负荷需求的氢能系统容量规划【征稿启事】“分布式智能电网的规划、运行和电力交易”专栏征稿启事【征稿启事】“新型能源体系下电碳协同市场机制及优化运行”专栏征稿启事【征稿启事】“面向碳达峰碳中和目标的清洁高效发电技术”专题征稿启事【征稿启事】“新型电力系统低碳规划与运行”专栏征稿启事

编辑:于静茹
校对:王文诗

审核:方彤

声明

根据国家版权局最新规定,纸媒、网站、微博、微信公众号转载、摘编《中国电力》编辑部的作品,转载时要包含本微信号名称、二维码等关键信息,在文首注明《中国电力》原创。个人请按本微信原文转发、分享。欢迎大家转载分享。

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存