专题丨数据中心不间断电源蓄电池智能预维系统及技术研究
作者简介
张子婷
中国电信股份有限公司研究院工程师,主要研究方向为网络人工智能、意图网络、安全等。
曾宇
中国电信股份有限公司研究院高级工程师,博士,IDC节能产品线主管,主要研究方向为AI、5G、网络智能化等。
任宏丹
中国电信股份有限公司研究院工程师,主要研究方向为网络AI、云计算、NFV等。
孟锐
北京邮电大学博士在读,主要研究方向为人工智能、物理层安全、接入认证、隐私保护等。
论文引用格式:
张子婷, 曾宇, 任宏丹, 等. 数据中心UPS蓄电池智能预维系统及技术研究[J]. 信息通信技术与政策, 2022,48(3):55-63.
数据中心不间断电源蓄电池智能预维系统及技术研究
张子婷1 曾宇1 任宏丹1 孟锐2
(1. 中国电信股份有限公司研究院,北京 102200;2. 北京邮电大学,北京 100876)
摘要:不间断电源蓄电池是保障数据中心稳定运行的重要组成部分,其自身的安全性关系着电力系统的可靠和稳定。为了避免蓄电池的故障引起电力事故的发生,蓄电池的监测和运维管理近年来受到学界和业界的关注。通过分析当前数据中心不间断电源蓄电池预维管理的3个发展阶段,提出了集监控系统、灵活告警、资产管理、故障预测于一体的智能预维管理系统,并进一步总结了用于蓄电池健康监测、异常检测和性能预测的机器学习算法。
关键词:数据中心;UPS蓄电池;智能管理系统;机器学习
中图分类号:TM912.1 文献标志码:A
引用格式:张子婷, 曾宇, 任宏丹, 等. 数据中心UPS蓄电池智能预维系统及技术研究[J]. 信息通信技术与政策, 2022,48(3):55-63.
DOI:10.12267/j.issn.2096-5931.2022.03.009
0 引言
随着5G、云计算、物联网、人工智能(Artificial Intelligence,AI)等数字化技术的高速发展,多技术融合的应用场景为数据中心产品、技术乃至理念提供了新的发展动力,数据中心迎来了它跃迁的关键阶段[1]。同时,为了实现碳达峰和碳中和目标,发展支撑新技术算力的重要基础设施,建设高技术、高能效、高算力、高安全特征的新型数据中心,工业和信息化部在2021年7月印发的《新型数据中心发展三年行动计划(2021—2023 年)》明确指出:用3年时间基本形成绿色低碳、算力规模与数字经济增长相适应的新型数据中心发展格局[2]。
作为数据存储最重要的基础设施,新型数据中心肩负着数据流的接收、处理、存储与转发,其稳定性、健壮性和可靠性离不开不间断电源(Uninterruptible Power Supply,UPS)提供的电源保障功能[3]。其中,蓄电池是UPS供电系统的重要组成部分,在断电等突发情况时及时为数据中心的设备提供电力。由于数据中心蓄电池在正常情况下处于浮充状态,存在着失效和失控的风险,因此对蓄电池的健康监测、异常检测和预测维护尤为重要。智能的预维技术既可以避免庞大的人力、物力和维护费用,又可以及时发现劣化单体电池。合理的电池性能预警机制既有利于延长蓄电池组的实际使用寿命,又保障了数据中心的供电安全,劣化的电池可以用于修复和回收。因此,实现数据中心UPS蓄电池的智能预维对于推动绿色高效的数据中心的发展、实现能源行业的数字化和智能化起着关键的作用。本文分析了数据中心UPS蓄电池预维技术的3个发展阶段,提出了一种智能预维管理系统,并进一步总结了用于UPS蓄电池健康监测、异常检测和性能预测的机器学习方法,具有较高的现实意义和指导意义。
1 数据中心UPS蓄电池预维技术发展
当前数据中心UPS蓄电池的预维按照成熟度分为3个发展阶段:被动式、预防式和预测式。3个发展阶段的描述和评价如表1所示。
表1 数据中心UPS蓄电池预维管理的发展阶段
1.1 被动式UPS蓄电池维护被动式蓄电池维护不采用任何技术和管理手段,直到蓄电池出现故障问题无法满足供电需求时进行维修和更换。一般而言,蓄电池的维修成本和隐患发现的时间呈现负相关,但是一旦发生市电故障,劣化的蓄电池无法及时供给电源,给用户的数据带来严重的威胁,将会造成难以承受的经济损失。
该方式不需要人工巡检,人力成本低,但是具有盲目性和滞后性,如果运维人员节约了定期检查和维护的成本,那么在关键时刻将会带来严重的损失,不满足新型数据中心“高安全”的需求。
1.2 预防式UPS蓄电池维护预防式蓄电池维护是基于计划的定期巡视、维护和记录的方式[3],具体包括以下内容。(1)专人记录:每次巡视和检查都需做好记录,以便之后参考。(2)告警功能:有异常情况发生时设备能否正常报警。(3)元器件:包括散热功能、内部灰尘是否清扫等。(4)连接功能:机柜和蓄电池之间的连接是否牢固,绝缘是否损坏等。(5)外部条件:一定要保障合适的通风环境,避免温度过高。(6)放电保养:定期充放电以便保持电池活性,同时也要避免深度放电。(7)更换原则:蓄电池的更换应符合数量和型号一致的标准等。
数据中心UPS蓄电池的保养关系着其使用寿命和性能表现,因此该方式比被动式维护的方式有着有效的预维效果,但是该方式也存在如下痛点。
(1)依赖于人工检查的精细度。人工采集数据的方式包括万用表测试、电导仪/电阻仪测试等,容易出现操作失误、测量读数错误等问题,进而造成误检、漏检和错检的情况发生,导致对蓄电池健康状况的误判。
(2)需要制定合理的检查周期和方式。频繁的检查耗费人力成本,间隔太久可能无法及时发现故障,进而带来风险。因此,需要制定合理的检查周期和方式,进而在维护成本和维护效果之间作权衡。
(3)无法预测蓄电池的性能。该方式只能发现已发生故障的蓄电池,无法对蓄电池的故障进行预测。因此,该方式无法满足新型数据中心“高技术”“高能效”的需求。
1.3 预测式UPS蓄电池维护预测式蓄电池预维是一种较为先进的基于数据的蓄电池健康监测、异常检测和性能预测管理的方式。该方式不但将蓄电池的实时参数集成到资产管理平台进行可视化管理,而且通过对蓄电池的特征提取和算法分析,提前发现蓄电池潜在的问题和故障。数据中心蓄电池的健康状况主要通过如下两个指标来表征:荷电状态(State of Charge,SOC)和健康状态(State of Health,SOH)[4]。SOC用于科学准确地表示数据中心蓄电池的剩余容量,物理意义是蓄电池在一段时间未使用后当前的剩余容量与其完全充满电时的实际电量的比值,如下式表示:SOC=Qr/Qa×100% (1)其中,Qr表示数据中心蓄电池的当前剩余容量,Qa表示数据中心蓄电池完全充满电时的实际电量。
数据中心蓄电池的SOC只能通过测得的特性参数间接估算获得,而且在实际的SOC估计应用中,要充分考虑内部因素和外部因素的影响,比如运行因素(放电电流、充放电的截止电压、循环充放电次数等)、自身因素(自放电的影响,单体蓄电池容量的不均衡性,以及板厚度、极板面积、装配技术为例的蓄电池本身的结构因素和质量问题)和温度因素(电解液的温度、蓄电池的环境温度),因此数据中心蓄电池的SOC估算比公式(1)更复杂[5]。
SOH的物理意义是蓄电池完全充满电时的实际电量与其额定容量的比值如下式表示:SOH=Qa/Qn×100% (2)其中,Qn表示其额定容量。
基于我国颁布的电力蓄电池行业标准,数据中心蓄电池在使用过程中的实际容量应达到额定容量的80%以上,即SOH应当不低于80%,因为此时电池内部已经出现严重的老化,存在着有热失控的风险[6]。
目前,未有明确的标准对数据中心蓄电池的SOC和SOH进行估算[7],当前SOC和SOH的估计策略主要包括:传统计算方法(放电法、安时法、开路电压法、内阻法、负载电压法、线性模型法)以及基于机器学习的算法。主要的SOC估计算法如表2所示。表2 主要的SOC估计算法
2 数据中心蓄电池智能预维管理系统
针对数据中心UPS预维现状和痛点问题,笔者提出了一种基于AI的数据中心UPS蓄电池智能预维管理系统,如图1所示。其主要由3层构成:由各种硬件设施组成的基础层、由各种蓄电池模型和机器学习算法构成的算法层以及基于算法层实现管理决策的应用层。
(1)基础层:用于实现电流、电压、温度等蓄电池特征参数的采集、监测、数据保护、预处理、通信等功能。通过采集的蓄电池特征参数可以构建特征向量ϑ=(Ut,It,Tt,Up,Ip,Tp),其中Ut、It、Tt、Up、Ip、Tp分别表示谷底电压、谷底电流、谷底温度、峰值电压、峰值电流和峰值温度。(2)算法层:是智能预维管理系统的关键部分,特征向量ϑ作为算法的输入,用于实现“细粒度建模、高准确度分类、高可靠性预测”的模型和算法目标。(3)应用层:监控系统将数据采集模块采集的电池组压、充放电电流、电池内阻、电池温度、机房温度等多维数据通过统一的可视化系统实时呈现给运维人员,实现对数据中心UPS各静态参数和运行参数的实时可视化监控。运维人员可以灵活配置告警策略,提前定位故障位置和时间。
数据中心UPS蓄电池灵活配置告警策略的案例如图2所示:数据中心的蓄电池在未放电时持续处于浮充状态,由于蓄电池内部老化机理等电流呈现上升趋势,触发了“浮充转均充”的判据,因此UPS自动切换至均充状态。而此时监控系统采集到的数据在误差允许范围内,因此如果不采用灵活的配置策略,运营人员将不会受到告警提示。劣化的蓄电池持续地将电能转化为热能,并出现发热、外壳鼓胀等问题,最终触发了高温告警才被发现。因此,灵活配置的告警策略可以避免类似的案例发生,通过对充电电压、均充状态、均充电压及温度等参数的持续判断,运维人员通过不断优化的复杂告警策略更好地保障了数据中心的UPS蓄电池的健康状况。标准化的资产管理平台用于记录每节单体电池的品牌、型号、额定电压、容量、上线时间、位置等各个参数,对电池资产进行细粒度管理。故障预测包括基于健康数据和故障数据实现蓄电池健康监测、基于历史数据实现蓄电池数据预测、基于正常数据和异常数据实现蓄电池异常检测,其中健康监测和异常检测是基于分类模型的分类任务,数据预测是基于预测模型的预测任务。
总体而言,基础层是智能运维管理系统的根基,算法层是功能实现的关键,应用层是数据中心运维管理的目标,三层相辅相成,实现对数据中心UPS蓄电池的数字化、智能化预维管理,有利于形成绿色高效、低碳算力、安全可靠的新型数据中心发展格局。
3 数据中心蓄电池健康监测和异常检测算法
数据中心蓄电池健康监测和异常检测可以转化为机器学习中的分类问题[17],即通过已经训练的健康蓄电池数据和故障/异常蓄电池数据来对待监测的蓄电池数据进行分类,分类结果是健康或故障/异常。表3总结了基于机器学习的数据中心蓄电池健康监测和异常检测算法。基于决策树(Decision Tree,DT)的蓄电池健康监测和异常检测算法是具有多层中间节点的较复杂的二分类问题,如图3所示。最终在叶节点输出监测结果:健康或者故障。表3 基于机器学习的数据中心蓄电池健康监测和异常检测算法
人工神经网络(Artificial Neural Network,ANN)是由众多神经元组成的并行互联的网络,其可以模拟生物神经系统和现实世界的相互作用[22]。基于深度神经网络(Deep Neural Network,DNN)的数据中心蓄电池健康监测和异常检测算法如图4所示,其中W和ξ分别表示权重和偏置,I表示神经网络的层数。max(·)表示线性整流函数(Linear Rectification Function,ReLU),用于将输入神经元非线性地映射到输出神经元。softmax函数将逻辑向量转化为对应的类别,即蓄电池的健康监测和异常检测结果。通过反向传播和梯度下降,DNN可以优化其自身的参数直至达到收敛。
4 数据中心蓄电池性能预测算法
数据中心蓄电池性能预测问题可以转化为机器学习中的预测问题[22],即通过已经训练的蓄电池的时序数据来对后序时刻的蓄电池性能进行预测,预测结果是指标的值。表4总结了基于机器学习的数据中心蓄电池性能预测算法。模糊C-均值聚类算法可以用于预测蓄电池的特征向量,基于对采集到的蓄电池特征向量进行聚类分析,进而生成模糊规则,并通过模糊推理得到预测结果,具体结构如图5所示。表4 基于机器学习的数据中心蓄电池性能预测算法
由于数据中心蓄电池指标参数具有一定的时序特征,因此也可以用循环神经网络作蓄电池数据预测,具体结构如图6所示。其中,X表示蓄电池指标特征向量,S表示隐藏层,O表示输出层,U和V分别表示输入层到隐藏层、隐藏层到输出层之间的权重,W表示隐藏层中的权重。后续时刻的隐藏层权重受之前时刻的蓄电池特征影响,因此可以学习到其时序信息,执行更有效的蓄电池数据预测。
强化学习(Reinforcement Learning,RL)可以用于解决数据中心运维管理人员在与蓄电池环境交互的过程中通过某些学习策略实现数据预测的问题,如图7所示。其中,如果运维人员的行为引起环境正奖赏,则运维人员之后运用该策略的概率将会增大,目标函数是使得期望的综合奖赏最大化。不同于监督学习,强化学习不需要求解梯度信息,通过动态调节参数以求得最优数据预测策略。
5 结束语
数据中心UPS蓄电池智能预维管理系统将向着绿色高效、安全可靠、数字化、智能化的方向稳步发展,在“双碳”目标下如何实现高精确度地实时可视化监控、高灵活性的告警配置策略、高细粒度的电池资产管理、高可靠性的电池故障预测是学术界和业界需要持续研究的重要问题。
参考文献
[1] 周钰, 郝为瀚. 面向数据中心的储能系统应用研究[J]. 南方能源建设, 2021,8(3):58-62.[2] 张一迪. 数据中心: 向绿色节能过渡[N]. 中国电子报, 2021-12-21(6).[3] 唐建华, 方兴. 浅谈 UPS 在数据机房中的节能与维护[J]. 技术与市场, 2021,28(7):131+133.[4] 袁世魁. 阀控式铅酸蓄电池性能在线诊断方法的研究[D]. 南京:东南大学, 2018.[5] Yang Y, Mo Y, Wang Q. Research on dynamic impedance characteristics of hybrid vehicle battery?. IEEE, 2014.[6] 臧鑫善. 蓄电池健康状况多参数监测系统研究[D]. 南京:南京邮电大学, 2019.[7] 魏东涛, 黄之杰, 孔华, 等. 蓄电池SOC的研究及预测方法[J]. 电源技术, 2016, 40(6):1321-1323.[8] 李涛, 梅成林, 刘波峰, 等. 基于粒子群的模糊神经网络铅酸蓄电池SOC估计[J]. 电源技术, 2017,41(1):64-67.[9] Chang WY. The state of charge estimating methods for battery: a review[J]. Isrn Applied Mathematics, 2015, 2013: 203-209.[10] Zhuang HM, Xiao J. VRLA battery SOH estimation based on WCPSO-LVSVM[J]. Applied Mechanics and Materials, 2014,628:396-400.[11] 张文圳. VRLA电池的SOC估计与其模型参数辨识研究[D]. 北京:北京工业大学, 2016.[12] 王君瑞, 单祥, 贾思宁, 等. 基于扩展卡尔曼滤波的蓄电池组SOC估算[J]. 电源技术, 2020,44(8):1168-1172.[13] 刘兴涛, 李坤, 武骥, 等. 基于EKF-SVM算法的动力电池SOC估计[J]. 汽车工程, 2020,42(11):1522-1528+1544.[14] 周奇, 罗培. 基于聚类算法的蓄电池SOC模糊预测[J]. 电源技术, 2017(1):71-74.[15] Han J S H S T, Zhou B. Neuro-symbolic program search for autonomous driving decision module design [J], 2020.[16] 袁世魁, 程力. 基于Coup de fouet现象的蓄电池SOH估测[J]. 蓄电池, 2018,55(2):4.[17] Sun H, Guo J, Kim EJ, et al. Unsupervised star galaxy classification with cascade variational auto-encoder[J]. CoRR, 2019.[18] Costa D, Nunes M, Vieira J, et al. Decision tree-based security dispatch application in integrated electric power and natural-gas networks[J]. Electric Power Systems Research, 2016,141:442-449.[19] Shichao, Zhang, Xuelong, et al. Efficient kNN classification with different numbers of nearest neighbors[J]. IEEE transactions on neural networks and learning systems, 2017.[20] González C, Mira-McWilliams, José, Juárez I. Important variable assessment and electricity price forecasting based on regression tree models: classification and regression trees, Bagging and Random Forests[J]. Generation Transmission & Distribution Iet, 2015,9(11):1120-1128.[21] 胡晨, 金翼, 崔邴晗, 等. 基于深度学习的铅酸电池健康状态估计[J]. 电池, 2021,51(1):63-67.[22] Xu Z, Yu C, Sun H, et al. The response of sediment phosphorus retention and release to reservoir operations: Numerical simulation and surrogate model development[J]. Journal of Cleaner Production, 2020, 271:122688.[23] 雒宁, 李一非, 李哲, 等. 基于复合模型的铅酸蓄电池自动充放电SOC预估模型[J]. 微型电脑应用, 2021,37(8):71-74.[24] 徐帅, 刘雨辰, 周飞. 基于RNN的锂离子电池SOC估算研究进展[J]. 电源技术, 2021,45(2):263-269.[25] 程一伟, 朱海平, 吴军, 等. 基于嵌套长短期记忆网络的机械装备剩余使用寿命预测方法[J]. 中国科学:技术科学, 2022,52(1):76-87.[26] 张少宇, 伍春晖, 熊文渊. 采用门控循环神经网络估计锂离子电池健康状态[J]. 红外与激光工程, 2021,50(2):236-243.[27] Sun H, Xu Z, Song Y, et al. Zeroth-order supervised policy improvement[J], 2020.[28] Sun H, Peng Z, Dai B, et al. Novel policy seeking with constrained optimization[J], 2020.[29] 倪水平, 李慧芳. 基于一维卷积神经网络与长短期记忆网络结合的电池荷电状态预测方法[J]. 计算机应用, 2021,41(5):1514-1521.
Research on intelligent prediction and maintenance system and technology of UPS battery in data center
ZHANG Ziting1, ZENG Yu1, REN Hongdan1, MENG Rui2
(1. Beijing Research Institute, China Telecom, Beijing 102200, China; 2. Beijing University of Posts and Telecommunication, Beijing 100876, China)
Abstract: UPS battery is an important component to ensure the stable operation of the data center, and its safety is related to the reliability and stability of the data center power system. In recent years, the monitoring, operation, and maintenance management of batteries have attracted the attention of academia and industry to avoid the occurrence of power accidents caused by battery failure. Three development stages of operation and management of UPS battery in the current data center are analyzed. An intelligent operation and management system is proposed, integrating the monitoring system, flexible alarm, asset management, and fault prediction. The algorithms for batteries’ health monitoring, anomaly detection, and performance prediction are further summarized.Keywords: data center; UPS battery; intelligent management system; machine learning
本文刊于《信息通信技术与政策》2022年 第3期
主办:中国信息通信研究院
《信息通信技术与政策》是工业和信息化部主管、中国信息通信研究院主办的专业学术期刊。本刊定位于“信息通信技术前沿的风向标,信息社会政策探究的思想库”,聚焦信息通信领域技术趋势、公共政策、国家/产业/企业战略,发布前沿研究成果、焦点问题分析、热点政策解读等,推动5G、工业互联网、数字经济、人工智能、区块链、大数据、云计算等技术产业的创新与发展,引导国家技术战略选择与产业政策制定,搭建产、学、研、用的高端学术交流平台。
《信息通信技术与政策》官网开通啦!
为进一步提高期刊信息化建设水平,为广大学者提供更优质的服务,我刊于2020年11月18日起正式推出官方网站,现已进入网站试运行阶段。我们将以更专业的态度、更丰富的内容、更权威的报道,继续提供有前瞻性、指导性、实用性的优秀文稿,为建设网络强国和制造强国作出更大贡献!
推荐阅读
你“在看”我吗?