基于机器学习的数据中心参数自动优化关键技术研究

中国信通院CAICT 2020-09-18

The following article is from 信息通信技术与政策 Author 郭亮，齐旭等

1　引言

随着大数据、云计算等技术的高速发展，数字经济已经成为我国经济发展的重要战略，高密度数据中心作为承载技术与产业的实体，是传统工业向信息化转型的关键“新基建”。因此，对数据中心的全方位优化部署成为了从业者的迫切追求。衡量数据中心性能的标准即为可定义、可量化的一系列数据中心关键参数。本文希望研究利用机器学习算法进行数据中心参数自动优化的典型关键技术，特别是研究聚焦在“基础设施层”和“服务器层”等核心参数的具体优化方法，以形成数据中心参数自动优化的设计路径。

2　数据中心关键参数分析

本文研究的关键参数包括：数据中心能源利用效率（Power Usage Effectiveness，PUE）、风机水泵等基础设施系统设备耗电量；网络传输性能如时延、丢包率、吞吐量等；数据中心的可靠性、可用性等。

2.1　PUE

全球通用的数据中心核心关键指标是PUE[1]，该指标最早于2007年由绿色网格组织（The Green Grid，TGG）提出，用来评价数据中心能源利用效率，并得到广泛使用。

PUE的定义为：PUE=Pall/PIT，其中Pall指的是一个数据中心的全年总体累计电能消耗，单位为kWh；PIT为整个数据中心的IT设备全年累计电能消耗，单位同样为kWh。因此，PUE为一个没有单位的参数，且最小值为1。

2.2　数据中心基础设施耗电量分析

随着产业和规模的发展，数据中心能耗成为社会广泛关注的问题。对于从业者而言，实现数据中心的绿色化发展也是体现技术水平的重要方面之一。因此，近年来数据中心行业对各种设备的能源消耗日益关注，基础设施的耗电量成为最为关键的技术参数之一。

2.2.1　冷水机组

冷水机组是大型数据中心制冷架构中的核心设备，其工作原理是由一个多功能的机器，通过内部工质的压缩或膨胀来完成制冷循环。在制冷行业中，通常冷机可以分为风冷式和水冷式两种，根据压缩机的不同种类，水冷型的冷机又分为螺杆式冷水机组和离心式冷水机组，在大型数据中心领域常见的是水冷型离心机组。根据调研，冷机是数据中心暖通系统中耗电量最大的单体设备，主要耗电部件是压缩机。

2.2.2　风机

在数据中心基础设施系统中，风机的功耗占据着仅次于冷水机组的耗电类设备第二大比例。在IDC制冷架构设备中，采用风机设备的风冷精密空调整体耗能比水冷型高15%。因此，从空调制冷，到冷板式制冷，再到浸没式制冷，制冷末端在逐渐向热源逼近。液冷技术直接利用冷却液直接/间接给IT设备芯片散热，效率较高。

2.2.3　水泵

在数据中心运维阶段，通常水泵的运行频率对各类制冷设备整体的总能耗起关键作用。因此，水泵的能耗成为被关注的另一个耗电量核心参数。

2.3　网络传输参数

随着网络的快速发展和普及，互联网规模不断扩大，涌现出很多新型网络应用和服务，例如高清视频会议、在线游戏和网络直播等。不同的数据中心应用对以下3个指标有不同侧重点需求。

（1）吞吐量：表征的是网络架构中主机之间的传输速率，表现为单位时间长度内的传输数据总量，常用单位为kbit/s和Mbit/s。

（2）时延：有单向时延和端到端时延两种概念，单向时延指E1发送数据报文的时间与E2接收数据报文的时间之差，端到端时延是分组时延、单向（网络）时延、抖动缓冲时延和附加固定时延（如果有）的总和。与单向时延一样，端到端时延在端点之间是单向的，但扩展到硬件，包含所有延迟因素。

（3）丢包率：是丢失IP包数与所有发送的IP包数的比值，衡量网络架构性能的一个重要参数。通常数据在网络传递中会发生丢失现象，经常和网络转发质量、末端间距等因素相关。

2.4　数据中心可靠性和可用性

数据中心的重要性在于支持企业应用不间断运行。近年来，世界各地的数据中心经常发生一些安全故障事件，一次次冲击着用户的心理防线。因此，数据中心可靠性和可用性是衡量其综合性能的关键参数。

（1）可靠性（Reliability），指某个设备或系统在一个指定的时间内能够无故障地持续稳定运行的可能性。人们通常用平均无故障时间（Mean Time Between Failure，MTBF）这一指标来量化它，MTBF反映了产品的时间质量。

（2）可用性（Availability），指系统在使用过程中MTBF与总时间（MTBF+MTTR）之比（其中MTTR为平均修复时间），其计算公式是A=MTBF/（MTBF+MTTR）。可用性是衡量一个数据中心整体或者设备稳定运行能力的指标，比率越无限接近1.0，稳定性越好。

以上不同关键参数基本可以对一个数据中心进行整体综合评价，这使得数据中心基础设施的设计有了可量化的目标，也使得评估有了可量化的依据。

3　针对参数优化的机器学习算法

在信息通信领域，机器学习算法技术在过去几年越来越受到重视。这些算法的目的是找到相关参数之间的关联程度，并以此去规划执行动作，从而对目标参数进行集成优化。集成优化是指对数据中心五层架构的统一调度，其中尤为重要的是风火水电和IT软件硬件资源之间的优化[2]。人工智能、云计算和大数据技术的发展，催生基于海量数据进行预测并输出建议的机器学习算法进展迅速。机器学习算法种类繁多，其中针对目标参数进行关系拟合、优化的算法基本分为三大类。

（1）监督学习：监督学习问题可以分为两类，一类是回归，输出结果是数字，如城市交通流量、设备运行速度；一类是分类，输出结果是类别，如男性或者女性、睡眠或者清醒。

（2）无监督学习：无监督学习问题可以分为3类，一类是关联，该方法是为了找出各种情况出现的概率，广泛地运用于购物车分析（电子商务领域）中；一类是聚类，把样本分堆，使同一堆中的样本之间很相似，而不同堆之间的样本就有些差别；还有一类是降维，减少数据集中变量的个数，但是仍然保留重要的信息。

（3）强化学习：通过学习那些能够最大化奖励的行为是什么，然后根据当前状态来决定最优下一步行动。此算法通常用在机器人开发中，经常使用试错的方式来学习最佳行动。机器人可以通过在撞到障碍物后接收到的负反馈来学习如何避免碰撞。例如，在视频游戏里，试错行为能发现那些给予玩家奖励的特定动作。行动主体就能用这些正向奖励来理解游戏中的最佳情形，并选择下一步行动。

4　基于机器学习的数据中心参数自动优化关键技术

机器学习算法是一个在不断发展中的边界不明确的技术领域，如基本类别监督学习和非监督学习的算法分类目前尚存争议[3]。机器学习界的一个最鲜明的特点就是算法众多，思想各不相同，发展各有路径。因此，业内广泛接受的一个事实是：没有任何一种机器学习算法可以适用所有应用场景，可以说是一类各方探讨进程中的典型技术。根据各类学习算法的特征优势，数据中心领域展开了多种算法实践，其中的典型参数自动优化算法如下。

4.1　应用监督学习算法的数据中心参数自动优化

监督式学习在数据中心参数调优中的典型技术是“运维参数优化”，其主要思想就是驱动系统设备跟随运维人员从历史数据中学习，运维人员就像是一个“师傅”，将自己的领域知识“教” 给系统，然后系统根据“学”到的知识来自动选择合适的检测器和算法参数。运维人员首先在历史数据中标记出异常，接着使用十几种不同类型的检测器提取出上百个异常特征，此时有了人工标记的数据和异常特征；然后，将异常检测问题转化成机器学习中监督式的分类问题，分析算法中参数的分布规律和不同参数下学习效果的评估，并将此规律应用于机器学习的模型训练，达到自动选择合适参数的目的。

4.2　应用无监督学习算法的数据中心参数自动优化

无监督算法的一个应用是对大型服务器集群内部的故障进行根因故障分析，以此提高数据中心的可靠性参数。目前，业界基于人工智能的运维以告警事件、业务日志、网络及业务拓扑等为研究管理对象，通过算法智能降噪、算法智能聚类的管理过程，依托无监督方式的机器学习算法技术来实现智能事件关系整合，在海量的故障事件中高速、精准定位问题，解析原因，提高解决问题的速度。

这种技术在对服务器进行故障分析时具备典型的优势：首先是多元IT数据接入，融合告警事件、监控日志、流量、网络拓扑等多维度数据接入；其次是大数据算法降噪，通过智能算法进行数据的降噪处理，高效的实时数据处理能力，海量数据的多维管理；第三是数据聚类和关联，通过算法进行智能关联性匹配并聚合归类，产生新的数据模型；第四是智能根因推荐，依据IP、业务、归属等多维度进行智能化语义分析，快速推荐当前情境下的故障根因；最后是知识库积累复用，可以构建一套知识体系与历史事件分析的过程，即针对过去事件与当前告警智能提供匹配列表。

4.3　应用强化学习算法的数据中心参数自动优化

用强化学习算法去优化PUE是对传统数据中心控制系统技术的突破性颠覆，也是目前机器学习算法在数据中心参数优化的最成功实践。这种算法运用机器学习、统计学以及模糊控制等技术和方法对数据进行处理、对各类相关设备进行系统化分析和决策，从而达到优化数据中心整体PUE的目的。通过对当前运行数据的清洗、分析和挖掘，预测未来的控制动作。整个过程采用机器学习算法的模型进行训练。从强化学习算法用于优化数据中心参数的成果来看，该方法收益显著。例如，谷歌公司使用其机器学习系统，自动管理其数据中心的冷却架构，并持续分析21个变量，如空气温度、功率负载和内部气压等。2018年，谷歌公司利用机器学习算法将冷却系统所需的能耗减少40%，实现PUE值为1.06的良好成绩。

5　结束语

自2013年起，中国信息通信研究院云计算与大数据研究所测试过众多数据中心的PUE，其中表现良好的大部分为互联网和通信行业大型数据中心。测试结果显示，参测数据中心PUE已经由1.4~1.5区间降低到1.2~1.3区间，最佳PUE在不断创新低。基于机器学习的典型算法在数据中心的PUE等参数优化中已经有了不同的应用。未来，机器学习算法将与ICT领域的新技术产生更多交集，形成更多方向、更加深入的研究课题，通过算法与实际业务的结合，实现更大的收益。

参考文献

[1] The Green Grid协会. PUE指标的综合论述[R], 2012.[2] 郭亮, 钱声攀. 数据中心架构及集成优化研究和发展分析[J]. 信息通信技术与政策, 2019(2):1-5.[3] 孙亮, 黄倩. 实用机器学习[M]. 北京:人民邮电出版社, 2017:364.

作者简介

郭亮

中国信息通信研究院云计算与大数据研究所副总工程师，高级工程师，工业互联网产业联盟（AII）工业数据中心特设组联执主席，开放数据中心委员会（ODCC）新测组组长。

齐旭

中国通信标准化协会国际标准化部工程师，主要从事通信行业国际标准化组织的研究和管理等工作。

刘水旺

阿里巴巴集团高级技术专家，主要负责数据中心设计和建设等工作。

蔡永顺

中国电信股份有限公司高级项目经理，主要从事云计算和电信运营商IT技术研究，系统规划与工程建设工作。

论文引用格式：

郭亮，齐旭，刘水旺，等. 基于机器学习的数据中心参数自动优化关键技术研究[J]. 信息通信技术与政策, 2020(6):21-24.

本文刊于《信息通信技术与政策》2020年第6期

主办：中国信息通信研究院

《信息通信技术与政策》是工业和信息化部主管、中国信息通信研究院主办的专业学术期刊。本刊定位于“信息通信技术前沿的风向标，信息社会政策探究的思想库”，聚焦信息通信领域技术趋势、公共政策、国家/产业/企业战略，发布前沿研究成果、焦点问题分析、热点政策解读等，推动5G、工业互联网、数字经济、人工智能、区块链、大数据、云计算等技术产业的创新与发展，引导国家技术战略选择与产业政策制定，搭建产、学、研、用的高端学术交流平台。

校审 | 陈力、凌霄

编辑 | 珊珊

”

推荐阅读

重点行业工业互联网应用路径研究
《新基建》专辑

点亮在看共渡难关

大摩宏观策略谈：2025中美变局展望

假设，你遇到麦琳怎么办？

董事长两口子不干了，至暗时刻谁是白衣骑士

2024年心理咨询师报名通道开启！可考心理证书，无需辞职，名额有限，11月30日截止报名！！！

吴京捧红的白眼狼，爆红后却反咬一口，如今落魄到无戏可拍