独家观察 | “人员误操作”为数据中心基础设施运维故障的主要原因
CDCC专家观点:
闫昆
CDCC专家技术组委员、世纪互联运维事业部总经理
海因里希法则(一件重大的事故背后必有29件轻度的事故,还有300件潜在的隐患)和墨菲定律(如果事情有变坏的可能,不管这种可能性有多小,它总会发生),是运维需要特别注意和防范的,具体工作上就是关注细节(甚至是吹毛求疵),举一反三。
对于稳定运营,最重要就是杜绝故障并减少故障影响,需要做到两个极致,一是最大限度预防故障发生,防患于未然;二是故障发生后尽快修复,降低故障影响。
第一点建议针对数据中心各个子系统,以保障稳定运营为目标,需要解决哪些隐患,特别是硬件故障无法避免,发生故障时是否有冗余机制,建立风险库,其中特别注意除了设施硬件,还有运营团队,也要建立风险库进行风险甄别,并尽可能消灭这些风险;
第二点针对无法消灭的风险,需要建立完善的应急预案,不断演练强化,持续优化人员能力、运营工具、厂商支持等,在故障发生后第一时间恢复。
此次CDCC调研统计了详实的第一手数据,并进行了细致探讨和分析,给广大运维人员实际工作带来了许多颇有价值的指导,并引发了行业新的思考。
本文中数据来源为CDCC,并由CDCC专家技术组委员、中国工商银行股份有限公司数据中心资深经理龚慧钦老师就金融数据中心运维常见故障进行了详细讲解和独家解读,供读者探讨和交流。
一、数据中心基础设施常见故障分析
在“导致基础设施服务中断的运维故障主要原因”的调查中,其中“近两年,发生过导致基础设施服务中断的运维故障占比”如图所示。“导致基础设施服务中断的原因”,这个问题可以反映“外部原因和一些不可抗力”所能导致的基础设施服务中断情况。
1、金融数据中心整体上在选址建设、配套市政资源的获取能力上是很好的,相对来说,基础设施故障率整体是偏低的
通过CDCC调研统计看到,有50%投运5年以下的数据中心从来没有受到过外部原因的影响,投运5年以上的数据中心对于这个数据稍微低一点,为43.75%。这不难理解,随着投运时间增长,出现小概率事件的可能性在增加。这表明金融数据中心整体上在数据中心的选址建设、配套市政资源的获取能力上是很好的。
2、市政停水是新建数据中心面临的主要市政问题
根据CDCC调研统计数据分析市政供水、市政供电、以及供冷、限电等几个选项,数值差别不大,基本都在百分之十几左右。在长达十年甚至二十年的数据中心生命周期中,有百分之十几的数据中心曾经遇到过这样的市政因素影响也并不奇怪。可以重点关注一下“市政停水”这个数据,特别是5年内较为新建的数据中心曾经遇到过停水问题的比率更高,高达四分之一,比供电问题数量大。原因可能有如下两点:
1)投运5年内的新建数据中心,往往规模更大,功率密度更高,采用离心机搭配冷却塔的水冷空调系统为主,水资源的连续供应是业务连续性运行的关键必要条件。而投运5年以上的数据中心,有些规模不是很大,可能用的是风冷直膨、风冷热泵空调系统,对连续供水的要求相对较低。
2)针对供电系统,根据国标规范,数据中心都会配套柴油发电机,平时会做发电机带载应急演练,在市政停电的时候由柴发系统供电。针对供冷系统的补水,相对比较容易忽视,在补水能力以及应急操作方面,要引起关注。
3、其他包括火灾、自然灾害等选项的数据相对偏低
如果真的发生这类灾害,也不是单体数据中心所能解决的,发生这种灾害,金融行业就需要依靠“两地三中心、多地多活中心”等架构来应对风险。
最后,是建筑物受损选项,数值为0%。说明我们国家的基建能力是很强大的。
二、导致数据中心基础设施故障的主要原因分析
“数据中心基础设施服务中断的运维故障主要原因占比”如图所示。这个问题聚焦于数据中心内部原因。
1、对于“系统设备故障”,需做好系统冗余容错的设计,减小故障的影响面
通过CDCC调研数据分析,发现选择最多的选项为“系统设备故障”,数值超过了50%,而且随着投产年限的延长,超过5年的数据中心有62.5%选择了这项。这不难理解,按照物理属性,只要是设备硬件早晚会出现故障的,对于业主能做的是,做好系统冗余容错的设计,减小故障的影响面;结合生命周期和功能位置,做好日常的应急演练、健康检查、设备保养、置换更新等。
2、“人员误操作”是最需要避免的故障,应通过采取相应管理操作措施来减少误操作
关于“人员误操作”选项反映的是曾经发生过由于人员误操作造成运维故障的数据中心占比情况。投运5年以内的数据中心有40%以上的数据中心有过此类故障,而投运5年以上的数据中心中将近6成数据中心曾经有过此类情况。此类故障是最需要避免的故障,应通过采取相应管理操作措施来减少误操作。
3、需要改善老旧数据中心的冗余配置缺陷问题,这是值得关注的问题
再看看“冗余配置缺陷”选项,这里的数据差异性很大,投运5年以内的数据中心曾经发生过“冗余配置缺陷”导致的服务中断占比为8%左右,而投运5年以上的数据中心占比高达44%。从基建建设的角度讲,数据中心一旦建设落成投产,冗余配置一般就不会变了。那么差异性这么大,是不是说5年前的相对老旧的数据中心建设理念和新建的数据中心有所区别呢?需要改善老旧数据中心的冗余配置缺陷问题,这是值得关注的问题。
4、应更关注应急流程、应急体系的完善
关于“应急人手不足”和“应急流程不完善”选项。这两个问题是同源的,因为如果在应急流程不够完善、运维人员对应急流程不够熟悉、平时应急演练不够充足的情况下,当真正需要应急时总是觉得人手不够。反过来讲,数据中心24小时运行,当半夜三更需要应急时,确实人手不多。应急流程的制定就是要考虑在人手少的时候该如何应对,以此来改善人手紧缺的问题。进一步按照投运分5年之内和5年以上的数据中心来看应急问题的数据,我们会发现差异性不小。投运5年以内的数据中心因为架构比较新,应该更关注于“应急流程、应急体系的完善”工作;投运5年以上相对成熟的数据中心应更关注于“人手的培训、应急演练”工作。
分析“值班监控不到位”选项。在投运5年以上的成熟数据中心里有将近20%的占比。分析原因,可能因为很多年前建设的监控系统不够灵敏,也可能是因为值班监控人员一时的疏忽,通过技防和人防管理共同加强。
关于“不可抗力问题”,有将近20%的数据中心遇到过这样的问题。既然是“不可抗”了,那也没啥好防御的,只能通过冗余容错的技术架构,以及“多地多中心”的技术架构,去减少或避免故障发生时所造成的损失。
三、导致人员误操作的主要原因
在“数据中心基础设施服务中断的运维故障主要原因占比”的统计里,对于“人员误操作”这一选项,不论是投运5年以内还是投运5年以上的数据中心,都占比较高。
通过CDCC调研分析,运维人员误操作的原因很多。主要包括:
1、可能是人员自身能力不足,比如不熟悉整体架构,故障判断能力较弱,不能第一时间做出正确判断。
2、可能是人员自身能力够,在监控系统图上能指出应该切换哪个开关或者哪些阀门,但是因为不熟悉现场环境,不清楚这些开关、阀门到底在实体机房的哪个具体的物理位置。
3、可能是设备比较新,针对某些设备的具体操作方式不了解。现在设备都按需分批采购,每次招标采购的设备都不同,这样一个数据中心里面有很多种不同的UPS、空调设备,而且分期建设的机房,甚至机电架构都不一样,对这些设备操作起来差异很大。
4、可能是应急体系不够好,比如应急手册覆盖不全面、现场的标识不清晰等。
5、可能是变更的割接方案本身就不够好,操作流程过长导致反应时间不足等。
CDCC就运维人员误操作主要原因进行了深度调研,统计如下:
要减少人员误操作,需要数据中心建立一种健全的运维核心力量,这个力量是体系也是制度。这个力量可以是人,也可以是容易落地的制度体系、健全的资料、自动化工具等。
总结建议:
1)就运维人员个人而言,运维能力靠积累,不怕掉坑,最好多学习了解别人掉过的坑,加速自己的成长。
2)对数据中心而言,运维能力靠管理,要有一个核心运维能力的建设,包括制度体系、健全的资料图纸表示、自动化工具等。通过管理手段降低人为误操作,这是提升运维能力的重要抓手。
3)关于人员队伍的稳定性,下沉取得信任,留住能留住的人。总之,建立健全的运维核心力量,成为数据中心资产,形成数据中心运维基因,实现有效传承。
下期论坛亮点预告:!
主题二:金融数据中心基础设施电气系统和制冷系统常见故障解析
亮点1:金融数据中心电气系统和制冷系统的主要故障占比
亮点2:深度分析电气系统最常见故障TOP3和主要原因
亮点3:深度分析制冷系统最常见故障TOP3和主要原因
亮点4:如何通过科学的运维管理有效降低实际运行PUE
主题三:金融数据中心消防系统常见故障分析及日常应急演练分析
亮点1:深度分析弱电设备最常见故障TOP3和主要原因
亮点2:深度分析消防系统最常见故障TOP3和主要原因
亮点3:深度分析数据中心风险排查和日常应急演练场景
推荐阅读
关于“中国金融行业数据中心运维管理发展论坛”合作,请联系罗先生:
电话:13716595411
邮箱:luoyuxi@cdcc2009.com
关注我们获取更多精彩内容>>>>