查看原文
其他

独家观察 | 数据中心故障正从被动处理向主动排查过渡,离早期预警尚远

CDCC CDCC 2023-04-28

编者语

“中国金融行业数据中心运维管理发展论坛”结合CDCC调研统计的第一手数据,并进行了细致探讨与分析,给广大运维人员实际工作带了很多颇有价值的指导,引发了行业新的思考。


本文中数据来源为CDCC,并由CDCC专家技术组委员、联通数字科技有限公司哈尔滨中心建维经理车凯老师就金融数据中心预防性管理及变更管理进行了详细讲解和独家解读,供读者探讨和交流。


一、数据中心预防性管理


CDCC针对“数据中心预防性管理”的调研结果如图。整体上包括了系统设备、组织协调和管理思路3个方面的内容。


1、数据中心系统设备方面的预防性管理


更换设备:投运5年以上的数据汇中心在变更设备方面明显高于投运5年以下的数据中心,主要与系统设备的折旧有关。虽然各数据中心关于设备更换的规范不同,但整体相差不大,比如单体为6V、12V的蓄电池寿命6年,UPS主机、末端空调8年更换。


加强或升级设备功能:投运5年以上的数据中心低于投运5年以下的,因为投运5年以下的数据中心在设备更换前通常会采取更多的硬件、软件升级等操作加强安全,但是投运5年以上的数据中心,设备到期后可能采取的就是替换而不是升级了。


升级冗余配置:投运5年以上的数据中心和投运5年以下的数据中心都不高。3方面原因:1、金融行业数据中心在冗余配置方面的标准规范比较稳定,业务要求也相对固定,近年来没有大的修订,在规则上不需要升级。2、金融数据中心基础设施的初始配置一般都较高或者就是按最高级配置,所以也不需要升级冗余配置。3、存在的少量升级很可能与客户业务需求或者特殊改造相关,比如由1路U电1路市电改为双路U电、后备蓄电池容量由15分钟改到30分钟等。


2、数据中心组织协调方面预防性管理


提高人员能力或管理力度:投运5年以上的数据中心和投运5年以下的数据中心都比较高,特别是投运5年以下的数据中心的选择达到最高的91.67%。一方面说明数据中心运维管理是一项长期持续性的工作;另一方面说明新投产的数据中心,从制度到人员都需要磨合,所以更需要在人员和管理上下功夫。


增加公司内部支撑力量:投运5年以上的数据中心和投运5年以下的数据中心在这个选项上差别最大,新投产数据中心在人员、备件以及支撑方面都比投运5年以上的数据中心需要更多的支持,说明新投产数据中心在组织、流程、制度方面,以及部门间横向协调、业务的纵向调度等方面需要经过几年磨合才能更良好的运转。

 

建议:运维人员需要从建设到运维快速转变。运维人员要在规划设计、建设随工、测试交付等环节全过程参与,确保实现从建设到运维的平滑平稳过渡,快速开展业务,减少磨合期。

 

3、数据中心管理思路方面的预防性管理


整体上看,现阶段5年以上和以下的数据中心,在加强风险排查、预测性管理、健康检查等方面的投入都超过50%,说明数据中心已经普遍重视预防性管理工作。


分项上看,5年以上和以下数据中心风险排查分别达到75%和68.8%,也能说明风险隐患排查虽然是一项长期、持续的工作,但在数据中心内部已经得到了认可。


从选项第8、9、10项三项关联看,有3/4数据中心重视隐患排查,但只有1/2进行更深层次的健康检测。

 

建议:从运维管理思路的演进上来看,一般理解为是三个过程,从初期发生故障的被动处理、到中期对隐患的主动排查、再到对风险的早期预警。从调研结果可以看到现阶段大部分数据中心已经从被动处理向主动排查过渡,但是离更早期的预警还有一定差距。差距可能是由于人员、管理能力、技术能力不足等原因引起。


二、数据中心节能改造主要难点的统计分析


根据论坛现场调研结果显示,主要重视对改造风险的识别以及对基础设施中断的关注,数据中心节能改造,通常都是在线的改造,所以首要考虑到的还是如何确保业务的连续性,这点与建设期有最大的不同。


1、对改造风险的识别是否全面。说明数据中心管理者对运维人员能力有所担心,因为对风险识别的判断都是人为判断,比如说进行余热回收改造时,可能要分一部分冷冻水流量,那对机房的末端流量会不会产生影响,可能每个人给出的答案都是不一定的。


2、电源和制冷系统都是数据中心基础设施关键部分,是故障发生的重要原因,也是引起业务中断的重要原因,所以会受到更多的重视。


3、老旧小数据中心可能对图纸缺失更关心,因为数据中心各专业资料较多,在交接时难免会出现缺少图纸或者图纸不准确等情况,特别是针对地下管线等隐蔽工程,平时无法核对,一旦启动改造后发现位置错误,可能会产生一定影响。


综合来看,对于节能改造的难点,更关心的并不是改造的技术,主要还是担心改造过程中对业务系统的影响、与业务系统如何衔接,以及如何保证业务的安全性和连续性。


三、总结建议:管理流程、人员能力需要双提升


从整体调研情况上看,CDCC在调研之前做了大量、充分的前期准备工作,调研数据有一定的广度、深度和关联性,对后期整体调研成果的发布比较期待。


从调研结果来看,数据中心虽然已经从被动运维向主动运营方向转变,但在管理流程、人员能力等方面还是存在一定的不足和滞后。

总结建议

1、数据中心发展到现阶段,要给予运维团队更多的、足够的重视,不仅要参与规划设计会审、建设期随工、交付测试全过程,特别是在验收测试前要完成核心团队的组建,以便快速的实现从建设到运维的过渡和业务承接,减少磨合期。


2、现阶段数据中心的基础设施架构基本都处于高冗余,设备处于高质高效的状态,但是我们的运维管理人员以及现场维护人员自身的能力,可能与这种高水平的系统、设备并不完全匹配,所以会出现很多人为误操作故障,或者出现由于人员能力不足而产生的问题。因此如何让两者之间达到一种平衡,以实现系统最优的的运行状态是一项艰巨和复杂的任务,也需要更多管理者和专家去深度思考。

下期论坛亮点预告

主题二:金融数据中心基础设施电气系统和制冷系统常见故障解析

亮点1:金融数据中心电气系统和制冷系统的主要故障占比

亮点2:深度分析电气系统最常见故障TOP3和主要原因

亮点3:深度分析制冷系统最常见故障TOP3和主要原因

亮点4:如何通过科学的运维管理有效降低实际运行PUE


主题三:金融数据中心消防系统常见故障分析及日常应急演练分析

亮点1:深度分析弱电设备最常见故障TOP3和主要原因

亮点2:深度分析消防系统最常见故障TOP3和主要原因

亮点3:深度分析数据中心风险排查和日常应急演练场景

关于“中国金融行业数据中心运维管理发展论坛”合作,请联系罗先生:


电话:13716595411

邮箱:luoyuxi@cdcc2009.com


推荐阅读>>>

● 独家观察 | 解析数据中心单机柜平均功率密度的变化

● 深度会话 | 金融数据中心基础设施运维现状和主要故障分析

● 独家观察 | “人员误操作”为数据中心基础设施运维故障的主要原因

● CDCC专家探营 | 走进西宁联通三江源国家大数据基地

关注我们获取更多精彩内容>>>>

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存