业务连续性管理在数据中心的应用现状
一、数据中心及其服务(业务)类型
在国家标准GB/T 33136-2016《信息技术服务数据中心服务能力成熟度模型》中,对数据中心进行了如下定义:数据中心是由计算机场站(机房)、机房基础设施、信息系统硬件(物理和虚拟资源)、信息系统软件、信息资源(数据)和人员以及相应的规章制度组成的组织。
这是目前对数据中心比较权威和全面的定义。
从这个定义中可以看出数据中心是一个组织,这个组织包括硬(场地、设施、系统、数据)、软(人及规章制度)两个部分,这构成了一个数据中心对外(其他组织)或者对内(上级组织或者其他部门)提供服务的必要基础。一个数据中心所能提供的服务就是这个数据中心的业务。数据中心所提供的服务是为了支持这个数据中心的客户(内部或者外部的,下同)业务,为了与客户的业务进行区分,数据中心的业务通常称为服务。因此本文中,将数据中心的业务连续性管理称为服务连续性管理。
数据中心通常有四种服务类型:
基础设施服务:指数据中心的客户自行提供计算和存储资源,由数据中心提供机柜空间,提供基础环境和网络通信设施,这个环境内的服务器由客户自己进行维护。
基础架构服务:指数据中心为客户提供计算及存储资源,且提供配套的网络通信、基础环境设施,并对所负责的各类设施进行技术维护的服务。
业务应用服务:指数据中心为客户提供应用系统稳定运行所需的所有相关资源和设施,包含应用系统、平台系统、计算及存储资源、网络通信设施和基础环境设施,并对所负责的各类设施进行技术维护的服务。有的数据中心还会基于海量数据提供商业智能和大数据服务。
增值服务:指数据中心为客户提供有效使用应用系统和基础架构服务的各类增值服务,如VPN开通、账户和权限开通、数据维护等。
其中前三种服务逐级向下包含,并可以单独或者组合来提供,例如一个提供第III种服务的数据中心,其所包含的基础设施服务可以自己来提供,也可采购自其他提供第I种服务的数据中心。
数据中心通常不会仅提供第IV种服务,该类服务通常用于补充前三种服务。
从数据中心的组织范围来看,一个数据中心要提供上述一种或多种类型的服务,需要有信息科技管理部门来规划整个数据中心技术架构、需要有工程管理部门来建设数据中心基础设施、需要有软件开发部门来开发自研信息系统、需要有系统集成部门来整合各种资源部署各类系统、需要有运维部门来对所有这些设施、系统、架构进行运营维护。从数据中心“硬”的部分看,运维阶段是一个数据中心全生命周期中最长的阶段也是最主要的价值创造阶段;从数据中心“软”的部分看,数据中心是指这个运维部门,数据中心是一个运维组织。也有的数据中心除了是一个运维组织外,也包括前述一个或者多个其他的部门。
二、第I类数据中心的服务连续性管理
提供这类服务的数据中心主要包括两大类型。
一类是以电信运营商的通信机房为基础发展起来的,曾经以提供通信带宽为主,机房机柜空间作为增值服务。发展到今天,IDC(互联网数据中心)已经成为运营商的主营业务之一。由于其自身的限制,这类数据中心所提供的网络通信设施通常仅局限于自身,其他运营商的通信资源很难进入。
另一类通常被称作第三方数据中心(用以区分用户自有数据中心和运营商数据中心)。这一类数据中心曾经以EDC(企业数据中心)为主,客户可以自选一家或者多家运营商的通信线路提供可靠的网络连接。如今,许多数据中心自身也取得ISP执照,可以提供EDC/IDC服务。
除此之外,还有少量客户自有数据中心在满足自身需要的情况下,利用富裕资源向社会客户或者同业客户提供此类数据中心服务。
数据中心作为一个为客户业务提供支撑的技术支持组织,其服务连续性管理需求应以其所支撑的客户业务需求为基础。然而此类数据中心在建设之初并不知道自己的客户是谁,更不知道将会支持什么样的客户业务。
因此这类数据中心往往依据自身的业务规划,大致确定服务客户群,参考国家标准(GB50174)或者国外标准(TIA942等)确定数据中心可用性目标和建设等级。例如按照TIA942中T4标准的建设的数据中心,其基础设施的可用性可以到99.995%,也就是说每3年允许服务中断的时间累计仅有79分钟。可用性管理与服务连续性管理是两个不同的管理领域,他们既不同又相互联系。按照可用性要求,参照有关标准建设的数据中心,为日后进行业务连续性管理提供了基础的技术条件。
按照上述标准中较高等级建设的数据中心,其基础设施具备冗余和/或容错的能力,单点故障通常不会造成严重的业务中断。
这类数据中心大多基于基础设施建设的具体情况,整理了在基础设施设计过程中涉及的灾难场景的应急操作规程,但仅限于操作层面。
这类数据中心通常不会进行全面的风险评估,即使有一定的风险排查措施,也基本停留在设备设施系统层面,对人员、制度等内部风险、供应商、气象、治安、传染病、合规等外部风险基本没有识别。即使是设施系统层面,也多集中在配电和空调系统,对门禁、监控等弱电系统的风险,特别是对这些信息系统的信息安全风险识别不足。
对于有限的识别出来的风险,这类数据中心所采取的处置措施通常也不到位。
例如对于(双路)市电供应中断的这一灾难场景,在设计阶段已有所安排,例如设置了有足够发电能力的发电机(组)。但是,这些发电机(组)真的能够在这一灾难场景中发挥作用吗?现在已经有越来越多的数据中心开始对此有所重视,越来越多的数据中心在建设完成移交运营时会进行测试验证,会使用假负载对发电机的发电能力进行验证。但是测试验证通过,发电机就一定有能力接替市电供应吗?随着数据中心内部IT设备的不断增加,真实的负载情况不断变化,不仅负载的总功率会变化,负载的阻抗特性也会变化,都会与假负载有很大差异并且不断变化。在这种情况下发电机(组)还能长时间供电直到市电恢复吗?随着负载的变化,这些发电机组负载还均衡吗?……这些都需要在数据中心运行期间,进行不断验证。但是目前很少有数据中心会进行市电中断场景下的应急演练,即使进行应急演练,也是桌面或者模拟(空载)演练。敢于定期进行真实切换的带载演练的数据中心目前不超过一成。即使是进行真实的演练,也通常只关注在设施带载能力和人员操作能力上,为了确保不因演练而带来事故,事先会进行很多设施层面和人员层面的检查和准备工作,这就与真实的场景存在了很大差异。
从预案层面,这类数据中心的BCP通常还只在EOP层面,不仅没有考虑通讯联络、指挥协调等需要,并且只考虑了应急处置单一需求,没有从业务连续的角度进行全面的考虑。例如还是市电中断的应急场景,现有的预案集中在如何启动发电机、如何倒闸、如何发电(可能是自动的,也可能需要人工干预)。但是一旦发电机带载成功就万事大吉了,在发电机带载这一场景下,很少有数据中心会事先考虑发电机长时间接替市电供电期间,我们的运维工作组织会发生哪些变化,需要采取哪些措施,如何确保燃料供应等,并把这一考虑完整写入预案。一部分做的比较好的数据中心会有市电恢复后恢复预案。
从社会层面看,目前社会上对数据中心的业务连续性关注有限。
例如消防法律法规和强标层面,当一个数据中心,特别是一个承载着关系国计民生的关键业务的数据中心,如果其中部分区域发生了火灾,如果按照目前的要求断电、关闭空调等,会使损失进一步扩大。因此在当前法律法规层面,应对数据中心的情况进行区别考虑。
再例如,在消防设施层面,当前温感和烟感报警系统是在数据中心广泛使用的火灾探测系统,但是在数据中心,特别核心机房,空气循环次数达到30次/小时,甚至更高,在这种大气流的情况下,常规的烟感探测器会失去效用。因此在防灾设施层面,也需要对数据中心这一特殊实体进行专门研究。
再比如,在数据中心供应商层面,比如油料供应商,大家都知道,数据中心为确保在市电供应中断的情况下,能够持续有效地为IT设备供电,都配置了发电机,也都储备了燃油。但是燃油储备有限,为了确保长时间发电,必须建立燃油补充机制。数据中心的燃油为确保随时可用,通常要求标号较低,例如北京地区,通常要求-20号柴油。但是当数据中心寻找供应商时,中石化、中石油等均不提供支持,仅可以找代理商,而所有的代理商均只能提供应季的燃油,也就是说夏季均不提供-20号柴油。即使不限标号,所有的代理商也均不会承诺在应急供油的情况下,几个小时可以送达。这就为数据中心的应急处置带来不少风险和变数。
三、第II类数据中心的服务连续性管理
在当前环境下,这一类数据中心通常提供以云计算技术为基础的存储与计算能力。在云计算模式下,可用性管理、容量管理、连续性管理这些以前需要主要在规划阶段考虑的问题,现在更加向服务运维阶段移动。这些服务交付的管理活动更加具有了服务支持的特点。
但是也正是由于云计算技术本身的特点和优势,使得技术人员更加依赖云计算技术本身,忽略了服务连续性管理工作和其他基础设施的技术和管理,从而导致最近一系列云计算数据中心事故频出。为了迎合某些需求,将于明年1月1日正式实施的新版GB50174,还专门针对云计算等技术的出现,降低了第一类数据中心各级别的设计标准。
一部分这一类数据中心会参照GB 17859计算机信息系统安全保护等级划分准则强制性国家标准中的某一个级别的要求,建立起有限的信息安全风险监测机制,但是没有进行过全面服务连续性风险评估与影响分析。而没有参照GB 17859执行的这一类数据中心,对于风险的管理大多还都在技术人员的主观意识中,没有形成机制。对风险识别的不足导致没有充分的预防措施与应对的预案。因此在最近的多次云计算数据中心事故发生后,对这种灾难事件的应对显得没有章法。
云计算等技术的出现和普及,从技术上进一步增强了存储与计算资源的可用性水平,降低了连续性事件发生的概率,出现了技术代替管理的趋势,在连续性管理水平上反而出现了一定程度的下降。
四、第III类数据中心的服务连续性管理
这类数据中心通常是组织为了支持自身的业务而设立的,例如政府部门数据中心、各大银行数据中心、其他企业自有数据中心等。
其中金融行业的业务对IT依赖最强,IT技术应用最成熟、数据中心规模更大,管理也更成熟。
本文就以金融行业数据中心为例,介绍服务连续性管理在这类数据中心落地的现状。
人民银行和银监会等行业监管机构对银行业的业务连续性非常重视,并有多项监管举措促使银行业金融机构业务连续,特别是要防止系统性业务风险。有了监管机构的明确要求,银行业金融机构普遍开展了业务连续性管理工作,有些中小银行因自身能力不足还专门请专业的咨询公司购买并使用专业的业务连续性管理系统软件,对自身的业务连续性管理目标进行梳理、评估风险并进行业务影响分析、制定预案、定期组织演练等。银行对自身业务连续性足够重视,而作为支撑银行业务的重要部门,数据中心,又是如何看待自己的服务连续性的呢?通过走访大型国有银行、股份制商业银行、城市商业银行数据中心以及其他类型的金融行业数据中心,发现这些银行数据中心普遍没有开展自身服务连续性管理工作,基本上是继承了银行(上级组织)在业务连续性管理中分配给数据中心的具体任务。
例如,目前银行为避免数据中心服务中断带来的业务中断风险,其信息科技部门普遍采用“两地三中心”的灾备方案,部署自己生产系统和同城与异地灾备系统。这套系统交给数据中心运维后,少数作的好的数据中心会按照要求定期组织演练,并且演练的目标是生产系统发生突发中断事件后,系统可以按照预案切换到对应的灾备系统运行,接管生产系统业务。而大多数银行数据中心会按照监管要求定期组织演练,每次演练作为一个独立的项目来看待,会做很多预案外的准备工作,目的是确保演练项目本身的成功,而不是确保生产系统真的发生突发中断事件后,灾备系统可以接替生产任务。而这些数据中心往往在变更与配置管理等方面与连续性管理脱节,真的发生中断事件后,灾备系统很难及时接管生产任务。
但是即使做得好的数据中心,这种两地三中心容灾演练也基本上是这些数据中心自认为的连续性管理的全部。
要谈数据中心服务连续性管理,那么首先要谈数据中心的服务是什么。以银行数据中心为例,银行数据中心是一个运维部门。灾备系统的部署是信息科技部门的工作,而不是数据中心的服务。数据中心的服务应该包括两部分:
首先是系统的正常运维工作,确保生产系统和灾备系统安全可用,确保灾备系统与生产系统同步策略被正常执行。
其次是发生银行业务中断事件时,分配给数据中心的系统切换任务可以按预案执行到位。
也就是说,灾备切换是数据中心的服务内容之一。
关于如何确保数据中心的这两部分服务的连续,数据中心考虑的并不周到。同第II类数据中心类似,这类数据中心通常也仅会参照GB 17859计算机信息系统安全保护等级划分准则强制性国家标准中的某一个级别的要求,建立起有限的信息安全风险监测机制,但是没有进行全面服务连续性风险评估与影响分析。即使有一定的风险排查措施,也基本停留在信息系统、设备设施系统层面,对人员、制度等内部风险、供应商、气象、治安、传染病、合规等外部风险基本没有识别。并且由于这类数据中心承载了业务,其服务内容除了业务系统还包括前两类数据中心的服务内容,但是对前两类数据中心的服务内容却重视不够。例如对于发电机应急供电的演练,这类数据中心基本上不会进行。并且发电机组这样的数据中心关键基础设施通常不是由数据中心自身来维护,而是由物业或者行政部门来负责。数据中心基本上不会要求这些责任部门配合数据中心服务连续性管理要求来组织跨组织的演练来验证BCP。
五、数据中心服务连续性管理展望
从前面的分析可以看出,无论哪一种业务的数据中心,目前行业里普遍存在重建设轻管理和重技术轻管理的现状,特别是随着新技术的逐步普及,出现了技术替代管理的趋势。而管理方面,连续性管理是数据中心类组织中最重要的管理领域之一。通过走访各类不同数据中心和分析各类数据中心事故及其处置情况,我们可以发现:数据中心类组织,对于自身业务连续性管理认知不足、能力不足。
国家标准化管理部门和行业监管机构,为此陆续制定了相关的标准和监管指引,例如国家标准《信息安全技术信息系统灾难恢复规范》GB/T 20988-2007、保监会《保险业信息系统灾难恢复管理指引》、民航业《民用航空重要信息系统灾难备份与恢复管理规范》、银监会《商业银行信息科技风险管理指引》。这些标准和指引在某些方面为数据中心服务连续性管理提供了有力的支持。但是也正是由于数据中心类组织,对于自身业务连续性管理认知不足,这些标准和规范在为数据中心提供服务连续性的建设指导的同时,也使很多数据中心错误的认为数据中心的服务连续性管理就是灾备。
2014年1月,国家标准GB/T 30146《公共安全业务连续性管理体系要求》正式发布,并于2014年5月正式实施,这为数据中心策划、建立、实施、运行、监视、评审、维护和改进一个文件化的连续性管理体系指明了方向。
越来越多的数据中心会从这个标准中意识到自身的业务就是服务,连续性管理远比灾备范围更广。在最新的国家标准GB/T 33136-2016《信息技术服务数据中心服务能力成熟度模型》中,服务连续性管理也被列入成为数据中心管理的一个重要的能力项。
当前随着两化融合、互联网+、一带一路、云计算、大数据、CPS等新的一批国家战略和新技术如火如荼的发展,数据中心建设进入了一个高潮期。由于数据中心类组织对自身连续性管理方面认知逐步提高,但经验和能力尚有欠缺,同时一批又一批的新建数据中心陆续投产,也对包括连续性管理在内的数据中心管理提出需求,可以预见,数据中心的连续性管理也会随着数据中心服务能力成熟度要求的不断提高,而不断丰富其内涵。与之相关的咨询、培训服务也必将形成一个不断成长的技术服务市场。
作者简介
赵勇祥
全国信息技术标准化技术委员会信息技术服务分技术委员会(SC40)委员
信息技术与可持续发展分技术委员会(SC39)委员
中国电子学会绿色数据中心技术委员会委员
具备二十余年数据中心运营管理经验,长期服务于联想集团数据中心、中金数据等国内知名数据中心。长期致力于业务连续性管理在数据中心的实践以及数据中心管理成熟度实践。牵头编写或参与编写了《信息技术服务-数据中心服务能力成熟度模型》、《数据中心设施运行维护规范》、《信息技术服务-人才培养与评价规范》、《信息技术服务-集成实施通用要求》、《信息技术服务-外包交付中心管理规范》、《信息技术服务-服务管理通用要求》、《信息技术服务-服务水平协议指南》等多项国家标准。参与评审了中国质量认证中心、国家计量院《数据中心场地基础设施评价技术规范》、《数据中心场地基础设施评价实施细则》等多项企业或联盟标准。