数据中心建设与管理指南——数据中心与信息系统灾难恢复
数据中心是集成化的IT应用环境,并且随着业务的整合以及新业务的不断涌现,数据中心变得愈加庞大和复杂,业务数据也变得愈加关键。任何断电、系统故障和人为操作不当都有可能造成关键数据的丢失,继而造成企业业务的停滞和不可估量的经济损失。如何应对数据大集中所带来的风险已成为人们关注的重点。为了应对各种自然灾难(火灾、水灾、地震等)和人为灾难(误操作、病毒等)对企业数据中心的安全和正常运行带来的冲击,近年来,信息系统灾难恢复(通常也称为“灾备”)建设日益受到社会的关注和重视。
信息系统灾难恢复是指将信息系统从灾难造成的故障或瘫痪状态恢复到可正常运行状态,并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态而设计的活动和流程。为了灾难恢复而对数据、数据处理系统、网络系统、基础设施、技术支持能力和运行管理能力进行备份的过程称为灾难备份。正常情况下,对生产系统运行进行数据处理和支持关键业务功能运作的场所被称为生产中心。在灾难发生时接替生产系统运行进行数据处理和支持关键业务功能运作的场所被称为灾难备份中心(简称“灾备中心”),它包括备用的数据处理中心、备用的工作环境、备用的生活设施和技术支持及运行管理人员。
生产中心是信息系统灾难恢复的对象,而灾备中心是信息系统灾难恢复的基础,生产中心和灾备中心是数据中心的不同形态,而数据中心则是信息系统灾难恢复的载体。
对于那些高度依赖其信息系统运作的行业和企业而言,为保障信息系统安全稳定运行,人们采用了从技术、管理直至备份等诸方面的措施。其中数据中心基础设施是保障信息系统安全运行最重要的基础。从国际行业经验来看,大部分引发信息系统灾难的事件完全可以通过加强数据中心基础设施建设及运维管理来消除、或者减轻其不良影响。因此,对于业务连续性要求较高的行业和企业来说,选择高可用性数据中心作为生产中心和灾备中心是抵御灾难风险,保障业务持续运行的前提和根本。
9.2 数据中心的灾难恢复策略
信息系统灾难恢复起源于20世纪70年代,目前在政府、金融、电信、交通、能源、公共服务业以及大型制造、零售业等对信息化依存程度高的行业应用极其广泛。在震惊世界的“9•11”恐怖事件发生以后,“灾难恢复”更是成为全球性的信息化课题,即在政府或企业的数据中心遭遇自然灾难或人为侵害时,启用同城或异地建立的备份数据中心提供不间断的数据信息服务,从而保证政府或企业的业务连续性。
根据战略与业务需求的不同,灾难恢复基础设施可采用同城或异地两种布局方式。同城方式是指生产中心与灾备中心处于同一地理区域,面临同一区域性灾难风险,一般距离在20~100km以内。异地方式是指生产中心与灾备中心处于不同地理区域,通常不会同时面临同一区域性灾难风险,一般距离在数百公里以上。在同城方式下,用于数据保护及应用访问的网络使用费用相对较低,用户灾难恢复响应及业务恢复速度较快,但抵御灾难的能力有局限性。异地方式下,对区域性灾难的防范能力较强,但用于数据保护及应用访问的网络使用费用较高,用户灾难恢复响应及业务恢复速度相对较慢。
数据中心的灾难恢复解决方案取决于对生产中心及业务的风险分析和业务影响分析,根据分析的结果确定灾难恢复目标,尤其是恢复时间目标(RTO)和恢复点目标(RPO),进而选择同城、异地或同城加异地的灾难恢复策略。
9.3 灾备中心对数据中心的特殊要求
灾备中心是以最高的可靠性和可用性为标准建设的,具备数据实时备份、冗余处理能力和网络传输条件,能够在主数据中心(生产中心)面临灾难无法正常运作的时候提供替代服务,对业务系统进行紧急恢复。灾备中心和生产中心(包含互联网数据中心)都属于数据中心,都是对数据设备集中存放和管理的场所,在基础设施的要求上很多相同之处,有时两者能够同时设置在同一建筑体中,但服务对象和业务内容不尽相同,特别是在辅助配套设施方面存在极大的差异。
9.3.1. 选址要求
数据中心在选址时通常需要远离加油站等易燃易爆场所,远离粉尘、强振动源和强电磁辐射源,选择交通通信方便、配套设施齐全、自然环境和地质条件良好的地方,从而有利于保证设备的安全运行,减少周围环境对其设备的危害,这是生产中心和灾备中心在选址时的共同点。
在选择或建设灾备中心时,应根据风险分析的结果,避免灾备中心与生产中心同时遭受同类风险。灾备中心还应具有方便灾难恢复人员或设备到达的交通条件,以及数据备份和灾难恢复所需的通信和电力等资源。
灾备中心的选址应遵循以下主要原则。
1. 策略性
首先,明确灾备中心的定位,即灾备中心的建设目的是防范什么样的灾难事件,在灾难发生时又能够提供何种服务。根据定位的不同,在选址时应采取不同的策略,例如,灾备中心若想在局部战争条件下提供服务,在选址时就不能靠近军事目标或准军事目标等。此外,应充分考虑物理安全性,避免建于闹市区,通常适宜建在郊区。
2. 风险性
在选择或建设灾备中心时,应当充分考虑备选场址包含的风险是否在可容忍的范围之内,是否符合灾难恢复规划或业务连续计划的具体要求。例如,生产中心与灾备中心之间应当保持一个安全距离,必须避免因同一灾难导致两个中心同时处于灾难事件当中的可能性。又如,应选择独立的数据中心建筑物,有效隔离灾备中心与周边的建筑。确保周边建筑发生火灾或其他紧急情况时,不会影响到灾备中心的安全。此外,灾备中心应当确保与生产中心不在同一灾难风险区域,以规避灾难风险。
3. 科学性
选择或建设灾备中心时,应对备选场址进行相关的场地风险评估,科学和全面地评价备选场址。
4. 适合性
对于选定的场址而言,首先应符合《电子计算机场地通用规范》(GB/T 2887—2000)的要求;其次还要关注场址周边环境、地质地理条件、市政配套条件、电力供应条件以及通信服务商所能提供的服务能力等诸多因素,全面判断是否符合灾备中心的建设要求。
5. 便捷性
对于灾备中心,其周边应有多条道路用于保证相关人员和物资能够顺利和快速到达。例如,要求有2条或2条以上从机场到达灾备中心的道路,时间限制在1小时内。确保主数据中心发生灾难时,相关业务专家和IT工程师能够迅速赶到灾备中心现场,实施恢复业务。
9.3.2. 基础设施要求
从基础设施功能分区的角度考虑,生产中心和灾备中心都应当配置IT设备区、监控室、UPS室、会议室、其他设备用房、客户接待区、客户操作区、客户测试室和客户休息室等。由于灾备中心需要为客户提供灾难发生时进行紧急恢复的工作空间,还应包括指挥中心室、新闻发布厅、VIP办公室、介质储存室和问题解决室等。指挥中心室作为灾备中心的总控中心,实时反映灾备中心的运营状况,采用多方位自动化信息集中处理及多媒体信息展示方式,对灾备中心进行集中监控管理。在客户较多的情况下,可以单独设立问题解决室作为客户各自的总控中心,通过带内和带外两种方式连接客户设备区域。而新闻发布厅则是客户在灾难发生时或者灾难恢复后的新闻发布场所。
下面将简要介绍灾备中心基础设施涵盖的范围和基础设施规划原则。
1. 灾备中心基础设施涵盖的范围
灾备中心是灾难恢复所需的、支持灾难备份系统运行的场所,包括介质的场外存放场所、备用的机房及工作辅助设施,以及允许灾难恢复人员连续停留的生活设施。按照工作性质可分为工作设施、辅助设施和生活设施三个部分见表9-1。
表9-1 灾备中心基础设施分类
2. 灾备中心基础设施规划原则
(1) 经济性。根据灾难恢复或业务连续计划的需求不同,选择或建设灾备中心时应根据实际情况给出适当的基础设施规划,降低成本。
(2) 空间性。根据灾难恢复或业务连续计划的需求和面临的风险不同,针对灾备中心的特点应当预留足够空间,避免由于预留空间不足影响到灾备中心的正常运行。例如,由于货运通道过于狭窄导致某些特定设备不能顺利搬运。
(3) 可靠性。根据灾备中心的特点,规划时应注重基础设施的可靠性,尽量避免由于单点故障造成的风险。
(4) 低调性。应考虑周边环境,不宜采用比较醒目的方式强调灾备中心,避免在特定条件下成为公众普遍关注的焦点,应采用融入周边环境的方式。
(5) 合理性。应充分考虑各类设施之间的相互关系,合理布置并预留足够的扩展空间。
(6) 管理性。应注重采用易于管理的技术或方法,提高灾备中心的工作效率,增强管理能力。
9.3.3. 运维管理要求
灾难恢复业务的特殊性为灾备中心的日常运营管理带来了与众不同的挑战,具体包括:
1. 7×24×365的要求
由于大多数灾难的发生是无法预知的,作为灾备中心必须能够提供7×24×365不间断的灾难恢复服务,确保灾难事件发生后有足够的能力支持业务恢复。如何能使灾备中心的工作人员时刻保持高度的责任心和敏感度去面对每一项日常工作,使企业的服务水平在一年的每分每秒都能保持同样的水平,这是灾备中心管理层所关注的一个主要问题。
2. “小概率、高风险”的管理要求
由于灾难事件的发生属于小概率事件,因而真正能够使用到灾备中心的概率很小。如何在平时几乎不使用的情况下,仅依靠日常的严格管理就能确保所有服务的可用性,则是灾备中心管理的另一个难点。
3. “演练为主,实操为辅”的日常管理要求
如前所述,灾备中心的启用本身就是一个小概率事件,兼之在业务连续管理中有一个重要的原则就是要对业务连续计划经常演练。因此,日常管理中应当经常采用各种各样的方式,使灾备中心的人员投入到不同的场景当中。通过这种经常性的演练,让他们熟悉每一项工作的步骤,而且能逐渐适应灾难场境中所带来的各项压力,确保当灾难真正来临时,灾备中心的人员均能按要求完成相关工作。
4. 工作重复性较强
由于灾备中心另一个重要的职责就是要确保放置在灾备中心的灾备系统平常的可用性。因此,灾备中心应习惯于制订详细的设备检查与维护工作计划,然后按每半个小时、1个小时或其他频率实施计划。
5. 质量控制难度较大
灾备中心归根到底就是通过日常严格的管理与训练有素的演练,在必要时提供灾难切换服务,能够满足RPO(灾难恢复时间点目标:主要指灾备系统可以恢复至灾难发生前的具体时间点)与RTO(灾难恢复时间目标:主要指利用灾备系统接管生产系统恢复运营所需要的时间)的要求。保证灾难恢复的有效性是一项非常专业的工作。
灾备中心的运营管理非常复杂,从日常的运维到灾难发生时的应急响应、恢复和回退,是一个专业的、持续运行的过程,如图9-1所示。
图9-1 灾备中心运维管理
9.4 灾难恢复国家和行业标准规范
我国政府十分重视标准在信息系统灾难恢复建设中的规范性和指导性作用。国务院信息化工作办公室于2005年4月份下发了《重要信息系统灾难恢复指南》(国信办〔2005〕8号),明确了灾难恢复工作的流程、灾难恢复能力的等级划分及灾难恢复预案的制订。2007年6月14日,《重要信息系统灾难恢复指南》经修订完善后正式成为国家标准《信息安全技术 信息系统灾难恢复规范》(GB/T 20988—2007)。
2008年2月4日,中国人民银行发布了行业标准《银行业信息系统灾难恢复管理规范》(JR/T0044—2008)。它将信息系统按时间敏感性分成三类需求等级,确定了每类信息系统灾难恢复的最低要求。
2008年3月21日,中国保险监督管理委员会发布了《保险业信息系统灾难恢复管理指引》,对灾难恢复组织机构、需求分析和策略制定、灾难备份中心的建设与运行维护、资源和专业服务的获取和保障、灾难恢复预案的管理、应急响应和灾难恢复、审计和备案等提出了监管要求。
我们将陆续在公众号为大家分享每章节的内容;比较着急的朋友们公众号回复:数据中心建设与管理指南+姓名+电话+邮箱+单位+职位,我们将为您发送完整的文档。
欢迎各位技术大牛把多年来的数据中心基础设施运维工作经验总结成文,欢迎投稿。数据中心问题咨询或投稿,请联系微信号:wj2012bj 或发至邮箱:wj_wh0127@163.com
▲长按二维码“识别”关注