最新版:中国灾备行业白皮书(下载)
导语:最新版《中国灾备行业白皮书》正式面世。此白皮书的定位为灾备行业基础性科普读物,力求尽量全面地向读者呈现灾备的相关概念、术语、法规条文,以及技术原理、流派、趋势和灾备行业市场、特点、解决方案等内容,并希望借此白皮书起到抛砖引玉的作用,让更多的人了解灾备行业正在发生的改变和创新。
本白皮书共分为六个章节,文尾附下载链接。
第一章介绍灾备的相关知识与技术概述,包括灾备定义、等级以及复制、归档、切换、去重等具体技术。
第二章介绍灾备行业合规性要求,包括国际、国家标准以及相关认证等内容。
第三章介绍灾备业务实施及服务,包括建设内容、灾备演练以及灾备服务质量评价等内容。
第四章介绍企业上云与云灾备相关知识,包括上云等具体步骤,云灾备相关发展历程和具体实施事项等。
第五章重点介绍相关行业灾备建设特点及方案。
第六章主要谈灾备行业的趋势,包括灾备市场规模以及相关趋势等内容。
灾备知识和技术
灾备行业在信息化环境下,有很多的专业灾备知识及技术,理解这些内容对于业务和系统的灾备规划建设会有很大的帮助。
备份
备份是指数据或系统的备份,它是容灾的基础,是指为防止系统出现操作失误或故障导致的数据丢失,而将全部或部分数据集合从应用主机的硬盘或阵列复制到其它存储介质的过程。
按照备份时间频率,可以分为:定时备份、实时备份。按照备份数据量,可以分为:全量备份、增量备份、差量备份。三种备份方式比较如下:
CDP(ContinualData Protection)是一种连续数据保护技术,被称为高级的实时备份,它兼具数据备份与数据恢复的功能,通过CDP 实时备份技术,可以实现到秒级的细粒度抓捕效果。
目前,主流的CDP 有很多维度,包括基于存储数据块的,存储快照的,操作系统 I/O 层的,采取不同的技术维度,所获得的数据还原细粒度也有所差别,根据恢复的细粒度的大小,业界将CDP 分为真 CDP(True CDP) 和准 CDP(NearCDP)。
真CDP 技术是持续不间断的监控并备份数据变化,可以恢复到过去任意时间点,是真正的实时备份,不会造成数据的丢失。
准CDP 是指接近持续数据保护,数据备份存在延时,也就是意味着存在部分数据丢失的风险。
根据用户对RPO 的要求以及灾备策略的不一样,CDP 技术方案选择有很大自主性,但是随着数据量的增长和业务信息化的加快,未来的趋势将是以真CDP 为主。英方i2CDP 属于真CDP 技术,能够提供细粒度数据持续保护,可恢复至任意历史时间点。
此外,根据数据备份时服务器是否停机又可分为冷备和热备;按照数据存储介质之间的距离又可以分为本地备份和异地备份。通过网络进行备份是热备的主要方式(四种常见的备份传输方式),其主要的传输模式如图:
在国内,基于高可用系统中的两台服务器的热备(或高可用)使用较多,因此双机热备常被人提起。双机热备按工作中的切换方式分为:主- 备方式(Active-Standby 方式)和双主机方式(Active-Active 方式)。
主/备方式是一台服务器处于某种业务的激活状态(即Active 状态),另一台服务器处于该业务的备用状态(即Standby 状态)。而双主机方式即指两种不同业务分别在两台服务器上互为主备状态(即Active-Standby 和Standby-Active状态)。
容灾
严格意义上讲,双机热备不属于备份,更像是容灾。从广义上讲,任何提高系统可用性的措施都可称之为容灾,它分为本地容灾、异地容灾、云容灾。
本地容灾—— 一般指主机集群,当某台主机出现故障,不能正常工作时,其他的主机可以替代该主机,继续进行正常的工作。
异地容灾—— 一般指在与生产机房有一定距离的异地建立与生产机房类似的信息平台(备份中心),并采用特定的技术将生产中心的数据传输到该备份中心,从而在生产中心发生较大的灾难如火灾或地质灾害时,仍能对生产数据进行保护的容灾系统。
云容灾—— 一般指云数据中心的物理机或虚拟机容灾。云主机系统由大量服务器组成并分布在不同的地点,同一时间为大量用户服务,因此云计算系统采用分布式存储的方式存储数据,用冗余存储的方式(集群计算、数据冗余和分布式存储)保证数据的可靠性。这种方式保证分布式数据的高可用、高可靠和经济性,即为同一份数据存储多个副本。
一个容灾系统的实现可以采用不同的技术,而容灾系统的划分,由其最终要达到的效果来决定。从其对系统的保护程度来分,可以将容灾系统分为数据级容灾和应用级容灾。
容灾半径是衡量容灾方案所能承受的灾难影响范围的指标。不同灾难的影响范围是不同的,而距离也会影响到容灾技术的选择。比如在地震灾难频发的地区,对关键信息保护必须做好容灾备份,尤其是异地容灾备份是十分必要的。
数据中心按两地三中心定义可以划分:本地生产数据中心、同城双活数据中心、异地数据中心,实现的功能如图:
备份与容灾的区别
备份是为了应对灾难来临时造成的数据丢失问题,容灾是为了在遭遇灾害时能保证信息系统继续正常运行,帮助企业实现业务连续性的目标。
备份系统与容灾系统在容灾备份一体化产品出现之前是相互独立的两个系统,容灾备份产品的最终目标是帮助企业应对人为误操作、软件错误、病毒入侵等“软”性灾害以及硬件故障、自然灾害等“硬”性灾害。
业务连续性
业务连续性(Business Continuity 简称“BC”)是指在中断事件发生后,组织在预先确定的可接受的水平上连续交付产品或供服务的能力。它明确一个机构的关键职能以及可能对这些职能构成的威胁,并据此采取相应的技术手段,制定计划和流程,确保这些关键职能在任何环境下都能持续发挥作用。
业务连续性(BC)针对的事件场景应包括三类:一般故障、紧急事件和灾难事件。实现业务连续性所需的IT 措施包含三个方面:业务状态数据的备份和复制、业务处理能力的冗余和切换、外部接口冗余和切换。
业务连续性管理(Business Continuity Management,简称“BCM”)是一套一体化的管理流程,通过该流程可识别组织面临的潜在威胁以及这些威胁一旦发生可能对业务运行带来的影响,并为组织供了一个指导框架来建立有效应对威胁的自我恢复能力,从而保护关键相关方的利益、声誉、品牌和创造价值的活动。
业务连续性管理是一个长期的、不断完善的循环过程,需遵循国际标准的PDCA 循环模型,即策划(Plan)—实施(Do)—检查(Check)—改进(Act)。
实现业务连续性的技术手段通常包括以下两种:
1、高可用(High Availability)
高可用性指通过技术手段,尽量缩短因日常维护操作(计划)和突发的系统崩溃(非计划)所导致的停机时间,以高系统和应用的可用性。业界的通行做法是采用群集系统(Cluster),将各个主机系统、网络系统、存储设备(部分高可用系统包含存储设备的高可用)等通过各种手段有机地组成一个群体,共同对外提供服务。
通过创建群集系统(采用实现高可用性的软件)将冗余的高可用性的硬件组件和软件组件组合起来,以达到消除单点故障、减少设备意外发生时的宕机时间。一般说,高可用技术通过对网卡、CPU、内存、系统软件设置不同的可用性监测点,在这些节点发生故障时实现冗余切换。
2、灾难恢复(Disaster Recovery)
狭义的恢复(Recovery)定义是指重新创建生产系统应用或计算环境的过去操作状态,包含完全恢复和小颗粒恢复两种模式。
广义的灾难恢复(DR)(国内通常简称为灾备或容灾)则属于业务连续性的技术层面。在用户信息服务中断后,需要快速调动各种资源,在异地重建信息技术服务平台(包括基础架构、通信、系统、应用及数据),灾难恢复也包括本地的恢复与重建。
目前,流行的灾备系统往往包括本地的HA 集群和异地的DR 数据中心。从故障角度,HA 主要处理单组件的故障导致负载在集群内的服务器之间的切换,DR 则是应对大规模的故障导致负载在数据中心之间做切换。
从网络角度,LAN 尺度的任务是HA 的范畴,WAN 尺度的任务是DR 的范围。从云的角度,HA 是一个云环境内保障业务连续性的机制,DR 是多个云环境间保障业务连续性的机制。从目标角度,HA 主要是保证业务高可用,DR 是保证数据可靠的基础上的业务可用。
灾难恢复衡量指标
评估一个灾备系统可靠性的两个重要指标是RTO 与RPO。随着对业务恢复指标的进一步细分,还可引入降级运行目标DOO、网络恢复目标NRO、任意时间点回退APIT 等指标。
DOO(降级运行目标)
DOO 是指灾难事件发生期间数据中心不可用时,关键业务系统在灾备中心运行的服务级别允许降低到一个可接受程度。这意味着灾难事件发生时,为了加快恢复速度,可以允许关键业务恢复到一个较低的服务级别,这个事先确定的允许降低的服务级别就是DOO。
NRO(网络恢复目标)
NRO 是指在灾难发生后切换到灾备中心所需的时间。在这一预定时间内不仅要求将网络连接从数据中心切换到灾备中心,还要使用户的网络访问能够成功地转移到灾备中心。
APIT(任意时间点回退)
APIT 是指在数据发生逻辑错误时,我们需要对破坏的数据进行恢复,这时CDP 持续数据保护技术的衡量标准可以用任意时间点回退进行评判。
灾备恢复的三个等级
根据恢复的目标与需要的成本投入,灾备大体可以分为三个等级,从数据级灾备、应用级灾备到业务级灾备,业务恢复等级逐步提高,而需要的投资费用也相应增长。
数据级灾备
数据级灾备强调数据的备份和恢复,包括数据的复制、备份、恢复等在内的数据级灾备是所有灾备工作的基础。在灾备恢复的过程中,数据恢复是最底层的,比如数据必须完整一致后数据库才能启动,之后才是启动应用程序,应用服务器接管完成后,才能进行网络的切换。
应用级灾备
应用级灾备强调应用的具体功能接管,它供比数据级灾备更高级别的业务恢复能力。同时也是业务级灾备的基础,只有具体应用得到恢复,后续的业务才能有效进行。
应用级灾备是在数据级灾备的基础上把应用处理能力再复制一份,也就是在异地灾备中心再构建一套支撑系统。该支撑系统包括数据备份系统、备用数据处理系统、备用网络系统等部分。
业务级灾备
业务级灾备是最高级别的灾备建设,如果说数据级灾备、应用级灾备都是在IT 系统的范畴之内,业务级灾备则是在以上两个等级的灾备基础上,还需考虑到IT 系统之外的业务因素,包括备用办公场所、办公人员等,而且业务级灾备通常对支持业务的IT 系统会有更高的要求(RTO 在分钟级)。
实际上,业务级灾备还关注业务接入网络的备份,不仅考虑支撑系统的服务提供能力,还考虑服务使用者的接入能力、甚至备份的工作人员(更多内容参考“中国灾备行业白皮书”)。
<2019中国灾备行业白皮书>下载链接:
https://pan.baidu.com/s/1stel0vcoBkUsnxeS1yzGEQ
提取码:1208
申明:感谢原创作者的辛勤付出。本号转载的文章均会在文中注明,若遇到版权问题请联系我们处理!
推荐阅读
更多架构师技术知识总结请参考“架构师技术全联盟书店”相关电子书(32本技术资料打包汇总详情可通过“阅读原文”获取)。
内容持续更新,现在下单“架构师技术全店打包汇总(全)”,后续可享全店内容更新“免费”赠阅,疫情活动期间价格仅168元(原总价240元)。
温馨提示:
扫描二维码关注公众号,点击阅读原文链接获取“架构师技术全店资料打包汇总(全)”电子书资料详情。