【Andy聊灾备】我们到底应该怎么做灾备?未来很挑战,但也很美好
一、我们到底应该怎么做灾备?
这是,最近几年,在我头脑里经常萦绕的一个问题。
为什么?
因为,我看了太多不那么成功的案例。
于是,我开始思考什么是灾备的 “成功”。
能备份和恢复成功,是成功吗?
搭建了一套两地三中心,是成功吗?
能完成一次灾难恢复切换演练,是成功吗?
通过业务连续性管理体系(BCM)认证,是成功吗?
这些好像都不是完全的成功。但是,除了用户自己之外,大家都不太那么真的关注 “客户成功”。
对于灾备的用户,却有横亘在他们面前 3 座大山:
卖产品方案不管体系,卖体系的不管产品
规划、建设和运营脱节,运营的成效很难与规划达成一致
灾备投入成效无法评估,除了能看到硬件和软件之外
为了解析清楚问题的根因。让我们看一下都有哪些利益相关方参与到一个灾备的项目中中来。
监管部门:制定合规性规定、并监督检查执行情况、并对违规行为处罚
设计机构:整体性的 IT 规划、业务连续性管理体系咨询,程序要求的工程设计
系统集成商:提供 IT 整体系统集成,相关业务系统开发和部署
IT基础设施商:提供 IT 整体系统集成,相关业务系统开发和部署
灾备厂商:提供灾备产品,和相关的实施和售后服务
运维服务商:提供现场和远程的IT运维服务,或外部运维服务
他们往往出现在项目的不同阶段,都有自己的出发点和利益诉求。但是,他们关注的点与用户的关注点不一样。
这是一个大问题!
二、回归初心,建立灾难恢复能力
我有一个习惯,当有困惑的时候,喜欢刨根问底。
我们先要搞清楚 “灾备” 的初心。灾备说到底是为了 ”灾难恢复“(Disaster Recovery)。
灾备的初心是建立灾难恢复能力。
那么,怎么才是 “成功” 的灾难恢复能力呢。我尝试做了一下分解。
初始阶段:
灾备系统成功部署正常运行
灾备系统达到要求的功能
数据保护达到要求的RPO和RTO
应用系统达到要求的RPO和RTO
灾备体系统运维便利性和可视化
达到合规性的基本要求
中长期:
灾备系统可管理性达到预期
灾备系统可靠性达到预期
灾备系统可扩展性满足数据量增长需求
灾备系统可支持新型 IT 基础设施
智能灾备运维提升
灾备数据可再利用
整体:
数据分类分级制度
灾备日常运维体系与工具
应急响应与业务连续性管理机制
灾难恢复计划 DRP
灾难恢复演练管理
灾备运营可视化方案
这里面包括的内容,需要通过顶层设计、整体布局、技术选型、实施方案设计、和运营体系建立等多个环节中去落实。
三、灾备的成功之道
事情逐渐明朗起来了!灾备就是要打造并持续提升灾难恢复能力。
但是,怎么具体去落实呢?
最关键的是打通灾备规划、设计、建设、和运营。
规划阶段设计的目标和方案,设计阶段的技术要求和指标体系,要在建设交付阶段,以及灾备运营阶段实现,并且持续迭代,逐步完善。
所以,用户需要找到能够帮他们打通灾备规划、设计、建设、和运营的供应商。
四、未来很挑战,但也很美好
是不是这么就大功告成、高枕无忧了呢?还远没有。
因为,未来充满挑战。
《数据安全法》来了,《个人信息保护法》已通过了三审,关键信息基础设施的安全要求在持续加强。如何完成数据安全合规?
数字化转型真的发展迅猛起来了,金融上云了,医疗上云了,城轨也上云了,在很多行业,大数据平台和容器平台已经成为核心生产,数据在更快的速度增长,怎么灾备?怎么运营?
安全自主可控的力度在持续加强,传统 IT 基础设施、私有云、公有云,异构化越来越多,系统越来越复杂,实时性越来越高。如何融合灾备?
这么多问题,如何解决?
这就是灾备要体系化的方向。把这些因素综合起来,在规划、设计、建设、和运营中落实。
灾备体系化的价值最终体现为提升 IT 整体韧性,保证灾备投资 ROI。
我个人对于中国的 IT 市场充满信心!因为,我们有足够多、规模足够大、模式足够创新的行业场景,有这样快速演进变革的市场,灾备就会持续创新发展。
不畏浮云遮望眼,自缘身在最高层。
灾备体系的落实,让灾备更加自动化、智能化、成本优化,会让人生活变得更美好。
至于,灾备如何支撑数据作为 “第五生产要素” 也是一个重要话题,留到以后再叙。