【Andy聊灾备】为什么说灾难就在身边?怎么建立灾难恢复能力?
一、这次 “渗漏水事故” 算是灾难吗?
偶然看到一个判决书,其中的信息引人注意:
被告人x作为国有企业工作人员,在国有企业机房选址时,违反《计算机场地安全要求》和《计算机场地通用规范》的规定,将机房建在紧邻排洪沟和城市轨道交通线的地下一层;未进行可行性研究、评估论证、听取专家意见,违反“三重一大”决策程序;因选址不当造成渗漏水事故,产生维修改造费用56.01万元,被告人x的行为构成国有企业人员滥用职权罪,造成国家利益遭受特别重大损失。
你认为,其中提到的 “渗漏水事故” 算是灾难吗?
我的答案是:不好说。
因为,不知道渗漏水事故具体造成的影响。
让我们看看关于“灾难”的定义。
A serious disruption of the functioning of a community or a society at any scale due to hazardous events interacting with conditions of exposure, vulnerability and capacity, leading to one or more of the following: human, material, economic and environmental losses and impacts.
联合国防灾减灾署(UNDRR)
可以翻译为:造成到社会、组织运作严重中断,并导致人类、经济、环境等重大损失。
红十字会与红新月会国际联合会(IFRC)直接给出“灾难”的公式:
(Vulnerability + Hazard) / Capacity = Disaster
(漏洞+危险)/ 抗灾能力 = 灾难
所以,你应该清楚了,“灾难” 的关键信息是:
与“人”有关系
导致社会或组织运营中断
与自身的抗灾能力(亦可说“韧性”)有关
灾难的判断依据是“影响”,不是发生的缘由。
二、为什么说灾难就在身边?
灾难是无法避免的。
从系统学上来看,系统的发展不可避免引起系统的脆弱性。
系统脆弱性,是指系统的组件和多个系统之间存在大量的依赖或相互依赖关系,这使得系统结构和功能变得更加复杂。在内外部干扰情况下,系统经常表现出涌现行为和极端的脆弱性。
我们就处在不可避免复杂化的时代,复杂化带来脆弱性。
脆弱性 = 小事件引发大灾难
从 IT 系统角度分析,为什么灾难就在身边?
1.从封闭走向开放
互联网医院、城轨云、开放金融、和各类互联网+
IT 系统把围墙打开,带来的冲击是巨大的
可能一个小小的漏洞,就导致巨大的灾难
2.从简单走向复杂
这个图是 Amazon 和 Netfix 微服务的关联图
云化、容器化、智慧化,会引发系统复杂化
你认为很稳固的平台,可能出现崩塌式的灾难
例如,你可以搜一下任何一家公有云名称加上“宕机”
3.从稳定走向敏态
虽然 IBM 说大象可以跳舞,实际上,你往往必须把系统变小才能敏捷
银行 IT 系统由封闭、开发、到分布式的演进
云、容器、大数据等分布式系统,可能引发脆弱性障碍
4.规模急剧扩大
系统数量规模、数据量规模急剧升高
传统的技术、方法能否持续支撑?
从行业角度来看,为什么灾难就在身边?
1.政府:城市人口持续增长,智慧城市集约化,导致巨复杂系统,脆弱性持续增大。
2.企业:数字化转型,引发业务深度依赖 IT 系统连续性,轻微的系统波动,可能导致巨大损失。
3.医院:开放导致安全风险增大,而短时间的系统停顿,也可能导致恶性事故。
4.金融:未来 10 年 IT 系统几乎要迭代一遍,风险还是未知。
不要尝试回避灾难,因为灾难不可避免。
三、那么,怎么建立灾难恢复能力?
我给出 “3+1” 解决方案。
3 个办法:
强身健体:高可用
防患于未然:容灾和备份
常备常练:预案与演练
1 个体系:
高可用
是关于架构。
简单来说,在 IT 系统和基础设施的每一层考虑可用性,排除瓶颈点。
这往往是一项巨大的工程,涉及到改造和整合。
容灾和备份
容灾是指的面向应用系统,选择合适的容灾技术,实现区域性或某个范围的容灾能力。
容灾的技术核心是复制技术、一致性保障、切换和回切方法。
备份是无论什么架构、环境都需要的。
预案与演练
预案,对于复杂系统,没有预案是不可能恢复的,至少不可能在可接受的范围内完成恢复的。
演练的重点是“真做”,不能把“演习”当“演戏”。
四、结语
数字化、智能化是让人变得更聪明,还是更懒惰,变得难以响应外界的复杂化?
人需要更智能的工具去驾驭智能化本身。