查看原文
其他

异地应用级容灾建设方案规划设计基本知识

twt社区 twt企业IT社区 2022-07-03

以下内容来自社区金融行业同行交流分享,旨在为异地应用级灾备建设还处在方案规划与设计阶段的金融企业提供参考。


Q:灾备环境都有哪些应用场景?

除了满足正常的灾备目标以外,为了提高灾备环境的日常利用率,灾备环境除采用双或模型外,还可以将灾备资源复用为准生产环境、日常查询环境、测试环境及培训环境。在这种模式下,可能会有额外的资源要求。


Q:数据库级别的灾备如何实现?

数据库级别的灾备主要有两种方式,一种是存储异步复制。一种是基于数据库复制技术的日志复制,远程节点实时回放。例如Db2的HADR同步技术。异地都是异步模式,同城都是同步模式。


Q:灾备端的自动切换如何实现?

传统意义上的灾备自动化,主要实现的功能还是以根据DRP要求实现半自动或全自动(一键式)切换为目标。为实现该目标通常会包含以下能力组件要求:

1) 灾备环境监控:作为眼睛,识别当前灾备环境的整体情况,为灾备切换的执行做状态与信息输入。通常该部分会与企业的统一监控平台、配置管理平台、应用统一发布平台进行对接获取相应的数据。而灾备自动化平台会提供灾备所需资源管理功能作为信息补充。

2) 灾备预案管理:作为大脑,配置与管理完整的场景预案DRP流程,并控制切换执行过程中的各项交互与动作。通常由灾备导航或自动化平台来提供。

3) 灾备自动化执行:作为手脚,接受预案管理发布的工作内容,并负责在最终环境中执行动作并反馈执行结果。常用的自动化执行引擎为ansibe,puppy,chef等,部分非系统类工作可以依赖RPA模块完成,也可以由云管平台完成云平台相关操作。以上各类操作引擎均需要和灾备自动化平台整合对接。

实操上来讲,首先是要做场景分析,在各种不同灾备场景下,按照实际的切换技术要求,一步步怎么做理清楚了,然后灌到灾备管理平台里,就可以了。如果做灾备自动切换,只是为了项目汇报,这样就差不多了。如果希望在实际生产中,碰到灾备切换场景,确实是希望能够做到一键切换的,还需要做两件事情:一是修改现有的变更流程,使得所有可能影响到灾备端的变更都要在变更流程中得以关注并有效的落地,比如要保证灾备环境建设完成后,应用的变更,带来的服务起停的变化,同时在生产端和灾备端得到实施。二是要落实定期切换演练,桌面演练,分级的实际演练(切换、查询验证,切换、出单验证,以及演练回退)。


Q:建设灾备需要注重什么关键的细节?

分享一:

灾备建设是为了防范发生灾难事件时能够及时的切换到灾备中心来保证业务持续运行。建设灾备应注重灾备环境的有效接管能力,具体的技术细节包括:

1) 数据复制方式是否能够满足灾难恢复指标的要求,并且易维护、易操作;

2) 灾备应用环境是否全面,是否能支撑关键业务功能;

3) 计算资源、存储资源是否能够满足应用运行的性能要求;  

4) 灾难恢复预案是否满足灾难场景的要求;

5) 灾备演练设计是否具有针对性,能够验证灾难场景及灾难恢复预案;

6) 灾备运维制度是否纳入日常运维管理中,确保灾备环境与生产环境保持一致,灾难发生时能够及时进行生产接管;

分享二:

建设灾备主要需要考虑带宽和延时。尤其是带宽,通常都是瓶颈所在。如何利用有限的带宽是需要好好研究的问题,例如重要系统需要隔离,复制模式需要调整等等,尽量采用占带宽比较小的方法。


Q:灾备系统的切换平台化达到何种程度能实现一键切换?

分享一:

大部分可受Ansible管理或支持脚本的资源均可通过自动化切换平台驱动来实现一键式切换,对于接口调整,应用联调,防火墙调整,业务验证,重要节点确认等任务采用手工操作或半自动化逻辑。

分享二:

基本目标就是做到一键切换,同时展示切换的当前流程和状态。一般这种管理工具都得自建,因为每个公司的切换方式都不一样,需要自己定义自动化流程。


Q:多久应做一次灾备演练?演练是挑几套系统做还是都做?灾备端拉起后跑生产业务还是只做简单验证?

重要系统半年一次,非重要系统一年一次。演练是集中全做,拉起只做验证。


 资料/文章推荐:


欢迎关注社区以下 灾备技术主题 ,将会不断更新优质资料、文章,您也可以前往提出疑难问题,与同行切磋交流:http://www.talkwithtrend.com/Topic/3457


下载 twt 社区客户端 APP

与更多同行在一起

高手随时解答你的疑难问题

轻松订阅各领域技术主题

浏览下载最新文章资料


长按识别二维码即可下载

或到应用商店搜索“twt”


长按二维码关注公众号

*本公众号所发布内容仅代表作者观点,不代表社区立场

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存