查看原文
其他

争议 | 无奈的一件事:中小银行是否有必要建设异地应用级灾备?

twt社区 twt企业IT社区 2022-07-03

以下内容来自社区探讨,欢迎点击阅读原文到社区与同行交流本话题


无奈的一件事情:中小银行是否有必要建设异地应用级灾备探讨?

随着中小银行业务的发展及监管要求,对应用系统连续性要求越来越高。很多中小银行在完善同城数据中心实现双活的基础上,开始考虑异地灾备中心建设。现在大部分中小银行基于“同城保生产、异地保数据”的原则,将异地灾备中心作为数据备份中心,最大限度的实现生产关键数据的少损失。
但是随着技术发展,某些中心银行对异地灾备中心的应用级灾备建设表现出了越来越高的兴趣。日前看到社区有个讨论帖子:城商行计划重建异地应用级灾备承载10多个交易类应用系统,有一些疑问请教?  (点击可阅读)发现有人回复说到:异地应用级灾备建设是一件大事,行内投入很高,必要性是否有?无奈的是如何说服上层领导?那么中小银行到底有没有必要建设异地应用级灾备呢?或者说满足什么样的条件才应该建设异地应用级灾备呢?我也很想听听同行对这块的看法?

(问题来自@Dongxin 某银行股份有限公司 系统架构师)


@Creolol 某银行:

1、符合监管要求当然是必要的。没记错的话监管文件明确过资产规模>1000亿且跨省经营的商业银行应该设立应用级异地灾备(灾难恢复5级)。不大于1000亿或者不涉及跨省的,只要求4级,数据级即可。当然,各地的监管可能有不同的解读;

2、要看自身的主数据中心及同城中心的IT系统健壮性情况。尤其对于中小型银行,私以为本地高可用做到足够好再考虑完备的异地中心建设更加科学。从规避实际风险的角度来说,同城的双活或灾备系统可以应对绝大部分灾难,而且技术层面上,同城的接管速度也要比异地快的多;

3、还要看行内应用系统架构的发展方向及路线。异地中心建设成应用级,如果仅仅作为灾备或供一些边缘系统使用,是对基础设施极大程度的浪费。尽管灾难备份是它存在的最大意义,但配合着合理的应用系统架构规划,让异地中心也适当的“活”起来,才是科学健康的IT战略。


@melody2004 某城市商业银行 系统架构师 :

是的。两地三中心是现阶段行业比较流行的一种做法,即同城双活数据中心、异地数据灾备中心。对于中小银行来说,投入成本相对较高且后期运维也是一笔不小的开支,一个数据中心基础运维人员至少需要四个人轮流值守,双人值班,三班倒。12个人的基础运维编制,再加上开发和应用运维人员,IT科技部门编制人数保守估计要在50人以上,对中小银行真的是个问题。


@zihan524524 某银行

数据中心监管指引对于银行业容灾体系要求如下:

总资产规模一千亿元人民币以上且跨省设立分支机构的法人商业银行,及省级农村信用联合社应设立异地模式灾备中心,重要信息系统灾难恢复能力应达到《信息安全技术信息系统灾难恢复规范》中定义的灾难恢复等级第5级(含)以上;其他法人商业银行应设立同城模式灾备中心并实现数据异地备份,重要信息系统灾难恢复能力应达到《信息安全技术信息系统灾难恢复规范》中定义的灾难恢复等级第4级(含)以上。

以上要求并没有明确是不是要做异地应用级灾备,所以从大的层面来说没有强制要求。但做不做异地应用级灾备,规模做多大,投入多少,这个要结合实际情况来考虑,一是本地监管部门是否有要求,有很多本地监管部门对容灾,业务连续性要求是远高于标准的,二是行里自身状况,毕竟做异地应用级灾备比数据级灾备投入会大不少,行里舍不舍得花这个投入。没有所谓的有没有必要。

一般来说,灾备布局模式分为大同城小异地,小同城大异地,小同城小异地,大同城大异地,这里的大小是相对的概念,各位看官莫咬文嚼字哈,小同城小异地基本不满足监管要求,基本被抛弃,大同城大异地投入巨大,一般也不会采用,小同城大异地,这种模式采用的不多,大同城小异地是主流模式。

如果有条件,在大同城做好的基础上,增加一部分最关键的系统异地应用级灾备未尝不是一种好的做法。


@guangshi007  技术经理 :

按照标准来说,银行要做两地三中心的架构,生产系统——同城灾备系统——异地灾备系统,就现阶段而言,号称是两地三中心架构的基本都是银行、金融业或者垄断性国企之类不差钱的单位,在实际遇到灾难事件时,能否顺利切换过去,数据是不是同步一致,切换时间需要多久…等等因素都很难说,毕竟年年在做的切换演练都是比较理想状态下的模拟,跟实际灾难事件不可同日而语…

同时,正如前面几位所说的,建设异地应用级容灾,代价巨大,花费不菲,建成后能否如预期所料,迅速、平滑地接管同城生产中心的系统及服务,网络会不会抖动,数据是否跟生产环境完全一致,难于保证,毕竟会遇上什么类型的灾难事故,影响范围多大,都无法预知。

这种建设项目,投入巨大,实际能起到多大效果,与银行的管理水平,制度规范,技术维护水平,运维情况关系更密切一些,换句话说,搭建硬件环境架构是基础,比较容易实现,但更重要的是银行的管理水平等等软能力也必须跟上,考验的是银行的内功,若是内功不给力,硬件架构再好,配置再高,也是白搭。

建成以后,项目的政治意义大过于实际功用,作为领导的政绩,为其提拔升级最好材料,领导换届后,制度、规范能否坚持执行下来,也是一个考验。


@ggffss 某银行 安全工程师:

1、看监管要求,看银行的资产规模和经营范围;

2、看地理环境,如果是四川、贵州这种地震灾害,南方城市的洪水灾害等大规模自然灾害多发区域还是必要的;

3、在考虑建应用级异地灾备中心时,要考虑除了做生产系统灾备外,应该要考虑充分利用灾备中心的资源,把灾备中心利用起来,比如一些非生产的业务系统,开发测试环境等部署在灾备中心,不要让领导觉得备而无用。

4、在建同城双活的数据中心时也要考虑在同城中心用起来,而不仅仅是备着,每年演练的时候用一下,完全可以通过负载均衡设备调度,把同城中心的生产系统利用起来,减少因为同城中心备而不用,造成生产中心和灾备中心的应用数据不一致,真正出现问题,反而切不过去了。


@匿名用户:

同意Creolol意见,主要看监管要求和业务需要,毕竟建立一个应用级异地灾备中心,在线路、设备、基础设置和运维人员等方面的投入不是小数目。如果一般的区域性商业银行,这笔投资太大,个人感觉没太大必要。有长远规划或者发展需要的另行考虑。


@michael1983 某证券 技术经理:

1、看本地银监监管要求

2、看银行自身盈利水平,预算充足,能做还是做,数据级灾备严格意义上不能叫灾备;

3、看所处地理位置,如果处于大陆板块交接处,近年来发生过灾难事件的(如四川等),建议还是要上。


@孙伟光 中国金融电子化公司 IT顾问:

IT系统对于银行的重要性,不言而喻,高度依赖IT系统的银行业的今天,业务停机除了直接给客户和自身带来不可估量的损失,也给社会稳定也造成了不和谐的因素,如果说银行系统的稳定运行是IT管理层必须坚守的一个不可逾越的底线,那么银行的数据就是银行发展的最后一道生命线。那么中小银行异地灾备建设过程,也是银行自身发展的过一个过程,中小银行快速扩张,IT支撑系统越来越重要,越来越完善。

中小银行灾备建设也是一个从无到有的过程,中小银行成立生产系统稳定运行后,IT决策者就开始考虑业务连续性的问题。抛开监管层面的要求,目前大多数中小银行异地灾备现状是,经过多年的建设,除了应付监管大部分是闲置状态。我个人认为从侧面也反映出,中心银行数据中心选址建设非常规范,IT建设运维参与者水平素质非常高,使得生产系统安全稳定坚如磐石,让异地灾备成了一个“摆设”。
异地灾备应用级建设是否真的没有必要,除了增加了建设成本,维护成本等,似乎不是一个明智的选择。银行IT决策者从心理上可以轻视它,但是从战略角度一定要重视,一旦发生站点级灾难,启用异地灾备,那么多年的投入建设变得十分的重要。个人觉得异地灾备建设是一个长期漫长的过程,首先从成本上讲,一次性投资过大,其次IT技术人员压力过大,平时除了保障生产,还要兼顾异地灾备,对流程和全局缺乏一定的认识,那么我们可以考虑四步走的战略。
第一先解决从无到有的问题,先做一个灾备建设咨询,把整个过程完整梳理一下,除了能够发现生产系统的不足,还能对整个异地灾备建设有一个清晰的认识。
第二,有了咨询的交付成果,考虑着手先建设一个数据级别灾备,选址很重要,交通,IT从业环境等因素,自建机房、租用数据中心、私有云等形式,不定期做个数据的验证性工作。既满足监管又让IT技术熟悉整个异地灾备建设,运维的流程。
第三,异地灾备稳定运行后,加大资金投入,逐步完善异地灾备应用级建设,当然前提根据自己实际需要,由原来的核心系统,逐步扩展到其他重要的系统,那么这些系统建设后,资源利用率就是一个问题,那么这些计算资源和网络资源处于闲置如何来处理,可以考虑云计算的形式,通过与云计算提供商签订协议,有些资源不用的时候关闭,等到切换的时候启用,这样就就解决了资源充分利用的问题了。
第四,逐步完善业务连续性流程和制度,定期切换演练,完善生产系统和异地灾备系统遇到问题,总结异地灾备运维的问题,根据市场技术发展,逐步完善加固自身异地灾备建设,并保持技术的先进性,真正做到有"备"无患。

@张鹏 中国金融电子化公司 数备中心技术总监:

“保生存,促发展”,这是广大金融机构多年前就已经喊出的口号。如何实现业务连续性保障,如何面对大灾情况下还能保住关键数据不丢失,保证业务快速重续运行,这是多年以来金融机构信息建设一直亟待解决的问题和达到的目标。
回顾一下近些年金融机构灾备体系的建设里程不难发现,同城灾备体系无疑是众多金融机构优先建设的,生产和同城灾备通常在一个距离较近的地理区域内,从管理角度上来讲,方便运维人员进行统一管理,通常同城灾备的建设等级也比较高,接近甚至等同于生产中心。同城灾备的高等级建设,逐渐增加金融机构的投资成本,为了充分利用同城灾备中心的资源,双活数据中心的概念应运而生。
双活数据中心的建设者提出了两种建设思路,一种是非对称工作负载的建设模式,即双中心分别运行不同的业务,并实现业务系统的互备,这样即可以充分利用双中心的各种资源,也达到了一定的灾难恢复等级。另一种是对称工作负载的建设模式,即物理位置隔离的两个数据中心,通过一定的技术实现逻辑上成为一个数据中心,业务系统通过负载均衡将业务分发到两数据中心,两数据中心并行运行,数据在数据中心之间实现实时同步。这样的数据中心灾难恢复等级高,依照国家标准很多层面可以达到灾难恢复等级6的级别,是比较理想化的建设模式,但是同时当前的技术条件下有很多限制,并不是所有的业务系统和技术实现方法都能够真正建设成为一套稳定可靠灾备体系,并且随着数据中心重要等级的提升以及技术的复杂程度的提高,对运维人员的技术要求和管理要求带来了新的挑战。
同城灾备中心虽然可以防范生产中心故障风险,虽然通常可以覆盖大部分业务系统的灾备保护,但是因为生产和同城灾备中心的距离短的现状,限制了同城灾备中心防范区域性灾难风险的能力。例如一旦发生大面积的自然灾害,生产和同城灾备中心非常有可能同时不可用。这时候,如何保证金融机构的生存,保证广大人民群众的数据安全,保障业务快速重续运行维护社会问题,这一系列问题就会凸显出来。
异地灾备中心在防范区域性灾难的作用是非常巨大的。过去几年来,很多金融机构重视同城灾备中心的发展,而轻视异地灾备中心的建设。不能说不正确,毕竟需要先把有限的资金和人员都先投入到容易实现和更有利于满足当前效益方面。未来,金融机构面对业务连续性要求越来越高,异地灾备不仅仅要能实现数据甚至仅仅是关键数据的灾备保护。当前以及未来对异地灾备的建设要求主要在两方面,一是要实现大部分甚至是全部关键业务的灾备保护。二是要实现异地灾备中心的业务接管能力,并提高接管能力等级。
未来如何做?金融机构在异地灾备中心建设的问题上,可以参考几种策略:
一是避免浪费,减少自建异地灾备中心,减少自身的资金投入和人员成本。可以采用共建,租用数据中心的方式,引入第三方专业机构进行建设和后期运维。
二是关键业务全覆盖,扩大实现异地灾备的业务系统的范围,达到覆盖全部业务系统的程度,这是实现异地灾备中心在灾难发生时重续业务的基础。
三是提升异地灾备中心的接管能力,金融机构的业务长时间中断是不能容忍的,异地灾备建设成为应用级灾备,是十分必要的。这样的异地灾备才不是摆设,才能真正应对灾难的数据中心,这样的投资才是有价值的。同时还要关注异地灾备中心的业务接管和生产中心业务接管能力的对比,短时间异地灾备中心达不到100%的生产中心业务承载能力,也要能实现接近生产中心业务承载的能力,并逐渐提升并达到与生产中心能力相同的水平,当然这需要结合投资和收益分析来平衡,选择一个专业的具有弹性伸缩能力的供应商或者技术体系是比较容易实现的。

@vansbj  IT技术咨询顾问:
1.跟大家意见相同,要看监管部门的要求,自身的预算等一些硬性条件;
2.通常会选择本地(同城)双活,异地数据级灾备这种做法基本就满足了监管要求;
3.要划分应用系统重要等级,哪些业务是核心需要做到2地3中心;
4.划分完应用保护等级后,就能够确定不同等级业务的RTO与RPO;
5.要确认具体环境情况了,比如你的主机平台类型,应用类型,数据类型等等;
6.根据实际的环境,选择适合解决方案,通常本地(同城)数据层双活你要具备裸光纤(网络延迟不超过5毫秒),否则会影响业务,前端平台和应用就要看相应的各自解决方案了,还有网络,访问的问题,如波分,负载均衡设备等等,包括机房的不同运营商的入口出口等。
还要考虑后期运维成本,人员配置等等,会涉及的东西很多,建议其他参考同行业的案例。
欢迎点击文末阅读原文到社区讨论交流
觉得本文有用,请转发或点击“在看”,让更多同行看到


 资料/文章推荐:


欢迎关注社区 “灾备”技术主题 ,将会不断更新优质资料、文章。地址:

http://www.talkwithtrend.com/Topic/3457


下载 twt 社区客户端 APP

与更多同行在一起

高手随时解答你的疑难问题

轻松订阅各领域技术主题

浏览下载最新文章资料


长按识别二维码即可下载

或到应用商店搜索“twt”


长按二维码关注公众号

*本公众号所发布内容仅代表作者观点,不代表社区立场

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存