案例丨洛阳银行同城双活及智能运维技术实践
文 / 洛阳银行CIO 李晓东
“科技是第一生产力”。近年来,金融科技已成为银行业金融机构的核心竞争力。各家银行业金融机构持续推进数字化转型,通过信息技术提升金融服务能力和风险防控能力,打通金融服务的“最后一公里”,提高了金融可获得性,优化了金融资源配置。数据中心是银行科技的信息化基础设施,是银行数字化转型的基础载体,是应用系统安全稳定运行的重要保证。从2018年开始,洛阳银行逐步推进双活中心建设,先后实现了内网业务双活、数据库双活、互联网业务双活和IPv6业务双活。在建设过程中,逐步提升数据中心运维的可视化、自动化和智能化,较好地支撑了业务的发展,提升了业务的连续性水平。
同城双活中心的架构演进
洛阳银行同城主备中心分别位于洛阳市的洛龙区和瀍河区,异地灾备位于河南省信阳市。在双活数据中心建设过程中,洛阳银行统筹规划、分步实施、急用先行,从内网双活和互联网双活入手,逐步实现数据库双活和IPv6双活,最终实现了传统柜面渠道、互联网渠道和内网业务的双中心安全稳定交付。
1.方案先行、细化网络设计。为满足生产中心(以下简称H1)、同城灾备数据中心(以下简称H2)都对外发布业务,所有业务请求都能够在两个数据中心无缝切换,网络的设计和规划至关重要。洛阳银行的双中心双活的网络设计有如下特点:一是利用F5的GTM设备提供DNS智能解析,双中心GTM三层互联,信息同步,从而通过算法和数据中心出口的状态判断,将流量引导至符合策略的、服务正常的数据中心,实现流量的自动负载。二是集群化部署,双中心的DNS与LTM(Local Traffic Manager)均采用集群化设计,双中心的LTM设备跨中心集群部署,通过2层传输心跳,形成N+M(N主M备)集群。业务域名对应的IP地址可根据双活业务实时添加,提高了业务的可用性和灵活性。三是统筹规划网络区域,非互联网行内业务、分行网络与总行数据中心(H1、H2)之间基于BGP路由策略划分多个自治区域,控制路由传播、选择最优路由,提供丰富的路由策略。四是处理好异常情况,为了避免双活数据中心产生网络上的脑裂(Split Brain)或场地分割(Site Isolation)状况,一方面,实现了双中心DWDM波分四线路多发选收的冗余设计;另一方面,预设了明确的仲裁机制,能够实现一个中心的设备的主动降级。
图1 洛阳银行同城双活架构图
2.审慎实施、推进应用双活。私有云为应用双活提供了弹性资源池,使我们更便捷的管理应用资源。在具体实践中,我行采用了双中心分布式双活部署私有云的模式,每种应用服务节点按需、对称部署到双中心,如双2、双4、双8节点等,同时提供服务,实现应用双活。这种部署方式增加了管理复杂度,要求应用系统支持分布式部署,但避免了双中心单一私有云模式中可能存在的系统性风险,业务连续性能力显著提升。同时也有利于系统的扩展,可以在不同数据中心迅速扩展应用节点增加吞吐量,从而较好应对业务量激增的现象。
互联网业务应用双活的规划充分考虑了互联网业务的实时性、多样性和复杂性,不但要保证响应迅速,还要提升架构的鲁棒性。一是避免跨运营商访问服务,通过智能DNS解析策略确保客户优先得到本运营商的服务地址,避免跨运营商路由,提升客户体验。二是避免跨中心访问服务,如,针对跨Wifi和移动网络之间的跨网迁移,通过在HTTP回复中插入特殊的Cookie字段,后续再根据Cookie字段进行流量跨中心转发保证客户业务访问同一中心,避免业务中断。三是提升系统检活的深度,增加跨中心探测,以避免由于运营商在IP或端口层面的封禁对客户访问带来的影响。
图2 洛阳银行系统应用同城双活示意图
3.逐步推进,实现数据双活。分布式双活数据中心建设的“精髓和灵魂”是数据双活,而多数双活项目建设止步于数据层面。洛阳银行结合自身实际,以数据定义存储为基础,利用Oralce Extend RAC技术,真正实现了RTO/RPO接近零的应用级容灾,双中心数据双活。一是在数据读写方面,使用IBM SVC HyperSwap方案,通过双中心各两节点的“IBM SVC+FS9200存储+SAN交换机”组成单一“容灾池”,实现了实时双读双写,RTO=0。同时采用SAN网络磁盘仲裁和IP网络仲裁两种方式,确保数据同步正确,优先保证生产中心运行。二是在数据库容灾方面,我们采用了Oracle Extend RAC解决方案,实现了跨中心数据库集群。目前,核心等主要交易系统均在使用Active-Active模式,主备四节点RAC运行。但对于批量交易的系统,为减少数据交互,采用了Active-standby模式,如总账系统只有生产中心两个节点运行。三是在网络方面,Oracle Extend RAC要求较高的IO响应时间和心跳网络质量。由于洛阳银行主备数据中心的距离不超过30KM,我们通过四条裸光纤+波分复用设备,并通过多发选收的策略,保障了数据的可靠传输,完全满足了数据库Extended RAC技术实现双活的条件。
图3 洛阳银行数据库同城双活示意图
4.统筹部署,实现IPv6双活。IPv6作为国家信息基础设施快速演进升级的重大安排部署,对于加强网络强国、加速信息化进程有着重大意义。洛阳银行高度重视IPv6建设工作,成立了全行级别的领导小组,制定全面详细的IPv6改造方案,按照监管要求,逐步实现了门户网站和应用系统的IPv6改造。在网信办评测的IPv6支持度中,洛阳银行在河南省金融行业机构中排名居首。在方案设计上,一是采用了建立独立IPv6区域的方式,实现了协议栈隔离,确保任何一个协议栈发生故障时不影响其他协议栈。二是大胆采用软件定义建设模式,按照“功能优先、适度超前、确保安全”的基本原则,使用已有设备或在已有设备上增加软件模块的方式实现IPv6双活,不仅易于扩展而且也为未来云化环境积累经验。三是确保安全,我行IPv6接入区同样部署了SSL网关、WAF、抗DDOS等设备。通过在抗DDOS上添加IPv6互联网入口地址,实现对IPv6流量的监控和保护。针对IPv6的攻击也越来越多的现状,通过在WAF上配置针对IPv6的特征库有效防止Web漏洞攻击,并对基于http的请求进行分析,匹配规则阻断攻击提高业务安全性。
图4 洛阳银行IPv6同城双活示意图
加强数据中心的安全防护
在整体安全架构的设计上,洛阳银行立足同城双活整体架构,遵循纵深防御的思想,建立了对抗式、可编排、弹性化的双模安全防控体系。一是采用互联网云清洗服务和部署抗DDOS产品相结合的方式,针对互联网流量进行实时采集和分析,对异常流量的IP进行记录和阻断,及时发现针对我行的DDOS攻击。二是WAF采用资源池部署的方式,当攻击事件发生时可随时通过在资源池内加入更多的WAF设备直接扩展对抗能力,有效防护应用层各类攻击。三是充分利用不同设备分担负载,使用LTM负载将Https的流量进行解密后发送给WAF设备,减轻WAF设备处理SSL流量时的性能压力。四是DNS设备上新增AFM模块,在完成互联网域名解析的前提下可有效防止DNS Cache中毒攻击、NXDOMAIN请求攻击、UDP flood等。五是部署IDS设备,将全网流量旁路镜像到入侵检测设备上,通过匹配规则监测并分析用户和系统的活动状况,针对已发现的攻击行为进行告警并联动防火墙进行阻断。
推进数据中心智能化运维
双活数据中心为业务连续运营提供了良好的保障,但对数据中心的运维管理提出了更高的要求。洛阳银行在运维实践中,从运维的机制体制入手,逐步引入大数据和AI算法,提升运维管理的自动化、可视化、智能化水平。一是完善基于ITIL最佳实践的IT服务流程,明确一、二、三线人员岗位职责,增强运行维护体系的标准化水平,提升运维人员的工作效率。二是从统一监控向统一管理演进。通过蓝鲸平台、Zabbix、F5-BIGIQ联动,实现了各类设备监控信息的统一纳管,并逐步实现蓝鲸平台ITSM工单对接F5资源,自动创建Monitors、Pools和Virtual Servers。提高了资源交付效率,更快的响应业务需求,减少了运维人员的重复劳动。三是建立了基于ELK的基础设施、平台组件、应用系统及业务流程的可视化平台,为一线运维提供集中监控展示,为二线人员提供精准的故障排查平台,有效降低了故障处理时间,提高事件、问题的解决效率。四是通过运维基线实现提前预警和故障自愈,基于业务系统、网络、服务器、存储等运行数据,通过特定算法,建立运维基线。如,突发业务流量超过基线阈值时,算法判断提前预警,并自动实现流量调配或者扩容。针对空间不足、服务器负载过高等故障场景,设定故障自愈模式,实时触发运维操作,提高故障处理的可靠性,降低故障时间。五是通过运维数据反哺业务,通过抽取、沉淀系统运行数据,输入到大数据处理平台,提供海量业务特征数据,业务部门通过数据分析实现精准营销和风险防控。
结 语
经过近两年的双活建设,洛阳银行逐步实现了内网、互联网的应用及数据双活,增强了业务连续性能力,并持续提升安全保证。同时,积极探索和实践数据中心运维的自动化、可视化和智能化,为洛阳银行推进数字化转型,加速布局金融科技奠定了坚实的基础。
(栏目编辑:韩维蜜)
(点击查看精彩内容)
《金融电子化》新媒体部:主任 / 邝源 编辑 / 傅甜甜 潘婧