某基金公司双活数据中心建设架构设计方案 | 资料
【作者】haozhangsir,从事金融行业IT工作多年,熟悉主流平台存储设备和架构,参与过两地三中心建设。目前主要负责存储、备份等相关工作。
一、概述
1.1 背景与现状
金融行业是国家稳定发展的重要保障,因此,国家对金融行业的业务监管要求越来越高。传统的系统架构已不能满足国家的业务连续性要求,需要依靠科学技术提升系统架构,将RTO、RPO的指标无限接近于0。传统的同城灾备建设普遍采用热备的方式,通过存储同步复制技术保证生产数据中心与灾备数据中心数据的一致性,这种方式将数据的RPO指标提升为0,但不能进行快速切换,保证业务系统的快速恢复。
同时,这种热备方式只有在发生灾难时进行切换,平时基本处于待机状态,对于花费大量人力物力财力搭建的环境,是一种资源浪费。在这种情况下,双活数据中心的架构应运而生。双活数据中心保证业务数据0丢失的同时,能够无间断的接管业务,还可以访问用户采取就近快速访问业务。双活数据中心架构主要包括存储双活、数据库双活、应用双活以及网络双活四个层面,其中存储双活是双活数据中心的基础,因此,存储双活架构的搭建是各大企业建立双活数据中心的重中之重。
基金公司作为金融行业重要组成部分之一,对我国的经济发展起到推动作用,也为公民投资理财提供多条路径。投资系统是基金公司最核心的业务系统,需要低时延、高可用的技术手段保障其无中断运行。目前,我公司采用热备数据中心,应用、数据库以及存储部署在生产中心,通过存储级复制将数据同步至灾备中心。系统正常运行时,客户访问到生产中心的应用系统,灾难发生后,运维人员手工启动灾备中心的应用和数据库,这样的应急操作将达到10分钟甚至10分钟以上。
目前,监管部门对于投资交易系统业务连续性要求故障应在5分钟内业务全部恢复,只有这样才能保证基金行业的稳定运行,但当前的架构不足以支撑投资系统的连续性要求;存储设备多样化,目前生产环境中拥有EMC、IBM、HDS以及国产品牌等多家产品,同时,同厂商也存在不同型号的存储阵列。现存EMC VNX和VMAX系列,HDS的HUS和AMS系列,IBM的DS以及FAS系列产品。不同厂商的设备管理方式不尽相同,没有统一的对外接口和管理资源池,这样不利于运维人员的管理,增加了维护成本。在与同业交流和调研后,我公司决定搭建双活数据中心。
1.2 工作目标及范围
不同企业搭建双活数据中心目标不尽相同,但大致可归纳为以下几点:
业务连续:搭建跨区域的同城双活数据中心,有效地避免单一数据中心级别故障导致的业务中断。
流量转发:提升数据中心资源的利用率,同城数据中心独立运营,形成灵活、可拓展面向服务的业务架构,根据用户范围,为用户提供就近快速的访问响应。
业务安全:各数据中心基础设施完善,机房环境稳定,数据中心内部具有保护核心网络不受攻击的技术保障手段。
环境一致:各数据中心部署的应用对用户来说是透明的,对外提供统一的服务接口,数据中心间的数据和部署参数须完全一致,具备随时可切换的能力。
范围:搭建双活数据中心总体架构,包括双活存储系统、双活数据库系统、双活应用系统和双活网络系统。双活网络系统主要依靠智能DNS、GSLB全局负载均衡、大二层等技术来实现;双活数据库系统主要采用数据库集群技术,包括Oracle RAC、DB2 pureScale等;双活应用系统依靠负载均衡实现。本方案将主要探讨双活存储系统的搭建,通过双活存储系统的搭建,可实现数据库系统的双活。鉴于各企业存储厂商不尽相同,本方案采用存储整合设备将异构存储统一管理,并基于此平台,实现存储系统的双活。
二、双活架构设计方法
2.1 具体方案
本方案采用以EMC VPLEX技术为核心的双活虚拟化数据中心解决方案。EMC VPLEX能够打破数据中心间的物理壁垒,提供不同站点间对同一数据副本的共享、访问及在线移动的能力,提供双A(Active-Active)高可用服务,结合虚拟化技术及DWDM(密集型光波复用)网络扩展技术,能够实现业务及数据在站点间的透明在线移动,使用户能够在两个站点间动态平衡业务负载,最大限度利用资源,并提供零RTO的高可用能力。
存储虚拟化网关平台是实现双活存储系统核心技术之一,在进行存储网关平台选型时,主要考虑高可用、高可靠以及高拓展性。在高可用方面,VPLEX是多活结构,内部通过多条路径负载到虚拟磁盘,不存在单点故障;VPLEX引擎基于VMAX存储机头,每个控制器36GB缓存,多个控制器可并发访问指定虚拟卷,支持全局一致性缓存机制。
2.2 详细设计
EMC VPLEX介于在服务器和异构存储之间,使用群集体系结构,该体系结构允许多个数据中心的服务器具有对共享块存储设备的读/写访问权限。
EMC VPLEX作为主机和存储的统一接口,数据底层采用现存的EMC VNX存储阵列和利旧的IBM DS存储阵列。利用VPLEX的存储虚拟化网关可以整合现存的存储阵列资源,可以充分利用存储阵列提升设备的利用率。通常,未采用存储网关的存储阵列真实利用率只有30-70%,采用存储网关可以使存储阵列利用率达到70-90%;同时,利于运维人员的统一管理。
EMC VPLEX 可以同时提供本地联合和分布式联合。本地联合提供了站点内物理存储元素的透明协作,而分布式联合将这一概念扩展到了跨远距离的两个位置之间。分布式联合是通过 AccessAnywhere 这一技术实现的,此技术支持跨远距离共享、访问和移置单个数据拷贝,是跨距离双活数据中心的基础。
基于存储的双活数据中心必须严格保障存储数据的一致性,VPLEX 在进行写操作时,会通过透写方式保障数据的一致性,待数据完全相同的写入两端存储阵列后,才返回主机写完成信号。VPLEX 写操作的工作原理如下图:
主机向VPLEX Metro集群1发送请求,集群1接到主机请求后集群2发送相同的主机请求,待数据同时向存储阵列落盘后,返回完成请求信号,主机端操作完成,中途有异常时,返回请求失败信号,避免双数据中心存储数据不一致。
基于 VPLEX Metro搭建双活数据中心解决方案的结构如下图所示:
1) 基于EMC VPLEX Metro提供双活数据中心解决方案核心功能。
2) 基于传输厂商提供的DWDM 二层网络延伸技术,从网络层面为数据库和服务器在线透明迁移提供条件,及最小化的RTO指标。
3) 基于EMC Witness为双活存储系统提供心跳机制,避免由于存储间链路出现问题或单台存储出现问题时发生脑裂故障。
4) 基于EMC Avamar为双活数据中心提供完善的数据备份保护。
5) 基于EMC Ionix ITOI(IT Operations Intelligence)产品实现虚拟数据中心的全面集中监控管理。
在 VPLEX 中,Witness 功能仅适用于放在一致性组中的分布式卷。未放在一致性组中的分布式卷具有自己的独立偏好设置。在首选群集发生故障时,这些卷将暂停 I/O。将 VPLEX Witness 部署到以下故障域非常重要,该故障域应独立于每个包含两个VPLEX 群集的故障域,以确保单个故障影响的实体不会超过一个,节点故障影响如下图所示。双活数据中心为我们提供了技术保护,同样,我们也应该定期对高可用架构进行有效的演练,只有这样,才能做到养兵千日用兵一时,为企业提供最可靠的保护。
随着科学技术的发展,存储双活系统的建立使双活数据中心得以实现,也为企业提供了新的数据中心建设方向,也为客户提供了更加稳定便捷的服务。双活数据中心已经经过了不少企业的验证,我们会汲取经验和建议,建设成果也会进行分享。在未来,还会有先进的技术和架构,提升IT系统的稳定和性能,同时完整的运维管理体系和运维人员技能培养必不可少,这样才能发挥企业最大潜力,为国家金融稳定发展提供保障。
如有任何问题,可点击文末阅读原文,到社区原文下评论交流 觉得本文有用,请转发或点击“在看”,让更多同行看到
资料/文章推荐:
存储跨中心双活方案设计阶段十大难点解析
http://www.talkwithtrend.com/Document/detail/tid/406237
欢迎关注社区 “双活数据中心”技术主题 ,将会不断更新优质资料、文章。地址:http://www.talkwithtrend.com/Topic/1473
下载 twt 社区客户端 APP
长按识别二维码即可下载
或到应用商店搜索“twt”
长按二维码关注公众号
*本公众号所发布内容仅代表作者观点,不代表社区立场