商业银行基于VMAX3完成数据迁移及同城容灾技术手册
【作者】张鹏,曾任Dell EMC、IBM售后服务工程师共10年以上,现任职某城市商业银行运行维护中心,从事存储、备份、应用负载等实施、运维与管理工作,参与行内新一代核心系统上线、容灾建设切换等项目。
1 VMAX3硬件结构与技术概述
Dell EMC VMAX3 是Dell EMC公司在2014年问世的第三代高端VMAX存储系统,型号包括VMAX100/200K/400K,积淀两代VMAX产品VMAX/e和VMAX2之后,Firmware Code和体系结构都表现得更加成熟与稳定。在此基础之上,随着全闪和NVM/e技术成熟,Dell EMC发布了VMAX ALL FLASH和 PowerMAX产品系列高端存储。本文将以VMAX3中VMAX100K/200K为例,着重介绍实际运维管理中涉及到的技术,并分享利用SRDF为关键技术,完成数据迁移和保护的实施案例。
1.1 VMAX3高可用硬件架构
VMAX100k/200k/400k的硬件结构按部署方式分为紧凑排列、分布排列和这两种的混合排列三种方式。分布排列和混合排列是当机房的空间有限、列头用电到达上限或者地板集中承重能力不足时才考虑的部署方式,本文以常用的紧凑排列部署方式为例介绍VMAX3各型号的物理组成情况。
图1:VMAX100k/200k/400k 单引擎物理部署图
如图1所示,物理架构图中可以看出VMAX3的物理架构中各组件为冗余设计,每个系统机柜(System Bay)的引擎由两个控制器(Director)组成,机柜的物理磁盘单元(DAE)由双PDU供电。发生紧急掉电时,控制器由双备用电源(SPS)保护,系统柜1下面的一组备用电源是为用于控制器互联的一对MIBE和以太网交换机做掉电保护用的。
图2:VMAX3引擎逻辑配置图
与VMAX2(VMAX10K/20K/40K)产品不同,二代产品的DAE还是需要备用电源进行掉电保护的,而VMAX3则改将紧急掉电前CACHE中的数据,写入引擎中的冗余的FLASH盘中(图2中引擎slot0/1/6/7的位置),而不再写入到DAE中。
图3:VMAX100k/200k/400k 双引擎物理部署图
为增配更多引擎,VMAX3配置了双引擎系统柜,当然每个柜中会减少两个物理磁盘单元的位置,增加两个控制器,构成双引擎模式,最大扩展部署分布如图3所示。选择双引擎架构来承载关键业务,想必是出于业务对存储处理能力、缓存数量、业务端口数量有最低限制的要求,而对于容量的极限扩展能力相对要求不高。用于采购和技术方案的详细参数指标详见《VMAX3-系列产品指南》,项目实施初期的物理安装要求详见《VMAX3-系列站点规划指南》。
1.2 VMAX3基本逻辑配置
讲起大多数VMAX3的逻辑对象配置工作,很多客户购买了该产品后,实施厂商已经按照具体使用需求,完成了大多数的配置选型、设备下单、运输安装、初始化、存储映射、以及操作系统多路径软件部署、逻辑卷识别和参数调整等逻辑配置工作。如果采购多台存储用于多地多中心的容灾环境,针对各地系统的容灾规划,存储间的逻辑部署工作也会由原厂来完成,主要包括存储SRDF端口的逻辑配对,生产容灾主从SRDF存储组配置,SRDF远端、目标端存储pair配置,以及数据同步关系的初始化、启停和查询的一系列逻辑操作等。
1.2.1 存储映射配置
大多用户都是从存储映射开始的,VMAX3在映射关系中的概念,大部分可以从其他存储厂商的概念移植过来,了解VMAX3存储系统实际硬件配置和初始化信息的基础上,就可以整理出存储映射所需要的信息了。
存储初始化基本配置信息:
• 存储系统硬件信息:序列号、引擎及/Cache、VaultFlash,前端口数量/速率、磁盘类型/容量/数量以及热备盘情况
• 初始化信息:设备微码版本、可用引擎数、可用内存数、是否DARE加密、是否需要大机支持、开放平台支持、RDF模式等
• 主机信息:业务主机名称、系统版本、集群关系、HBA卡名称、PN号、WWN号
• 空间需求:空间RAID保护类型、主机卷组名、所需容量、存储卷名称与数量等
• 端口分配:按不同的业务系统分配不同的前端口,存储端形成对应的端口组,并确保端口所在不同Fabric冗余
掌握上述信息,按部就班进行主机磁盘分配与映射,确认与配置步骤如下:查看存储资源池(SRP)-查看磁盘池(Thin Pool)-根据业务IO类型选择服务级别(自动FAST配置)-存储端口组(Port Group)-主机端口组(Initiator Group)-逻辑卷组成的存储组(Storage Group)-存储与主机映射关系(Masking Views),具体的配置在后面web界面中会介绍,详见《Dell EMC Unisphere for VMAX Online Help》
1.2.2多路径软件部署
路径(Path)是指主机与存储系统逻辑单元之间的物理链路,包括主机总线适配器(HBA)端口,电缆,交换机,存储系统接口和端口,以及逻辑单元(LU)。逻辑单元指可作为单一存储卷被寻址的物理或虚拟设备。对于iSCSI标准,路径指Initiator-Target-LU。
Dell EMC的存储多路径软件为PowerPath(这里简称PP),PP对不同操作系统会有对应版本,其作用是基于主机系统管理各主机至存储路径,聚合冗余路径提高可用性,并动态均衡路径IO负载功能。PP可以管理Dell EMC主流存储产品(Symmetrix、Unity、VNX等)以及其他厂商设备。选择性的安装PP,取决于实际使用场景和个人习惯,由操作系统工具、集群管理工具或数据库存储管理工具来管理逻辑单元未尝不可,但PP比较各操作系统自带的多路径软件,在故障切换、负载均衡和其他特性上具备一定优势,具体的安装配置方法,可以参考PP的Readme文件。
1.2.3 主机逻辑卷识别
如果需要PP多路径软件,个人习惯于安装好多路经软件(包括License的导入)后,再进行主机端的磁盘扫描,实际部署时会规避掉一些多路径软件设置和操作系统中路径聚合定义管理混乱的情况发生。主机端进行SCAN逻辑卷操作,新部署的系统常用重启操作完成主机对逻辑卷扫描(Scan)动作,已有业务运行的操作系统,当存储系统对逻辑卷或端口进行过配置变更之后,也可以通过系统本身或Solution Enabler配置管理工具进行扫描,具体的方法可以参考《Host-Connectivity-Guide-for-Linux/VMware ESX SERVER》等主机连接手册。
逻辑卷被识别后,由PowerPath相关命令进行管理。相信每位存储管理员都会有一份主机逻辑卷名称(或PowerPath的伪磁盘名称)、容量、存储LUN ID的对应关系,后续的容量变更、TimeFinder实施、容灾切换等变更维护工作和故障监控、故障影响范围确认、性能监控,都会以此信息为准,即使有自动化运维工具的,也需要将这些信息导出留存。
1.3 SRDF技术
Symmetrix ® Remote Data Facility (SRDF)是一种基于Symmetrix的用于保障业务连续性和远程灾备的解决方案,通过对多台 Symmetrix进行配置,在不同地点实现多点、实时的数据备份。Symmetrix从最早的DMX系列,到配置Enginuity VMAX10k、20k、40k阵列,再到运行HYPERMAX VMAX100k、200k、400k、全闪250F/450F/850F/950F,发展到运行PowerMaxOS的PowerMAX2000、8000系列,SRDF也在不断迭代,适应硬件架构的改进。但典型的拓扑结构和操作模式变化不大,只是结合TimeFinder等技术,与集群软件的配合,衍生出众多应用不同场景的方案。自HYPERMAX以来,SRDF/Metro的双活技术出现,使存储阵列本身脱离了存储虚拟化网关制约,为双活数据中心提供了新的技术手段。
1.3.1 SRDF典型拓扑
银行业根据人民银行对数据中心要求,以及自身实际的建设需求,可以采用同一数据中心的两站点保护拓扑,和数据中心间的多站点SRDF拓扑结构。根据业务级别以及容灾容错具体要求,选择恰当的拓扑结构,配合SRDF操作模式完成数据保护与容灾切换等应用场景。
表1:SRDF适用场景双站点拓扑
表2:SRDF适用场景多站点拓扑
1.3.2 SRDF/Metro
在传统SRDF配置中,双站点SRDF架构中业务主机应用程序主机只能对 R1 设备进行读/写访问。R2设备为只读,禁止写入。但是在SRDF/Metro配置中,应用程序主机对R1和R2设备均可进行读/写访问,可以同时写入到设备对的R1和R2端,R2设备使用与R1设备相同的外部设备标识。标识包括设备结构和设备WWN。这一共享标识意味着R1和R2设备跨越两个阵列对应用程序主机显示为一个虚拟设备。
SRDF/Metro可以部署在单个多路径主机环境中,也可以部署在群集式主机环境中。
图5:SRDF/Metro部署环境
每个群集节点都有专用途径来访问单独的存储阵列。在这两种配置中,对R1和R2设备的写入都将同步拷贝到另一个阵列中的配对设备,磁盘锁和写时序逻辑由SRDF/Metro 软件协调处理,使SRDF两端设备保持一致的镜像。
SRDF/Metro配置中发生单侧设备不可用或设备间连接中断,SRDF/Metro 通过可靠稳定的第三方阵列或虚机见证者(vWitness)确认故障点,参考PowerMaxOS code版本、RDF连接架构(是否具有SRDF/A DR分支)及端口使用情况、bias设置作为判断依据,选择出提供服务的一端存储,避免单侧主机不可访问或“裂脑”情况发生。阵列和虚机两种witness可以并行使用,但生效的仅有一个,当所有witness均失效时,SRDF/Metro会变由active/active模式变为active/bias模式,按照预设,保护性地使一端变为bias可读写而非bias的另一端不可访问。
在同城异地三中心或四中心的灾备架构中,可以将按下图中方法将Metro的任意一端或者两端复制到不同的第三、第四中心或者共同的第三中心。
图6:SRDF/Metro多站点部署
2 VMAX3运维管理
2.1 VMAX3支持的典型管理工具及版本
这些组件为HYPERMAX提供的管理工具,选择典型介绍:
Unisphere for VMAX V8.4
Unisphere for VMAX是一款基于Web的应用程序,便于快速调配、管理和监视阵列,具备存储性能与配置的REST API接口。
Solutions Enabler V8.4
Solutions Enabler 提供管理存储的综合命令行界面 (SYMCLI),SYMCLI命令可以在主机上交互运行或者在脚本中调用,可配置TimeFinder、SRDF等存储软件,监控设备配置与状态,执行部分设备控制操作,具备REST API接口。
Mainframe Enablers V8.1
以大型机为主要支持对象的存储命令行监视、管理软件组件。
GDDR V5.0
地理位置分散的灾难重启软件本身不提供复制和恢复业务,而是在计划性与灾难性宕机发生时,或者容灾切换演练情况,监视执行管理配置好的事件定制步骤,快速且无人为干预的完成业务切换。
SMI-S V8.4
支持SNIA存储管理计划(SMI)的ANSI存储管理标准,使不同厂商存储管理技术可以相互操作,便于监控异构存储资源。
VASA 提供程序 V8.4
支持vCenter更好的管理VMFS存储(包括VVol)的配置与保护情况,给vSphere管理员提供更多存储信息,补充插件和工具的使用,满足虚拟化的性能和可用性需求。
其他软件
eNAS, SRDF/CE Migrator等针对VMAX FILE、SRDF和数据迁移工具的管理软件如果有兴趣也可以单独了解
2.1.1 WEB界面
WEB界面可以通过存储自身的虚拟控制台进行登录,也可以连接到安装了Unisphere for VMAX的主机上进行管理。存储自身虚拟控制台管理IP需要在设备初始化时,由工程师配置进存储;而管理主机进行Web管理前,需要与存储在SAN网络通讯,识别到管理GK盘,部署过SE和Unisphere for VMAX软件,开通8443端口等,当然管理机视图和可执行的操作会比存储自身控制台丰富和全面。
访问地址:https://<mgmt IP>:8443/univmax/,访问后可针对存储逻辑卷,存储端口、主机端口、映射关系、数据保护等进行管理,管理界面如下:
图7:Unisphere for VMAX Web管理界面
2.1.2 SYMCLI命令
命令行管理工具常部署在管理机上作为日常管理的使用场景,也常部署在TimeFinder或者SRDF执行的业务系统中,配合业务需求,将配合查询或备份的场景命令脚本化。
Solutions-Enabler的安装配置、存储控制管理、TimeFinder操作和SRDF用户手册,均有详细的使用手册。
2.1.3集成存储监控工具
集成存储监控管理工具通过存储的REST API接口,有针对性地进行性能数据收集分析、事件监控处理、容灾切换等场景的集成统一管理。用户常采用成熟软件产品或者定制化开发,实现存储设备自动化运维、统计报告生成和前瞻性分析等。此类软件有IBM Spectrum Control,DELL EMC ViPR,开源软件XoruX STOR2RRD以及利用开源Zabbix监控数据采集和Grafana监控界面展示实现针对自身存储定制开发产品。
图8:STOR2RRD监控管理工具
2.2 性能与监控
2.2.1 性能分析与报表
Web中Performance-EMC View中可查看存储整体、存储组及热点情况,选择观察统计时间之内的前、后端口IO、吞吐量、存储缓存落盘延迟情况以及主机读写请求。
图15:性能与监控整体视图
整体观察性能数据后,可针对存储进行实时分析、本源分析和趋势分析:
图16:性能分析视图
需要生成性能报告时,选择Chart,时间段、均值峰值和相关参数指标,在右侧形成图表。
图17:性能报告视图
2.2.2 日常故障监控
自动远程监控
如果用户的网络条件允许存储设备通过加密互联网配置Dell EMC远程监控及支持系统,(包括call home,Webex、ESRS等多种模式),会自动报修设备异常并由远程工程师处理解决,需要现场维护的时候,自动通知现场工程师进行现场维护。但出于行业监管和安全的要求,金融行业普遍需要采用本地监控方式自行监控处理故障。
WEB查看存储状态及告警
在Unisphere for VMAX中System-System Dashboard中查看存储各硬件部件状态及健康检查,运行健康检查HealthCheck之后刷新检查当前Status系统状态:
图18:存储系统健康检查结果
在Unisphere for VMAX中System-Alerts中查看故障事件
图19:存储系统告警列表
SYMCLI命令行及集成监控环境
登录到安装有Solutions Enabler的主机,执行以下命令查看主机状态:
列出该主机所连接的存储信息
symcfg list
图20:symcfg结果示例
查看存储设备的日志信息:
symevent -sid <sn> -v list -start <start date> [-end <end date>]
图21:symevent结果示例
事件信息需要关注告警控制器(Reporting Director)、告警类别(Category)、等级(Severity)以及故障代码和描述信息,便于定位故障与保修描述。
再列举一些常用设备状态查看命令:
查看系统设备状态,正常状态为Normal
symcfg -sid <sn> list -env_data
图22:symcfg –env_data结果示例
查看系统故障磁盘,正常状态没有找到故障设备
symdisk -sid <sn> list -failed
上述命令可以写在定时任务中,便于每天查看执行结果,或者推送到集中监控平台触发事件告警、分析与处理流程。
3 利用VMAX3及SRDF/S完成数据迁移及同城容灾搭建案例
3.1 案例背景介绍
案例通过在线方式将数据迁移到新数据中心进行多批次的新业务验证和迁移演练,保证在不改变现有生产架构、不影响现有业务的前提下,最小化业务切换窗口,完成业务系统数据迁移和生产数据中心平滑切换。
原有业务在A、B每个数据中心均由主、备小型机主机与IBM V7000存储运行数据库,两数据中心之间的两台V7000通过MetroMirror进行同步复制。
新建数据中心C将作为迁移后主中心,原有主中心A将作为迁移后的备数据中心,原B中心将不再使用。两台VMAX100k存储分别在A和C两中心部署、通过配置和SRDF/S的操作,实现数据迁移演练、业务验证和数据中心切换的工作。
图23:数据迁移三中心示意图
3.2 兼容性考量
迁移的关键是需要确认A中心主机集群两种多路径软件共存的兼容性。在共用HBA adapter前提下, 两款多路径软件在系统中兼容共存,而且可以管理各自的逻辑磁盘而不干涉管理其他磁盘路径正常IO操作,是该方案可通过系统LVM实现迁移的重要前提,系统环境和兼容性确认和安装要点如下供参考。
3.2.1 系统环境与软件相关信息
操作系统:AIX,版本:6100-06-02-1044
源端存储型号:V7000
存储FirmWare:7.1.0.5
对应多路径软件SDDPCM:2.6.3.2
目标存储型号:VMAX100K
存储FirmWare:5977.1131.1131
对应多路径软件PowerPath:6.2.0.0
3.2.2 兼容性确认
兼容性确认参考了SDDPCM和POWERPATH的相关手册,理论上确认了同时在AIX系统中安装这两款成熟的多路径软件的可兼容性。如下图,解读《Multipath Subsystem Device Driver User’s Guide》的意思,LVM等主机IO都是调用AIX中多路径磁盘的驱动实现读写和路径冗余的,而两种厂商多路径软件均在遵循系统磁盘多路径驱动的基础上,结合自身存储特点优化而成的驱动子集,互不冲突互不干扰共同调用共享HBA驱动,完成对各自逻辑磁盘的管理。
图24:SDDPCM与其他厂商存储共存
另外,在PowerPath for AIX6.1的手册中,明确列出可与日立、IBM、惠普等厂商存储多路径兼容的列表。而且如果上述软件已在系统中安装,则PowerPath将不再对下列存储逻辑卷类型进行支持,也就是仅支持自家存储。
图25:PowerPath对其他厂商存储多路径软件兼容列表
如果系统中最早安装了PowerPath,需要为系统增加上述存储及多路径软件,需要首先设置PowerPath不要去管理其他厂商存储,再进行软件安装。以增加IBM存储为例,则运行:powermt unmanage class=ess
兼容性理论上确认之后,基础环境搭建之前,我们测试了在上述系统环境中已存在SDDPCM的环境,安装PowerPath的实际效果,软件安装后并不影响原磁盘管理,同时对目标存储磁盘识别和管理也正常,并未重启系统,理论和实践的兼容性测试,为后续迁移的成功奠定了关键技术基础。
3.3 基本环境搭建阶段
数据中心A和C按照双站点SRDF/S模式进行搭建,与新数据中心站点C的完全新建不同,原主中心A在切换之前的所有操作,需要在原有生产环境不受任何影响,在线完成下列配置:
A中心SAN交换机配置:生产主机与VMAX100k存储zone配置、与C中心SAN交换机级联配置,
A中心主机安装PowerPath多路径软件、识别存储逻辑卷、在HACMP环境中通过LVM完成V7000存储与VMAX100k逻辑卷的镜像(VMAX100k逻辑卷数量与容量与V7000一致,容量不小于V7000卷)
数据中心A和C存储间完成SRDF/S配置:RDF端口、两中心逻辑卷配对、以及由A至C中心的SRDF/S同步方向。
其中关键步骤为:
在A中心存储管理机上建立动态SRDF组,并添加多组A_dev_id:C_dev_id的设备对文件dev_pair.txt
#symrdf addgrp -label dyngrp4 -rdfg <A_rdfg_id> -sid <A_sn> -dir <A_rdf_ports> -remote_rdfg <C_rdfg_id> -remote_sid <C_sn> -remote_dir <C_rdf_ports>
#symrdf createpair -f dev_pair.txt -sid <A_sn> -rdfg <A_rdfg_id> -type r1 -invalidate r2
3.4 数据迁移演练与业务验证阶段
该阶段需要发起A中心至C中心的数据同步,数据同步后,C中心利用迁移来的生产数据进行参数修改、业务验证、新业务间联调等工作,同时为迁移演练提供准确的数据同步与业务启动、验证时间,经过多批次的验证和迁移演练时间压缩后,业务部门内外报备,申请最小停机窗口进行真实数据迁移与数据中心切换。
其中关键步骤:
在A中心存储管理机上执行查询、发起同步和断开SRDF数据通讯的命令
查询并确认SRDF同步方向,由local的A中心存储ID至remote的C中心存储ID。
(-i 参数为自动查询间隔时间,time为秒数,可用此命令估算同步数据时间)
#symrdf -g dyngrp4 query [-i time]
首次发起由A向C中心全量同步:
#symrdf -g dyngrp4 est –full
增量发起由A向C中心同步:
#symrdf -g dyngrp4 est
查询确认同步速度和同步状态为sync之后,断开SRDF使C端存储可读写
#symrdf -g dyngrp4 split
3.5 数据中心真实切换
数据中心真实切换时,将有序停止原A中心业务,数据同步至C中心后,断开存储复制,在C中心有序启动业务并验证业务。关键决策时间点内,小概率业务验证不成功,则有序停C中心业务并启动A中心业务,确定原因后再申请迁移窗口;若业务验证成功,则更改SRDF/S同步方向,由新主中心C向新备中心A同步数据,同时拆除A中心主机LVM镜像,保留VMAX100k逻辑卷,完成主中心至容灾中心的快速切换。
其中关键步骤为:
在确认C端为主中心后,状态为split的SRDF可以执行存储复制方向互换,下面命令仍在A中心存储管理机上操作,执行确认后查询,R1和R2位置存储已对调
#symrdf -g dyngrp4 swap
对调后发起establish动作,就会由C中心的新R1同步数据到A中心的R2端,使A中心作为C中心的同城容灾中心。
3.6 迁移验证
由于迁移数据是核心数据库的在线迁移工作,因此迁移的验证主要由数据迁移状态验证、操作系统和集群软件验证、数据库启动验证和应用系统的业务验证的几部分部分组成。每一步迁移验证,都是后续验证步骤的前提和基础,本文重点介绍数据迁移状态的验证。了解数据的传输过程,那么需要验证迁移成功的关键点如下:
A集群主机的LVM mirror操作状态验证
A集群主机通过集群软件的LVM或单机节点的LVM操作,完成对迁移VG的扩展、镜像和同步命令后,通过VG中包含的V7000镜像与VMAX100K镜像为sync同步状态,即可验证数据成功迁移至A端VMAX100K中。当前状态实测并不影响当A站点系统和数据库性能,因此LVM镜像结构始终保留,直至迁移工作彻底完成。
A/C集群间SRDF/S的数据同步状态验证
在多轮迁移演练与真实切换的操作中,A C两个集群间的数据同步,依靠SRDF/S进行,数据由A中心迁移至C中心的关键状态验证,可以通过SRDF查询命令中源卷:目标卷的设备对同步状态来确认。发起由A向C中心全量和增量同步命令之后,数据同步中的状态为Syncinprog,当数据传输完成,查询同步状态的为Synchronized,此状态说明从A至C中心的存储数据迁移已验证成功,此状态下可以断开存储复制,完成后续C中心的操作系统,集群软件、数据库和业务系统的演练与验证工作。
既然采用LVM工具进行迁移,操作系统层面迁移验证过程中值得一提的问题是,C集群主机为全新主机,VG中并无MIRROR结构,仅由C端VMAX100k组成,逻辑卷会将A集群主机的VG信息带入C操作系统,导致C端VG无法系统配置数据库中找到A端V7000的设备ID,无法正常启动并验证VG。此时需要通过reducevg命令,在C端系统中去除V7000 设备信息后,不会对数据有任何影响,可以正常进行后续迁移验证工作。
3.7案例总结
该方案的成功实施在技术上已经非常成熟,是非常典型的SRDF/S的案例,但在操作中需要万分小心谨慎,对生产中心A的光线交换机、主机HACMP和LVM进行操作时要特别注意,保证不影响生产系统的正常运行。更重要的是对SRDF的概念理解和SWAP操作,确保思路清晰、操作谨慎,操作失误会导致非常严重的不可逆的结果。
另外,采用VMAX3作为本次数据迁移的存储设备,不但在数据迁移同时完成容灾环境的建立与切换演练动作,而且为今后双活数据中心奠定基础,在未来业务系统及数据库双活改造时,两台VMAX100k存储将会从SRDF/S模式平滑过渡到SRDF/METRO模式,对业务连续行的提高发挥功效。
点击文末阅读原文,可下载本手册,也可以提问交流 觉得本文有用,请转发或点击“在看”,让更多同行看到
资料/文章推荐:
欢迎关注社区以下技术主题 ,将会不断更新优质资料、文章。地址:
容灾:http://www.talkwithtrend.com/Topic/1563
数据迁移http://www.talkwithtrend.com/Topic/2205
下载 twt 社区客户端 APP
长按识别二维码即可下载
或到应用商店搜索“twt”
长按二维码关注公众号
*本公众号所发布内容仅代表作者观点,不代表社区立场