实战 | 银行核心系统高端全闪存储选型及实践
欢迎金融科技工作者积极投稿!
投稿邮箱:newmedia@fcmag.com.cn
——金融电子化
文 / 湖北省农村信用社联合社数据中心 雷智 张彤
近年来,随着技术线路、服务体系的成熟,在摩尔定律的作用下闪存性价比持续提升,全闪存储(简称“闪存”)在众多智能技术中异军突起,为银行业数字化转型提供了更多的选择和可能。湖北农信在同城双活中心建设中,基于全闪存储,对业界主流高可用技术和产品,进行了基础架构整体方案的功能及性能测试,为容灾技术的选型提供了重要依据。
选型测试难点
存储设备作为银行信息系统中最为关键的核心设备,不仅存放着全行业务及管理数据,同时也是容灾解决方案的主要底层技术,选择了某品牌存储一般就意味着选择了该品牌的存储高可用技术及所配套的容灾解决方案。因此在选型测试中不能仅考虑单台存储性能及功能,而应将整体容灾解决方案作为着眼点,通过实地测试来为存储选型提供真实有力的参考。在选型测试中面临着三个难点。
一是如何真实测试存储解决方案的功能。测试内容需要涉及存储单机稳定性及冗余性、多站点存储高可用方案的容灾功能、存储与其他容灾产品的兼容性和整体解决方案的容灾功能。
二是如何真实测试存储解决方案的性能。存储厂商在推介产品时,往往依据存储白皮书中实验室所测量数据,但由于实际业务场景相比实验室更为复杂,产品使用情况与理想数据相差甚远。如何在差异化的复杂业务应用场景中,选择测试案例来更为真实地测试存储解决方案性能,是存储选型测试的关键点。
三是如何保障测试工作的完备性和有效性。存储设备价值较高、产品技术涉及面广、测试案例数量繁多、测试持续时间较长,行内及参与测试存储厂商均需投入大量精力及成本。在资源有限的情况下,需要制定针对性措施来保障测试工作的完备性和有效性,才能达到存储选型测试的目标。
测试方法及内容
在行业特性及监管部门的业务连续性要求下,银行核心存储解决方案的选型一般都较为审慎,因此本次选择了业界较为传统的3家存储领先品牌A、B、C及1家国产存储厂家华为的高端全闪存储作为测试目标。
1.测试方法的关注点
(1)选择合适的测试载体。一般选择真实系统的痛点场景,如高并发、大批量等应用程序作为载体来评估存储产品的功能及性能。我行选择核心系统中计算和存储资源消耗量最大、并发度最高的存款结息批处理作为测试载体。
(2)重点关注整体解决方案功能。一般来说,在银行核心系统相关产品选型时,需要根据实际业务增长量或业务种类发展情况,在现有性能需求基础上,上浮1~2倍,其上限相对产品实验室性能指标在50%以内,以此来选择产品技术线路,确保存储整体解决方案的性能冗余。因此选型测试应该重点关注整体解决方案功能,以确保基础架构的稳定性。
(3)具有完备可靠的保障体系。一是公平公正。选型测试的目的是为了在商务采购方面,提供更符合行内实际情况的技术需求和选型依据。因此在选择测试设备品牌和配置、制定测试案例时,应尽量统一标准,兼顾公平与效率。二是科学合理。选型测试不仅需要测试设备功能及性能,也应对设备厂商的技术支持体系进行考察,作为售后能力的重要评价标准。三是分工明确。明确参与测试厂商及行内在测试中的分工,特别是操作系统、数据库等与存储解决方案性能相关重点基础软件产品调优的工作职责,是保障选型测试达到预期目标的关键措施。
2.测试内容
行内统一提供标准化的核心应用系统环境,基于应用系统性能指标,对存储产品的功能及性能进行测试验证。
(1)功能测试。存储功能测试将从功能性、可靠性、可维护性等方面,对存储设备进行全面测试。存储及整体解决方案需支持行方核心系统全业务流程,并实现存储设备的同城及异地容灾切换等功能。
(2)性能测试。存储性能测试需使用行内认可的第三方性能测试软件,模拟核心应用系统业务流,对存储设备进行性能测试。要求性能测试结果不低于我行现有核心架构下的性能。
将行内当前正在使用的“LVM+HACMP”架构作为基准测试场景,在此基础上,调整对应的双活复制或者远程方案,进行双机热备、数据库远程复制和存储双活等业界较为主流容灾方案的性能测试。相关性能测试由第三方测试厂商协助完成,重点关注对比主机、存储、数据库及测试案例(存款结息批处理耗时)等指标。
(3)厂家推荐用例。结合行内现网业务系统,由各厂家提供能够展现产品优势的相关推荐用例,作为自选加分项。
测试结果
通过4个月的选型测试,对同城双活中心建设中,可以选用的存储架构和逻辑架构均进行了测试,对不同架构下的性能做了横向对比。根据实际的工作流程,我们从厂商技术服务实力及备件情况、技术架构、功能、性能4个维度进行分析。
1.厂商配合力度及现场备件情况
从技术上来看,4家厂商的售后工程师对于产品都比较熟悉,经验较为丰富。从参与测试技术人员数量上来看,售后工程师数量方面华为、A、B、C依次减少(其中华为存储研发团队现场支持)。从备件储备上来看,A、B和华为均有本地备件库,C暂无。
2.存储容灾方案性能测试情况
通过7种业界主流容灾技术组合对比测试,以应用程序指标(存款结息批处理耗时)作为衡量指标,“LVM Mirror+HACMP+HADR(异步)+远端存储异步复制”方案相较“存储双活+HACMP+HADR(异步)+远端存储异步复制”方案,耗时缩短3%以内,但其主机cpu、内存消耗远高于后者。综合考虑实际运行环境中,整体容灾架构的性能及稳定性,选择了“存储双活+HACMP+HADR(异步)+远端存储异步复制”作为同城双活容灾架构方案。
3.各品牌存储重点技术指标测试情况
以应用程序(存款结息批处理)耗时作为衡量指标,将“存储双活+HACMP+HADR(异步)+远端存储异步复制”方案测试结果作为对比项,各参与厂商测试结果相差5%以内,其中华为OceanStor Dorado 18000系列全闪存方案耗时最短,为77分9秒。存储功能方面,各厂商“存储全量复制”功能均全量拷贝后即时可用,“数据压缩”均不影响性能。
4.测试方案中的不足
参与测试的存储架构有所差异。在实际选型测试中,由于参与测试存储厂家的产品生产地有所不同,受限于到货时间、成本等因素,部分厂家仅提供了2台全闪存储,同时也存在存储配置有所差异的情况,在一定程度上影响了测试结果。
投产运行情况
基于良好的测试表现、较为成熟的售后服务体系,以及分片负载均衡IO下发和满分条新写等提高存储性能的特性技术,最终选择了6台华为OceanStor Dorado 18000系列全闪存,构建了核心类和重要类业务系统两套本地双活、同城3DC的容灾体系架构。
各类系统架构升级投产后,稳定性和性能均大幅提升,夜间批处理全量时间由5.5小时缩短至3.2小时,其中决定网点门市业务的日启批处理时间由3小时缩短至1.4小时,耗时最长的存款计息批处理由110分钟缩短至15分钟。
全闪存运行性能方面,平均读时延和最大读时延,由原架构的2.41ms和15.41ms,提升为当前的0.4ms和0.7ms,提升约为6倍;最大写时延,由原架构的4.75ms,提升为小于1ms,提升约为4倍;平均写时延,由原架构的0.44ms,提升为当前的0.4ms。
湖北农信在同城双活中心建设中,综合考虑系统瓶颈、同业案例以及技术发展趋势,将全闪存作为选型测试基准。邀请4家存储业界优秀厂商,基于高端全闪存产品,围绕应用场景,测试了业界常用的各类操作系统、数据库及存储等高可用技术组合的容灾架构性能,较为全面、真实地评估高端全闪存的高可用功能及性能。产品方案投产后,运转性能与选型测试情况相符,达到预期效果。限于技术产品及方案的复杂性和测试方案的完备性,本选型测试结果仅代表我行实际测试情况,希望能抛砖引玉,为同业核心存储架构选型提供有益的参考。
(栏目编辑:张丽霞)
往期精选:
(点击查看精彩内容)
● 实战 | 强化监控中心平台集成作用,提升突发应急事件处置能力
● 实战 | 离行式自助银行风险分析与安全防范——以工商银行两例离行式自助设备为例
新媒体中心:主任 / 邝源 编辑 / 傅甜甜 张珺 邰思琪