查看原文
其他

某银行核心数据库平台 Power 升级经验分享

宋熙诺 twt企业IT社区 2022-07-03

【摘要】金融行业对系统业务连续性有着很高要求,特别是核心系统,在硬件环境达到规定使用年限后,为保证业务系统运行稳定,必须提供有效的硬件平台更换升级方案,该方案既要保证新老平台见不存在兼容性问题,可以无缝平滑迁移,还要保证硬件性能满足未来的使用需求,本文将从某银行Power平台的更换升级方案入手,分析在改造升级过程中的注意要点。

【作者】宋熙诺,某银行IT运维部,运维工程师,从事运维工作8年,目前主要负责数据中心服务器,小型机,存储等设备运维工作。


1.项目背景

某银行于2014年上线其核心系统,如今其核心数据库设备面临超期服,由于核心数据关键,同时硬件设备更新换代频繁,一方面要兼顾设备的稳定性等指标,同时要在成本控制的基准下,更换为满足未来3-5年业务需求的硬件设备。


2.某银行现状

某银行核心数据库由2台 Power 小型机组成,具体配置如下:

主机负载情况:

数据库服务器负载情况:目前某银行日间高峰期、夜间批量时刻核心主机CPU使用率在48%左右,经过第三方监控报表分析得出最近一年核心数据库主机CPU使用率最高为70%,负载较高;主机内存根据数据库分析报告实际负载较高。主机整体负载较高。

下面是3月17日采集的资源使用情况:于2019年3月17日上午10点-11点及晚上22:30-23:30,分2个时间段收取了各个系统运行的情况。如下数据分别为各个系统在日间和夜间CPU的峰值使用情况,以及峰值出现的时间点:

服务器

Power 750

应用

核心A

核心B

日间CPU高峰使用率

50.6%

(10:20)

46.5%

(11:07)

夜间CPU高峰使用率

63.9%

(23:07)

57.4%

(22:43)

业务量情况统计

当前业务系统业务量统计,日交易量的80%在两小时内完成。

统计项

现状

增长趋势

五年后规划

日均业务量

37万

50%

281万

核心日交易量80%

29.6万

50%

225万

TPS峰值

51.27

50%

389.3


3.设备更换思维导图

针对此次核心设备升级,某银行协调Power小型机原厂商、核心系统开发厂商、设备评估公司多方就此次平台升级进行交流讨论。整体项目思维导图如下:


4.平台升级评估过程

4.1 核心系统软件开发厂商

结合以上某银行主机负载和业务量统计情况,该厂商结合2014年对该系统进行的性能测试报告,参考1000万-2000万级账户同等规模的城商行及最近上线项目的硬件配置,类似新建或升级项目中,数据库多使用E850型号。所以综合某银行现状和未来规划,认为Power E850C符合满足某银行配置需求,配置要求如下:

硬件类型

数据库

CPU

内存

其他配置

E850X2

核心数据库

16C或以上

256G

标准配置

软件开发厂商注:E850处理器频率可达4GHz,较750有较高提升,且支持每内核多达八线程的同步多线程(SMT8)功能较750四线程同步有较大提升,850每个双芯片模块拥有的片上内存控制器,可利用多达128GB的片外四级内存,提供每插槽192Gb/秒的内存带宽。大幅提高了I/O带宽。较750综合性能提升70%以上.

4.2 硬件原厂商建议

该厂商认为目前Power9平台为主流产品,性能较现有的 P750系列提升2倍以上,较POWER8小型机提升60%,同时Power8产品为2014年推出的产品,相同配置下推荐使用Power9平台小型机,但不提供针对某银行的具体配置建议。

4.3 评估厂商建议

4.3.1 性能推断:

1)当前收集到的小型机性能数据日期为月中(3月17号收集),为了满足季终和年终业务的峰值,参考行业的经验值,假设业务最高峰值为当前的150%

2)假设目标系统性能需满足至少5年的业务负载能力

3)假设业务量及处理能力需求以每年20%的比例递增

4)假设5年后的业务复杂度相对当前提高10%

5)假设目标服务器5年后的CPU使用率合理值为65%

6)为了保证突发的业务需求增长,目标系统保证在足够的扩展能力

7)当前的内存使用未发现瓶颈,假设5年后的内存使用需求为256GB

4.3.2 性能推算依据

rperf值是Power服务器的相对性能基准指标,可以衡量出不同型号、不同配置的服务器的性能表现情况。本次性能推算采用rperf值为基准依据。

Power750B model 24 核 3.2 GHz的rperf值为235.39

8核 3.2GHz的rperf值为85.29

2)当前运行业务的rperf值为(取日间和夜间之高,按服务器整体性能线性推算),核心业务数据库两台小型机的rperf值分别为70.2和46.3,可见两个节点虽然是负载均衡(Oracle RAC),但实际处理中A机性能要优于B机,这与Oracle的处理机制以及业务逻辑有关。

4.3.3 性能推算过程

采用两台相同配置的服务器,故采取目前压力较大的核心数据库A为参考基准进行计算,目标核心数据库服务器所需性能值为

70.2*(1+50%)*(1+20%)*(1+20%)*(1+20%)*(1+20%)*(1+20%)*(1+10%)/65%=443.4。

4.3.4 机型推荐

在设备选型上,该银行始终保持着几点要求:

(1) 平台不能有较大升级,从而带来运维或者业务处理上的改变;

(2) 平台必须属于中生代产品,产品技术不过时,且推向市场至少3年以上。

结合以上2点要求,基于前期我们对现有核心平台设备的性能推算,虽然Oracle数据库对平台没有要求,但从银行稳定性角度出发,我们认为应继续选择Power平台小型机。

该银行核心系统之前一直使用Power平台小型机,多年来运行稳定,没有出现过任何异常宕机等事故,该银行科技人员对Power小型机的稳定性也是持认同态度。

因此,该银行直接确认了Power8平台小型机,不考虑去年新推出的POWER9小型机,虽然后者在性能上较前者有了很大提升,特别是在CPU处理速度,IO带宽上,但对于该银行业务规模来说,性能的提升均属于边际效应,还要考虑跨代更换带来的潜在风险。

从前期对该银行业务处理性能的整体分析,CPU处理速度基本满足当下处理要求,无法满足3年后性能需求;IO处理速度峰值在500M/s,且均为共享存储数据,HBA卡为16GB/s,完全满足需求,考虑到该银行核心网络没有万兆交换机,所以在网卡上继续使用千兆电口;内存上,通过收集Oracle AWR报告分析,目前容量满足需求,但仍然建议在内存容量上翻倍扩充;本地硬盘上,处于稳定性要求,该银行不建议使用SSD固态或者闪存盘,继续维持原普通SAS硬盘,我们认为在性能基本满足要求。综上此次核心数据库设备配置建议如下:

该配置rperf值为465.1>443.4,满足未来五年的业务处理需求


5.关于小型机选型的思考

某银行在核心数据库设备的选型过程中,作为一个项目,首先应考虑成本和风险2个方面。

在设备选型成本上应以原设备采购成本为基准,新设备选型在满足使用需求的前提下,尽量控制成本。Power平台小型机各产品价格跨度大,性能差异大,因此要详细确认好新设备配置需求。

风险角度上,核心系统是银行最根本的系统,一旦出现问题,后果不堪设想,前期风险控制是十分重要的。目前设备配置更新换代快,一味选用最高配最高端的设备,将不可避免的带来运行风险。该银行积极协调核心系统开发厂商、安全评估厂商,采用德尔菲法,参考对比其他同等规模的城商行配置,前后进行多次评估讨论。

如有任何问题,可点击文末阅读原文到社区原文下评论交流


 资料/文章推荐:

  • P5/P6/P7升级到P9的技术分析手册

    http://www.talkwithtrend.com/Document/detail/tid/425169

  • 晒一晒,你的关键业务系统Power稳定运行多久了?

    http://www.talkwithtrend.com/Question/425189


欢迎关注社区 "小型机"技术主题 ,将会不断更新优质资料、文章。地址:

http://www.talkwithtrend.com/Topic/443


下载 twt 社区客户端 APP

与更多同行在一起

高手随时解答你的疑难问题

轻松订阅各领域技术主题

浏览下载最新文章资料


长按识别二维码即可下载

或到应用商店搜索“twt”


长按二维码关注公众号

*本公众号所发布内容仅代表作者观点,不代表社区立场

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存