某银行核心数据库平台 Power 升级经验分享
【摘要】金融行业对系统业务连续性有着很高要求,特别是核心系统,在硬件环境达到规定使用年限后,为保证业务系统运行稳定,必须提供有效的硬件平台更换升级方案,该方案既要保证新老平台见不存在兼容性问题,可以无缝平滑迁移,还要保证硬件性能满足未来的使用需求,本文将从某银行Power平台的更换升级方案入手,分析在改造升级过程中的注意要点。
【作者】宋熙诺,某银行IT运维部,运维工程师,从事运维工作8年,目前主要负责数据中心服务器,小型机,存储等设备运维工作。
1.项目背景
某银行于2014年上线其核心系统,如今其核心数据库设备面临超期服,由于核心数据关键,同时硬件设备更新换代频繁,一方面要兼顾设备的稳定性等指标,同时要在成本控制的基准下,更换为满足未来3-5年业务需求的硬件设备。
2.某银行现状
某银行核心数据库由2台 Power 小型机组成,具体配置如下:
主机负载情况:
数据库服务器负载情况:目前某银行日间高峰期、夜间批量时刻核心主机CPU使用率在48%左右,经过第三方监控报表分析得出最近一年核心数据库主机CPU使用率最高为70%,负载较高;主机内存根据数据库分析报告实际负载较高。主机整体负载较高。
下面是3月17日采集的资源使用情况:于2019年3月17日上午10点-11点及晚上22:30-23:30,分2个时间段收取了各个系统运行的情况。如下数据分别为各个系统在日间和夜间CPU的峰值使用情况,以及峰值出现的时间点:
服务器 | Power 750 | |
应用 | 核心A | 核心B |
日间CPU高峰使用率 | 50.6% (10:20) | 46.5% (11:07) |
夜间CPU高峰使用率 | 63.9% (23:07) | 57.4% (22:43) |
业务量情况统计
当前业务系统业务量统计,日交易量的80%在两小时内完成。
统计项 | 现状 | 增长趋势 | 五年后规划 |
日均业务量 | 37万 | 50% | 281万 |
核心日交易量80% | 29.6万 | 50% | 225万 |
TPS峰值 | 51.27 | 50% | 389.3 |
3.设备更换思维导图
针对此次核心设备升级,某银行协调Power小型机原厂商、核心系统开发厂商、设备评估公司多方就此次平台升级进行交流讨论。整体项目思维导图如下:
4.平台升级评估过程
4.1 核心系统软件开发厂商
结合以上某银行主机负载和业务量统计情况,该厂商结合2014年对该系统进行的性能测试报告,参考1000万-2000万级账户同等规模的城商行及最近上线项目的硬件配置,类似新建或升级项目中,数据库多使用E850型号。所以综合某银行现状和未来规划,认为Power E850C符合满足某银行配置需求,配置要求如下:
硬件类型 | 数据库 | CPU | 内存 | 其他配置 |
E850X2 | 核心数据库 | 16C或以上 | 256G | 标准配置 |
软件开发厂商注:E850处理器频率可达4GHz,较750有较高提升,且支持每内核多达八线程的同步多线程(SMT8)功能较750四线程同步有较大提升,850每个双芯片模块拥有的片上内存控制器,可利用多达128GB的片外四级内存,提供每插槽192Gb/秒的内存带宽。大幅提高了I/O带宽。较750综合性能提升70%以上.
4.2 硬件原厂商建议
该厂商认为目前Power9平台为主流产品,性能较现有的 P750系列提升2倍以上,较POWER8小型机提升60%,同时Power8产品为2014年推出的产品,相同配置下推荐使用Power9平台小型机,但不提供针对某银行的具体配置建议。
4.3 评估厂商建议
4.3.1 性能推断:
1)当前收集到的小型机性能数据日期为月中(3月17号收集),为了满足季终和年终业务的峰值,参考行业的经验值,假设业务最高峰值为当前的150%
2)假设目标系统性能需满足至少5年的业务负载能力
3)假设业务量及处理能力需求以每年20%的比例递增
4)假设5年后的业务复杂度相对当前提高10%
5)假设目标服务器5年后的CPU使用率合理值为65%
6)为了保证突发的业务需求增长,目标系统保证在足够的扩展能力
7)当前的内存使用未发现瓶颈,假设5年后的内存使用需求为256GB
4.3.2 性能推算依据
rperf值是Power服务器的相对性能基准指标,可以衡量出不同型号、不同配置的服务器的性能表现情况。本次性能推算采用rperf值为基准依据。
Power750B model 24 核 3.2 GHz的rperf值为235.39
8核 3.2GHz的rperf值为85.29
2)当前运行业务的rperf值为(取日间和夜间之高,按服务器整体性能线性推算),核心业务数据库两台小型机的rperf值分别为70.2和46.3,可见两个节点虽然是负载均衡(Oracle RAC),但实际处理中A机性能要优于B机,这与Oracle的处理机制以及业务逻辑有关。
4.3.3 性能推算过程
采用两台相同配置的服务器,故采取目前压力较大的核心数据库A为参考基准进行计算,目标核心数据库服务器所需性能值为
70.2*(1+50%)*(1+20%)*(1+20%)*(1+20%)*(1+20%)*(1+20%)*(1+10%)/65%=443.4。
4.3.4 机型推荐
在设备选型上,该银行始终保持着几点要求:
(1) 平台不能有较大升级,从而带来运维或者业务处理上的改变;
(2) 平台必须属于中生代产品,产品技术不过时,且推向市场至少3年以上。
结合以上2点要求,基于前期我们对现有核心平台设备的性能推算,虽然Oracle数据库对平台没有要求,但从银行稳定性角度出发,我们认为应继续选择Power平台小型机。
该银行核心系统之前一直使用Power平台小型机,多年来运行稳定,没有出现过任何异常宕机等事故,该银行科技人员对Power小型机的稳定性也是持认同态度。
因此,该银行直接确认了Power8平台小型机,不考虑去年新推出的POWER9小型机,虽然后者在性能上较前者有了很大提升,特别是在CPU处理速度,IO带宽上,但对于该银行业务规模来说,性能的提升均属于边际效应,还要考虑跨代更换带来的潜在风险。
从前期对该银行业务处理性能的整体分析,CPU处理速度基本满足当下处理要求,无法满足3年后性能需求;IO处理速度峰值在500M/s,且均为共享存储数据,HBA卡为16GB/s,完全满足需求,考虑到该银行核心网络没有万兆交换机,所以在网卡上继续使用千兆电口;内存上,通过收集Oracle AWR报告分析,目前容量满足需求,但仍然建议在内存容量上翻倍扩充;本地硬盘上,处于稳定性要求,该银行不建议使用SSD固态或者闪存盘,继续维持原普通SAS硬盘,我们认为在性能基本满足要求。综上此次核心数据库设备配置建议如下:
该配置rperf值为465.1>443.4,满足未来五年的业务处理需求
5.关于小型机选型的思考
某银行在核心数据库设备的选型过程中,作为一个项目,首先应考虑成本和风险2个方面。
在设备选型成本上应以原设备采购成本为基准,新设备选型在满足使用需求的前提下,尽量控制成本。Power平台小型机各产品价格跨度大,性能差异大,因此要详细确认好新设备配置需求。
风险角度上,核心系统是银行最根本的系统,一旦出现问题,后果不堪设想,前期风险控制是十分重要的。目前设备配置更新换代快,一味选用最高配最高端的设备,将不可避免的带来运行风险。该银行积极协调核心系统开发厂商、安全评估厂商,采用德尔菲法,参考对比其他同等规模的城商行配置,前后进行多次评估讨论。
如有任何问题,可点击文末阅读原文到社区原文下评论交流
资料/文章推荐:
P5/P6/P7升级到P9的技术分析手册
http://www.talkwithtrend.com/Document/detail/tid/425169
晒一晒,你的关键业务系统Power稳定运行多久了?
http://www.talkwithtrend.com/Question/425189
欢迎关注社区 "小型机"技术主题 ,将会不断更新优质资料、文章。地址:
http://www.talkwithtrend.com/Topic/443
下载 twt 社区客户端 APP
与更多同行在一起
高手随时解答你的疑难问题
轻松订阅各领域技术主题
浏览下载最新文章资料
长按识别二维码即可下载
或到应用商店搜索“twt”
*本公众号所发布内容仅代表作者观点,不代表社区立场