查看原文
其他

实战丨​从系统的观点谈银行IT安全生产

金融电子化 金融电子化 2021-08-11

欢迎金融科技工作者积极投稿!

各抒己见!

投稿邮箱: 

newmedia@fcmag.com.cn

                                 ——金融电子化

文 / 中国农业银行数据中心(北京)  程向东

本文针对提升商业银行IT系统的运行保障水平,从系统科学和控制论的观点出发,对银行IT系统提出了一种基于系统关联分析的故障定位方法,对报警信息整合和利用进行了研讨。


我国商业银行IT系统稳定运行面临的挑战

随着我国商业银行IT系统建设日益重视自主可控技术,分布式核心、主机下移在未来一段时间内逐渐成为趋势。一方面信息系统日益复杂,另一方面新技术新产品存在一个逐渐成熟的过程,都对IT系统的稳定运行提出了新的挑战。


数据中心如何才能保障IT系统的稳定运行?一旦发生故障如何做到快速响应、快速定位、快速解决、第一时间恢复生产?本文试图应用系统科学、控制论的观点探讨银行IT系统的子系统关联流程分析、报警信息整合、故障定位和处理,并结合行业实践和本人经验,给出一些可供参考的建议。


从系统科学、控制论观点看银行IT系统

IT系统运维的系统、控制论观点


系统科学是研究系统的结构与功能关系、演化和调控规律的科学,是一门新兴的综合性、交叉性学科。它与控制论有着紧密的联系。系统/控制理论的基本观点包括系统观点、信息观点、反馈观点和控制观点。

 

1、系统观点

系统论从整体上研究事物,把事物(对象)看成是一个由各个部分(要素)组成的系统。对这个系统,要研究其各部分功能上的联系。控制论把系统与其它事物的联系概括为“输入”(外部对系统的影响)以及“输出”(系统对外部的影响)。


根据系统观点,对于银行IT系统,本身可以看作一个大的系统,各个应用和基础架构(应用服务器、数据库服务器、网络交换机、通讯链路、各种终端、负载均衡设备和其它类型设备等)可以看成是这个大系统的子系统。我们可以对银行IT系统的多个子系统建立因素关联分析法。对于每个系统列出支持系统,上游系统和下游系统。在故障发生时,及时对关联的系统进行关注和处理。例如,由于系统同时发生故障的几率较小,在多个系统同时发生故障时,如果这些系统并非互相依赖,则可以找出这些系统的共同支持系统,从而迅速判断故障定位。

 

2、信息观点

控制论要解决的是对系统的控制问题,而对各系统的控制需要以一定的信息为依据。没有信息则无法进行控制。监控平台和各子系统的运行及报错信息,在系统保障中发挥着重要作用。很多IT系统都建立了汇集和处理各子系统信息的集中监控平台,在系统保障中发挥着重要作用。对于系统维护人员,重要的通讯录、系统命令手册和信息查询手册应该触手可及,以提高应急工作的效率。 


关于系统信息的利用,主要的考虑点包括:


(1)建立统一的信息展示和报警平台

所有子系统的信息可以在子系统自身的监控界面上供子系统运维人员及时显示和查阅;重要信息应该发往统一信息监控告警平台,方便集中监控和运维处理。在报警平台的实现上,可以运用人工智能的模式识别技术和自动应答来提高运行效率。


(2)从开发初期即考虑错误返回码的设计

各子系统格式应该尽量统一,方便监控和技术人员统一处理。错误返回码应该包括(应用)产品标识、问题解释、系统动作、参考回应等等。信息的查询应该做到准确详细、方便快捷。以IBM大型机操作系统信息为例,错误返回码包括问题解释(Explanation)、系统动作(System action)、操作员回应(Operator response)、系统程序员回应(System programmer response)、模块(Module)、过程名(Procedure name),各个子系统的Messages and Codes信息非常丰富和规范,可以用手机APP或PC上网或下载后脱机查询,对于问题的解决很有帮助,值得我们借鉴。


(3)注意重要信息出现的时间和顺序

如果能够知道故障的具体发生开始时间,对问题的解决是有相当的帮助的。在找故障发生时点时,第一个异常信息往往具有特别重要的提示功能,在多数情况下问题的发生是连续的,彼此之间有密切的关联。第一个问题往往是故障的起因。抓住了第一个问题,有利于我们顺藤摸瓜,掌握故障的前因后果,从而最终解决问题。


(4)注重复盘和信息的保存

在故障消除之后,通过对问题的定位和处理,使得我们增加了对系统的了解,是花费了代价换来的宝贵知识。无论是经验还是教训,都是系统和分析人员反馈给我们的重要信息,非常值得利用这个时机认真复盘,总结和保存经验教训,形成应急预案或问题案例进入知识库,从而在未来更好地对IT系统进行控制,使其达到我们期望的效果。

 

3、反馈观点

系统输送出的信息作用于被控制对象后产生的结果再输送回来(回输),并对信息的再输出发生影响的过程就是反馈。变更及变更回退可以看成是一种回馈。根据统计,80%的系统故障发生与变更有关。一个运行良好的系统,不会无缘无故地发生故障。对系统和应用变更的实施一定要有一套完整的管理制度和回退及应急方案。作为故障处理人员应当知道变更的原因、内容、影响范围、回退办法和应急预案。

 

4、控制观点

系统、控制论的最终目的是要对各系统进行最优控制,根据反馈原理,调整各部分的功能,以达到系统的最佳状态。在银行IT系统中,保障系统安全稳定运行可以看成是通过一系列控制手段,预防、解决和消除不稳定和故障因素,从而使系统运行成本、信息输出、实现功效符合期望的过程,在控制过程中建议注意以下几点:


(1)人是系统稳定运行的关键和核心。在系统运维时一方面需要注重自动化,同时要不能忽视人的因素,在严格遵守制度的同时,在岗位上要注意发扬敢于负责,勇于担当,求实善战的工作作风,只有具备这样的精神的人,才能在应急时刻迎难而上。


(2)事前预防重于临时灭火。一个优秀的系统维护人员如同一个好的医生。需要具备“上医治未病”的理念。要注重平时的系统检查,对系统性能指标要心中有数。要保持监控画面的简单有效,平时要消除多余的干扰信息,避免问题来临时真正重要的信息被其他信息掩盖而忽视。在监控中,可以借鉴设备维护的红黄绿三色灯的概念,来实时显示系统的健康、警告和故障状态。


(3)要减少控制所需的时间。在实践中,如果不能及时找出原因,应该牢记客户利益至上,坚守第一时间恢复生产的原则,可以在事后再确定原因,不应在紧急时刻寻根问底。如果一时没有更好的解决方案,系统重启或者启动备用系统也是一种有效控制手段,其本质是使系统通过自我控制回到可用状态的过程。

 

以上是根据系统论和控制论的观点和方法对银行IT系统安全生产的一些探讨。笔者从事银行主机系统管理和运维工作多年,经历过不少信息系统故障的分析和处理,在最后谈一点个人的心得体会。在总结职业生涯里的经验教训时,借用一下古人谈读书时的“三到”。“心到”:“台上一分钟,台下十年功。”一个问题的解决也许只花费了十分钟级的时间,但需要的我们长时期全身心的投入。“眼到”:我们要敏锐观察,善于发现和利用关键的信息。“手到”:作为一个银行IT系统运维人员,我们必须怀着敬业的态度和求索的精神,对我们的岗位相关的知识全面掌握和理解,这是一件平时必须做好的基本功。只有依靠过硬的技术和完善的预案,才能在关键时刻以不变应万变,快刀斩乱麻,使困难的故障问题迎刃而解。


*本文仅代表作者个人观点





往期精选:

(点击查看精彩内容)


● 实战丨以试点带转型,以转型促发展——杭州银行开启“智”行之路

● 实战丨网商银行金融级云原生分布式架构的探索与实践

● 实战丨一机在手,尽享所有——工商银行打造“融e行”手机银行智能服务

● 实战丨科技助力,跑出普惠金融服务加速度

● 实战丨桌面云平台的实践经验与创新探索






关于仿冒我刊收费的声明





我刊自创刊以来,从未向投稿人收取过任何费用。任何以刊发文章为名向投稿人收取费用的行为,均属于对投稿人的欺诈行为。


我刊官网地址为 www.fcmag.com.cn。

我刊投稿邮箱为 fcmag@fcmag.com.cn。


对于仿冒我刊网站、网页的违法行为,我社将追究其侵权责任,以维护我社和投稿人的合法权益。仿冒网站、网页举报电话:010-88232443



《金融电子化》新媒体部:主任 / 邝源  编辑 / 潘婧 傅甜甜

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存