查看原文
其他

银行数据治理:数据质量管理实践

孙中东 LemonSec 2023-05-06

现代商业银行日常经营活动中积累了大量数据,这些数据除了支持银行前台业务流程运转之外,越来越多地被用于决策支持领域,风险控制、产品定价、绩效考核等管理决策过程也都需要大量高质量数据支持。银行日常经营决策过程的背后,实质是数据的生产、传递和利用过程。


此外,日益全面的和严格的监管措施和信息披露要求,也对银行数据提出了前所未有的挑战。如果不能对这些数据进行有效管理,其价值就得不到很好体现,甚至会给运营管理带来负面作用,具体表现为:

  • 一是缺乏统一数据标准,难以建立全面、准确、完整地反映企业运营状况的单一数据视图,难以做到数据的逻辑整合而不仅仅是物理集中;
  • 二是缺乏规范的数据质量治理流程和考核机制,不能及时发现数据质量问题,或缺乏有效解决途径;
  • 三是对数据采集、分布、流转及应用的规划存在不合理现象,数据需求、数据质量、数据应用等问题的管理和解决分散在不同业务和技术部门,没有一个清晰的协调机制和统一的报告渠道,业务不能及时、按需获得数据支持;
  • 四是缺乏有效的数据安全管理机制,对敏感信息的访问缺乏有效控制,对银行形成潜在的声誉和法律风险等。为使这些数据“包袱”变成“金矿”,数据治理体系的构建就变得尤为重要和迫切。


01 数据治理体系简介

 

数据治理是为满足企业内部信息需求,提升企业信息服务水准而制定的相关流程、政策、标准以及相关技术手段,用于保证信息的可用性、可获取性、高质量、一致性以及安全性。数据治理体系建设的目的,是建立数据拥有者、使用者、数据以及支撑系统之间的和谐互补关系,从全企业视角协调、统领各个层面的数据管理工作,确保内部各类人员能够得到及时、准确的数据支持和服务。通常认为,数据治理至少应当涵盖如下功能域:数据质量管理、元数据管理、数据标准管理数据安全管理和主数据管理,现对上述功能域说明如下:


1.数据质量管理

对支持业务需求的数据进行全面质量管理,通过数据质量相关管理办法、组织、流程、评价考核规则的制定,及时发现并解决数据质量问题,提升数据的完整性、及时性、准确性及一致性,提升业务价值。

 

2.元数据管理

元数据是关于数据的数据,即对数据的描述信息。根据其属性的不同,元数据可分为技术元数据和业务元数据。元数据管理是元数据的定义、收集、管理和发布的方法、工具及流程的集合,通过完成对相关业务元数据及技术元数据的集成及应用,提供数据路径、数据归属信息,并对业务术语、文档进行集中管理,借助变更报告、影响分析以及业务术语管理等应用, 以此保证数据的完整性、控制数据质量、减少业务术语歧义和建立业务人员之间、技术人员之间,以及双方的沟通平台。


3.数据标准管理

通过建立一整套数据规范、管控流程和技术工具来确保银行各种重要信息,包括产品、客户、机构、账户等信息在全行内外使用和交换的一致和准确。数据标准可分为技术标准和业务标准。


4.数据安全管理

通过建立对数据及相关信息系统进行保护的一系列措施, 确保数据免遭未经授权的访问、使用、修改或删除,保证数据完整性、保密性和可用性,具体可分为管理和技术两大类措施。


5.主数据管理

主数据指描述核心业务实体的数据,如客户、机构、员工、产品等。这些数据变化相对缓慢并通常在企业内跨业务重复使用。主数据管理适用于管理、协调、监控与企业主要业务实体相关联的主数据的一系列规则、技术、应用、策略和程序。

 


02 数据质量管理简介


业界普遍认可的数据质量定义为数据对其期望目的的适合度,即数据质量管理生命周期及其相关的数据质量管理流程,都要为确保数据满足其自身预期目标提供相应的方法和手段。


数据质量管理基础和问题分类 

下列要素是进行数据质量管理的基础:             

  • 1.数据质量的好坏是由用户以及数据使用价值所决定的。
  • 2.数据质量的好坏代表着数据在数据知识应用中、数据所存在的系统中以及数据使用过程中被应用或者有价值的程度。
  • 3.只有当数据被下游过程(系统或用户)所接收并使用时,数据质量问题的研讨才有意义。
  • 4.数据是持续变更的,数据质量管理是一个持续过程而不是一次性活动。


银行关注的常见数据质量问题可以归成如下7类:


1.定义缺失,指缺少关键业务元素定义,导致对同一字段的理解偏差。例如,

什么是“一个客户”,不同业务有不同理解,通常风险应用将组织机构号作为对公客户的“身份证”,一个组织机构号代表一个客户;而核心系统对客户号的分配较为随意,允许一个组织机构号下存在多个客户号。


2.数据异常,指系统的个别字段出现了异常信息,包括取值错误,格式错误、多余字符、乱码等。

3.信息缺失或不准确,指在系统表中已经设计了某些字段,但在使用过程中, 很多记录却没有收集这些字段的信息,或存在信息收集不准确、信息重复登记等情况。信息缺失或不准确通常在客户信息方面最为严重。


4.系统之间数据不一致,主要体现在两个方面:
  • (1)系统间数据维护不一致。为了满足各个系统内部逻辑、提高访问效率和减少数据传输,相同信息可能在不同系统进行冗余存放。但冗余存放的数据如果不进行同步或及时的数据维护,则必会导致这些数据的不一致。例如,银行通常存在核心系统与信贷系统数据不一致的问题。

  • (2)系统之间数据同步时效性造成的不一致。典型案例如下:由于某些银行的贷记卡系统是外包系统,因此总账系统在 T+1 日才能取到贷记卡 T 日的数据,但是其他系统的科目余额缺失 T+1 日的数据,于是此种同步时效性的差异就导致了系统之间数据不一致。


5.数据完整性问题。数据完整性问题主要体现在两个方面:(1)参照完整性,是指一个表 A的外键不包含无效的键值,例如,借据表中记录了合同号,但是在合同表中无法找到相关记录;(2)数据含义冲突,如某些账户,从账户属性、存期等字段看,应是通知存款产品,但从科目看,又是普通定期产品。


6.数据生命周期问题。银行中的关键数据,例如,账户、客户、产品信息等, 都有若干日期字段记录其生命周期,这些日期字段包括创建/开户日期、关闭/

销户日期、最后交易日期和最后修改日期等,但是在业务系统中往往存在修改了记录状态却并未同步更新相关日期字段的情况。此外,还有一个违反合理数据生命周期的常见做法,就是直接在物理上删除记录。


7.代码问题。包括三个与代码相关的问题:

  • (1)代码不统一问题,即不同应用之间相同用途代码的编码不一致;
  • (2)未代码化问题,即常见情况使用文字存储,而非将信息代码化,很多时候会发现信息存储的不少,但却不便于分析使用。
  • (3)意外代码,即实际数据中出现了未定义的代码值。


03 数据质量管理方法论


图 1 描述了权威人士普遍认可的数据质量管理方法论,共分六步。


 

图1  数据质量提升步骤图

第一步:定义及验证

首先,从技术和业务两个层面对数据应当满足的质量目标进行定义。表1列出了一系列数据质量度量标准,但最终的定义应当以更规范的形式进行描述。例如,属性 X的缺失率不超过2%。其次,对于派生数据,其源数据和转换的规则必须详细说明。最后,上面描述的定义和规则将作为数据质量评估计划的输入源。数据质量评估计划主要用来验证定义和规则的正确性,并且这个计划将详细描述数据必须满足的、适合它预期用途的属性,即它定义了数据质量。这个计划还将指导初始的数据度量,通常也成为数据剖析。


表1 数据质量度量标准

 

Accuracy 正确性

Completeness 完整性

Consistency  一致性

Continuity 连续性

Precedence 先后顺序

Precision 精确度

Granularity 数据粒度

Currency 当前性

Duration  数据时间跨度

Retention 数据保存周期

Identity 唯一性

Reference 参照完整性

Cardinality 数据对应关系

Inheritance 继承关系

Value  Set 数值集合

Relationship 依赖关系

 

第二步:影响分析与共性分析

完成数据质量目标定义后,需要评估一个特定的数据质量问题在预期的数据使用适合性方面带来的影响,并根据影响分析结果可以确定数据质量问题的重要性与优先级别。

所谓共性分析就是分析错误具有的共性,我们期望一次可以将许多错误归结到某类共同原因。这个分析将为下一步追踪根本原因做好准备。

第三步:追踪根本原因

图 2 所示鱼骨图是一个众所周知的用于鉴别数据质量背后根本原因的工具,它反映了需要达到的和实际的数据质量之间的差距原因,通常是信息、流程、技术、人员等因素所导致。

第四步:预防/修复数据质量问题

图 3 描述了在追踪数据质量问题的根本原因时可用到的选择。每一个选择都有相关的优点和弱点。
  • 1.导致数据质量问题的根本原因,最常见的有人员、流程、业务系统前端、业务系统数据库、数据抽取和加载过程等方面处理不当,这些因素都有可能产生数据质量问题。对于图3前三项(人员、流程、业务系统前端),重点在于预防,对于后三项(业务系统数据库,抽取、加载),则通常通过修复的手段来解决。
  • 2.每类数据质量问题的预防/修复都有有利和不利的一面,比如,由于人员产生的质量问题,有利方面是可以再源头预防,不利方面在于人员往往会疏于管理、容易遗忘以及不同人员的差异性、专注点不同,这些都会不可避免地产生一定的数据质量问题。


图2 数据质量根本原因图


  • 3.涉及的数据量。通常数据质量问题需要修复的数据量有大致规律,如人员、流程、前端应用产生的质量问题需要修复的数据量往往不大,而数据库处理、数据抽取和加载等后台环节导致的数据质量问题通常设计的数据量较大。对于已经发生的数据质量问题,只能通过修复措施解决,但是从长远来看,重视预防措施, 在源头控制错误的产生更为重要。


图 3 预防/修复数据质量问题图

第五步:趋势监控

一个已知的数据质量问题被修复后并不意味着这个特定问题就被永远解决了。如果没有有效地预防措施,错误仍有可能再现。因此,对重要数据质量问题应当持续监控。图 4 所示控制图经常被用来做质量问题监控,当错误的个数在一定范围之内浮动时,质量问题被认为处于可控状态。


图 4 数据质量趋势监控图

第六步:识别和研究偏差

监控流程来识别问题。例如,当一个已知数据的质量超过了允许的控制范围, 流程将需要从该分支返回到第三步再一次识别根本原因。

 

图 5 识别和研究偏差图



04 数据质量问题特征分析


根据数据质量定义,数据的不同使用目的会导致不同的数据质量要求,例如, 业务系统对数据的使用目的主要是为了保证业务流程的正常运转和满足一些简单的统计功能,因此只要业务流程和统计正常,就可以认为数据质量满足要求;而分析型系统对数据的使用目的则多种多样,而且涵盖企业运营的方方面面,那么满足业务流程正常运转的需要并不一定就能保证满足分析的需求,因此分析型应用的需求是决定数据质量管理目标的主要因素。
在这一前提下,对企业内部数据流转过程各环节中呈现出来的数据质量问题特性作如下分析,如图6所示,数据流转过程被分成三个阶段(环节):
  • 1.数据生产环节:企业内部的原始数据,绝大部分都产生自业务源系统,很少量的增值数据(Value-addedata)产生于分析型系统。

  • 2.数据集成环节:在基础数据平台类系统(ODS/数据仓库和数据集市)中,集成来自不同源系统的数据,并按照数据模型整合。

  • 3.数据使用环节:由各类分析型应用组成,也包括随机业务查询、数据分析、数据挖掘等信息访问手段。


从图6中可以看到,数据质量问题的产生主要在于数据产生环节,其次在于数据集成环节的数据加工过程,而在数据使用环节,由于原则上不再对数据作修改,因此基本上不产生数据质量问题。


图 6 数据质量问题分析图


数据质量问题的发现则不同,基本呈现出相反特征:一是业务源系统虽然是数据的主要产生环节,但是通常只能发现业务流程相关的数据质量问题,而且仅限于本系统内部;二是数据集成环节由于是企业内部数据的一个最主要会聚点,因此通常也是数据质量问题暴露最多的环节;三是数据使用环节是数据质量问题频繁暴露的另一个环节,主要是因为对数据的使用决定了数据质量问题的定义,所以很多质量问题都是在使用时被首次发现。


 05 在不同流转环节关注的数据质量


基于数据质量管理的关键环节和质量问题特性,再结合业界事实数据质量管理的最佳实践,建议在不同流转环节侧重完成的功能点实现应如下:


1.数据产生环节。

修正——数据质量问题必须在源头得到修正,这是数据质量管理的一项基本原则。
预防——相对于修正,预防的意义更大,主要原因在于可以防止产生新的数据质量问题。
定义——由于数据质量问题的定义主要取决于使用目的原则,因此数据质量问题的定义主要应当结合数据使用环节来发起,但事实上常常都是基于源系统的数据结构来进行定义。


2.数据集成环节。

检查——技术数据平台类系统作为银行数据的主要会聚点,在此环节进行数据质量问题检查的效用最高。
报告——对于数据质量检查结果,应当以报告形式展开,并通过一定的机制(自动工作流程或人工流程)通知相关的数据质量问题责任人,如业务源系统项目组、业务部门、数据仓库或应用项目组等。
跟踪——由于来自业务源系统的数据每天都会加载到基础数据平台类系统中,因此,基础数据平台类系统应当被利用来对数据质量问题的解决进行跟踪,并将跟踪结果作为提升数据质量问题治理成效的一个依据。


3.数据使用环节。

定义——如前所述,在数据使用环节就根据数据的使用目标来定义数据应当满足的质量标准,并作为日后上下游系统之间服务水平协议(Service LevelAgreement,SLA)的输入接口。
评估——作为数据的最终使用者,在使用环节应当对数据质量治理的成效进行评估,并作为下一阶段设定数据质量管理目标的依据之一。


06 数据质量管理流程的关键点


数据质量管理流程应当涵盖从“数据产生”到“数据集成”再到“数据使用”在内的全过程。为了在银行全行范围内进行有效的数据质量管理,数据质量管理的不同功能点应恰当分布在个流程的相应环节,在基础数据平台类系统上构建数据质量管理系统,并将源系统、相关应用以及相关科技和业务用户都纳入数据质量问题的发现——修正——跟踪——评估的闭环流程当中,如此才是实施数据质量管理的最佳选择。

此外,数据质量管理成败的关键在于合理有效的组织架构和流程,而不是管理系统自身,因此应当更为重视数据质量管理配套的组织架构和管理流程建设。

在构建数据质量管理体系时,以下关键因素应当考虑:跨部门以上主管领导的重视和牵头;负责解决数据质量问题的专门和专业组织;负责解决数据质量问题的统一和专业流程;负责解决数据质量问题的统一平台;负责侦测数据质量问题的专业工具。



 07 数据质量管理与数据治理体系的有机结合


数据质量管理应当与整个企业级的数据治理体系有机结合,图7 简要说明了这些治理体系各主要组件之间的关系。


图 7 反映的数据质量管理相关治理组件的关系如下:


图 7 数据治理主要组件之间的关系图


1.数据标准是数据质量管理进行质量检查的规则,因此数据与标准不相符,就是一个典型的数据质量问题,通过部署数据质量管理系统,可以对数据标准的落地实施提供有效的监控、检验和督促手段。


2.元数据管理系统可以作为数据质量管理的一个输入端,辅助数据质量检查 脚本的自动生成,而数据质量管理系统中存储的检查规则等信息又是一项元数据, 应当被元数据管理系统所采集。


3.数据安全管理中定义的数据所有者,是构建数据质量治理闭环流程和确定数据整改权责的重要依据。
本文来源中国银行总行信息科技部,作者孙中东
侵权请私聊公众号删文

 热文推荐  


欢迎关注LemonSec
觉得不错点个“赞”、“在看“

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存