企业数据质量提升实践的几个关键点
8月20日,由工信部国家工业信息安全发展研究中心主办的信息技术大讲堂之DCMM系列培训会顺利举行。星环科技咨询服务部的数据治理咨询团队就“企业数据质量管理”专题进行了专项分享,对大数据时代下数据质量问题的表象与根因分析、数据质量管理体系的构建思路、数据管理过程和数据管理工具的实践等热点方向进行了经验分享。本文就其中的精彩内容进行整理分享。
在企业实际使用和管理数据时,尤其在涉及跨业务的流程数据拉通或者尝试跨系统、跨组织的数据交互时,企业中的多个部门可能都会对数据质量提出质疑,但业务部门和信息部门却分别有不同的侧重点。比如业务人员最多的对数据质量抱怨可能会是“这数据很难用,各种坑”、“这数据我用不了,没权限”,甚至直接默默地不再使用数据而去寻找其他的解决办法;而IT人员面对扑面而来抱怨也是一肚子苦水,内心默念“我也无能为力,这些问题我解决不了”。尤其是企业建设信息系统越多,拥有的业务功能的数据越完整,却不能顺利的通过数据来支撑和驱动业务时,内部更容易产生挫败情绪。
基于实践中遇到的大量而广泛的数据质量问题,我们从人员、流程、技术和信息等多个方面总结了引起数据质量问题的十个常见原因。
10、分布式异构系统:对于分布式、异构的数据系统,缺乏适当的整合机制会导致其内部出现数据定义、格式、规则和值的不一致性。跨系统的查询和汇总数据往往需要太多的时间,降低了数据的可访问性。
在对这十大类根源问题进行分析后,可以制订相应的干预方案。比如针对数据多样来源,我们可以制定一些规则,只保留一个数据源、只允许更新这个数据源的数据,并只从这个数据源向其他副本同步数据,如设定企业标准并建立好映射,来辨别同义词和同形异义词等。
— 数据质量管理体系介绍—
在归纳了数据质量问题产生的原因并判断发现有效的干预措施后,为了系统性、持续有效的进行数据质量提升,我们设计了这套数据质量管理体系。
这个体系包括五大部分,中间最上层的是数据质量管理战略,包括数据质量管理的愿景和原则。在实践中我们发现,获得企业高层对数据质量提升项目的认可和支持是施行有效质量管理最重要的一个挑战,规划一个与企业战略一致、并且清晰可行的数据管理战略,是数据质量提升的关键起点。图中左边是数据质量管理体系,包括数据质量管理的组织架构,角色、职责、岗位和流程机制等。管理体系的建立要确保数据质量政策及其流程与企业战略、经营方针和业务流程保持一致,并围绕数据质量进行角色及其职责的划分;同时还要积极主动地调整管理策略以应对数据需求的变化,把保持数据质量成果的工作纳入业务日程,营造一个有利于学习和鼓励创新数据质量活动的环境。图中右边是需要对接数据安全管理体系,就像前面提到的那样,数据安全和数据质量中的可访问性在本质上是矛盾的,因此需要创建一种机制来找到两者之间的平衡。
— 数据质量管评价方法—
实际上,在开展具体的数据质量提升项目之前,第一个工作是收集和评估具体的数据质量问题。数据质量评估方法主要包括三大步:第一步,通过访谈或者问卷的形式调查数据消费者对数据质量的描述和期望,同时,使用数据质量指标来多维度的实际测量数据质量情况;第二步,需要对比主观和客观的两种评估结果,分析两者的差距,并确定差距产生的原因;第三部,是沟通、确定提升方案,并组织实施必要的行动。
准确性:描述数据是否正确,又叫正确性、无误性。通常准确性是个综合性指标,由多个二级指标组成,二级指标需要通过业务规则先将错误数据定义出来,进而进行计算。
完整性:完整性可以从三个层面来看,分别是架构完整性,属性完整性,数据集完整性。其中,架构完整性是指数据架构的实体和属性没有缺失的程度,属性完整性是指一张表中的一列没有缺失的程度,或者对于无效属性的度量;数据集完整性是指数据集中应该出现而没有出现的数据成员的程度。
一致性:一致性也可以从三个视角来看:参照一致性、相关数据元素之间的一致性和不同表中相同数据元素形式的一致性。参照一致性是与从属表(可以理解为值域表)中的值不匹配的行数;元素一致性是指如城市名字和邮政编码应该是一致的,输入邮编就能自动匹配正确对应的城市名字;形式一致性,通常不做必须检查的要求,根据实际业务需求来判断。
规范性:在《GB/ T36344 — 2018数据质量评价指标》中的定义是指数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度。在实践中,通常如果企业在制定相关标准规范的时候考虑了国标和行业惯例,并且在实际落地时也进行了良好的管控,则规范性大部分都可满足,不需要额外定量测量。
可访问性:可访问性衡量的是获取数据的难易程度,强调了时间的重要性。这个指标权衡了用户需要数据的时间和提供数据所需的时间。如果一个数据消费者需要近5天的数据,而获取它也需要五天的时间,那么大概率这个数据对这位数据消费者是无效的。
时效性:更多的是指及时性,指标比较复杂,需要用到发布时间、输入时间,年限,敏感性指数,波动时长等指标。这类复杂指标通常在企业里不会计算,通常用数据年龄就足够了。来衡量数据是否过时。
最后,还有很多根据业务规则衍生出来的数据质量规则,如从业务上衡量了业务系统的可信度,或者与内部标准或行业惯例相比的数据可信度以及数据量的适量性等,都需要根据实际情况再制定量化方式。
在开始测量数据质量之前,企业必须明确哪些维度对自己重要,并精确的定义这些维度。对于包含多个二级指标的维度来说,哪些维度对哪些数据源要衡量和监控、哪些二级指标是重要的也是需要由企业自己决定并定义的。
选定抽样方式后,接下来是要清晰的定义抽取的数据集数量,比如也可以针对一个特大的数据集进行多次抽样。然后,需要明确精度和置信水平,精度是指重复抽样试验中在特定置信水平下可以接受的误差,这将直接影响所需的样本量。因此需要在精度、置信水平和样本量之间寻求平衡,通常来说样本量越大,精度也越高。
接下来,就是要将数据质量指标的计算规则与实际选定的数据集进行映射,并形成脚本运行,然后对运营结果进行展示和分析,支持数据质量提升管理者做出正确的决策。在实际项目中,这一步是借助数据质量工具来完成。因此,一个科学、易用的数据管理工具就越显重要。
— 星环数据平台管理工具Studio 2.0介绍—
然后,切换到“质量任务”选项,指定数据抽取的方式和数量,对数据集进行抽样并设计质量测量任务运行的时间,让系统测量违反实体完整性原则的记录数量。
在统计完成后,可以选择“质量报告”选项,使违反原则的统计数据以数字、图表或者报告的形式呈现出来。报告的模板也可以根据偏好进行设计,也可以选择消息提醒的方式来告诉数据质量都出现了哪些问题,点击其中的一个问题后还可以看到一个违反原则的数据对象的实例。
除了包括数据质量管理的功能,星环Transwarp Data Studio 2.0工具包还包括数据标准管理、元数据原理,数据资产目录管理,数据智能治理等多个模块。这些模块之间以数据管理流程为驱动,依托工作流引擎,有机形成各数据管控功能的互动,也会继续以数据管理,数据资产管理,数据质量管理的用户需求为中心,打造数据管理的极佳体现。
在评估数据质量之后,还需要对造成数据质量问题的根因进行分析,从而制定一个体系化能落地的数据质量提升行动方案。
— 数据质量管理工作的未来展望—