Informatica:数据质量管理六步法
作者丨石秀峰
参考丨Informatica数据质量管理白皮书
全文共3363个字,建议阅读需10分钟
友情提示:本文章的编写参考了Informatica公司的数据质量管理白皮书,在阅读本文之前请先阅读笔者之前写的这篇《数据质量管理的10个最佳实践》,有利于更容易的理解对本文的观点。
关于企业数据质量管理和控制,Informatica公司早在10年前提出了一个数据质量管控的六步法,从初始的数据探查到持续监测以及持续进行的数据优化,提供企业所需要的各种数据质量管理能力,并确保其所有数据均是完整的、一致的、准确的、通用的。
第一步是探查数据以发现和评估数据的内容、结构和异常。通过探查,可以识别数据的优势和弱势,帮助您确定您的项目计划。一个关键目标是明确指出数据错误和问题,例如将会给业务流程带来威胁的不一致和冗余。
一个全面的数据探查操作将为数据质量控制的成功奠定基础。通过识别眼前的问题,可以避免代价高昂耗时的后续纠正过程。一旦找出问题,IT 人员和业务人员将调查每个数据属性并生成描述数据属性的元数据。该元数据(或有关数据的数据)用于清洗下游数据或用于数据转换过程。
Informatica Data Explorer 通过基于角色的数据探查技术有助于为协作所存在的沟壑搭桥。业务分析师和数据管理员通过 Informatica Analyst 来评估数据质量、识别异常、建立业务规则和创建记分卡。开发人员使用 Informatica Developer 处理业务用户的输出,或生成他们自己的数据探查。该工具为开发人员带来更大的灵活性和更多功能,例如:
构建、部署和集中管理可重复使用的数据质量规则 以物理或虚拟方式、按任何周期探查数据 利用预建规则进行匹配和地址清洗 在任何应用程序中,重复使用探查和规则规范 快速访问所有数据,加快实施数据质量控制项目
02
接下来,需要在关键应用数据字段中明确衡量数据质量的度量标准,并为每个数据字段明确各自的数据质量目标。该度量标准应基于数据质量的以下六个维度:
完整性:哪些数据丢失或不可用? 符合性:哪些数据以非标准格式存储? 一致性:哪些数据值提供相互矛盾的信息? 重复性:哪些数据记录或属性是多余的? 整体性:哪些数据未被引用或遭受其它损害? 准确性:哪些数据是不正确或过时的?
将度量标准与数据质量对业务的影响联系起来。例如,使诸如存货周转及发货等业务问题与会影响这些问题的数据质量维度进行关联(库存数据的一致性和准确性,或重复的客户数据)。
与探查类似,建立度量标准和明确数据质量目标应是一项要求协作和反复进行的工作。Informatica 的数据质量解决方案为业务人员和 IT 人员提供了一个共同的平台建立和完善度量标准,用户可以在数据质量记分卡中跟踪度量标准的达标情况,并通过电子邮件发送 URL 来与相关人员随时进行共享。
该度量标准还可在仪表板中查看,它能提供强大的溯源和分析报告。记分卡和仪表板均可使您持续监测数据质量;当明确度量标准后,建立数据质量阈值,系统会在用户超出阈值时,触发一个电子邮件警报。
下一步是明确数据质量规则。可重复使用的业务逻辑,管理如何清洗数据和解析用于支持目标应用字段的数据。业务部门和 IT 部门通过使用基于角色的功能,一同设计、测试、完善和实施数据质量业务规则,以达成最好的结果。例如,业务分析师和数据管理员可以通过 Informatica Analyst 探查、分析和创建数据质量记分卡。
可以对劣质数据的特定记录进行溯源,从而确定其对业务的影响以及如何解决问题。借助此工具,业务部门使用者只需通过电子邮件将 URL 发送给 IT 部门的同事,即可共享数据质量度量标准;业务部门使用者还可以通过此工具与开发人员一同指定、验证、配置、实施和测试数据质量规则。
IT 部门专家可以通过使用 Developer 中基于角色的功能来评估和完善数据质量规则;它同时包括开发人员可以运行或针对对象进行编辑的预建规则,以及适合从头开始构建规则的功能。
步骤 3 同样也包括开发用于匹配和验证名称与地址的规则。数据管理员在启动项目时可以借助Data Quality 的 Identity Match Option、其预置的客户数据匹配规则以及适用于 240 多个国家/地区的地址清洗和验证。
支持跨部门应用程序或在整个企业及其多个分离的数据源中,较好地重复使用所有已制定的业务规则。总之,业务规则的协作和重复使用可以大幅降低实施一个效果良好并可持续开展的数据质量控制项目所必需的时间和成本。
在 IT 开发人员将明确的业务规则整合进数据质量控制和集成过程中时,需要在工作中融入数据质量。企业如何、在何处、到哪些应用程序中运用数据质量规则将取决于项目范围和数据质量战略。
执行这些规则的 Data Quality 可以通过单机模式进行战略部署,以与单个业务应用程序一同运作。可将该解决方案配置为一个预防性过滤器,以在数据进入应用程序后,在“上游”运行数据质量规则。
用户也可将 Data Quality 定位为在其进入目标应用程序后以批处理模式执行数据清洗规则,例如夜间清洗流程。理想情况下,数据质量解决方案最好能在企业层进行部署。
Data Quality 支持普遍深入的数据质量控制,使用户可以从扩展型企业中的任何位置跨任何数量的应用程序、在一个基于服务的架构中作为一项服务来执行业务规则。数据质量服务由可集中管理、独立于应用程序并可重复使用的业务规则构成,可用来执行探查、清洗、标准化、名称与地址匹配以及监测。
在执行数据质量流程后,大多数记录将会被清洗和标准化,并达到您所设定的数据质量目标。然而,无可避免仍会存在一些没有被清洗的劣质数据,此时则需要完善控制数据质量的业务规则。
异常报告流程可便于解决和修正这些弱点。Data Quality 可捕获和突显数据质量异常和异常值,以便更进一步的探查和分析。数据管理员、业务分析师和 IT 开发人员能够通过基于角色的工具共同分析任何问题的根本原因。
除了完善规则,您可能还需要适当编辑或修正一些数据。通过 Data Quality 的异常管理功能,业务部门使用者不仅能够用其进行检查,而且还能够修正数据质量问题。
异常可能包括重复记录、或者其它存在于数据字段和属性之中的矛盾或不一致之处。一旦明白问题所在,就可以制定或修改业务规则,以从源头上解决问题。通过检查和处理缺陷,开发人员生成所谓的“黄金记录” — 可为大家接受的唯一真实版本。
在数据质量解决方案的初步部署阶段,异常报告显得尤为重要,用户可借机在缺陷数据损害下游应用程序之前将其纠正。而在将新的数据源纳入数据质量解决方案时,异常报告也颇有价值。
数据质量控制不应为一次性的“边设边忘”活动。相对目标和在整个业务应用中持续监测和管理数据质量对于保持和改进高水平的数据质量性能而言是至关重要的。
使用记分卡或仪表板可显示与数据质量目标和第2步中所述的6个数据质量维相比的一致性。这些监测工具还可反映您的团队已实施的任何客户维,以及您所设定的与主要业务绩效问题相关的度量。
Data Quality 包括一个记分卡工具,而仪表板和报告选项则具备更为广泛的功能,可进行动态报告以及以更具可视化的方式呈现。可定制的仪表板和报告可以提供有关数据质量表现情况的高层视图以及可用来评估更细化问题的深度溯源。
使用者可以通过时间缩放来评估天、周、月或年的绩效,并以实时警报的形式立即获得问题通知。信息所有者可以通过仪表盘、记分卡和报告的形式来发布监测结果,并将其在整个企业共享。
由于数据是动态的,因此数据质量度量标准也应是动态的。注意随时调整度量标准,以更好地反映数据质量对关键业务指标的影响,并描述新增或移除的数据源。借助 Informatica,数据探查、清洗、地址验证、匹配和监测功能将成为一个全面、开放、统一和经济的数据集成平台的一部分。
笔者在《数据质量管理的10个最佳实践》中曾提到无论是传统的数据仓库,还是现在的数据湖、数据中台,其核心任务依然是“为企业提供高质量数据”。所有的数据项目都应该回归到其本质上来,那就是提高数据质量,提升数据价值。
笔者一直的观点:数据质量管理需要的是工匠精神,需要不断地对您拥有的数据进行反复“打磨”,循环迭代,将数据治理“常态化”,而不是指望实施一个项目就能实现数据质量的百分百提升。