数据质量是数据的生命线,在麦吉利夫雷的《数据质量工程实践》一书中提出了改进数据质量的十步法,如下所示:
在10个步骤中,第3步的评估数据质量主要依赖数据质量维度进行测量。数据质量维度是数据的某个可观测的特性,术语”维度“可以类比于测量物理对象的维度(如长度、宽度、高度等)。数据质量维度提供了定义数据质量要求的一组词汇,通过这些维度定义可以评估初始数据质量和持续改进的成效。
比如数据质量有个维度叫准确性,指数据要准确反映其所建模的“真实世界”实体,例如员工的身份数据必须与身份证件上的信息保持一致。
英国著名数学家、物理学家Load kelvin说:”无法度量则无法改进“ ,可以这么说,数据质量维度提供了一种测量数据质量的方式,数据质量维度评价最具价值的收益是作为数据质量问题的具体证据,为后续的根本原因分析、数据的纠正和预防未来错误的合适改进提供基础。
我们平时工作中接触到的数据质量维度很多,包括一致性,准确性,有效性,完整性,完备性、及时性等等,但如果要你列出所有的数据质量维度,并且”完全穷尽、相互独立“,估计很少人能回答出来,一方面可能没系统化思考过,另一方面估计也区分不清楚完整性、一致性、合理性等维度概念的差别。
我查阅了相关资料(见文末参考文献),发现有人对数据质量维度已经进行了系统研究,综合了相关研究成果后,这里以洛申的《数据质量改进实践指南》为基准,给出理想中的数据质量维度框架,大家通过这个框架,可以更加清晰、全面的理解数据质量维度定义和度量方法,从而奠定数据质量管理工作的基础。
为了辅助理解,文末也附上了华为等其它相关数据质量维度框架的简要说明,大家可以据此进行拓展阅读。
一、数据质量维度框架
该框架以”完全穷尽、相互独立“为原则,对数据质量维度进行层次结构的逻辑分类,一级分类为内在维度、上下文维度和定性维度:
内在维度:将那些仅与数值本身有关而与数据元或记录无关的测量方法称为内在维度,内在维度与数据值本身有关,而与具体的上下文无关。
例如,指定温度的有效范围(如-50-110度)对数值来说是内在的,无论应用在哪些场景。
内在维度包括二级分类,即准确性、可溯性、结构一致性和语义一致性。
上下文维度:如果测量评判的是一个数据元与其他数据元或从一条记录到其它记录的一致性或有效性,则可以将其称为上下文维度,因为这些测量依赖于上下文。上下文维度依赖于系统和流程中作为业务规则执行的各类业务方针。
例如“指定唯一关联单个实体的标识符”的要求是一项信息方针,该方针转换成数据质量规则就涉及唯一识别、标识符匿名、不可识别性等。
上下文维度括二级分类,即完整性、一致性、及时性、可访性、合理性及唯一性。
定性维度:在获取定量测量结果能力不足的情况下,需要引入另外一些维度,定性维度可以评价更高阶的监督,审查信息满足定义的期望指数和需求的程度。
二、数据质量维度规则
在十大数据质量维度分类下,我总结出了具体的29个规则类型,每种规则类型可以根据规则的适用范围区分为单属性,跨属性、跨记录和跨实体四种,如下图所示:
规则类型一般包括类型名称、类型描述、度量指标及符合性阈值等属性来形成具体的稽核规则,下面举个例子说明:
准确性维度分类中存在一个规则类型,名称叫“值域约束类”,描述是“属性值必须满足已定义的枚举值的约束”,度量指标是“符合约束的记录/总记录”,符合性阈值可以定义为一个固定比例值,比如针对“性别”字段,枚举约束是“男,女”,度量指标是“字段的值属于“男”或“女”的记录/总记录数”,符合性阈值是“90%”。
三、数据质量维度详述
1、准确性
维度定义:
准确性是较难评价的维度之一,因为它指的是数据值与确定的正确信息源的一致程度,可能存在许多潜在的正确信息源,例如一个数据库,一个数据集或者某个人工录入的结果,很多情况下,没有正确信息的权威来源。
规则类型:
(1)值域约束类:属性值必须满足已定义的枚举值的约束,比如合同的合同主类型及子类型必须是合同类型基础数据中定义的枚举值。
(2)精度约束类:属性值的精度符合定义的精确度或细节说明。
(3)值的约束类:属性值必须支持为该属性值定义的可接受值,比如限定年龄必须在0-200岁之间,日期必须符合yyyymmdd格式要求。
(4)事实参照标准类:存在事实数据或者事实参考标准数据,与该事实或事实参考标准对比一直的约束。比如中国电信公司的信息必须与国家法人数据库中的信息保持一致。
2、可溯性
维度定义:
数据的可信性对于企业的所有参与者都是至关重要的,可塑性测量的一个特征是拥有识别任何新增或更新的数据来源的能力。
规则类型:
(5)可溯源类:所有属性都应包括可识别的最初来源和日期。
3、结构一致性
维度定义:
在同一数据集或者在与相关联的数据模型中,相似的属性值的表示具有一致性。
规则类型:
(6)格式规范类:属性必须符合企业规定的长度和类型标准。
(7)格式一致性类:相同的属性必须具有相同的数据类型、长度以及样式。
(8)属性文档化类:在元数据库中定义和描述的数据属性。
4、语义一致性
维度定义:
指的是一个数据模型中不同属性间定义,以及不同的企业数据集中命名相似的属性定义的一致性,它描述了相似数据对象共享一致名称与含义的程度。
规则类型:
(9)属性定义类:所有的属性命名和定义已经文档标准化。
(10)属性名称符合类:属性名称符合标准程度。
(11)属性名称歧义类:不存在两个属性共用一个名称。
(12)语义一致性:命名相似的属性指的是同一个业务概念。
5、完整性
维度定义:
指的是某些属性必须赋予某数据集中的数据值,完整性可以定义为单个属性的要求,也可以依赖于一条记录或一个数据集中跨多条记录的其他属性的值。
规则类型:
(13)属性不可为空类:属性值不允许出现空值,比如员工工号不可为空。
(14)单表不可为空类:在本实体的一个或多个属性值满足某个条件时,属性值不允许出现空值。
(15)跨表不可为空类:在其它实体的一个或多个属性值满足某个条件时,属性值不允许出现空值。
6、一致性
维度定义:
在当前数据背景下,或在某个时间序列上,与数值一致性的期望指数相关的约束。在任何企业环境中,一致性与数据层次结构的不同层次有关,表范围内、数据库范围内、不同应用间,以及外部提供的数据范围内,由于跨业务范围数据整合呈现日渐增长趋势,必须制定相关的规则来确保一致性。
规则类型:
(16)单表等值一致性类:某一属性与本实体其它属性计算值相等的约束,比如合同的RMB签约金额必须等于USD签约金额与汇率的乘积。
(17)单表逻辑一致性类:某一属性值与本实体其他属性满足逻辑关系约束(大于或小于),比如合同关闭日期不能早于注册日期。
(18)外关联约束类:引用其他业务对象属性时,所维护的属性值必须在其他业务对象中存在的约束,比如合同的签约客户必须为客户主数据中定义的法人客户。
(19)跨表等值一致约束类:某一属性值与其他实体的一个或多个属性值的函数计算结果相等的约束,比如账单表的总金额与账单明细表的科目金额之和一致。
(20)跨表逻辑一致约束类:某一属性值满足其他实体的一个或多个属性值的函数关系的约束(大于或小于),比如客户表中客户的入网日期早于客户订购产品表中的产品订购日期。
7、及时性
维度定义:
指信息相对于真实实体而言的最新程度,流通性可以度量信息的“新鲜程度”。
规则类型:
(21)属性及时性约束类:属性必须在规定的时间周期内刷新,比如产品价格必须每24小时刷新一次。
(22)单表及时性约束类:在本实体的一个或多个属性值的满足某个条件时,属性值要在一个指定时间周期内刷新。
(23)跨表及时性约束类:在其它实体的一个或多个属性值的满足某个条件时,本实体的属性值要在一个指定时间周期内刷新。
8、可访性
维度定义:
指信息可访问性的时间期望指数,可访性可以用期望使用信息的时间与信息准备就绪的时间之间的差进行测量。
规则类型:
(24)可访问性类:可访问信息的时间与信息准备就绪的时间之差。
(25)响应时间类:请求者从发出请求到接收到信息的时间之差。
9、合理性
维度定义:
指对数据值一致性或合理性期望指数相关的综合评述。
规则类型:
(26)通用合理性类:数据满足合理的期望指数,比如司机的年龄不小于18岁。
(27)时态合理性类:新值需与基于先前值的期望指数一致,即数据集的某个统计(合计、总计、平均等)的值应该与历史数据集的统计值的差异在合理范围,比如当日新增用户数不应高于过去30天平均值的20%。
(28)协议合理性类:定义服务水平协议、安全协议及绩效相关的文档,应评测与协议的符合性。
10、唯一性
维度定义:
指对核心概念对象的唯一命名和表示,以及通过识别属性值将含有实体数据的数据实例链接在一起的能力。
规则类型:
(29)记录唯一类:记录不重复,存在可识别的业务主键进行唯一性判断,是对数据集内部是否存在相似或重复记录的约束规则,比如法人客户中国移动通信股份有限公司只能存在唯一一笔。
定性维度的规则类型包括权威源符合度、服务水平协议符合度、与数据标准的符合度、可理解性等等。
针对每个数据质量维度都进行评估代价很大,每个企业都应根据自己的业务需求、优先级、可行性来选择最有意义的维度组合来进行测量,数据质量维度的评估结果用于确定数据质量的基线、监测和改进。
四、其它数据质量维度框架
1、麦吉利夫雷的《数据质量工程实践》
2、洛申的《数据质量改进实践指南》
3、DAMA2
4、华为数据之道
5、数据治理:工业企业数字化转型之道
参考文献
1、华为公司数据管理部 《华为数据之道》 (2020)
2、麦吉利夫雷 《数据质量工程实践》 (2010)
3、洛申《数据质量改进实践指南》 (2016)
4、DAMA国际《DAMA数据管理知识体系指南(原书第2版)》 (2020)
5、祝守宇 / 蔡春久 《数据治理:工业企业数字化转型之道》 (2020)
6、Thomas Redman《Data Quality for the Information Age》 (1996)
7、Larry English《Improving DataWarehouse and Business Information Quality》(1999)
加快构建中国特色数据基础制度体系 促进全体人民共享数字经济发展红利
为什么《DAMA数据管理知识体系》这么晦涩难懂?by 傅一平
点击左下角“阅读原文”查看更多精彩文章,公众号推送规则变了,如果您想及时收到推送,麻烦右下角点个在看或者把本号置顶!