数据质量:数据治理的核心
The following article is from BigDataplus Author 后羿BigDataplus
随着对数据认知理解的深入,数据也可从不同视角进行分类:数据结构、是否可再生、数据保密等级、存储层次等等。
同样,从数据价值角度可分为数据资源、数据资产和数据资本。在数字经济发展历程中,数据起到了核心和关键作用,人们对数据价值的认识也是由浅入深,由简单取向复杂。总体来看,数据价值的发展主要分为三个阶段:第一阶段是数据资源阶段,数据是记录、反应现实世界的一种资源;第二阶段是数据资产阶段,数据不仅是一种资源,还是一种资产,是个人或企业资产的重要组成部分,是创造财富的基础;第三阶段是数据资本阶段,数据的资源和资产的特性得到进一步发挥,与价值结合,通过交易等各种流动方式,最终变成了资本。
数据治理
数据治理是高层次的、规划性的数据管 理制度活动,其关键管理活动包括制定数据战略、完善数据政策、建 立数据架构等,注重数据的使用者、使用方式、使用权限等合规性制 定,强调开展数据资产全生命周期管理前的基础工作,关注数据资产 管理中的相关保障措施。
2015 年,DAMA 在 DBMOK2.0 知识领域将其扩展为 11 个管理职能,分别是数据架构、数据模型与设计、数据存储与操作、数据安全、数据集成与互操作性、文件和内容、参考数据和主数据、数据仓库和商务智能、元数据、数据质量等。因数据治理涉及内容较多,本文先讲较重要的数据质量管理职能。
实际上,大数据处理的关键也是在解决数据质量问题,《大数据资产:聪明的企业怎样致胜于数据治理》作者托尼·费舍尔曾提到:“如果基本数据不可靠,大多数企业的大数据计划要么失败,要么效果低于预期。造成上述结果的关键原因在于,数据生命周期中流入了不一致、不准确、不可靠的数据。”,糟糕的数据质量常常意味着糟糕的业务决策,将直接导致数据统计分析不准确,监管业务难,高层领导难以决策等问题。
数据质量问题早在 1957 年的时候,计算机刚刚发明的时候,大家就意识到数据对于计算机决策的影响,提出 Garbage In Garbage Out的警示。2001 年,美国公布《数据质量法案(Data Quality Act)》,提出提升数据质量的指导意见。2018 年,中国银行保险监督管理委员会发布《银行业金融机构数据治理指引》,强调高质量的数据在发挥数据价值中的重要性。数据质量是保证数据应用效果的基础。数据质量是描述数据价值含量的指标,如同矿石的含金量,数据质量的好坏决定着数据价值的高低。
缺乏数据质量管理会导致脏数据、重复数据、冗余数据、数据丢失、数据不一致、无法整合、责任缺失,糟糕用户体验等等低劣数据质量问题。于是对企业来说,提升数据质量的需求显得日益强烈。
数据是否支持公司的愿景和使命
愿景体现了企业家的立场和信仰,是这些最高管理者对企业未来的设想。使命指的是企业由社会责任、义务所承担或由自身发展所规定的任务。如阿里巴巴的使命:让天下没有难做的生意;其愿景:成为一家活102年的好公司。马云:“阿里巴巴不是零售公司,是数据公司”。如此庞大的数据公司若无数据质量战略,提升数据质量的全局的迭代规划和完善流程是无法完成和实现这样的使命和愿景。
数据资产化离不开高质量数据
数据资产化是指实现数据可控制、可量化和可变现属性,体现了数据价值的过程。但是数据质量好坏决定着数据价值高低,影响着数据资产的效益效果。且当前数据已经渗透到各行各业,日益成为企业不可或缺的战略资产。
数据驱动依赖高质量数据
当今如此多的工作是数据驱动的组织中,是否有准确的、可用的高质量数据直接影响领导层是否作出正确的决策和战略目标的实现。
数据生产者
源系统数据录入界面施加更好的限制来杜绝数据质量问题。如APP上,让用户需填写月收入信息时,设置档次范围,让用户选择,而不是输入框,英文或中文的数据录入。
系统之间的数据交换,制定符合数据质量标准的接口调用规范。调用第三方系统,双方约定好数据接口规范等。
源系统在系统设计和生产流程将数据消费者用途考虑在内。如不顾数据消费者需求存储大量json类型,不仅设计数据安全还有无法更好使用这些数据。
建立一套完整的相对全面的脱敏生产数据环境 提高数据开发人员意识。 列筛选会验证单个列中的数据。如判断这列是否存在空值、数值范围、枚举值内容等。 结构筛查会跨列验证数据的关系。如验证两列或者多列之间的层次关系(一对多等关系)等。 业务规则筛查实现更复杂的验证。如银行贷款的放款日期与起息日等等其他的复杂的逻辑关系测试。
系统建设和数据开发整合到项目开发的生命周期中,并伴随系统演进对它进行管理与维护。如元数据管理、系统文档和培训教材在利益相关者之间共享,包括数据质量的检测结果等。
数据管理者
制定数据质量标准和数据管控考核,分析数据质量问题和数据质量迭代整改计划制定和推动,数据使用的管理等等。
数据消费者 数据消费者仍有正确使用数据的责任,且负有了解数据知识的责任,必须知道他们使用的数据表示什么以及如何表示的,还有如何正确使用数据的责任。
字段长度有效: 字段内容有效 字段数值范围有效 枚举值个数有效 枚举值集合有效
对主键是否存在重复数据的监控指标。
字段是否为空或NULL 记录数是否丢失 记录数环比波动 录数波动范围。 记录数方差检验
数值同比 数值环比 数值方差检验 表逻辑检查
表级别一致性检查
表级别质量监控指标,数据是否按时产出
最大值检查 最小值检查 平均值检查 汇总值检查
用户写自定义SQL实现的监控规则
从有效性、唯一性、完整性、准确性、一致性、时效性、数据剖析和自定义规则检查等几个维度对数据质量进行测量,但对于现在超级大的数据量级监控所有的数据是不符合成本效率的。因此,知道哪些数据为最关键的,对这些关键数据进行全链路的数据质量,这样有助于防止错误或揭示改进的机会。
数据质量问题的量化
数据质量问责制
数据是企业成功的关键,因为它提供了企业决策的基础,成功执行数据质量流程需要一个治理结构(数据管理、数据质量问责制、倡导改善项目)。有效地利用数据需要一个支持结构(数据知识管理、元数据管理、员工培训,主数据管理),以及用于管理和解决问题的流程(升级和设定优先级,数据生产者和消费者之间建立起有效的沟通机制),支持结构和流程必须成熟,以确保企业能从数据资产中获取价值。可见生产高质量数据需要管理层重视,需要整个企业的承诺。
本文从数据、数据治理和数据质量管理基础概念开始讲解,并循序渐进地讲述数据质量起源、带来的负面影响及其重要性,其中给出笔者之前实现两篇流和批数据质量检测系统实现过程的文章链接,最后并给出数据质量控制方法论。从数据质量系统设计和实现,再加上数据质量控制方法论,本文算是对数据质量问题有个较为完整的讲解。
Apache Spark 3.0.0重磅发布 —— 重要特性全面解析
OPPO 实时数仓揭秘:从顶层设计实现离线与实时的平滑迁移
NameNode主备宕机引发的思考
不可不知的资源管理调度器Hadoop Yarn
HBase中Memstore存在的意义以及多列族引起的问题和设计