查看原文
其他

数据质量那点事

大数据私房菜 大数据私房菜 2022-07-01



1

数据质量基本概念


  • 数据质量管理(Data Quality Management),是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高

  • 数据质量管理不是一时的数据治理手段,而是循环的管理过程。其终极目标是通过可靠的数据,提升数据在使用中的价值,并最终为企业赢得经济效益


2

影响因素


      数据问题的来源可能产生于从数据源头到数据存储介质的各个环节。在数据采集阶段,数据的真实性、准确性、完整性、时效性都会影响数据质量。除此之外,数据的加工、存储过程都有可能涉及对原始数据的修改,从而引发数据的质量问题。所以,技术、流程、管理等多方面的因素都有可能会影响到数据质量。


       在企业中,随着企业业务的增长,数据也是一个增量积累的过程。随着数据类型、数据来源的不断丰富以及数据数量的快速增长,企业在数据管理工作和数据流程中面临越来越多的数据质量问题。而且数据质量的管理并没有被企业重视起来,其根本原因还是ROI并没有那么明显。      数据质量管理相对来说成本比较高。因为它涉及到企业数据标准的制定、规范的落地、生命周期的管理等多个环节。从收益上来说,数据质量的效益和结果并不是十分明显,大部分企业不会把数据质量作为KPI。在企业的不同系统中,业务领域的关键指标不一致,数据无法共享导致出现数据孤岛,大量数据无法关联,并且有明显的数据冗余等问题,还有数据的维护需要投入大量的人员、时间、软硬件成本。所以数据的质量管理往往被会边缘化甚至趋向于无。在此附上数据的生命周期图,包括各环节的数据流转和数据处理。


3

评估维度



  • 完整性
      数据完整性问题包含数据条目不完整,数据属性不完整等
  • 一致性
    多源数据的数据模型不一致,如命名不一致,数据编码不一致,含义不一致,生命周期不一致等
  • 准确性
    准确性也叫可靠性,不可靠的数据可能会导致严重的问题,会造成有缺陷的方法和糟糕的决策
  • 唯一性
      用于识别和度量重复数据,冗余数据,重复数据是导致业务无法协同,                 流程无法追溯的重要因素,也是数据治理需要解 决的最基本的数据问题
  • 关联性
    数据关联性问题是指存在数据关联的数据关系缺失或错误,例如:函数关系、相关系数、主外键关系、索引关系等。存在数据关联性问题,会直接影响数据分析的结果,进而影响管理决策。
  • 真实性
       数据必须真实准确的反映客观的实体存在或真实的业务,真 实可靠的 原始统         计数据是企业统计工作的灵魂,是一切管理工作的基础,是经 营 者进行正确         经营决策必不可少的第一手 资料。
  • 及时性
    数据的及时性(In-time)是指能否在需要的时候获到数据,数据的及时性与企业的数据处理速度及效率有直接的关系,是影响业务处理和管理效率的关键指标。

  • 逻辑检查
    不同表字段之间可能会有逻辑关联,需要稽核
  • 离群值检查
    部分数据可能会偏离其他数据,比如同一个商品金额大家都是100元,而有一条数据是1W
  • 自定义规则
    由需求方自定义相关规则
  • 波动稽核
       与上周环比稽核波动情况
  • 强弱规则
      每个规则的权重应该是不一样的,需要配置优先级,这对后续的告警方                  式是有帮助的


     我们最终的目的是希望做到页面可配置


4

实施流程


1事前定义质量规则


  • 梳理表,字段等信息
  • 确定资产等级
  • 制定检验规则


2事中监控数据质量


  • 在数据抽取过程中,可以对数据进行数据量稽核及唯一性,非空性稽核
  • etl过程对脏数据进行清洗,保证数据质量
  • 指标计算过程中,可以对指标进行波动值稽核,保证指标变化在合理范围内


以上如果有异常都需要邮件短信报警,对应负责人根据优先级判断是不是需要及时处理



3事后分析和问题跟踪


每周定时跑一次程序,对全局数据进行质量稽核控制,如唯一性,非空性等对于程序跑出来的数据:数据质量概览在数据质量管理系统查询数据质量明细数据在数据质量管理系统查询根据异常数据统计出来的各种数据质量报表也可以在数据质量管理系统查询,包括表覆盖率,历史趋势,综合分析,排名分析等(质量报告支持导出为word,pdf,excel)对异常进行评估、严重程度、影响范围、问题分类等可以订阅自己比较关心的主题,表或者规则,邮件只会发送订阅内容对于打分比较低的表或者业务,可以反推业务方进行整改



4重大问题告警


1.警告邮件短信通知

2.数据整改问题跟踪处理,故障review,一周内处理完成


5

总结


       数据质量管理贯穿数据生命周期的全过程,覆盖质量评估、数据监控、数据探查、数据清洗、数据诊断等方面。数据源在不断增多,数据量在不断加大,新需求推动的新技术也不断诞生,这些都对大数据下的数据质量管理带来了困难和挑战。因此,数据质量管理要形成完善的体系,建立持续改进的流程和良性机制,持续监控各系统数据质量波动情况及数据质量规则分析,适时升级数据质量监控的手段和方法,确保持续掌握系统数据质量状况,最终达到数据质量的平稳状态,为业务系统提供良好的数据保障。 


2020大数据面试题真题总结(附答案)

微信交流群

你真的了解全量表,增量表及拉链表吗?

缓慢变化维(SCD)常见解决方案

全方位解读星型模型,雪花模型及星座模型

Sqoop or Datax

left join(on&where)

ID-Mapping

你们公司还在用SparkOnYan吗?

大厂高频面试题-连续登录问题

朋友面试数据研发岗遇到的面试题

数据仓库分层架构

clickhouse实践篇-SQL语法

clickhouse实践篇-表引擎

简单聊一聊大数据学习之路

朋友面试数据专家岗遇到的面试题

HADOOP快速入门

数仓工程师的利器-HIVE详解

Hive调优,每一个数据工程师必备技能

OLAP引擎—Kylin介绍

Hbase从入门到入坑

Kafka

Datax-数据抽取同步利器

Spark数据倾斜解决方案

Spark统一内存管理机制

数据治理之元数据管理

数据仓库中的维表和事实表



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存