查看原文
其他

浅谈数据质量(DQ)

点击上方 "蓝色"关注, “星标”一起成长

点击加我wx, 可以一起成长

♡昨日回顾:☞ 元数据管理在数据仓库的实践应用

数据质量一直是数据仓库领域一个比较令人头疼的问题,因为数据仓库上层对接很.    多业务系统,业务系统的脏数据,业务系统变更,都会直接影响数据仓库的数据质.    量。因此数据仓库的数据质量建设是一些公司的重点工作。



-  数据质量 -

数据质量管理是指对数据从产生、获取、存储、共享、维护、应用等各个阶段可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使数据质量获得进一步提高。
"数据质量管理是对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。数据质量管理的终极目标是通过可靠的数据提升数据在使用中的价值,并最终为企业赢得经济效益。"——以上内容摘自百度百科。
笔者观点:"数据质量管理不单纯是一个概念,也不单纯是一项技术、也不单纯是一个系统,更不单纯是一套管理流程,数据质量管理是一个集方法论、技术、业务和管理为一体的解决方案。通过有效的数据质量控制手段,进行数据的管理和控制,消除数据质量问题进而提升企业数据变现的能力。在数据治理过程中,一切业务、技术和管理活动都围绕这个目标和开展"。
数据质量管理的目的是解决企业内部数据使用过程中遇到的数据质量问题,提升数据的完整性、准确性和真实性,为企业的日常经营、精准营销、管理决策、风险管控等提供坚实、可靠的数据基础。



-  数据质量维度 -

  • 1、准确性:数据不正确或描述对象过期

  • 2、合规性:数据是否以非标准格式存储

  • 3、完备性:数据不存在

  • 4、及时性:关键数据是否能够及时传递到目标位置

  • 5、一致性:数据冲突

  • 6、重复性:记录了重复数据




-  数据质量问题 -

  • 数据真实性:数据必须真实准确的反映客观的实体存在或真实的业务,真实可靠的原始统计数据是企业统计工作的灵魂,是一切管理工作的基础,是经营者进行正确经营决策必不可少的第一手资料。


  • 数据准确性:准确性也叫可靠性,字段值缺失,空值。是用于分析和识别哪些是不准确的或无效的数据,不可靠的数据可能会导致严重的问题,会造成有缺陷的方法和糟糕的决策。


  • 数据唯一性:用于识别和度量重复数据、冗余数据。重复数据是导致业务无法协同、流程无法追溯的重要因素,也是数据治理需要解决的最基本的数据问题。


  • 数据完整性:数据完整性问题包括:模型设计不完整,例如:唯一性约束不完整、参照不完整;数据条目不完整,例如:数据记录丢失或不可用;数据属性不完整,例如:数据属性空值。不完整的数据所能借鉴的价值就会大大降低,也是数据质量问题最为基础和常见的一类问题。


  • 数据一致性:多源数据的数据模型不一致,例如:命名不一致、数据结构不一致、约束规则不一致。数据实体不一致,例如:(数据量条数)数据编码不一致、命名及含义不一致、分类层次不一致、生命周期不一致……。相同的数据有多个副本的情况下的数据不一致、数据内容冲突的问题。


  • 数据关联性:数据关联性问题是指存在数据关联的数据关系缺失或错误,例如:函数关系、相关系数、主外键关系、索引关系等。存在数据关联性问题,会直接影响数据分析的结果,进而影响管理决策。


  • 数据及时性:数据的及时性(In-time)是指能否在需要的时候获到数据,数据的及时性与企业的数据处理速度及效率有直接的关系,是影响业务处理和管理效率的关键指标。




-  数据质量检测和量化 -


有效性
  • 字段长度有效

  • 字段内容有效

  • 字段数值范围有效

  • 枚举值集合有效

唯一性
  • 对主键是否存在重复数据的监控指标

完整性
  • 字段是否为空或NULL

  • 记录数是否丢失

  • 记录数环比波动

  • 录数波动范围

  • 记录数方差检验

准确性
  • 数值同比

  • 数值环比

  • 数值方差检验

  • 表逻辑检查

一致性
  • 表级别一致性检查

时效性
  • 表级别质量监控指标,数据是否按时产出

数据剖析
  • 最大值检查

  • 最小值检查

  • 平均值检查

  • 汇总值检查

自定义规则检查
  • 用户写自定义SQL实现的监控规则

从有效性、唯一性、完整性、准确性、一致性、时效性、数据剖析和自定义规则检查等几个维度对数据质量进行测量,但对于现在超级大的数据量级监控所有的数据是不符合成本效率的。因此,知道哪些数据为最关键的,对这些关键数据进行全链路的数据质量,这样有助于防止错误或揭示改进的机会。
  • 数据质量问题的量化

对于数据质量的检测结果进行分析和量化,查找出现质量问题的数据链环节,定位数据问题,实行问责机制。

期待大佬技术交流、思想碰撞!点击关注,交个朋友↓

大家都在看,建议先收藏


字节跳动ClickHouse在用户增长分析场景的应用


数据中台建设方法论、技术体系、组织架构


SQL 语法速成手册,yyds!





空空(渣渣空),空杯的空。7年大数据、数仓开发经验,目前就职于一线大厂,校招入职国企、后经历外包、中小企业,先后涉猎电信、电商、金融、教育、直播等领域。期待与大佬们交个朋友,一起聊技术、赚钱、谈人生、搞事情。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存