数据治理体系之四-质量管理

Original ruby ruby的数据漫谈

2024-09-27

前面有一篇文章粗略的介绍了数据质量的定义、质量管理的重要性，以及如何制定质量规则，参见文章《数据治理中的数据质量如何做了？》。而且上一篇也介绍了数据标准，数据标准的重要作用是服务数据质量管理，那么本文补充详细介绍对于结构化数据如何制定质量规则，如何提升数据质量，以及数据湖中非结构化数据如何提高数据质量等内容。很多公众号在介绍数据质量管理的时候，大部分在介绍结构化的质量管理即数据仓库的数据质量管理，到目前AI、AIGC的发展以及大数据的发展，数据的质量管理已经扩大到非结构化的数据的质量管理，本文会重点介绍非结构化数据的质量管理。

—

结构化数据制定质量规则

DAMA 在定义数据的质量维度说明的时候，结构化数据的质量指标主要从准确性、完整性、唯一性、有效性、及时性、规范性、精确性。而对这些质量指标测量的方法可以用两种方式，一种是使用数据标准进行对比，另外一种是采用统计函数统计结果，两种方式都可以测算出实际值和预期值的差距是多少。如下是质量指标的定义和测算方法：

通过以上表可以分析到，创建质量规则的方式有两种，如下图所示：

1）对数据表的元数据，选取标准，使用标准和元数据进行映射比较，元数据是否满足标准的要求，数据标准和元数据映射的过程称为质量规则。

2）对数据表的数据集采用统计函数，统计结果和预期结果进行比较，是否满足要求。统计函数结果与预期结果比较的过程称之为质量规则。

以上是创建质量规则的基本原理，创建质量任务的过程如下图所示：

1）按照对象方式创建质量规则任务，选择一个对象比如一个表，选择不同的标准和统计函数进行映射，形成质量任务。

2）按照标准的方式创建质量规则任务，选择一个标准，比如完整性标准，然后选择多个对象进行映射，形成质量任务。

创建完成质量任务，设置调度周期，后台由调度系统定期按照一定的频率执行任务，可以实现质量的监控。每次扫描数据都是全量扫描，因此对于增量数据是否满足要求都会检查出来。

—

如何提升数据质量

提升数据质量需要从事前、事中、事后三个时刻来提升数据质量。数据质量的提升需要从源头来控制，可以尽可能减少后期的数据治理的工作，但是往往源头在业务端，业务一般采用的是外在购买的业务系统，这些业务系统在开发之初就是不同的公司设计的，因此难以做到统一的数据标准。

从以上数据处理的流向图可以看到，提升数据质量的行为可以从以下几个方面来执行：一、事前对于新开发的业务系统和数据应用、BI系统，在进行模型创建的时候，引用数据平台的标准，达到整体的数据模型创建的统一性。
数据仓库和数据集市的数据模型统一采用数据标准建模。
二、事中对于数据报表开发过程中，如果是业务库数据进入到数据湖中后，通过数据探查数据湖或者业务库的数据，了解当前的数据情况，制定清洗规则，ETLjob清洗加工之后，规范之后进入到数据仓库和数据集市中，做到开发过程中提升数据质量。
三、事后对于已经现存的数据，采用质量规则任务监控的方式，定期执行质量监控，通过数据报告导出不满足要求的数据，对于新出现的不满足要求的数据情况，经过分析之后，讲处理方式添加到清洗加工任务中，这种情况是事后处理的方式。
通过以上分析，在事前和事中处理数据质量问题，不会对后续的数据产品造成影响，而质量监控发现问题是事后处理，会对现存的数据存在一定的影响，因此，提升数据质量尽量采用事前或者事中处理方式。但是质量规则监控有一定的必要性，人为探测质量是有限的，而质量规则是无限方式执行。

—

非结构化数据质量管理

非结构化数据质量管理来源于非结构化数据的数据治理，之前写过一篇文章介绍了非结构化数据的数据治理《非结构化数据的数据治理应该怎么做了？》本文重点介绍非结构化数据的质量管理包含的内容。
非结构化数据的质量度量指标依然是准确性、完整性、唯一性、有效性、及时性、规范性。

一、准确性

数据源选择：选择可信、可靠的数据源，避免来自不可靠或不确定的来源的非结构化数据。二、完整性数据文档和元数据完整性：建立非结构化数据的文档和元数据管理机制，记录数据的来源、内容、结构和使用情况，方便数据的跟踪和溯源。文档元数据的完整性。文档内容的完整性，可以通过文档模版检测内容的完整性。三、唯一性数据文档和视频、图片在存储空间中的唯一性。‍‍‍‍‍四、有效性数据文档和视频、图片内容的可用性。对非结构化数据进行采集，并进行数据清洗和预处理，排除噪音、冗余和不完整的部分。这包括去除重复数据、处理异构数据格式和编码等。数据文档和视频、图片元数据的可用性。

数据文档和视频、图片的生命周期是否在有效期范围内。‍

五、及时性数据文档和视频、图片内容的从创建到可用的时间延迟是否在业务使用有效期范围内。六、规范性数据标准化和归纳：对非结构化数据进行标准化和归纳，使其符合一致的数据模式和结构，便于后续分析和应用。例如文本行业主题分类，图片大小标准化‍‍‍‍‍‍数据分类和分类：对非结构化数据进行分类和分类，建立适当的数据分类标准和分类结构，使其易于管理和使用。例如图片主题分类本文列举一些常规的非结构化数据质量管理的处理内容‍‍

质量指标	处理内容
准确性	网站有效性验证
完整性	文档、图片、视频元数据处理和补充、文档内容完整性检测
唯一性	文档、图片、视频唯一性检测
有效性	邮箱有效性检测、文本内容语法正确性检测、特殊符号处理、文章分段处理、视频、图片过滤、元数据的补充、必填字段的补充，多数据源合并
及时性	数据的产生时间是否符合业务限定时间
规范性	内容的行业分类、主题分类、情感分类，内容格式的规范化

以上是质量管理设计到的内容，数据分析，BI报表制作过程中，80%的工作都是做数据清洗和数据整理的工作，因此，提升数据质量可以大大减少数据整理和清洗工作，这也是数据质量管理的必要性。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍
欢迎加入【数据行业交流群】社群，长按以下二维码加入专业微信群，获取最新的行业信息

往期历史热门文章：

基于DataOps的数据开发治理：实现数据流程的自动化和规范化

数据平台：湖仓一体、流批一体、存算分离的核心问题及原因解析