其他
数据治理体系之四-质量管理
01
—
结构化数据制定质量规则
通过以上表可以分析到,创建质量规则的方式有两种,如下图所示:
1)对数据表的元数据,选取标准,使用标准和元数据进行映射比较,元数据是否满足标准的要求,数据标准和元数据映射的过程称为质量规则。
2)对数据表的数据集采用统计函数,统计结果和预期结果进行比较,是否满足要求。统计函数结果与预期结果比较的过程称之为质量规则。
以上是创建质量规则的基本原理,创建质量任务的过程如下图所示:
1)按照对象方式创建质量规则任务,选择一个对象比如一个表,选择不同的标准和统计函数进行映射,形成质量任务。
2)按照标准的方式创建质量规则任务,选择一个标准,比如完整性标准,然后选择多个对象进行映射,形成质量任务。
创建完成质量任务,设置调度周期,后台由调度系统定期按照一定的频率执行任务,可以实现质量的监控。每次扫描数据都是全量扫描,因此对于增量数据是否满足要求都会检查出来。
02
—
如何提升数据质量
数据仓库和数据集市的数据模型统一采用数据标准建模。
二、事中对于数据报表开发过程中,如果是业务库数据进入到数据湖中后,通过数据探查数据湖或者业务库的数据,了解当前的数据情况,制定清洗规则,ETLjob清洗加工之后,规范之后进入到数据仓库和数据集市中,做到开发过程中提升数据质量。
三、事后对于已经现存的数据,采用质量规则任务监控的方式,定期执行质量监控,通过数据报告导出不满足要求的数据,对于新出现的不满足要求的数据情况,经过分析之后,讲处理方式添加到清洗加工任务中,这种情况是事后处理的方式。
通过以上分析,在事前和事中处理数据质量问题,不会对后续的数据产品造成影响,而质量监控发现问题是事后处理,会对现存的数据存在一定的影响,因此,提升数据质量尽量采用事前或者事中处理方式。但是质量规则监控有一定的必要性,人为探测质量是有限的,而质量规则是无限方式执行。
03
—
非结构化数据质量管理
非结构化数据的质量度量指标依然是准确性、完整性、唯一性、有效性、及时性、规范性。
一、准确性
数据源选择:选择可信、可靠的数据源,避免来自不可靠或不确定的来源的非结构化数据。二、完整性数据文档和元数据完整性:建立非结构化数据的文档和元数据管理机制,记录数据的来源、内容、结构和使用情况,方便数据的跟踪和溯源。文档元数据的完整性。文档内容的完整性,可以通过文档模版检测内容的完整性。三、唯一性数据文档和视频、图片在存储空间中的唯一性。四、有效性数据文档和视频、图片内容的可用性。对非结构化数据进行采集,并进行数据清洗和预处理,排除噪音、冗余和不完整的部分。这包括去除重复数据、处理异构数据格式和编码等。数据文档和视频、图片元数据的可用性。数据文档和视频、图片的生命周期是否在有效期范围内。
五、及时性数据文档和视频、图片内容的从创建到可用的时间延迟是否在业务使用有效期范围内。六、规范性数据标准化和归纳:对非结构化数据进行标准化和归纳,使其符合一致的数据模式和结构,便于后续分析和应用。例如文本行业主题分类,图片大小标准化数据分类和分类:对非结构化数据进行分类和分类,建立适当的数据分类标准和分类结构,使其易于管理和使用。例如图片主题分类本文列举一些常规的非结构化数据质量管理的处理内容质量指标 | 处理内容 |
准确性 | 网站有效性验证 |
完整性 | 文档、图片、视频元数据处理和补充、文档内容完整性检测 |
唯一性 | 文档、图片、视频唯一性检测 |
有效性 | 邮箱有效性检测、文本内容语法正确性检测、特殊符号处理、文章分段处理、视频、图片过滤、元数据的补充、必填字段的补充,多数据源合并 |
及时性 | 数据的产生时间是否符合业务限定时间 |
规范性 | 内容的行业分类、主题分类、情感分类,内容格式的规范化 |
欢迎加入【数据行业交流群】社群,长按以下二维码加入专业微信群,获取最新的行业信息
往期历史热门文章:
基于DataOps的数据开发治理:实现数据流程的自动化和规范化