数据质量有多重要?一篇文章告诉你数据治理的重要性
01 数据治理问题场景
02 数据质量的重要性
数据质量为什么至关重要?因为拥有高质量的数据可以让您更好地了解任何情况,从而更精准地执行任何事情。反之亦然。
伴随着技术的进步,组织或者企业能够收集大量的数据,用好这些数据已成为焦点。然而,由于以下原因,很多组织或者企业并没有实施数据质量计划:
没有业务部门负责数据质量问题
数据质量需要跨职能合作
它要求组织认识到数据质量是一个重要问题
它需要数据质量准则
它需要投入财力和人力资源
它被认为是非常人力密集的
投资回报往往难以量化
看起来,挑战大于好处。
但是,数据质量务必重视,原因有三。
原因一:成本
数据质量差,是IT项目失败的主要原因,也是客户流逝背后的驱动因素之一。
原因二:合规
质量差的数据会带来重大的法律或者声誉风险。一些例子如下:
数据缺失导致信用风险不准确
信用记录不完整致使风险评估错误
监管违规
原因三:决策
03 数据质量常见问题
在前面的场景案例中,我们可以发现有如下几个数据质量问题:
数据延迟,导致业务无法在正常时效内获得数据结果。
数据错误,导致数据结果完全不可信,以致无法使用。
数据恢复慢,问题发生后,排查分析耗时长,数据恢复时间慢。
发现滞后,数据开发晚于业务人员发现数据异常,导致影响已传导到数据应用端。
04 数据质量问题原因
数据平台问题:平台不稳定、队列资源不足等,导致作业运行延迟、报错。 数据开发问题:数据开发人员的任务脚本性能太差,计算严重耗时,导致数据延迟;或是代码逻辑设计有问题,导致数据计算有误。 上游系统异常:上游源系统异常,数据文件晚到,导致下游依赖作业延迟。
05 数据质量治理
出现问题不可怕,可怕的是出现问题后,我们毫无感知,不能做到“早发现、早处理、早恢复”,以致问题直接传导到业务方,影响业务的开展工作。
在大数据产品矩阵中,我们使用数据质量监控平台来支持数据质量的监控、治理。
数据质量监控平台,主要是对Hive数仓中的库表数据的质量进行监控,包括表级别和字段级别的数据进行监控,以减少或避免由数据质量引起的事故和损失。
借助数据质量监控平台,我们通过实施下面几个关键步骤来进行数据质量的治理:
(1)配置监控规则
除内置了丰富的校验规则,质量监控平台还支持SQL自定义监控规则,极大地满足各种数据监控场景。
(2)监控告警
当校验规则识别异常时,需要通知负责人进行跟进处理,质量监控平台支持以电话、邮件和短信等方式通知作业属主。作业属主收到告警后,需及时地处理和关闭告警,否则告警将一直挂在那,在后面的告警响应度中会被稽核到,上报其领导。
06 数据质量评价体系
在执行了一系列的举措来提高数据质量后,如何来验证数据质量的治理效果呢?
根据企业本身的数据特点,设计并构建了一个数据质量七维评价模型,如下图所示:
数据质量评价模型,分别从数据完整性、监控覆盖率、告警响应度、作业准确性、作业稳定性、作业时效性、作业性能分等七个维度来考量平台的数据质量,基于该模型,还设计了“数据质量分”这个指标,来直观地反映平台数据质量的建设水平及健康状况。
数据质量七维模型的评价视角及其计算口径:
1、数据完整性
☆ 考量数据项信息是否全面、完整、无缺失
★ 指标公式:表完整性和字段完整性的平均值
2、监控覆盖率
☆ 确保数据遵循统一的数据标准或规范要求
★ 指标公式:监控的高价值作业个数/高价值作业总个数
其中,高价值作业是指作业价值分在80分以上的作业
3、告警响应度
☆ 通过日常管理、应急响应,降低或消除问题影响,避免数据损毁、丢失
★ 指标公式:已处理告警个数(本周)/告警总个数(本周)
4、作业准确性
☆ 考量数据是否符合预设的质量要求,如唯一性约束、记录量校验等
★ 指标公式:1 - 告警作业个数(本周)/监控作业总个数
5、作业稳定性
☆ 考量作业的运行稳定性,是否经常报错,导致数据事故
★ 指标公式:1 - 错误作业个数(本周)/作业总个数
6、作业时效性
☆ 考量数据项信息可被获取和使用的时间是否满足预期要求
★ 指标公式:1 - 延迟的高价值作业个数(本周)/高价值作业总个数
其中,基准时间为作业近30天平均完成时间加30分钟,作业晚于基准即延迟
7、作业性能分
☆ 考量作业的执行效率和健康度,诊断作业是否倾斜等性能问题
★ 指标公式:1 - 危急作业个数(本周)/作业总个数
从各质量维度的评价视角和指标公式可以发现,虽然数据质量监控的是表及字段的质量情况,但我们的质量分是设定在库这个层级。这么设计主要是为了更好地责任划分、统筹治理。
比如在银行业,每个库都有其对应的所属分层(如明细层、汇总层、应用层等),且每个库都有对应的库负责人,所以到库这个层级,我们能更好的分而治之,由库负责人对库的质量水平负责。
基于数据质量模型,我们还配套对应的数据质量监控报告。在报告中我们不仅能看到数据平台的整体质量评分,了解质量发展趋势,更能通过多维分析、单维深钻来了解平台的质量问题根源。
多维分析:详细展示七个质量维度的评分及趋势变化,每个维度下还配有TOP榜,用来展示低质量的库排名,督促库负责人进行优化、治理;
单维深钻:每一个质量维度都能从整体下钻到具体库及表,深入了解该维度质量评分低的具体原因,以便针对性地解决问题、提高质量;
来源:本文转自公众号数据治理体系
企业如何更好进行数字化转型?12月8日,DevOps 国际峰会 2022 · 北京站,您想了解的质量、效能、数字化转型,感兴趣的都在这里!
一文带你搞懂 CDN 的技术原理
“高效运维”公众号诚邀广大技术人员投稿
投稿邮箱:jiachen@greatops.net,或添加联系人微信:greatops1118。