查看原文
其他

分享 | 聊聊大数据质量监控的那些事

The following article is from 数据仓库与Python大数据 Author 诸葛子房

点击上方蓝色字体,置顶/星标

目前10000+人已关注加入我们

  作者

author

诸葛子房,现就职于一线互联网公司,中国Hbase技术社区委员,从事大数据相关工作。

  

热文回顾:携程机票数据仓库建设与经验


01.阿里DQC02.Apache Griffin03.美团DataMan04.京东BDP

在这个信息化时代,你用手机打开微信聊天、打开京东app浏览商品、访问百度搜索、甚至某些app给你推送的信息流等等,数据无时无刻不在产生。


数据,已经成为互联网企业非常依赖的新型重要资产。数据质量的好坏直接关系到信息的精准度,也影响到企业的生存和竞争力。Michael Hammer(《Reengineering the Corporation》一书的作者)曾说过,看起来不起眼的数据质量问题,实际上是拆散业务流程的重要标志。数据质量管理是测度、提高和验证质量,以及整合组织数据的方法等一套处理准则,而体量大、速度快和多样性的特点,决定了大数据质量所需的处理,有别于传统信息治理计划的质量管理方式。

本文主要探讨一二线互联网公司数据质量监控平台(阿里、Ebay、美团、京东)。

01.阿里DQC02.Apache Griffin03.美团DataMan04.京东BDP

一、Data Quality Center(DQC阿里巴巴数据质量监控平台)

1.系统架构图

(1)基于线上业务数据,进行数据采集

(2)基于监控规则库,执行SQL任务,进行计算处理

(3)基于用户规则,发送数据报警(短信、邮件)


2.系统流程图

(1)用户进行规则配置

(2)通过定时的调度任务触发检查任务执行

(3)基于任务配置,获取样本数据

(4)基于计算返回检验结果

(5)调度根据检验结果,决定是否阻断干预(强依赖、弱依赖)


二、 Apache Griffin(Ebay开源数据质量监控平台)

1.系统架构

(1)从准确性、完整性、时效性、唯一性等多个维度进行监控

(2)计算结果存储至ES、HDFS

(3)计算结果metrics展示

(4)支持实时和离线

(5)优势:开源

2.系统技术路线

3.metrics展示


三、 DataMan(美团点评数据质量监控平台)

1.系统架构

DataMan系统建设总体方案基于美团的大数据技术平台。自底向上包括:检测数据采集、质量集市处理层;质量规则引擎模型存储层;系统功能层及系统应用展示层等。整个数据质量检核点基于技术性、业务性检测,形成完整的数据质量报告与问题跟踪机制,创建质量知识库,确保数据质量的完整性(Completeness)、正确性(Correctness)、当前性(Currency)、一致性(Consistency)。

2.metric展示


四、 BDP(京东大数据质量监控平台)

京东数据质量监控系统(简称:数据质量系统) 是数据仓库、数据集市中表的数据变化进行监控。数据质量系统根据用户设定采集项配置、规则项配置、预警规则设置(枚举值),对用户指定的表进行每日定时数据采集、计算,并与历史数据或维表进行比对验证。最终将触发预警规则的异常数据以短信、邮件、App 等方式及时通知给用户。


1.系统架构图

关系型数据库mysql和非关系型数据库HBase作为数据源,进行监控

2.系统流程图

(1)数据监控(2)运行日志(3)数据报警(4)规则配置

3.监控展示


上述主要分析了当前各大公司主要在使用或者开发的数据质量方面的平台,无论是离线数据监控还是实时数据监控,均有涉及。

然而可能你的公司没有这么多的人力或者物力,但是由于数据量的增长,需要考虑数据治理方面的问题,就可以考虑采用开源的平台,在此基础上开发或者优化,毕竟站在前人的肩膀上才能看的更远,走的更快


参考资料:

  1. 美团点评技术专栏(DataMan-美团旅行数据质量监管平台实践

  2. 开源中国(开源数据质量解决方案 Apache Griffin)

 



欢迎大家扫描下方二维码订阅「数据仓库与Python大数据」内容并推荐给更多数据方向的朋友,希望有更多机会和大家交流。


----  End  ----


欢迎加入数据技术交流群。进群方式:请加同学微信(微信号:iom1128),回复:数据,会自动拉你进群。


热文回顾


  1.   面试系列 | 大数据、数仓大厂面试锦囊(二)

  2.   面试真经 | 大数据、数仓面试灵魂30问(一)

  3.  干货 | 携程机票 数据仓库 建设与经验

  4. 知乎大神推荐,大数据必读经典书籍

  5. 从 Spark Streaming 到 Flink:B站

  6. 数仓字段血缘解析实现—hive版

  7. 一个校招面试官的1天



觉得内容不错的话 请分享到朋友圈哦~
▼ 福利时刻 ▼ 


01. 后台回复「经典」,即可领取大数据数仓经典书籍。

02. 后台回复「中台」,即可领取大厂中台架构高清ppt。

03. 后台回复「加群」,或添加小助微信IDiom1128  拉您入群(大数据|数仓|分析|Flink|资源)或领取资料。

Q: 关于数据质量,你还想了解什么?

欢迎留言区与大家分享

觉得不错,请把这篇文章分享给你的朋友哦

入群请联系小助手:iom1128『紫霞仙子』

更多精彩,请戳"阅读原文"到"数仓之路"查看

 

 

       !关注不迷路~ 各种福利、资源定期分享        

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存