01
你的数据也需要这样一个“超级医生”
越来越多的企业领导者开始意识到大数据对企业的巨大影响,但是,有一个重要的提醒:如果企业的数据不准确,不完整且不一致,则在做出业务决策时可能会导致重大失误。实际上,Gartne估计数据质量不佳对企业的平均财务影响为每年1,500万美元,这意味着数据质量发挥着重要作用。
在大数据时代的当下,数据分析为企业的决策提供强有力支撑,然而,数据质量却是数据分析准确性的前提,因此,我们对数据质量的管控必不可少。
数据存在哪些质量问题
准确性问题:数据记录可能出现错误或者数据本身存在异常,比如字符型数据在数据库中存取时可能出现乱码现象;年龄一般介于1-100之间;概率性的取值需要在0-1之间或使用百分比表示。然而,有些错误数据在没有表现出明显异常时,是很难被直观发现的。
完整性问题:数据量大时很可能出现数据行或某行数据的某些字段的缺失,而数据的完整性是数据质量的基础。
一致性问题:同类数据的编码和格式是否一致,比如网站中用户id设置为15位数,图书馆设置图书的编码格式为一个大写英文字母表示分类,加上4位数字表示摆放位置,一致性问题是数据质量检测中相对复杂的部分。
及时性问题:对分析师来说,需要第二天就能看到数据,如果数据过了几天才生成,那这些数据再准确,也丧失了意义。所以数据的及时性也是数据质量检测的重要组成部分。
02
有效检测数据的质量问题
△13种检查规则
子曰:工欲善其事,必先利其器。作为一款数据治理产品,如何能够“慧眼”诊断出数据中存在的各类问题,离不开质量管理平台内置的核心“武器”——质量评估算法。
亿信华辰数据质量管理平台提供了13种检查规则,从各方位对数据的质量问题进行检测。其中值域检查、规范检查、逻辑检查、重复数据检查、离群值检查、波动检查、平衡性检查和sql脚本等规则能有效检测数据的准确性;空值检查、记录缺失检查和引用完整性检查能有效检测数据的完整性;规范检查和数据集检查能有效检测数据的一致性;及时性检查能有效检测数据的及时性。
面对不同的数据用途,我们可以针对性选取一种或多种不同规则结合进行检查,对于不需要检查的特殊字段可以采用例外处理,从而突出其他字段的检查效果。最终形成的检查结果也能有效定位到具体错误的数据行,便于进行修改,提高数据的质量。【相关:构建数据质量规则库】
03
不同维度的质检结果分析与展示
△质检报告展示图
数据质量报告是通过图文并茂的报告形式将数据质量问题进行周期性的说明,可供主管领导查看及对外发布。用户可使用生成的质检结果表、规则情况以及错误数据量等,制作自定义分析报表,更简单、明了的查看数据的质量。
亿信华辰数据质量管理平台就能针对提供数据质量检查报告,例如上图报告中显示了不同机构的数据质量评分情况以及各级次检查错误情况,还能查看各机构使用的各个规则分别产生的错误数据量,明确指出具体哪个部分数据在某规则下的错误数据量最大,引起重视;除了分机构展示,用户还能查看在某个数据级次下不同数据期的数据质量变化趋势以及在不同规则检查下的数据质量比较情况。【一目了然的数据质量报告怎么整】
04
小结
综上所述,数据质量对企业和个人都有密切联系,数据质量产品根据原始数据建立主题集,进行具体规则检测,并对数据的质量问题进行详细分析,从而有效提高数据质量水平。
亿信华辰数据质量管理平台已在卫生、法院、电力、银行各类不同行业领域应用,让你从容解决数据质量问题。数据质量平台好比“超级医生”,在她的“慧眼”下,通过利用各种“手段”,对数据进行全方位的“体检”,形成全面的“体检报告”,让你对数据的健康状况了如指掌,辅助制定有针对性的改进措施,全面提升数据治理水平和数据质量。【点击查看具体案例】