数据治理:数据清洗的5个步骤和最佳实践
笔者在《数据治理:说起来容易,做起来难!》一文中,曾提到:数据治理不仅是一个苦活、累活,还是个受力不讨好,经常背锅,领导看不见价值的活。
数据治理需要对每个数据域、数据实体、数据条目、数据项进行梳理和标准化,甚至有时候需要人工逐条、逐字段的定义数据标准、核实数据质量。
数据治理人员不仅要有良好的数据思维,还要有足够的细心、耐心和体力才能打磨出适合企业的数据标准,实现企业数据质量的不断提升。
今天来聊一聊数据治理中最磨人的活:数据清洗
01
数据清洗到底是什么?
数据清洗也叫数据清理,是指从数据库或数据表中更正和删除不准确数据记录的过程。广义地说,数据清洗包括识别和替换不完整、不准确、不相关或有问题的数据和记录。
市场营销:使用了低质量数据的广告活动并联系不相关的优惠用户,不仅降低了客户满意度,而且错过了重大的销售机会。 销售: 销售人员由于没有完整、准确的数据而未能联系以前的客户。 合规性: 任何不符合客户数据隐私规则的线上业务会受到监管部门的处罚。 生产操作: 依据低质量操作数据配置生产机器,可能导致制造公司出现重大问题。
改进业务实践: 想象一下,如果您的数据记录中都没有重复、错误或不一致的数据。那么您所有关键的业务活动效率会提高多少? 提高工作效率: 使企业能够专注于核心业务,而不是专注于找到正确的数据,或者由于不正确的数据而不得不进行更正,这一点至关重要。 干净的高质量数据可以使企业成为行业的标杆。 更快的销售周期: 营销决策取决于数据,为营销部门提供尽可能高质量的数据意味着销售团队可以更好、更多的转化潜在客户。 更好的决策: 我们之前提到过这个问题,但这个问题很重要,所以有必要重复说一遍。更好的数据=更好的决策。
强制约束:某些列不能为空
数据类型约束:列中的值必须为特定数据类型
范围约束:数字或日期的最小值和最大值
外键约束:列中的一组值在另一个表中是唯一值
唯一约束:某字段的值在数据集中必须是唯一的
这些不同的特征结合起来可以帮助企业拥有高质量的数据并可用于各种不同业务目标,同时对不确定数据的假设量达到最少。
清理数据的5个步骤
想要更干净的数据?有时,考虑引入外部咨询顾问来帮助您起步会很有帮助。但是在执行此操作之前,企业可以遵循几个常规步骤,以便进入更好的数据清理状态:
负责人:需要一名数据清洗总体负责人,一名首席数据官(CDO)-如果公司任命了该职位的话。此外,还需要为不同的数据集分配业务和技术的负责人。 指标:理想情况下,数据质量应用1-100间的某个数字标注。虽然不同的数据可能具有不同的数据质量,但有了总体的数字度量可以帮助企业衡量其持续改进的情况。 行动: 应确定一组明确的行动计划以启动数据质量管理。随着时间的推移,这些行动方案需要随着数据质量的变化和公司优先级的变化而更新。
如果数据在成为系统中的脏数据(或重复数据)之前可以修复,则可节省大量的时间并省去很多工作量。例如,如果表单过于拥挤,需要填充过多的字段,那么这些表单中便存在数据质量问题。鉴于企业不断生成更多的数据,因此,在源端修复数据至关重要。
通过数据质量监控工具实现对企业数据的实时测量,提升数据质量,确保数据数据准确性。
标准化:确认每列中存在相同类型的数据。 规范化:确保所有数据都一致地记录。 合并:将多条重复的记录合并为一条有效、准确的记录。 聚合:对数据进行排序,并将其以汇总形式表示。 筛选:缩小数据集范围,仅包含需要的信息。
请记住,对于大型数据集,几乎不可能实现100%的清洁度。
数据清洗的最佳实践
<END>
注部分内容源自:aimultiple.com
原文链接:https://research.aimultiple.com/zh/category/data-zh-hans/data-cleaning-zh-hans/