宁缺毋滥:数据质量第一
“如果根据这些数据做出的操作、决策和规划,符合之前的预期,那么这些数据就是高质量的” Data are of high quality if they are fit for their intended uses in operations, decision making and planning (J. M. Juran).
1,清楚质量的标准是什么?
2,提升数据质量要怎么做?
一、对数据进行探查剖析
对于数值型的:统计类方法:如求最值,平均值,模,百分比,标准差,频率,基数,离散等; 聚合类方法:如求和,计数等 对于字符串:模式匹配:如名称,地址格式验证。