你知道你用的数据有多“脏”吗?
数据分析中哪个环节最重要?
可能很多小伙伴第一个想到的是数据采集或者建立模型。
但资深数据打工人都会沧桑一笑:数据清洗。
洗数据到底有多重要?
举个栗子,一家健身房想进驻有阿迪达斯门店的商圈。如果不做数据清洗,直接分析原始数据,它最后选到的邻居可能不是阿迪达斯的品牌店,而是阿迪王、三叶草奶茶铺和三叶草养身推拿。
真是一顿分析猛如虎,数据不洗白辛苦。
那洗数据费时吗?
据不完全统计,数据分析师一半以上的时间都是在洗数据,可以说是数据界最勤奋的清道夫了。
为什么要洗数据,从原始数据到知城出品又要经历哪些工艺?
带着这个问题,知城酱对知城的数据挖掘师大象进行了一次采访。
知城酱:大象啊,把您放到冰箱里……不,把数据放到知城上到底分几步?
🐘 :简单说就是分3步:数据清洗—数据加工-数据入库。但是每个环节拆分开又有一套独立的处理流程,比如数据清洗分机洗和手洗,数据加工也有简单加工和深加工。数据入库并不是简单的数据搬运,每一条数据都要经历十八道处理工序。
知城酱:那先讲讲数据清洗吧。我们经常听到数据很“脏”这个说法,到底什么是脏数据?
🐘 :干净的数据整齐划一,脏数据各有各的脏乱差。一般脏数据分4种:缺失数据、不规则的异常数据、重复数据和不一致数据。具体来说:
缺失数据很好懂,就是一条数据里,该填的字段是空的。
异常值就是有数据中有个别值明显地偏离了其他小伙伴,或者是明显不符合常识的,比如年龄500岁。
重复数据主要是因为反复录入同一条数据导致的,也是需要清洗的数据。
不一致数据是指格式和内容不一致的数据。比如服装店记录客人的信息,一条用公斤单位记录体重,另外一条用斤记录,这种数据就需要统一单位。
反过来验证一个数据是否干净也是4个标准:完整性、全面性、合法性和唯一性。
知城酱:原来数据还有不同的脏法……那不同的脏数据要怎么清洗呢?
🐘 :我们有一套完整的清洗流程。不过干说有点枯燥,拿做饼来举例吧。
做饼的第一步是准备原料。数据清洗也一样。基础数据清理就像筛面粉,把错行、重复、不一致的数据都筛掉,留下整齐统一的数据。
面粉筛好之后,下一步就是要把水和面搅匀。数据清洗也一样,因为我们采集数据的渠道和方式很多,在数据清洗时就要把各种渠道的数据建立对应关系,把多源数据合并。同时通过交叉比对,也能验证数据的有效性。
在和面的时候,你会发现水和面最适合的混合比例,还有适合发面的力度和时间等等。在数据清洗中,我们也会建立关联关系,包括索引表、关键词表、数据规范等等,这样数据清洗也会更精准。
洗数据的每一步都需要机器清洗(机洗)+人工校验(手洗)。就像是机打和手打要交替进行一样。
知城酱:数据清洗真是一项手艺活儿!那数据洗干净之后,应该如何加工呢?
🐘 :我们继续拿做饼举例。面团活儿好之后,我们要对饼进行基础加工和深加工。
比如做一个最古早味的饼,做最基本的加工就可以了。就像对数据做基础的求和、百分比分析一样。
如果要计算商业区实力,生活便利度,就会用到核密度分析、空间连接等空间统计法。
如果要计算城市交通枢纽性,那就要用到复杂网络分析法。
如果要计算商业资源区域中心度,要用到企业关联网络法。
知城酱:明白了,就像卷饼、蛋饼、烙饼一样,同样的面团,不同的工艺。(吞口水)
🐘 :是这个道理。最后我们再把数据规范和关联结果入库,这批数据就算正式入库了。
-end-
为了让大家用上干净放心的数据,知城手艺人真的付出了很多。在此认真地感谢象师傅、伏师傅、陈师傅的辛勤付出!
知城开放平台上线以来,知城酱也收到了很多对API数据的问询(还在爬爬爬数据?我们打包了337个城市数据,并发送了一个接收请求 ),感受到了大家对数据的热情。但在知城下载数据还有其他方法,大家可以按需使用:
① 开通会员
如果是个人用途,比如写论文或者做研究需要调用数据,可以直接购买知城会员,下载你所需要的数据。知城的使用说明,可以看这篇复习→我们做了个能帮你“看透”一座城市的数据平台 | 知城正式上线
② 数据采购
如果项目需要大批量的数据下载,可以联系知城进行定向采购。尤其是一些知城上没有体现的数据,可以提出需求,开启隐藏点单功能。
③ API接入
如果是有中台能力的企业方,那选择api接入数据就更加合适。
上知城,用数据更放心
▽
▽
咨询电话
021-22004339 (周一至周五10:00~18:00)
联系邮箱
xinyixian@yicai.com
联系地址
上海市静安区南京西路651号广电大厦(200041)
最后做一个小预告,知城的商圈模块正在紧锣密鼓地进行下一个版本的迭代,另外我们也上新了一批数据,详情请听下周分解。
你在做分析的时候踩过哪些跟数据相关的坑?或者有哪些数据清洗的经验?在评论区留言跟知城酱聊聊吧~
也欢迎你添加知城酱的微信,给知城提建议或意见。