查看原文
其他

你知道你用的数据有多“脏”吗?

知城酱 新一线城市研究所
2024-09-07


数据分析中哪个环节最重要?


可能很多小伙伴第一个想到的是数据采集或者建立模型。


但资深数据打工人都会沧桑一笑:数据清洗。


洗数据到底有多重要?


举个栗子,一家健身房想进驻有阿迪达斯门店的商圈。如果不做数据清洗,直接分析原始数据,它最后选到的邻居可能不是阿迪达斯的品牌店,而是阿迪王、三叶草奶茶铺和三叶草养身推拿。


真是一顿分析猛如虎,数据不洗白辛苦。


那洗数据费时吗?


据不完全统计,数据分析师一半以上的时间都是在洗数据,可以说是数据界最勤奋的清道夫了。


为什么要洗数据,从原始数据到知城出品又要经历哪些工艺?


带着这个问题,知城酱对知城的数据挖掘师大象进行了一次采访。



知城酱:大象啊,把您放到冰箱里……不,把数据放到知城上到底分几步?


🐘 :简单说就是分3步:数据清洗—数据加工-数据入库。但是每个环节拆分开又有一套独立的处理流程,比如数据清洗分机洗和手洗,数据加工也有简单加工和深加工。数据入库并不是简单的数据搬运,每一条数据都要经历十八道处理工序。


知城酱:那先讲讲数据清洗吧。我们经常听到数据很“脏”这个说法,到底什么是脏数据?


🐘 :干净的数据整齐划一,脏数据各有各的脏乱差。一般脏数据分4种:缺失数据、不规则的异常数据、重复数据和不一致数据。具体来说:


缺失数据很好懂,就是一条数据里,该填的字段是空的。


异常值就是有数据中有个别值明显地偏离了其他小伙伴,或者是明显不符合常识的,比如年龄500岁。


重复数据主要是因为反复录入同一条数据导致的,也是需要清洗的数据


不一致数据是指格式和内容不一致的数据。比如服装店记录客人的信息,一条用公斤单位记录体重,另外一条用斤记录,这种数据就需要统一单位。


反过来验证一个数据是否干净也是4个标准:完整性、全面性、合法性和唯一性。


知城酱:原来数据还有不同的脏法……那不同的脏数据要怎么清洗呢?


🐘 :我们有一套完整的清洗流程。不过干说有点枯燥,拿做饼来举例吧。


做饼的第一步是准备原料。数据清洗也一样。基础数据清理就像筛面粉,把错行、重复、不一致的数据都筛掉,留下整齐统一的数据。


面粉筛好之后,下一步就是要把水和面搅匀。数据清洗也一样,因为我们采集数据的渠道和方式很多,在数据清洗时就要把各种渠道的数据建立对应关系,把多源数据合并。同时通过交叉比对,也能验证数据的有效性。


在和面的时候,你会发现水和面最适合的混合比例,还有适合发面的力度和时间等等。在数据清洗中,我们也会建立关联关系,包括索引表、关键词表、数据规范等等,这样数据清洗也会更精准。


洗数据的每一步都需要机器清洗(机洗)+人工校验(手洗)。就像是机打和手打要交替进行一样。


知城酱:数据清洗真是一项手艺活儿!那数据洗干净之后,应该如何加工呢?


🐘 :我们继续拿做饼举例。面团活儿好之后,我们要对饼进行基础加工和深加工。


比如做一个最古早味的饼,做最基本的加工就可以了。就像对数据做基础的求和、百分比分析一样。


如果要计算商业区实力,生活便利度,就会用到核密度分析、空间连接等空间统计法。


如果要计算城市交通枢纽性,那就要用到复杂网络分析法。


如果要计算商业资源区域中心度,要用到企业关联网络法。


知城酱:明白了,就像卷饼、蛋饼、烙饼一样,同样的面团,不同的工艺。(吞口水)


🐘 是这个道理。最后我们再把数据规范和关联结果入库,这批数据就算正式入库了。


-end-


为了让大家用上干净放心的数据,知城手艺人真的付出了很多。在此认真地感谢象师傅、伏师傅、陈师傅的辛勤付出!


知城开放平台上线以来,知城酱也收到了很多对API数据的问询(还在爬爬爬数据?我们打包了337个城市数据,并发送了一个接收请求 ),感受到了大家对数据的热情。但在知城下载数据还有其他方法,大家可以按需使用:


① 开通会员

如果是个人用途,比如写论文或者做研究需要调用数据,可以直接购买知城会员,下载你所需要的数据。知城的使用说明,可以看这篇复习→我们做了个能帮你“看透”一座城市的数据平台 | 知城正式上线



② 数据采购

如果项目需要大批量的数据下载,可以联系知城进行定向采购。尤其是一些知城上没有体现的数据,可以提出需求,开启隐藏点单功能。


③ API接入

如果是有中台能力的企业方,那选择api接入数据就更加合适。


上知城,用数据更放心

咨询电话

021-22004339 (周一至周五10:00~18:00)

联系邮箱

xinyixian@yicai.com

联系地址

上海市静安区南京西路651号广电大厦(200041)


最后做一个小预告,知城的商圈模块正在紧锣密鼓地进行下一个版本的迭代,另外我们也上新了一批数据,详情请听下周分解。


你在做分析的时候踩过哪些跟数据相关的坑?或者有哪些数据清洗的经验?在评论区留言跟知城酱聊聊吧~


也欢迎你添加知城酱的微信,给知城提建议或意见。

点击关键词 看我们做过什么
城市榜单
2020城市商业魅力排行榜
2019城市商业魅力排行榜
2018城市商业魅力排行榜
2017城市商业魅力排行榜
2016城市商业魅力排行榜
运动城市 创新城市 城市消费力 
商业分析
 本土便利店 外资便利店 城市便利度 全家
对手品牌1.0 对手品牌2.0·H&M 对手品牌3.0·国民小吃
 经济型酒店 中档酒店 喜达屋在苏州 金鸡湖
 中华第一商圈 商圈栅格
Airbnb 冰淇淋店 餐厅排队 诚品书店 低线城市 电竞
星巴克选址 网红餐厅 电影票房 盒马选址 儿童业态
电影宣传 公共自行车 共享单车 海淘 中超 咖啡馆 
快递 母婴消费 奶茶店 沙拉 社区商业 生鲜电商 
手机 物流地产 下厨房 鲜花 新能源汽车 
演唱会直播 宜家 Kindle 新西兰 租车  
城市空间
城市天际线 宠物医院 大学城 单身社会 电影院 公园 
国家级新区 健身房 老建筑修复 联合办公 摩天轮 
高楼 文创 泳池 瑜伽馆 DIY
个别城市
上海·城市扩张 深圳·城中村 京津冀城市群
重庆·新中心 上海·路网 乌镇·戏剧
香港·商业 苏州·新旧文化 摇滚城市
苏州·扩张路径 义乌 知乎
城市交通
地铁路线 地铁系统 地铁线 地铁拥挤 
飞机晚点 高铁站 12306 公交运转 
共享汽车 交通枢纽城市 买车决策 一站地 
拥堵 有轨电车 BRT
城市人
白领午餐 电影节 海归 商住 睡眠 相亲 找工作 
 装修 自由行 运动 民宿 涂鸦 双城生活
All about 城市
撤县设区 城市餐饮结构 城市群中心 
抖音网红城市 二手房 方言圈 房价 合作办学
开发区 垃圾处理 人口 日出 日系 特色小镇
排水系统  县级城市消费 夜场电影 夜生活
修改于
继续滑动看下一个
新一线城市研究所
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存