查看原文
其他

面试坑杀新人指南,第二篇:数据哪来

2017-08-25 陈老师 R语言中文社区

第一篇戳:面试坑杀新人指南,第一篇:销售波动


美P党是很容易吸引HR小美眉的面试者,却是用人部门主管经理们很讨厌的角色。这些哥们喜欢在附件里挂一个很美的PPT,声称这是自己的作品(所以叫他们美P党,因为一般挂附件的ppt真的很美)。HR小美眉们不懂行,看到好看的图表,配图就砰然心动。然后就推荐到用人部门这里了。

然而用人部门主管们对这玩意却是深恶痛绝。美化的PPT,就和美图秀秀P过的微信头像,各个都是尖脸大眼,鬼知道真人长什么样啊!看到一张美女脸,心理十二分打鼓:


这个PPT真是你自己做的?不是你从哪里抄来了?

这个PPT真是你自己独立做的?不是哪个高人指点带出来的?

这个PPT真是你自己全部做的?不是准备好了数据你做个P?


而且随着kaggle的流行,现在模型也成了重灾区,各个应届毕业生都是建模高手。HR案头一天收到200个泰坦尼克经验的简历,搞得小美眉都来问了:最近是哪个古董公司在捞泰坦尼克吗?怎么人人都在泰坦尼克。身为数据主管的你,还得耐心解释:别慌,马上人人都买波士顿房,人人都插鸢尾花呢。


为了节省主管宝贵的时间,提高HR小美眉识别真假能力,要是有个:简单的,即使不会模型的人也能问的问题就好了。这个问题可以这样问:你这个数是哪里来的?


比如一个面试的哥们正在涛涛不绝讲ppt,HR可以半路打断他,就指着其中一个数据问:这个数是哪里来的?特别是那些用户特殊的数据,比如性别年龄职业收入爱好。揪着一个连问几句:


你这里是哪里来的?

数据是人工采集?用户自填?第三方提供?

人工采集的你们谁去采?谁负责质量?怎么保证质量?

用户自填的你们怎么审核?怎么保证质量?

第三方提供你们怎么审核?怎么保证质量?

真实性比例是多少?这个比例你觉得会不会干扰业务判断?

不用扯整体流程,我就问这个字段,就这个,男女,你怎么就知道他是女的?


基本上不懂装懂的,网上抄袭的,没有经验的菜鸟都会活活被坑死。或者顾左右而言他,或者说:“这个行业就是这样的啊!”或者鼓起勇气憋一个数出来,然后在你追问下四分五裂,两股战战几欲先走。或者干脆就开始额头冒汗手扣指甲——这时候即使是不懂模型的小美眉也会看出来这是心慌发虚的表现,自然练成火眼金睛了。


踢出菜鸟找真正大神,就这么简单!


——本文还差一点点就完了——


之所以这个套路会管用,是因为新手们大多把注意力放到了模型、算法、思路、结构图上边去了。做PPT的看到麦肯锡之类报告就高潮,做算法的跑一边泰坦尼克就以为自己真的可以去撞冰山了。然而,数据分析的本质是数据,真实可靠的数据从来都不是天上掉下来的,也不是“假设”“剔除”“分析”出来的。而是结结实实的需要完善的业务流程、采集、审核机制。哪些新手们看不上的,看似简单的分析方法,其实大部分是切合实际情况,退而求其次的方案。


实际上无论是人工采集、用户自填、用户行为、第三方提供,都有相当局限性

1.人工采集:给补贴就造假,不给补贴就不填,很正常啊,采集员月薪才多少!

2.用户自填:陈老师到哪都留147开头的手机号……

3.用户行为:大量死在一次操作的用户怎么办?幸存者偏差怎么办?

4.第三方提供:呵呵呵呵呵呵!不怕被深圳警方抓吗(深圳警方曾一次出动500警力横扫非法贩卖公民信息的大数据公司)


所以结合业务需求,在有限度的真实性范围内解决问题才是正道。而不是拼谁的PPT漂亮,谁的模型复杂。数据分析的目的是产生效益!就这么简单。当然,理解了这一层的都不是菜鸟了,老鸟们不会栽在这里。


更多精彩干货请戳~~~

求职必胜,提升面试成功率靠谱攻略

陈老师基于3年管理经验及140份简历实战情况,总结出提升面试成功率靠谱经验,并提供了可供平时训练的操作指南。

点击阅读原文立即学习

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存