如何作大死地为你的创业公司招聘第一位数据科学家?
作者:Hello 陈然!
链接:https://zhuanlan.zhihu.com/chenran
来源:知乎专栏
数据应用学院 授权转载
前两天读了一篇文章,讲一个创业公司招收第一位数据科学家的虚构故事,充满雷坑,让人读起来妙趣横生。
在数据方面工作两年,感觉深有同感,因为原文是英文,在这里简单翻译,与大家分享。
有能力的还是读原文:来自 Monica Rogati 的 How not to hire your first data scientist - Hacker Noon
以下是正文
你,
是一个创业公司的创始人。
你内心深处深深地了解,为了跟上创业的潮流,需要搞一搞“大数据计划”(甚至“人工智能计划”)。
你的投资者和客户都在跟你不停地谈论机器学习(甚至深度学习)。
你已经意识到,这不是一个为什么要做的问题,而是一个何时完成的问题。
所以,
你打算招聘你的第一位数据科学家,
一个应届生
(毕竟有工作经验的极难招聘,并且太贵)。
这人有博士学位
(所以你还可以在跟客户和投资人谈话的不经意间提提“我们有巨牛的博士在搞算法”)。
博士们对于即将开始完成的机器学习项目充满了兴奋!
当然,你也是!
你觉得一切都会 顺 风 顺 水 。
你的数据科学家开始他的工作了,
准备好收集公司的数据,并且建立模型,
这一切正如你期待的那样。
在学校的时候,这些博士生使用的都是已经整理好、沿用了多年的数据。
他们当然知道现在情况不一样了,需要自己准备数据了,但这完全不是问题。
你的公司已经有长达一年的日志数据存在 S3 上,可以拿来当做数据源,进行挖掘和训练模型。
如何思考数据科学的韦恩图
然而……
你的公司完全没有为数据分析准备的基础软件架构,所以一切都得 从 零 做 起 。
你的数据科学家正在试着安装各种与公司技术栈不太统一的工具和软件。
此时此刻,为了解决任何一个数据分析上的需求,都需要重新解析一遍日志文件。
你的工程师团队对于数据的获取有些担心,特别是对于让他直接获取生产环境上的业务数据,于是提供了一份业务数据的线下备份。
“啊哈!”
你对着你的数据科学家说,
“你现在已经有了你要的所有数据啦!”
但是……
那份线下存储的业务数据备份,当然,并不是按照适合数据分析的格式所存储的,
甚至想要与日志文件一一对应起来都不容易。
不少数据看起来并没有什么意义,或者丢失了几周的,唯一有图表的数据都是与运维相关的。
因为缺乏基础架构,甚至连最简单的查询,都似乎
永 远 跑 不 完 。
所 有 人 都 很 沮 丧
数据科学家很沮丧
你的数据科学家,当然是希望把时间花在做机器学习的算法上,毕竟他们之前大部分的学习时间都在思考这些优雅的算法,以及发表论文。他们也知道,肯定需要花费一些额外的时间,来收集和清洗数据。
但他们从来没有意料到会如此艰难,数据难以理解、杂乱、有缺失,甚至获取不到。
他们也从来没有意料到他们要花如此多的时间来开会,或者在 Slack 上询问,数据是如何收集的,那些 json 数据中具体的含义是什么。
他们也没有意料到整个公司似乎对于数据毫不关心,没有人意识到每一次的重构可能都会带来数据的改变,导致业务数据中月与月的比较发生不匹配。
科学家们也没有意料到,从来不会有人,把用户点击时所看到的所有选择,而不仅仅是点击的那一项,都存入日志,更不用说点击时的 UI 设计,所以一整年的数据并不能直接当做模型的训练数据。
你招聘了一个数据科学家,
期待他来做机器学习。
他们已经被警告过需要花费80%的时间来清洗数据,但这个现在看起来也不太现实了,实际上,他们80%的时间都花在了乞求,乞求合适的数据可以被创建、获取、移动到合适的位置、或者获得解释。
剩下20%的时间,都在游说公司的人员使用更加适合数据分析的工具,建立更适合数据获取的安全政策和软件基础架构,
亦或者 试着找一份新的工作。
你的工程师团队也很沮丧
他们不得不从他们正常工作的时间中抽出额外的时间,来协助坐在旁边的新来的科学家,完成大量吃力不讨好工作,并且认为这些数据科学家什么都没完成,却还不断地抱怨数据仍然不够好。
你,作为公司的创始人,更加沮丧
已经两个月了,这位数据科学家甚至连一个像样的数据表盘都没有做出来,更不用说大家都更期待更炫酷的机器学习了。并且,这些数据科学家们似乎也不太能够融进公司的文化中,还使得所有人的工作进展都慢了不少。
内心深处,你已经开始觉得机器学习可能只是一种骗人的噱头,人工智能也只是一种毫无产出的短期狂热。
当然,
你也只是在自己内心深处这么想一想……
在面对你的客户和投资人时,你依然大谈特谈你的人工智能计划,以及你超级聪明的博士数据科学家正兴奋地做着炫酷的机器学习……
如果你想了解如何避免这样的情形,Quora 上有一个问题应该有所帮助:What are the challenges of building a data team at a startup?
一点感想
文章写得非常现实,每一个中小型公司里的数据科学家,
不论是做数据分析,还是机器学习建模,
都需要面临大量的数据基础设施建设问题。
格式良好、适合分析的数据不会从天而降,而需要与大量的部门合作,中间一定会经历大量的挫折,
但基础设施的建设过程不可能省去,对于一个数据驱动的公司必须要跨过这个坑。
Data Application Lab (DAL) 2017年11月期
领你入行 带你上道
开营时间:2017年11月11日(周六)
课程介绍:11月11日Data Scientist求职训练营开放报名中!
报名方式:在本文留言或微信公众号后台留言
或登陆网页(也可以点击阅读原文)
https://www.dataapplab.com/course/dscn/
咨询电话:1-800-485-7918
咨询邮箱:datascience@DataAppLab.com
现在咨询有Early Bird优惠!
往期精彩回顾
11月11日数据应用学院Data Scientist求职训练营开放报名中!
【SoCal Young Elite 2017】南加青年科技精英论坛, 与大咖零距离
点击“阅读原文”查看数据应用学院核心课程