数据科学家秋招上岸的六个技巧
今日份知识你摄入了么?
数据科学是一个需求巨大的领域,其中部分原因是数据科学家这个岗位似乎需要数据科学家的经验才能被应聘。
但是,许多和我合作过的最优秀的数据科学家,都有各种各样的背景,从人文科学到神经科学等,但是,他们都需要丰富的经验才能脱颖而出。作为即将进入数据科学职业的应届毕业生或分析专业的人,建立作品集来展示专业知识的能力可能会具有挑战性。
在我长期招聘数据科学家以及应聘数据科学家积累的经验中,我想列举一些有助于找到数据科学家工作的关键经验:
1. 接触学习云计算
2. 创建一个新的数据集
3. 把东西关联在一起
4. 提供服务
5. 创建让人眼前一亮的可视化
6. 写一份白皮书
我将详细讨论并分析以上建议,但数据科学的关键核心是能够构建为公司增加价值的数据产品。能够构建这些端到端的数据产品的数据科学家对于任何公司来说都是是一项宝贵的资产,在从事数据科学职业时展示这些技能将会非常有用。
接触学习云计算
目前,许多公司都在寻找在云计算环境中具有丰富经验的数据科学家,因为这些平台提供的工具使数据工作流和预测模型能够迅速的扩展到海量的级别。同时,你也可能会在日常工作中使用云平台,例如 Amazon Web Services (AWS) 或 Google Cloud Platform (GCP)。
好消息是,这些平台中的许多平台都提供部分免费服务来帮如新入门的数据科学家们熟悉该平台。 例如,AWS 提供免费的 EC2 实例,并且可以免费使用 Lambda 等服务来处理低容量的请求,GCP 提供 300 美元的免费积分来试用大部分平台,而 Databricks 提供了一个社区版软件,同学们可以在平台上使用社区版来自行练手。但是,使用这些免费服务时,你无法处理海量数据集,但你可以在这些平台上积累经验。
我的建议之一,就是在这些平台上尝试不同的功能,看看是否可以使用某些工具来训练和部署模型。以模型服务举个例子,我利用了一个我已经熟悉的工具 SKLearn,并研究了如何将模型转化为 Lambda 函数。
创建一个新的数据集
在学术课程和数据科学竞赛中,同学们通常会得到一个干净的数据集,而项目的重点是探索性数据分析或建模。但是,对于大多数实际项目来说,你们需要进行一些数据调整,将原始数据集清理为对分析或建模任务更有用的转换数据集。通常,数据混合(data mungling)需要收集额外的数据集来转换数据。例如,为了更好地了解美国富裕家庭的资产配置,我使用了美联储过去的数据。
这是一个有趣的项目,因为我使用第三方数据来衡量第一方数据的准确性。我的第二个建议是更进一步,就是建立一个数据集。这可能包括抓取网站数据、从端点(例如 steamspy)采样数据,或将不同的数据源聚合到一个新的数据集中。例如,我在研究生学习期间创建了一个星际争霸重播的自定义数据集,这能证明我对新数据集进行数据处理的能力。
把东西关联在一起
我很欣赏数据科学家的一项技能,是让不同的组成或系统能够协同工作,以完成任务的能力。在数据科学的角色中,可能没有明确的模型产品化路径,所以你可能需要构建一些独特的东西来启动、运行系统。理想情况下,数据科学团队会得到启动和运行系统的工程支持,但原型的设计是数据科学家快速行动的一项重要技能。
在这个方面,我的建议是尝试将不同的系统或组件集成到数据科学工作流程中。这可能涉及使用如 Airflow 之类的工具,来构建数据管道的原型。也可能涉及创建不同系统之间的桥梁,例如在JNI-BWAPI 项目中,我把星际争霸API 库与 Java 接口。或者,还可能涉及将平台内的不同组件粘合在一起,例如使用 GCP DataFlow 从 BigQuery 提取数据、应用预测模型,并将结果存储到云端数据库。
提供服务
作为一个数据科学家,你通常需要为其他团队提供可以在公司内使用的服务。例如,提供深度学习模型结果的 Flask 应用程序。如果能够对服务进行原型设计,就意味着其他团队将能够更快地使用你做出来的数据产品。
我的建议是积累使用 Flask 或 Gunicorn 等工具的经验,这样就能设置 Web 端点,以及 Dash,从而在 Python 中创建交互式网页应用程序。尝试在 Docker 实例中设置这些服务,也是一种有效的做法。
创建让人眼前一亮的可视化
虽然优秀的作品不用靠外表,但是,通常在解释为什么某个分析或模型的重要性之前,我们是十分有必要引起观众的注意的。我在这里的建议,是学习各种可视化工具,用来创建引人注目、让人眼前一亮的可视化。创建可视化也是创建作品集的有效方法。
写一份白皮书
我最近一直提倡的数据科学技能之一,是以白皮书的形式解释项目的能力,白皮书可以包括执行摘要,讨论要如何工作,并且提供方法和结果的详细信息。这个白皮书的目标,是让同学们的研究能够被广泛的受众所理解,并且是不言自明的,能让其他数据科学家以此为基础工作。
博客或其他形式的写作,也是获得书面交流经验的好方法。我的建议是,大家可以尝试为广大读者撰写数据科学文章,来获得在不同细节层次上传达想法的经验。
总结
数据科学需要使用多种工具的实践经验。幸运的是,其中许多工具变得越来越容易访问,并且构建数据科学组合也变得越来越容易。感谢你的阅读!
原文作者:Ben Weber
翻译作者:Peter Mei
美工编辑:过儿
校对审稿:Jiawei Tong
原文链接:https://towardsdatascience.com/six-recommendations-for-aspiring-data-scientists-93d12aeb9b9
本周公开课预告
往期精彩回顾
东京奥运接近尾声:Data Analysis在体育行业有哪些应用以及工作机会?
7周时间硅谷大牛带你免费学推荐系统!8月数据科学读书会直播讲座报名中~
点击“阅读原文”查看数据应用学院核心课