查看原文
其他

你的下一个转型,会是成为数据科学家吗?

2017-09-29 Nature自然科研 Nature自然科研


原文以Information management: Data domination为标题

发布在2017年8月30日的《自然》职业专题上

原文作者:Gaia Donati& Chris Woolston

软件编程、算法开发以及其它技能可以让科研人员在各自的研究领域内如虎添翼。

这是一个数据驱动的时代,跟其他许多科研人员一样,Karthik Ram不得不在2009年重新改造自己。刚开始进行博士后研究——调研气候变化如何影响黄石国家公园里的驼鹿时,他觉得自己是生态学家,但是解读用于定位动物位置的卫星和跟踪项圈的数据时,他不得不改变这种想法。


为了理解生态系统的变迁,他必须提高自己的编程技术并且学会管理海量的数据——这些技能让他对自己和职业有了新的看法。“生态学家这个词我用的越来越少了”,他说,“目前我更多自称数据科学家”。


伦敦的阿兰·图灵研究所为成长中的数据科学提供了一个跨学科交流中心。

Toby Keane/Alan Turing Institute

数据科学在2009年还是新领域,但很快变得成熟,现在已经和多个学科产生交叉。它的定义多种多样,但通常都涉及使用计算工具来管理和解读大数据。


Ram目前已加入加州大学伯克利数据科学研究所,他的许多同事在转入数据科学领域之前或是神经学家,或是社会学家,或是生物学家。“研究所的每个人都和我一样,”他说,“我们都拥有可应用于各自领域的计算技能和统计学技能。”


对数据科学家的需求已经从学术界扩展到工业、医疗保健、政府以及其它会产生复杂数据的机构。IBM预计到2020年,美国将有270多万个数据科学和数据分析相关职位,较2015年增长15%。根据欧洲数据科学学院——一家致力于识别和收集欧洲地区数据科学相关职位招聘广告的教育培训机构,欧洲的情况与美国类似。自2015年以来,学院识别了逾300万条此类广告,包括在今年连续3个月内发布的29万条。


对于寻求数据科学家职位的求职者来说,挑战不是找到工作,而是找到最匹配自身能力和兴趣的职位(见“深入数据的世界”)。Amelia Taylor说,鉴别“合适职位是很困难的”,她曾是美国科罗拉多学院拥有终身职位的数学家,现在是Zymergen公司的数据科学家。Zymergen位于美国加州,致力于为基因改造微生物开发新用途。她指出,“在不同的地方,数据科学工作的内容会完全不同,公司又那么多,很难知道应该关注哪一个。”

深入数据的世界


数据科学的普及在从财务医疗保健的诸多领域创造了新的机遇。整理所有的选择实在困难,但也有办法简化搜索过程。毕竟,数据科学家是擅长从噪音中找出解决方案的专家,以下是一些获取信息的途径。


聚会加入数据科学团体是获取工作机会的一个重要途径。欧洲数据科学学院主页上(http://edsa-project.eu)列出了全欧洲的相关聚会和讲演活动。任职于Zymergen的数据科学家Amelia Taylor就是PyLadies的成员,PyLadies是一个由使用Python的女性程序员组成的社团。她们定期在西雅图、旧金山以及世界其它城市举办聚会。Taylor补充表示,许多公司也会举办自己的聚会,以便招募人才。


人才培训项目。像Insight Data Science人才培训项目和ASI Data Science人才培训项目之类的培养计划可以提供在实际项目里工作的机会,有助于建立广泛的人脉。Taylor指出,Insight的网站上列出了以往招聘过受培人才的公司——方便了解什么地方未来还有可能招聘。


招聘信息。公司发布的数据科学职位招聘广告经常会事无巨细地列出职位要求,几乎没人能满足。 “就好像他们在找一个独角兽,” Taylor说。如果你觉得某个公司不错,而且你能满足至少几个关键的要求,就可以申请了——而且要信心十足地申请。


保持联系。“数据科学团体里有许多口口相传的信息,” Taylor说,“不要太腼腆,但交流和询问时要注意言语简洁并关注细节。”

选择太多也算是一种快乐的烦恼——其它领域的许多博士选择太少了。培养了正确技能并且理解自身机遇的科学家可以期待一个高回报的、数据驱动的未来。

众多职位种类

许多专业因为数据科学水涨船高。在求职网站上,伴随“数据科学家”搜索量的激增,“数据工程师”和“数据分析师”也成为热搜词条。这些角色有着微妙而重要的区别。“数据工程师的核心技能是搭建不会崩溃的稳定系统,” Marc Warner解释说。他是伦敦ASI Data Science公司的首席执行官,公司提供咨询服务以及包括行业带薪实习的数据科学人才培训项目。


他指出数据科学家和数据分析师之间的一个关键区别在于,数据科学家倾向于让数据引导他们,即“数据优先”方法,而数据分析师通常是利用数据测试已有假设。


在阿兰·图灵研究所(ATI),Mihaela van der Schaar让数据领路。她的工作是开发辅助算法来为患者提供个性化诊疗、预后以及风险预测。“我认为这些技术能够变革医学、挽救生命、促进科学突破,”她说。


van der Schaar介绍说,ATI 由5家英国大学和英国工程和物理科学研究委员会在2015年一起创办,旨在加强校方与产业以及政府之间的协作,它秉承了数据科学的跨学科精神。她还讲到数据科学领域最重要并且最有意思的一些问题都来自出人意料的地方。“我目前参与比较多的一个ATI项目旨在开发出更好的方法,用以理解和治疗囊性纤维化的病人,”她说,“这既不是政府项目也不是企业项目,而是和英国囊性纤维化基金会合作的一个项目。”

Insight人才培训项目成员在学习数据科学。

Jasmine Castagna

跨学科对接也是Moore–Sloan数据科学平台倡议的基础,在这个倡议下,已在加州大学伯克利分校、华盛顿大学以及纽约大学建立了数据科学中心。在统一的工作平台上,每个中心都聚集了来自一系列不同专业的数据科学家。“线下空间真的很重要,”华盛顿大学计算机科学家Edward Lazowska说,“其初衷是在擅长数据科学方法论学者(比如数学家、统计学家、计算机学家)和其他致力于社会、物理、生命科学应用的学者们之间建立桥梁,加速科学发现。”


不是所有的博士学位教育都为现实中的数据科学培养科研人员,因此短期培训课程变得越来越受欢迎。Taylor就是通过Insight Data Science提供的一次为期7周的人才培训项目踏入这个领域的。Insight Data Science位于加州帕洛阿尔托,致力于在数据科学家和美国企业之间牵线搭桥。它的培训项目成员已陆续加入亚马逊、Facebook、摩根大通以及其它大大小小的公司。


Taylor说Insight的人才培训项目非常有帮助,教会了她从事目前工作所需要的技能。除技能之外,这些培训也教会了她跳出数据分析的界限去思考最终产品的实际应用。“Insight提倡的以业务为导向的思维方式十分有用,”她说。她注意到拥有博士头衔的科学家在投身数据科学工作后,不太容易转换角色,除非曾有亲身参与的行业经验。“我在新公司很快就上手了,就因为我能够从产品角度思考问题,”她说。

助推医疗保健行业发展

医院和医疗中心也开始采纳数据科学,使许多研究人员的技能有了新的用武之地。Anasuya Das曾经是Insight的培训项目成员,在纽约大学和附近的罗彻斯特大学学习神经科学时,她需要学习使用C++构建软件,帮助恢复期的中风患者在家里使用电脑进行视觉学习。Das也选择了好几个计算神经科学课程,这些课程激发了她对从事数据科学方面全职工作的兴趣。现在,她在纪念斯隆-凯特琳癌症中心正从事这样的工作。


Das正在构建一个给临床试验分配患者的系统。“我的工作内容跨度很大,既要从事纯软件开发工作,也要与外科医生沟通我们正在研发的产品,”她说。


Lazowska预测说,数据科学的兴起会最终改变科研领域“不发表就出局”的体制。他认为,终有一天,代码和数据集将成为职业发展的先决条件,就像目前发表文章在求职中的地位一样。他说,现在他和同事们已经在鼓励研究人员在求职简历中列出数据科学相关的成就。他们也建议晋升职称和终身教职评审委员会将此作为有效的参照内容。


Ram的简历里列出了多个数据科学项目。他目前在忙一个评估人类活动如何影响塔希提岛生态的长期任务。相较黄石公园的那段时间,现在的问题已经变得更加复杂,但工具也有进步。他现在能在数小时内得到结果,而不是在一组数据上忙碌好几个月——当然这不意味着数据科学变简单了。


“对于许多人来说,一个很大的挑战是拥有学习和正确应用这些新工具的能力,”Ram说,“随着时间的推进,几乎每个PI都会越来越需要团队里某个成员具备这些特殊的数据处理能力。”数据科学的定义以及人们对它的期望或许会逐渐改变,但数据科学不会消失。

Nature|doi:10.1038/nj7669-613a

点击“阅读原文”阅读英文原文

相关文章


如何用大数据解决人工智能将要带来的失业问题?|Nature专家评论

学生物找工作难?你不熟悉的糖生物学可能是下一个热点

版权声明:

本文由施普林格·自然上海办公室负责翻译。中文内容仅供参考,一切内容以英文原版为准。欢迎转发至朋友圈,如需转载,请邮件Chinapress@nature.com。未经授权的翻译是侵权行为,版权方将保留追究法律责任的权利。


© 2017 Macmillan Publishers Limited, part of Springer Nature. All Rights Reserved



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存