查看原文
其他

六个月零基础入行数据科学家,我做对了哪些事?

数据应用学院 大数据应用 2022-10-18

今日份知识你摄入了么?

就在刚刚,我毫无计划地结束了长达8年的学习和努力的工作。你可能想知道为什么我会这么做。因为我的老板让我精神崩溃,而我觉得,是时候需要做出改变了。

我的男朋友建议我去当数据科学家,我跟他说“你疯了吧!”因为我对编程一窍不通。他肯定高估了我的能力。此时,我的冒名顶替综合症再次发作了。


大约两周后,我的朋友Anna也提出了同样的建议,我想了想,开始接受这个想法。为什么不呢?我决定成为一名初学者,把自己改造成一个数据科学家。



我想按照自己的节奏学习,所以我觉得去参加网络课程。我想,既然我又神经科学的博士学位,我大概已经有了足够的正式培训的经验,可以找到一份数据科学工作。而我缺少的是实用技能。


这篇文章将描述我学过的4门不同的课程,以及它们是如何帮助我在硅谷的一家医疗保健初创公司获得了一份数据科学的工作的。


当时,我遇到的大多数在线课程都是免费的。所以我挑战了自己,尽量在不花钱的情况下获得所需技能。


https://imgs.xkcd.com/comics/correlation.png


基础技能


当我放弃在UCSF的博士后工作时,我还没有任何的编程经验。我所有的研究中都用了统计学,不过规模很小。我之前分析的所有数据,都是我自己在实验室里生成的,所以观测的次数非常少。我需要学习在更大的范围内的编程和分析数据。


开始编码


当我决定成为一名数据科学家时,我想学的第一件事就是如何编写计算机程序。因为我之前从未写过代码,所以对它一无所知。我想的是,如果我真的讨厌写代码,那么数据科学就不太适合我。所以这应该是一个很好的开始。


很幸运,我的搭档Ben在很多技术领域工作过,他给我指明了正确的方向。他建议说,Python可能最适合我。Python非常适合用于数据分析、通用和处理大型数据集,所以它就成为了我的出发点。


学习编程


  • 1. Codecademy


为了开始学编程,我用了Codecademy。我是从Python入门开始的,但这门课程是2014年的,所以我不确定这门课现在还在不在。如果是我现在要用Codecademy开始学习python,我可能会选择用Python的数据分析(Analyze Data with Python)这门课程。


我发现,Codecademy是一个很好的起点。对我来说,它的主要优势是,我能直接在我的浏览器中编写代码。在我的计算机安装编程环境仍然是我的弱点。所以,我很高兴在一开始的时候就能避免它。而且很好的是,如果我的代码不起作用,那肯定是因为我的语法错误,而不是因为环境设置上的错误。


Codecademy还能让你一点一点慢慢工作。我一有空就登录,然后解决一些问题,因为一切都还在存在那里等着我。这种零星式的进展,让我不害怕会身陷其中。


在我完成这门课程的时候,Codecademy提供的课程屈指可数,但这门课程是免费的。我对这个免费课程的质量感到非常惊讶。


当我掌握了Python的基础知识后,我就需要开始升级我的统计经验,并学习更大规模的数据分析。


学习数据分析


  • 2. 来自约翰霍普金斯(Johns Hopkins)的Coursera数据科学证书


这之后,我选修了Johns Hopkins在Coursera上的数据科学专业证书。在当时,你可以免费拿到一个荣誉证书,只有在你需要官方认证的证书时,才需要付费。


对我来说,认证证书并不重要。我真正需要的是,能够在技术面试中展示在课程中学到的技能。所以,我选择了免费的荣誉证书。


对我来说,这一系列课程有个缺点是,它教授的是R语言。R是一种优秀的统计分析编程语言,备受学术界青睐。但是,我想学的还是Python数据科学。因为在我看来,Python在我想要申请的初创公司中会更有用。



我研究了一些Python数据分析课程,但它们都提前假定了很多我还没有掌握的知识。我相信,这些课程大多是针对那些想转行到数据科学领域的软件工程师的。所以,他们假定你已近拥有了扎实的编程技能,并且已经知道了该如何设置python环境。


我喜欢Coursera数据科学专业课程,主要是因为它是真正从头开始的。在第一门课程中,有关于如何安装R和R studio的步骤说明。这样才能在没有任何技术问题的情况下,轻松地进行后续课程。


约翰霍普金斯的数据科学专业课的另一个适合我的方面是,它是由公共卫生部门教授的。在健康科学领域的专业知识,让我能够轻松地理解他们给出的示例。他们举例说明了空气质量对哮喘的影响,以及其他与医疗保健相关的数据集。这能让我可以专注课程内容,而不用花费时间去弄清数据分析的场景。


这一系列课程确实让我对主要的数据科学工作有了基本了解。它涉及了R编程、基础数据清理、分析、回归模型和机器学习。鼓励了我继续学习下去。


信息面谈


在我自我培训的这个阶段,我开始询问我人际网络中的人,能否将我介绍给成功从学术界过渡到数据科学界的其他人。有几个人联系到我,所以我尽可能多地安排了一些信息面谈。


一个朋友把我介绍给一位来自Modcloth的数据科学家,他的做法与我类似。她曾经是一名神经科学家,而我发现她给的建议特别有用。


她主要建议我学习SQL。


学习查询数据库


  • 3. DB5 SQL Stanford在线


Johns Hopkins的Coursera数据科学专业课,完全没有涉及到SQL。她说,她的日常工作大部分都是查询数据库。她必须为业务发展和营销团队提供洞察力,她只会花一小部分时间做统计分析和机器学习。


我采纳了她的建议,开始在Stanford Online上自学SQL。在我学过的所有课程中,这门课是我最喜欢的。我很喜欢它,因为老师很优秀,用了很简单的例子来解释概念。她还用多种不同的方式解释了每个概念。


从那以后,我向很多人推荐过这门课程,因为我认为,SQL的良好基础对于任何数据科学家都是必不可少的。我所遇到的数据科学课程并没有介绍如何用SQL从数据库中获取数据。我认为这是一个巨大的疏忽。大多数课程提前给学生准备好CSV数据,但根据我的经验,这在行业数据科学的工作中很少发生。


完成斯坦福SQL课程后,我开始申请数据科学岗位。那个时候的我在澳大利亚生活回,我开始和旧金山湾区的初创公司通过Skype面试。在面试的同时,我还在继续发展我的技能。


巩固概念


  • 4. edX Foundations of data analysis


edX 数据分析基础


然后,我参加了edX使用R的数据分析基础课程。这帮助了我修正在Coursera课程中已经学到的很多概念。


我坚信,从不同的老师那里学习概念可以提供新的见解。第二次学习数据和机器学习的概念要比之前容易得多。通过这门课程,我感觉自己有了更深的理解。



在我完成课程的时候,我成功地和旧金山的医疗保健初创公司Amino进行了一次面试,并获得了工作签证,搬到了美国。


获得数据科学工作


我认为,我在最后的面试中取得了成功,是因为我有不错的编程技能和不错的统计基础,但更重要的是,我有医疗领域、实验设计、和科学方法的专业知识。


在我看来,正是这些额外的方面让我的申请处于领先地位,也为我提供了进入这家初创公司的机会。我当时资历很浅,需要更多的工作培训。我觉得,我上过的课程足以让招聘团队考虑我,而我在医疗保健领域的具体经验让我超过了他们的基本要求。


所以,如果你想转行到数据科学领域,我建议你找到一家可以用到现有知识领域的公司。


我希望之前的我学到什么


在开始我的新数据科学工作之前,我希望填补的主要知识空白是如何使用git。我从来没有使用过终端或命令行,也不知道如何用git将我的代码提交到公司的Github库。


好几个工程师花了不少时间才让我跟上进度。我希望在开始之前就能知道如何使用它,这样我就不会浪费他们宝贵的时间。我的同事们都很棒,他们也不介意教我,我最终还是赶上了进度,但刚开始的几天我确实觉得有点负担。


如果你正在考虑采用类似的途径进入数据科学领域,我鼓励你去试试看!这对我来说绝对是个正确的选择。不同的人以不同的方式学习,但如果你能够自律的学习、完成开始的任务,通过在线课程自学数据科学当然是可行的。如果这是你的目标,那么祝你顺利!如果可以,我很乐意回答你的任何问题。

原文作者:Kate Marie Lewis  

翻译作者:Lea

美工编辑:过儿

校对审稿:Jiawei Tong

原文链接:https://towardsdatascience.com/how-i-went-from-zero-coding-skills-to-data-scientist-in-6-months-c2207b65f2f3

本周公开课预告


往期精彩回顾


基于云端的数据仓库的优势

软件开发和软件工程师的区别

数据科学家求职必备编程技巧

顺利通过机器筛选的简历长什么样?

如何在电商数据分析中做Customer Segmentation客户细分?





点「在看」的人都变好看了哦

点击“阅读原文”查看数据应用学院核心课

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存