查看原文
其他

重磅:如何不花钱就成为数据科学家?

2015-10-19 大数据文摘 大数据文摘

大数据文摘作品,欢迎个人转发朋友圈,自媒体、媒体、机构转载务必申请授权,后台留言“机构名称+转载”,申请过授权的不必再次申请,只要按约定转载即可


编译|丁雪 校对|王婧


从白宫雇佣DJ Patil作为第一位首席数据科学家到联合国运用预测分析来预报可能发生在学校中的爆炸事件,无论何时何地,大数据、数据科学和预测分析都是最热门的话题。



每个月都有很多家创业公司如雨后春笋般出现,让我们即使耗尽想象力也难以完全理解当下的技术会如何改善我们的生活以及我们所做的一切。数据科学的市场需求巨大,增长态势也如同被打了鸡血一样极为迅猛。


根据领英(Linkedin)的数据,“统计分析”和“数据挖掘”是今年求职者能被雇佣的头两个技能。高德纳咨询公司表示,2015年全球提供给数据科学家及其相关职位的工作机会有440万,单在美国就有190万。一个数据科学相关的工作还可以再创造三个非信息领域的工作,因此总共会产生大约1300万个职位。可问题是你要做些什么才能确保职位,梦想成真?你如何才能成为全球这440万工作机会的合格候选人?


全球至少有50个开设数据科学学位课程的大学,学费从5万到27万美金不等,以及需要14年的时间。如果你正想要去读大学,这可能是一个不错的选择。比起其它类似或不那么类似的学科,数据科学有它自己独特的优势。但是,对于发展中国家的人来说,学费过于高昂;同时,对于职场人士,投入几年时间的代价很大。


另外,也有一些不错的暑期课程、研究协会和训练营,它们承诺可以在短时间内让你成为数据科学家。这当中有一些虽然是免费的,但是很难有机会加入,而有些要求博士等高学历,还有些两个月左右的课程却要价1.5万到2.5万美金。对于即将毕业的博士生来说,这些都是能获得一些实战经验的好机会,然而我们目前还不清楚这些短期受训者是否能媲美资深的行业分析师。我个人非常喜欢其中的一些项目,比如Data IncubatorInsight FellowshipMetis BootcampData Sciencefor Social Goods 和著名的 Zipfian Academy 项目。


付费资源

在介绍如何不花钱成为数据科学家之前,我提一下我很喜欢几个的付费资源。第一个是Booz Allen公司的探索数据科学项目(Explore Data Science program),费用是1250美元,但是物有所值。第二个是Tim Chartier 录制的《大数据:数据分析如何改变我们的世界》(Big Data: How Data Analytics is transforming the worldDVD,只要80美元,值得一试。


下面两个课程来自麻省理工:一个是《应对大数据的挑战》(Tackling the Big Data Challenges),学费是500美元,这个课程为你提供了坚实的大数据理论基础;另一个是只要100美元学费的《分析学前沿》(The Analytics Edge),课程精辟地讲解了分析法是如何被用于解决日常运营问题。如果你每天可以抽出几小时的时间,那么试试Udacity提供的针对数据分析师的Nanodegree课程,每月支付200美元,6个月左右能完成,他们和facebookZipfian学院和MongoDB合作提供这个课程。ThinkFul每月收费500美元的项目是有一个导师实时指导你成为数据科学家。


那么,那些想成为数据科学家,但是负担不起或者进不了竞争激烈和收费高昂的项目的人应该怎么办呢?还有那些来自于发展中国家,想在数据科学这一重要领域提高他们的竞争力,或者即使只是尝试应用这些先进技术改善他们的周边环境、社区和国家的人又该怎么办呢?


免费资源

以下就是我不花一分钱成为数据科学家的“独门秘籍”:


1. 理解数据:单纯的、没有任何背景的数据是没有意义的,也容易让人误解。数据需要有具体的背景才能说明问题。数据就像是一种颜色,需要有一个具体的外观才能证明它的存在。以红色为例,它需要一些具体的外观才能让我们看到,比如红色的汽车、红色的围巾、红色的领带、红色的鞋子或任何红色的东西。同理,数据也需要和它的环境、内容、模型、方法以及它产生、发生、使用、修改、执行和终止的整个生命周期结合在一起。


我还没发现一个数据科学家和我谈数据的时候不提及像HadoopNoSQLTableau的技术或其它老牌供应商与流行语。你需要与你的数据建立亲密的关系,你需要彻底地了解它。问他人“你的”数据为何出现异常就像是问自己的妻子怀了谁的孩子一样荒谬。我们在与联合国的合作以及确保学校远离爆炸的相关软件中具备一个独有的优势是:对底层数据的控制力。当全世界在使用统计图表讨论这些数据时,我们是那些回家体验数据的人,让它融入我们的日常生活,这些数据的价值、细节和增值,是我们不能在其它地方找到的。对于其它的项目和客户,我们也是同样对待的。


2. 理解数据科学家:不幸的是,“数据科学家”恰好是数据科学这个领域中最容易使人困惑和被误用的词之一。有人将其联想为知晓世间所有事情的神秘预言家;有人认为他们仅仅是统计学家;少数人认为他们只是一些熟悉Hadoop NoSQL的人;还有人认为他们就是一些会做简单测试或是在管理会议中使用很多晦涩难懂的数学和统计学术语的人。甚至于,某些人眼中的可视化控制面板,在另一些人看来只是永无止境的ETLExtract-Transform-Load,数据仓库技术 )过程。在我看来,数据科学家是一类比数据创造者少一些对科学的理解,比数据生成者少一点对数据的理解的人,而他们恰恰是知道如何把这两部分工作融会贯通的人。一个好的数据科学家应该知道外部有哪些资源可用,应该和哪些人联系,应该雇佣什么样的人,以及采用什么样的技术可以完成工作;可以将商业目标和数据集市(data mart)连接起来,可以把每一个点,从商业利益到人类行为、从数据生成到付出的款项简单地联系在一起。


3. 观看Ted网站上的这13个视频


4. 观看Hans Rosling的视频,理解可视化的力量


5. 收听PartiallyDerivative的关于数据科学的每周博客,查看博客中提供的一些有用资源


6. 华盛顿大学的两个课程:

《数据科学入门》(Introto Data Science)和《数据分析计算》(Computing for data analysis)会是个好开头


7. 利用GitHub上的资源,要尽量多读


8. 浏览Measure for America网站(),了解数据如何起作用


9. 阅读免费图书Field Guide to Data Sciences


10. 努力完成“如何成为数据科学家”的信息图中的每一个步骤



11. 阅读博客“The DataCamp”(),提高R编程技术


12. 阅读博客“simplystats”(),提高统计分析能力


13. 阅读Zipfian学院网站上一篇非常实用的文章“A Practical Intro to Data Science”(


14. 试着完成“The Open SourceData Science Masters”系列课程


15. 学习Coursera网站创始人之一AndrewNg的机器学习课程


16. 尽一切努力完成Coursera上的数据科学专项课程(DataScience Specialization),完成所有9门课以及核心项目


17. 如果你缺乏计算机科学的背景或是想侧重于数据科学中的编程部分,请完成Coursera 上数据挖掘专项课程(Data Mining Specialization


18. (可选项)根据你想从事的领域,可以参考下面这些专业相关的数据科学课程:医疗保健分析——入门和专项课程(healthcare analytics – intro and specialization, 教育(education, 性能优化(performanceoptimization)和一般学术研究(general academic research


19. 如果要了解数据科学应用的部署方面,Coursera上的“云计算”专项课程以及免费的AWSAmazon Web Services)培训则是“必修课”


20. 学习“海量数据挖掘”(MiningMassive Datasets)和“过程挖掘”(Process Mining)这两门顶尖课程


21. 27本最好的免费数据挖掘类书籍


22. 每天阅读Data ScienceCentral,类似这样的文章可以让你在面试中节约很多时间。


23. 尽可能多在上参与比赛项目


24. 如果还想更上一层楼,以下这些Coursera上的统计课程会让你脱颖而出:推论统计学( 描述统计学(,数据分析和统计学(),


25. 关注预测分析领域大牛的Twitter@mgualtieri,@analyticbridge, @doug_laney, @Hypatia_LeslieA, @hyounpark, @KDnuggets,@anilbatra


26. 关注大数据和数据科学领域大牛的TwitterAlistairCroll, Alex Popescu, @rethinkdb, Amy Heineike, Anthony Goldbloom, Ben Lorica,@oreillymedia., Bill Hewitt, Carla Gentry CSPO, David Smith, David Feinleib,Derrick Harris, DJ Patil, Doug Laney - Edd Dumbill, Eric Kavanagh, Fern Halper,Gil Press, Gregory Piatetsky, Hilary Mason, Jake Porway, James Gingerich, JamesKobielus, Jeff Hammerbacher, Jeff Kelly, Jim Harris, Justin Lovell, Kevin Weil,Krish Krishnan, Manish Bhatt, Merv Adrian, Michael Driscoll, Monica Rogati,Neil Raden, Paul Philp, Peter Skomoroch, Philip (Flip) Kromer, Philip Russom,Paul Zikopoulos, Russell Jurney, Sid Probstein, Stewart Townsend, Todd Lipcon,Troy Sadkowsky, Vincent Granville, William McKnight, Yves Mulkers


这张表里的全部内容需要3-12个月的时间完成,但是完全免费。并且我保证你掌握这些技能后,工作机会就会滚滚而来。即使你只完成了一半,通知我一声,我也可以告诉你接下来该怎么办。现在就看你的了,无论你在哪里,能负担多少,如果你想拥有超过平均水平至少四倍的收入,这就是你接下来该做的事,至少是接下来这十年,这十年中每人每年将会产生20TB的数据,是过去十年的20倍。


我还会另外发表文章介绍数据科学方面的书(在过去的六个月里我读了127本书)和网络公开课(今天正在庆祝自己在MOOC上获得的第25个证书)。


对于其他人来说,数据科学是一个机遇,但对于我,是一种激情。我的tweeter账号:@ZeeshanUsmani


更重要的,每天阅读微信公号“大数据文摘”,哈哈,这是我们加上的:)


大数据文摘从2013年7月创建至今,每日坚持发布优质内容,目前已是最有影响力的大数据媒体,而且大数据文摘完全依靠志愿者在运营,没有一个全职人员。如果想了解大数据文摘,请读:仅靠志愿者运营,大数据文摘20万粉丝,如何炼成?(点击即可)


如果想加入我们,请在大数据文摘后台回复“志愿者”,谢谢!


大数据文摘编译者简介


丁雪
华中师范大学情报学专业硕士,从事用户行为与个性化服务方向的研究。关注大数据的发展,欲从事互联网与咨询行业的相关工作。
王婧
中科院生物学博士,有多年畅游分子和细胞微观世界的经验。热爱科学,热爱大数据。



【限时干货下载】

2015/10/31前

2015年9月干货文件打包下载,请点击大数据文摘底部菜单:下载等--9月下载


大数据文摘精彩文章:

回复【金融】 看【金融与商业】专栏历史期刊文章

回复【可视化】感受技术与艺术的完美结合

回复【安全】 关于泄密、黑客、攻防的新鲜案例

回复【算法】 既涨知识又有趣的人和事

回复【谷歌】 看其在大数据领域的举措

回复【院士】 看众多院士如何讲大数据

回复【隐私】 看看在大数据时代还有多少隐私

回复【医疗】 查看医疗领域文章6篇

回复【征信】 大数据征信专题四篇

回复【大国】 “大数据国家档案”之美国等12国

回复【体育】 大数据在网球、NBA等应用案例

回复【志愿者】 了解大数据文摘,加入我们

长按指纹,即可关注“大数据文摘”


专注大数据,每日有分享

覆盖千万读者的WeMedia联盟成员之一

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存