看来你已经决定要进入数据科学这个领域了。数据正在驱动越来越多的业务,世界的联系正在变得越来越紧密,似乎每个业务都需要数据科学实践。因此,对数据科学家的需求是巨大的。更好的是,所有人都承认这个行业的人才短缺。
然而成为一名数据科学家并不容易。需要拥有解决问题的能力、结构化思维、编码和各种技术技能才能真正获得成功。如果您并非技术或数学背景,那么通过书籍和视频课程来学习是很好的方式。但是大多数这类资源不会教你行业内需要什么样的数据科学家。
这就是胸怀抱负的数据科学家努力缩小自我教育与实际工作之间差距的原因之一。
本文将讨论数据科学爱好者常犯的一些错误(包括我自己都曾经犯过),我也会提供一些资源帮助你避开数据科学之旅上的陷阱。
就像我之前提到过的一样,掌握机器学习技术背后的理论是非常好的,但是如果你不去应用它们,它们就仅仅是理论概念。当我开始学习数据科学的时候犯了同样的错误,我学习书本知识和在线课程,但却没有应用它们去解决问题。
所以当我有机会应用我所学的知识去解决挑战或问题时,几乎一大半我都不记得了!要学的东西太多了,算法、推导、研究论文等等等等。你有很高的几率失去动力然后半途放弃。我本人见证过许许多多想进入这个领域的人都是这样。
学习过程中保持理论和实践之间健康的平衡是非常必要的。只要学习了一个概念,请立即Google一下找到可以应用它的数据集或问题。你会发现你比以前更好地吸收了这种概念。
你必须承认所有东西是不可能一次性学完的。一边练习一边填补空白,将会学到更多东西!
大部分想成为数据科学家的人是看到了机器学习的相关视频,或一个超级棒的预测模型,抑或是高薪的吸引,然而,想要成为你看到的样子,还需要走很长的路。
在将技术应用到问题之前,你应该先了解它的工作原理。这将有助于了解算法的工作原理,以及做些什么可以对其进行微调,还可以帮助你构建现有技术。数学在这里发挥着重要作用,因此了解某些概念总是有帮助的。在日常的企业数据科学家角色中,您可能不需要了解高级微积分,但有高级的整体认识肯定是有帮助的。
如果您有一个好奇的想法,或想要进入研究角色,在开始进行核心机器学习之前,您需要了解的四个关键概念是:
正如房子是一砖一瓦建造的,数据科学家也是所有单个部件的总和。有大量的资源可以帮助学习这些主题。下面列出一些资源,可以帮助您入门:
https://www.khanacademy.org/math/calculus-home
这也是招聘人员的烦恼。自从数据科学变得非常受欢迎以来,到处都有认证和学位。我在LinkedIn上看了一下,至少展示了5张认证的图片。虽然获得认证并不容易,但只依赖认证是一种灾难。
许许多多的胸怀抱负的数据科学家被大多数在线课程倾倒并且完成学习。如果他们为你的数据科学简历添加了一个独特的价值,那就没问题了。但是招聘人员并不关心这些考试 – 他们更看重你的知识,以及你如何在实际工作中应用。
这是因为与客户打交道,处理截止日期,了解数据科学项目生命周期如何工作,如何设计模型以适应现有业务框架等等,这些都是作为数据科学家所需要了解的事项。只是认证或学位无法认证你这方面的能力。
不要误解我的意思。认证是很有价值的,但只有当你将这些知识应用到课堂之外并将其公之于众的时候才有价值。使用真实世界的数据集和做任何分析,都把它们写下来。比如创建自己的博客,在LinkedIn上发布,并征求社区的反馈意见。这表明您愿意学习并且足够灵活,可以征求建议并将其用于您的项目。
应该对实习的想法持开放态度。实习中你将了解数据科学团队如何工作,这将使您在参加另一次面试时受益。
如果您正在寻找项目,我们有一个很棒的,按照难度划分的项目列表
这是有胸怀抱负的数据科学家进来最大的误解之一。比赛和黑客松为我们提供了干净规整的数据集。你下载它们并处理这些问题。即使那些具有缺失值列的数据集也不需要花费脑细胞 – 只需要查找补充缺失值即可。
不幸的是,现实世界的项目并不是这样的。会有一个端到端的数据管道,涉及与一群人合作。你几乎总是要处理混乱的脏数据。关于花费70-80%的时间来整理和清洗数据的传说是真的。这是一个令人精疲力竭的工作,你很大可能不喜欢,但它最终会成为例行公事。
此外,我们将在下一点更详细地介绍,更简单的模型将优先于任何复杂的堆叠集合模型。准确性并不总是最终目标,这是您在工作中将学到的最具对比性的事情之一。
讽刺的是,消除误解的关键因素之一是经验。你获得的经验越多(实习在这种情况下有很多帮助),你就能越好地区分两者。这就是社交媒体派上用场的地方 – 与数据科学家联系并询问他们的经验。
另外,我建议这个Quora问题(链接在下方),来自世界各地的数据科学家就这个确切的问题提供他们的意见。在竞赛排行榜上取得好成绩非常适合衡量你的学习过程,但是面试官想知道的是你如何优化算法达到效果,而不是提高准确性。了解数据科学项目的工作原理,团队所拥有的不同类型的角色都是什么(从数据工程师到数据架构师),以及在这种意义下的答案。
Quorahttps://www.quora.com/How-similar-are-Kaggle-competitions-to-what-data-scientists-do
LinkedIn文章,解释了分析模型的标准方法
https://www.linkedin.com/pulse/standard-methodology-analytical-models-olav-laudy/?trk=prof-post
05在领域中对模型准确性的关注超过了适用性和可解释性
如上所述,准确性并非总是业务的目标。当然,一个能够以95%的准确度预测贷款违约的模型是非常好的,但是如果你无法解释模型是如何实现的,哪些特征实现了它,以及你在构建模型时的思路,你的客户会拒绝这个模型。
你很少会发现在商业应用中使用的深度神经网络。向客户解释清楚神经网络(更不用说深层)如何与隐藏层,卷积层等一起工作是不可能的。首要偏好,并且通常情况下,是永远确保我们能够理解模型背后正在发生的事情。如果您无法判断年龄,家庭成员数量或之前的信用记录是否涉及拒绝贷款申请,该业务将如何运作?
另一个关键是你的模型是否适合企业现有框架。如果生产环境无法支持,使用10种不同类型的工具和库都会失败。您将不得不采用更简单的方法从头开始重新设计和重新训练模型。
避免自己犯这个错误的最佳方法是与业内人士交流。没有比经验更好的老师。选择一个领域(财务,人力资源,营销,销售,运营等),与人沟通了解他们的项目如何运作。
除此之外,练习制作更简单的模型,然后向非技术人员解释。接着增加模型的复杂性并继续想非技术人员解释,直到你不知道接下来发生了什么为止。这将指点你何时该停止,以及为什么在实际应用中,简单的模型总是被优先考虑。
如果你曾经这样做过,你会知道我在说什么。如果你的简历现在有这个问题,快去修正!您可能知道很多技术和工具,但只是简单地列出它们会让潜在的招聘经理远离你。
你的简历是介绍你已经完成的事情以及你是如何做到的 – 而不是简单罗列的事项清单。当招聘人员查看您的简历时,他/她希望以简洁和总括的方式了解您的背景以及您所取得的成就。如果页面的一半充满了了模糊的数据科学术语,如线性回归,XGBoost,LightGBM,没有任何解释,您的简历可能无法通过筛选。
消除简历混乱最简单的方法是使用项目符号。仅列出你会用到去完成某些事情的技术(可能是项目或竞赛)。写一篇关于你如何使用它的文章会更有助于招聘人员理解你的想法。
当您申请入门级的工作时,你的简历需要反映你潜在可以为业务增加的影响。简历将被应用于不同领域中的角色,因此准备一个模板会有所帮助 – 只需更改您对该特定行业的兴趣即可
Kunal Jain撰写的这篇文章是为数据科学角色准备优秀简历的绝佳资源。
让我们举个例子来理解为什么这是一个错误。想象一下,你拿到了一个房价数据集,你需要预测房地产的价值。有包括建筑物数量,房间数量,租户数量,家庭规模,庭院大小,是否有水龙头等等200多个变量。您很可能不知道某个变量的含义。但您还是构建具有良好准确性的模型,但您不知道的是为什么剔除了这个变量。
事实证明,该变量是现实场景中的一个关键因素。这是一个灾难性的错误。
拥有扎实的工具和库知识是非常好的,但它只能到此为止。将这些知识与领域内的业务问题相结合,才是数据科学家真正介入的地方。您应该至少了解您感兴趣(或正在申请)的行业中的基本挑战。
这里有很多选择:
如果您正在申请特定行业的数据科学家,尝试了解该领域的公司如何使用数据科学
如果可能,搜索特定行业中的数据集并尝试对其进行处理。这将是你简历中一个非常出色的要点
阅读下方纽约时报的这篇优秀文章,了解为什么领域知识是数据科学的主要推动力
https://www.forbes.com/sites/kalevleetaru/2016/06/12/why-we-need-more-domain-experts-in-the-data-sciences/#fa319143b508
数据可视化是数据科学的一个很美妙的方面,但许多有胸怀抱负的数据科学家更喜欢略过它直接进入模型构建阶段。这种方法可能会在比赛中有用,但在实际工作中必然会失败。了解你拥有的数据是最重要的事情,你的模型结果会反映出这一点。
通过花时间了解数据集并尝试用不同的图表展示,您将更深入的了解您要解决的挑战或问题,你会惊讶地发现你可以获得这么多洞察!可以看到模式和趋势,以及隐藏的规律。可视化是向客户展示洞察的最佳方式。
作为一名数据科学家,你需要天生好奇。这是数据科学最棒的事情之一 – 你越是好奇,你会问的问题就越多。这样可以更好地理解你的数据,并有助于解决您一开始不知道的问题!
实践!下次处理数据集时,请花更多时间在此步骤上。您会惊讶于它为您产生的洞察。提问!询问您的经理,询问领域专家,在互联网上搜索解决方案,如果您没有找到,请在社交媒体上询问。你有如此多的选择!
为了帮助您入门,我在下面提到了一些可供参考的资源:
R中数据可视化综合指南
数据探索综合指南(强烈推荐)
18个免费的探索性数据分析工具适用于编码不好的人
结构化思维在许多方面都可以帮助到数据科学家:
拥有结构化思维的好处还有很多。可以想象一下,不使用结构化思维的话会不直观。你的工作和解决问题的方法都是随意杂乱的,当遇到复杂的问题时你会忘记自己的步骤等等。
当您参加数据科学面试时,您将不可避免地需要分析案例,测算、估计等。由于面试时充满压力的气氛和时间限制,面试官会考察你的思维结构如何,以达到最终评估。大多数情况下,对是否获得这份工作来说,这可能是一锤定音的因素。
您可以通过简单的训练和规范的方法获得结构化的思维方式。我在下面列出了一些文章,它们将对你有所帮助:
我见过太多次这个问题了。由于每个工具提供的独特功能和局限性不同,人们倾向于一次性的学习所有工具。这是个坏主意 – 你最终无法掌握它们中任何一个。工具是执行数据科学的一种手段,但是它们不是最终目标。
选择一个工具并坚持学习直到你掌握它为止。如果你已经开始学习R,那么不要被Python所诱惑。坚持端到端的学习R的使用,然后再尝试将另一种工具融入您的技能组合中。您将通过这种方法了解更多信息。
每个工具都有一个很好的用户社区,在遇到困难时可以在社区提问。使用我们的论坛(下方链接)来提问和在线搜索,不要放弃。目的是通过该工具学习数据科学,而不是通过数据科学学习工具。
如果您仍未确定应该使用哪种工具,请查看这篇精彩的文章,其中列出了每个工具的优点和缺点(如果您对此感兴趣,还包括SAS)。
https://discuss.analyticsvidhya.com/
这适用于所有数据科学家,而不仅仅是新人。我们容易分心。在研究了一段时间(比如一个月)之后,然后我们在接下来的两个月休息。在那之后试图回到事物的正规上简直是一场噩梦。大多数早期的概念都被遗忘了,笔记丢失了,感觉就像我们最近几个月都浪费了一样。
我也经历过这一点。由于我们在处理各种各样的事情,我们找借口和理由不再学习。但这最终是我们的损失 – 如果数据科学就像打开教科书并且塞满一切一样容易,那么每个人都是数据科学家。它需要一致的努力和学习,人们直到为时已晚才会意识到这一点
为自己设定目标。绘制出时间表贴在墙上。计划你的学习方式和内容,并设定截止日期。例如,当我想学习神经网络时,我给了自己几个星期,然后通过黑客松比赛测试我学到的东西。
既然你已经决定成为一名数据科学家,所以你应该准备好投入时间。如果你不断寻找不去学习的借口,这可能不适合你。
这是前面一些问题的组合。有胸怀抱负的数据科学家会害羞在线发布他们的分析,因为他们害怕受到批评。但是,如果你从没有收到过社区的反馈意见,那你将不会成长为数据科学家。
数据科学是一个重视讨论,思想和头脑风暴的领域。你不能坐在孤岛中工作 – 你需要合作并理解其他数据科学家的观点。同样,人们不参加比赛是因为他们觉得自己不会获胜。这是一种错误的心态!你参加这些比赛是为了学习而不是赢。获胜是奖励,学习是目标。
相当简单 – 开始参与讨论和比赛!不进入前5%也无所谓。如果你从整个事物中学到一种新技术,对你来说也是一种胜利。
沟通技巧是数据科学家绝对必须拥有的技能之一,但是关于它的评价和谈论都最少。我至今还没有遇到一个强调沟通技巧的课程。您可以学习所有最新技术,掌握多种工具并制作优秀的图表,但如果您无法向客户解释你的成功,您将会是失败的数据科学家。
不仅仅是客户,您有可能与不熟悉数据科学的团队成员合作 – IT,人力资源,财务,运营等。可以肯定的是面试官也会特别注意这一点。
假设您使用逻辑回归构建了信用风险模型。作为一个思考练习,花一点时间思考如何向非技术人员解释你是如何得出最终结论的。如果你使用过任何术语,你需要尽快开展这项工作!
如今大多数数据科学家都来自计算机科学背景,所以我理解这可能是一项令人生畏的技能。但要成为一名成功的数据科学家并爬上阶梯,你别无选择,只能磨练自己个性的这一部分。
我觉得最有用的一件事就是向非技术人员解释数据科学术语。它可以帮助我衡量我认识问题的清晰度。如果您在中小型公司工作,请在营销或销售部门找一个人并与他们一起做这个练习。从长远来看,它将极大地帮助你提升。
互联网上有大量的免费资源可以帮助您入门,但请记住,练习是提升技能的关键。从今天就开始吧!
这绝对不是一个详尽的清单 – 胸怀抱负的数据科学家还可能犯许多其他错误。但以上这些是最常见的,如前所述,我的目标是帮助大家尽可能的避免这些问题。