2021年数据科学家求职必须掌握的五大新概念
今日份知识你摄入了么?
数据科学家是当前全球商业环境中令人梦寐以求的工作,成为一名数据科学家需要付出很多努力。作为未来的数据科学家,你需要掌握多种技能,才能在数据科学和分析领域有所成就。虽然在完成大学课程时你已经掌握了许多数据科学技能,但还有些技能只有在实际工作中才能学到。
这些是最近兴起的一些现代数据科学概念,只有踏入工作领域的数据科学家才知道的高级技能。作为一名刚刚崭露头角的数据科学家,你只有在整个职业生涯中不断学习,才能在职场中快速成长。对于当今的数据科学家或正在寻求在所属行业中有所突破的人来说,都必须把技能训练当成一种习惯。例如考取一些广泛认可的数据科学资格证书,对发展新技能有很大帮助。
以下是当今数据科学家事业成功必须具备的五项技能。
你必须练习的5大数据科学技能
Multicollinearity
01
“Multicollinear”这一单词由两部分组成——“multi”表示多个,“collinear”表示线性相关。Multicollinearity表示两个或多个变量描述相似的信息,或者在回归模型中紧密相关。这一概念引起重视是有原因的。
Multicollinearity可能导致某些模型过度拟合,性能下降。为了检测multicollinearity,数据科学家通常使用以下两种方法:
热图 (Heatmaps)
方差膨胀因子 (VIF)
VIF的值越高,可用于回归建模的特征就越少。
One-Hot Encoding
02
One-Hot Encoding是建模过程中特征转换的一种方法。通过one-Hot Encoding,数据科学家可以把类别特征转换成数值形式。每个类别特征可以有很多个值,通过one-Hot Encoding,每一个值都会变成一个新的特征。新的特征只能取 “1” 或 “0” 两个值。鉴于这种方法可以把所有类别特征或字符串以数值的形式表示出来,当你有很多这类特征但需要数值特征来建模时,就会发现它的巨大作用。
Sampling
03
当数据严重匮乏时,可以使用过采样 (Oversampling) 的方式。假设你正在做分类问题,并且数据集包含少数类,比如下面这样:
类别1= 100行
类别2= 1000行
类别3= 1100行
这里类别1样本数量很少,数据集不平衡,因此类别1被称作“少数类 (Minority class)”。过采样有很多方式。其中之一就是SMOTE (Synthetic Minority Over-Sampling Technique)。SMOTE采用kNN技术寻找少数类样本的近邻,以此构造新的少数类样本,补充训练集。还有很多类似于SMOTE的其他技术,使用相反的方法进行欠采样 (Under sampling)。
当回归数据或分类类别中有异常值时,这些方法都非常有效,可以使采集的样本更符合未来将投入模型的数据。
Error Metrics
04
不管是回归模型还是分类模型中,都有很多数据科学领域的error metrics。根据scikit-learn库,以下是最适合回归模型的error metrics:
metrics.mean_gamma_deviance
metrics.r2_score
metrics.explained_variance_score
metrics.median_absolute_error
metrics.mean_squared_log_error
metrics.mean_poisson_deviance
metrics.mean_squared_error
metrics.max_error
metrics.mean_absolute_error
其中,最受欢迎的两个error metrices是RMSE和MSE。
Storytelling
03
Storytelling大概是最被低估的数据科学概念或技能,但实际上,它可能是你为了成为数据科学家可以获得的最强大的技能。在数据科学的世界中,storytelling意味着你与公司中的团队成员和高层管理人员交流解决问题的策略的能力。很多时候,数据科学家过多地关注模型的准确性,但却不了解整个业务流程的具体要求。
整个业务流程包括以下元素和变量:
从事什么业务?
打算解决什么问题?
需要数据科学和分析做什么?
什么时候可以得到结果?
如何利用这一结果来确保流程改进,业务增长和盈利能力?
这一结果的潜在影响是什么?
以上任何一点可能都不会导致模型准确性的明显进步。但了解这些可以帮助你了解如何使用数据来有效解决公司的业务问题。每一个数据科学家都应该花些时间与利益相关者和非技术同事沟通,因为可能有一天你会需要与他们合作,并且直接或间接的需要他们的服务。
你还可能与产品经理合作,需要他们帮助确定问题。你还会需要数据工程师来获得相关数据。之后,你还要向高级管理层的人员做报告和演示,他们将最终评估你的模型。因此,成为一名优秀的沟通者会让你的工作事半功倍。
原文作者:Palak Sharma
翻译作者:Haoran Qiu
美工编辑:过儿
校对审稿:Dongdong
原文链接:https://palakdatascientist.medium.com/5-current-concepts-data-science-professionals-must-master-in-2021-26625f7ed28e
往期精彩回顾
点击“阅读原文”查看数据应用学院核心课程