查看原文
其他

机器学习丨从何开始学习数据科学?小哥用亲身经历告诉你如何少走弯路

大数据文摘 数据Seminar 2021-06-03

本文来源于medium,转载自公众号大数据文摘



几天前,我开始考虑如果必须重新开始学习机器学习和数据科学,我将从哪里开始?有趣的是,我如今想象的路径与我刚开始时实际走的路径完全不同。我知道我们每个人都以不同的方式学习。有些人喜欢视频,有些人只喜欢看书,很多人需要参加付费课程去感受更多的压力。没关系,重要的是真的去学习并且享受其中。如果我不得不重新开始学习数据科学,从我自身的角度为了能够更好地学习,我设计了一下这条道路,供大家参考。                                  如你所见,我最喜欢的学习方法是从简单入手,逐渐研究复杂的内容。这意味着从实际示例开始,然后转向更抽象的概念。


1Kaggle微课程

我知道从这里开始可能很奇怪,许多人希望从最沉重的基础和数学视频开始,以充分了解每种ML模型背后发生的事情。但是从我的角度出发,从实用和具体的角度出发有助于更好地了解整个情况。

此外,每门小课程需要只大约4个小时才能完成,因此预先设定达到这些小目标会增加额外的动力。

Python

如果你熟悉Python,则可以跳过此部分。在这里,你将学习基本的Python概念,这些概念将帮助你开始学习数据科学。虽然关于Python的很多事情对你来说仍然是个谜,但是随着我们的前进,你将通过实践学习它。

价格:免费链接: 

https://www.kaggle.com/learn/python


Pandas

Pandas将为我们提供开始使用Python处理数据的技能。我认为4小时的微课程和实际示例足以使人们对可以做的事情有一个概念。

价格:免费链接:

https://www.kaggle.com/learn/pandas


数据可视化

数据可视化也许是最被低估的技能之一,但它也是最重要的技能之一。它将使你完全了解要使用的数据。

价格:免费链接:

https://www.kaggle.com/learn/data-visualization


机器学习入门

令人兴奋的部分开始了!你将学习基本的概念,可以开始训练机器学习模型。这些在未来之路上至关重要的概念,你必须了解的非常清楚。

价格:免费链接:

https://www.kaggle.com/learn/intro-to-machine-learning


中级机器学习

这是对前面的补充,但是在这里,你将第一次使用分类变量,并处理数据中的空字段。价格:免费链接:

https://www.kaggle.com/learn/intermediate-machine-learning

应该清楚的是,这5个微课程不是线性过程,你可能必须在它们之间反反复复才可以记住这些概念。当你在Pandas上工作时,你可能必须回到Python课程以记住你学到的一些知识,或者转到pandas文档以了解在“机器学习入门”课程中看到的新功能。所有这一切都很好,真正的学习就是这样发生的。
现在,如果你意识到前5门课程将为你提供进行探索性数据分析(exploratory data analysis,EDA)和创建基础模型(以后你将可以对其进行改进)的必要技能,因此,现在是开始简单的Kaggle竞赛并将你学到的知识付诸实践的最佳时机。


2Kaggle竞赛

泰坦尼克号

在这里,你将把在入门课程中学到的知识付诸实践。刚开始时可能有点吓人,不要关心是否在排行榜中排名第一,而是学习。在本竞赛中,你将学习有关这类问题的分类和相关指标,例如精度(precision),召回率(recall)和准确性(accuracy)。链接:

https://www.kaggle.com/c/titanic


房价

在本竞赛中,你将应用回归模型并了解诸如RMSE之类的相关指标。

链接:

https://www.kaggle.com/c/home-data-for-ml-course

至此,你已经具有丰富的实践经验,并且会觉得自己可以解决很多问题,但很有可能是你不完全了解所使用的每种分类和回归算法背后的情况。因此,这是我们必须学习所学知识的基础的原因。



3可以参考的书籍和课程许多课程都是从这里开始的,但是至少我以前做过一些实践性的工作后,我才能更好地吸收这些信息。
《数据科学从零开始(Data Science from Scratch)》此时,我们将暂时将自己与pandas,scikit-learn和其他Python库分开,以务实的方式了解这些算法“背后”的知识。这本书读起来很轻松,它带了每个主题的Python示例,并且没有太多数学运算。我们想了解算法的原理,但是从实践的角度来看,我们不想因阅读大量密集的数学符号而灰心。价格:26美元如果你学到这里,我会说你很有能力从事数据科学工作,并且了解了解决方案背后的基本原理。因此,在这里我建议你继续参加更复杂的Kaggle竞赛,参加论坛讨论并探索在其他参与者解决方案中发现的新方法。
在线课程:吴恩达《机器学习》在这里,我们将看到许多我们已经学到的东西,但是我们将观看该领域一位引领者的解释,他的方法将更加数学化,因此这将是深入理解我们模型的绝佳方法。价格:不带证书免费,带证书79美元链接:https://www.coursera.org/learn/machine-learning
《统计学习的要素(The elements of Statisitcal Learning )》繁重的数学部分现在才开始。(想象一下,如果我们从一开始学习数据科学就读这本书,那将一直是一条多么艰难的道路!我们可能会早早的就放弃了。)价格:60美元,斯坦福网页上有官方免费版本:https://web.stanford.edu/~hastie/ElemStatLearn/printings/ESLII_print12.pdf
在线课程:吴恩达《深度学习》此时,你可能已经读到过深度学习和使用过某些深度学习模型。但是在这里,我们将学习神经网络的基础,它们是如何实现和应用现有的不同体系结构的。价格:49美元/月链接:https://www.deeplearning.ai/deep-learning-specialization/至此,之后的路很大程度上取决于你自己的兴趣,你可以专注于回归和时间序列问题,或者可以更深入地学习深度学习。相关报道:https://towardsdatascience.com/if-i-had-to-start-learning-data-science-again-how-would-i-do-it-78a72b80fd93

·END·




点击搜索你感兴趣的内容吧

资讯丨《产业经济评论》关于“数字经济与人工智能专题“征文启事(文末有福利)


软件应用丨Python办公自动化:批量合并PDF,拿来就用


统计计量丨怎么写好计量经济学实证分析论文?







数据Seminar




这里是大数据、分析技术与学术研究的三叉路口




出处:大数据文摘

推荐:杨奇明

排版编辑:青酱



    欢迎扫描👇二维码添加关注    


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存