在创造万物之前,上帝只是在做纯理论的数学。后来他想,做点应用数学应该是个有趣的变化。——数学家 John Edensor Littlewood
数学和统计学是数据科学和机器学习的基础。就我所知,大多数成功的数据科学家都来自这些领域——计算机科学、应用数学和统计学、经济学。如果你想掌握数据科学,你就必须要对基本代数和统计学有很好的了解。
但是,对于没有数学背景的人来说,起步之路可能会举步维艰。首先,你必须要搞明白哪些必须学,哪些没有必要——其中可能包含了线性代数、微积分、概率学、统计学、离散数学、回归、优化等许多主题。你需要多么深入这些主题?自学的话很难单靠自己把这一切都把握好。如果你正面临着这样的难题,不要惊慌,现在我已经把这项艰辛的工作帮你完成了。这份列表推荐了来自 Coursera、edX、Udemy 和 Udacity 的最受欢迎的数据科学数学基础公开课。这份列表经过了精心的编排,让你可以结构化地自学数据科学所需的数学概念。为了帮助你浏览这些课程,我将课程分为初级、中级以及高级三类,分别针对不同学习者。在深入学习前,请选择你的数学专业水平。我添加了修习每个课程之前必须做的功课,以资参考。学习完预备课程才能更好地理解后续课程,这样的课程很少。所以,你一定要确定了解这些课程主题或者上过这些课。1. 数据科学数学技巧(Data Science Maths Skills)地址:https://www.coursera.org/learn/datasciencemathskills如果你是个初学者,数学知识十分有限,那么,这个课程很适合你。课程中,你会了解许多代数概念,比如集合论、不等式、函数、坐标几何、对数以及概率等等。这个课程会带你浏览数学科学所需的所有基础数学技能并打下坚实基础。课程开始时间为 2017 年 1 月 9 日,授课老师来自杜克大学。2. 描述统计学入门(Intro to Descriptive Statistics)地址:https://www.udacity.com/course/intro-to-descriptive-statistics--ud827对于想要学习统计学的初学者来说,Udacity 的这门课是非常好的入门指南。内容有趣、实用,而且有很多实例。描述统计学首先会让你熟悉各种统计学和定义。然后教授统计学概念,比如集中趋势(central tendency)、可变性(variability)、标准正态分布以及取样分布。这门课并不需要你提前掌握一些统计学知识,现开放注册。3. 推论统计学入门(Intro to Inferential Statistics)地址:https://www.udacity.com/course/intro-to-inferential-statistics--ud201学完描述统计学后,就该学习推论统计学了。本课程仍然延续了实用的授课方式。课程中,你会学到诸如估算(estimation)、假设检验、t 检验、卡方检验、单向方差分析、双向方差分析以及相关、回归等统计概念。每个主题后面还配有习题集和小测试。课程结束后,你还能在真实数据组上测试学习情况。课程已开放注册。预备知识:完全理解描述统计学(Descriptive Statistics,即上面的第 2 个推荐)替代课程:《统计学:打开数据世界之门(Statistics: Unlocking the World of Data)》,一个为期 6 周的匹兹堡大学的课程(edX)。地址:https://www.edx.org/course/statistics-unlocking-world-data-edinburghx-statsx#!4. 概率和数据入门(Introduction to Probability and Data)地址:https://www.coursera.org/learn/probability-intro本课会带你使用 R 和 RStudio 接触数据视觉化和数值统计。首先带你掌握概率和数据挖掘基本概念,开始对课程有个基本了解。然后,分别解释不同主题下的各个概念。最后会使用真实数据集,通过一个数据分析项目测试你的学习情况。授课人是来自杜克大学的统计学教授,也需要你预先掌握专门的 R 统计学知识。如果希望为了研究数学科学而学习 R,那么,这门课程不容错过。课程已开放注册。5. 无处不在的数学:有限数学应用(Math is Everywhere: Applications of Finite Math)地址:https://www.udemy.com/math-is-everywhere-applications-of-finite-math/课如其名,讲授无处不在的数学,从愤怒的小鸟到谷歌。以有趣的方式讲授应用中的数学概念。课程中,你会学到如何使用线式方程(equation of lines)来创造计算机字体、图论如何在愤怒的小鸟中扮演重要角色、线性系统如何为一个运动团队的表现建模以及谷歌如何使用概率和模拟来保持在搜索引擎上的领先优势。6. 概率论:基本概念和离散型随机变量(Probability: Basic Concepts & Discrete Random Variables)地址:https://www.edx.org/course/probability-basic-concepts-discrete-purduex-416-1x授课:普渡大学(Purdue University)本课程是为谋求有关数据科学和信息科学职业者所设计。其涵盖了数学概率论的基本要素。在本课程中,你将学习到概率论、随机变量、分布、贝叶斯定理概率质量函数和 CDF、联合分布律和期望值等基本概念。一旦你熟悉了这些基础知识,就可以研究更加深入的概念,如伯努力和二项式分布、几何分布、负二项式分布、泊松分布、超几何分布和离散均匀分布。在学习本课程之后,你将对日常生活中的概率应用有一个深入了解。本课程已开放注册。7. 数学生物统计学训练营 1(Mathematical Biostatistics Boot Camp 1)地址:https://www.coursera.org/learn/biostatistics授课:约翰霍普金斯大学(Johns Hopkins University)实际上,「生物统计学」里面的「生物」是个误导。本课程全是用于数据分析的概率论和统计学技术基础。该课程包含概率、期望、条件概率、分布、置信区间、bootstrapping、二项式分布(binomial proportions)和对数分布(logs)。线性代数和编程的背景知识对本课程很有帮助,但不是强制需要的预备知识。该课程从 2017 年 1 月 16 日开始,由约翰霍普金斯大学的生物统计学教授授课。预备知识:基本线性代数、微积分和实用编程(非强制)。8. 线性代数的应用(第一部分)(Applications of Linear Algebra Part 1)地址:https://www.edx.org/course/applications-linear-algebra-part-1-davidsonx-d003x-1授课:戴维森学院(Davidson College (edX))本课程将首先介绍线性代数的基本知识。然后将向你介绍线性代数的应用,如用于手写数字识别和球队排名等在线代码。9、数学思维入门(Introduction to Mathematical Thinking)地址:https://www.coursera.org/learn/mathematical-thinking#这门来自斯坦福大学的课程会教你掌握分析思维技能。你能学到有趣的开箱即用的思维方式,帮助你在竞争中保持优势。在这门课中,你将学会一种语言、量词分析,数论以及实分析的简单入门。充分掌握这本课程需要熟悉代数、数系(number system)以及初级集合论的知识。课程将于 2017 年 1 月 9 日开始,授课老师来自斯坦福大学。目前已开放注册。这个时候,你应该已经知道了一个数据科学家需要知道的所有基础概念。是时候把你的数学知识提升到下一个级别了。1. 贝叶斯统计:从概念到数据分析(Bayesian Statistics: From Concept to Data Analysis)地址:https://www.coursera.org/learn/bayesian-statistics贝叶斯统计师数据科学的一个重要课题。因某些原因,它没获得足够的重视。在此课程中,第一节讲了基础的概率课题,比如条件概率、概率分布和贝叶斯定理。然后,你会学习 Frequentist 和贝叶斯方法的统计推断、选择最优分布的方法、离散数据的模型以及连续数据的贝叶斯分析。上此课程需要之前需要掌握统计概念的知识,课程开始于 2017 年 1 月 16 日。地址:https://www.coursera.org/learn/game-theory-1授课:斯坦福大学和英属哥伦比亚大学(Coursera)博弈论是数据科学中一个非常重要的组成部分。本课中,你会学习博弈论的基础知识及其应用。如果你打算今年掌握强化学习,这门课非常适合你。课程会让你对以下内容等有个基本了解:表征博弈和策略、扩展形式(计算机科学家称为博弈树)、贝叶斯博弈(为诸如拍卖之类的事情建模)、重复和随机博弈。每个概念都会辅以样例和应用。授课老师来自斯坦福大学和英属哥伦比亚大学,已开放注册。3. 博弈论 II:高级应用(Game Theory II: Advanced Applications)地址:https://www.coursera.org/learn/game-theory-2授课:斯坦福大学和英属哥伦比亚大学(Coursera)在之前的课程上过博弈论基础之后,该课程是对博弈论高级应用的讲解。在此课程中,你将会学到如何设计代理之间的交互,从而获取好的社会结果(social outcome)。课程覆盖的三个主要课题是:社会选择理论、机制设计和竞拍。该课程开始于 2017 年 1 月 30 日,由来自斯坦福大学与英属哥伦比亚大学的教授教课。4. 线性模型导论和矩阵代数(Introduction to Linear Models and Matrix Algebra)地址:https://www.edx.org/course/introduction-linear-models-matrix-harvardx-ph525-2x-0矩阵代数已在实验性设计和高维数据分析的各种工具中使用。为了易于理解,这个课程分成 7 部分以循序渐进的方式进行讲授。你将会学到矩阵代数的符号及其运算,数据分析中的矩阵代数应用,线性模型和 QR 分解。这个课程所用的编程语言是 R 语言。你可以自由选择课程内容中更迎合你兴趣点的部分并进行相应内容的学习。这个课程是由哈佛大学的生物统计教授讲授,且目前只开放给该课注册学员。5. 数据科学的高阶线性模型 1:最小二乘法(Advanced Linear Models for Data Science 1: Least Squares)地址:https://www.coursera.org/learn/linear-models这个课程是高阶线性统计学习模型两部分系列的第一部分内容。那些对回归模型已经有了解并且想要在这上面寻求进一步学习的人一定要学习这个课程。在这个课程里,你将会学到一个和两个参数的回归分析、线性回归分析、一般最小二乘法、最小二乘法的范例、基础以及残差。在你开始下一步学习之前,我需要澄清一点,你需要有线性代数基础、多元微积分基础、了解统计和回归模型、熟悉基于论证的数学和 R 语言的操作知识。这个课程将在 2017 年 1 月 23 日开始。预备知识:线性代数、微积分、统计学以及 R 语言知识6. 数据科学的高阶线性模型 2:统计的线性模型(Advanced Linear Models for Data Science 2: Statistical Linear Models)地址:https://www.coursera.org/learn/linear-models-2这个是高阶线性统计学习模型课程的第二部分。那些对回归模型已经有了解并且想要在这上面寻求进一步学习的人一定要学习这个课程。在这个课程里,你将会学到多元正态分布的统计建模基础、分布结果以及残差选项的基础内容。在你开始下一步学习之前,我需要澄清一点,你需要有线性代数基础、多元微积分基础、了解统计和回归模型、熟悉基于论证的数学和 R 语言的操作知识。这个课程将在 2017 年 1 月 23 日开始。预备知识:线性代数、微积分、统计学以及 R 语言知识7. 体育中的数学(Maths in Sports)地址:https://www.edx.org/course/math-sports-notredamex-mat150x授课:圣母(Notre Dam)大学(来源 edX)我是一个对数学如何被用于触发运动和日常生活更深入见解非常好奇的人。我发现了这个课程,这个课程呈现了你最喜爱运动中如何运用数学来分析数据并且预知运动员及其团队的发展趋势和未来表现。在这个课程里,你将会学到归纳推理是如何被用于数学分析的;概率论怎么被用于数据评估以及风险和任何事件结果的评估。所有主要的团队运动,田径运动,甚至极限运动如攀岩都包括在课程之中。这个课程是由圣母大学的教授讲授,目前只开放给注册该课程的学员。太棒了,到目前为止,你将可以完全自主学习了。你应该已经掌握了数学与统计上的一些技巧,将会对接下来的继续学习充满信心,加油!1. 离散最优化(Discrete Optimization)地址:https://www.coursera.org/learn/discrete-optimization所有行业以及公司都会运用最优化。航空公司运用最优化来确保固定的周转时间;电子商务公司如亚马逊运用最优化来实现货物的准时送达。最优化在宏观层面上的应用包括成千上万人的供电部署、新药的研发路径制定等等。这个课程给你提供一个全方位理解离散最优化的机会,并且离散最优化已用于我们日常生活。这个课程首先会带你学习离散最优化的基础知识及其不同技巧。你将会学到约束条件(constraint),线性和混合整数的编程。这个课程的最后一部分包括了最优化的高阶专题。学习这门课程的先决条件是你需要具备很好的编程能力,对基础算法的了解以及线性代数知识。这门课将在 2017 年 1 月 16 日开始,由墨尔本大学的教授讲授。2. 基因数据科学的统计(Statistics for Genomic Data Science)地址:https://www.coursera.org/learn/statistical-genomics如果你渴望成为下一代数据测序科学家,那么你必须学习这个课程。在这个课程里,你将会学到探索性分析;线性建模;假设测试和多假设追踪测试;不同类型的数据处理如转录组测序(RNA-seq)、全基因组关联研究(GWAS)、染色质免疫共沉淀测序(ChIP-Seq)以及 DNA 甲基化(DNA Methylation)研究。这个课程是约翰霍普金斯大学基因组数据科学家特别专题的一部分。课程将会从 2017 年 1 月 16 日开始。3. 大数据应用的生物统计(Biostatistics for Big Data Applications)地址:https://www.edx.org/course/biostatistics-big-data-applications-utmbx-stat101x这个课程是对运用生物医学大数据进行数据分析的介绍。在这个课程里,你将会学到生物统计方法的基本组件。不熟悉统计学的人在处理生物医学的大数据时能遇到不同类型的挑战。学习在生物医学数据类型下基本统计是如何运用的。你将在课程里学到 R 语言编程的基础知识;如何创建以及解释数据的图形摘要;参数化和非参数化的推论统计方法。你将会收获 R 语言下生物医学问题的处理经验。希望你觉得这篇文章有用。到目前为止,你已经搞清楚了自学的学习领域。如果你有数学背景,可以学习高级课程。如果没有,就从初级开始吧,再一步步前进。
星标我们不迷路!想要文章及时到,文末“在看”少不了!
点击搜索你感兴趣的内容吧
数据Seminar
这里是大数据、分析技术与学术研究的三叉路口