其他

学习机器学习需要具备怎样的数学水平?

2017-11-03 大数据



在过去的几个月里,我一直和一些人交流,他们已经开始切入数据科学领域并积极使用机器学习(ML)技术来探索统计规律、或构建完善的数据驱动产品。然而,我发现很多情况下统计分析结果不尽人意的原因是是缺乏必要的数学直觉和知识框架。这就是我决定写这篇博客的主要原因。


最近兴起了许多易于使用的机器学习和深度学习的安装包,如scikit-learn,weka,tensorflow,r-caret等。机器学习理论是横跨统计、概率、计算机科学和算法等相关领域,可以用来构建智能应用程序。虽然机器和深度学习有着无限前景,但就这些技术而言,透彻的数学理解对掌握内部运算和获得较好的效果是非常有必要的。



为什么要强调数学?


毫无疑问机器学习中数学是重要的,例如你需要:

1.选择合适的算法,包括考虑精度、训练时间、模型的复杂性、参数和数量特征;

2.选择参数设置和验证策略;

3.通过了解偏差方差权衡来识别拟合不足与过度拟合;

4.估计正确的置信区间和不确定性。



你需要具备怎样的数学水平?


到底需要具备多少数学知识才能理解机器学习这个交叉领域的技术呢?这个问题没有统一的答案,通常是因人而异的。机器学习的数学公式和理论研究正在进行中,研究人员也正在研发更多的先进技术,所以回答这个问题是不太容易的。下面我将从以下方面阐述我认为成为机器学习科学家/工程师所需的最低数学水平以及每个数学概念的重要性。


 1.线性代数:我的一个同事Skyler Speakman说“线性代数是二十一世纪的数学”,我完全同意这个说法。在ML中,线性代数到处都是。主成分分析(PCA)、奇异值分解(SVD)、矩阵的特征分解、LU分解、QR分解/因式分解、对称矩阵,正交化和正交化、矩阵运算、投影、特征值和特征向量、向量空间和规范这些都是理解机器学习及其优化方法所必需的。线性代数令人惊奇的是,有很多在线资源。 我一直说传统的课堂正在死亡,因为互联网上有大量的资源。我最喜欢的线性代数课程是MIT(Gilbert Strang教授)课程。


2.概率理论与统计学:机器学习与统计学领域是有很多相似的地方。实际上,有人最近将机器学习定义为“在Mac上统计数据”。 机器学习需要基本统计和概率理论的综合知识,如概率规则和公理、贝叶斯定理、随机变量、方差和期望、条件和联合分布、标准分布(伯努利,二项式,多项式,均匀和高斯)、矩生成函数、最大似然估计(MLE)、先验和后验、最大后验估计(MAP)和抽样方法。


3.多元微积分:主要领域包括微积分、偏导数、向量值函数、梯度方向、Hessian矩阵、雅可比矩阵、拉普拉斯和拉格朗日分布。


4.算法和复杂度优化: 这些在评估计算的效率和可扩展性,或利用稀疏矩阵时,显得非常重要。 需要知识包括数据结构(二叉树,散列,堆,堆栈等)、动态规划、随机和线性算法、图形、梯度/随机下降和原对偶方法。


5.其他:包括上述四个主要领域未涵盖的其他数学主题。它们包括实分析和复分析(集合和序列、拓扑、度量空间、单值和连续函数、限制、柯西内核、傅里叶变换),信息理论(熵,信息增益),函数空间和Manifolds流形。


我推荐的机器学习在线MOOC和材料如下:


·KhanAcademy's LinearAlgebra, Probability & Statistics, Multivariable Calculus and Optimization.

·Coding the Matrix: Linear Algebrathrough Computer Science Applications by Philip Klein, Brown University.

·Linear Algebra - Foundations to Frontiers by Robert van de Geijn, University ofTexas.

·Applications of Linear Algebra, Part 1 and Part 2.A newer course by Tim Chartier, Davidson College.

·JosephBlitzstein - HarvardStat 110 lectures.

·LarryWasserman's book - All of statistics: A Concise Course in Statistical Inference.

·Boydand Vandenberghe's course on Convexoptimization from Stanford.

·LinearAlgebra - Foundations to Frontiers on edX.

·Udacity'sIntroduction to Statistics.


这篇文章的主要目的是给出数学在机器学习中的重要性建议以及掌握这些相关内容的有用资源。 然而,一些机器学习爱好者是数学新手,可能会发现这个帖子很令人泄气(说实话,这不是我的目的)。 对于初学者,你不需要掌握很多数学知识才能开始机器学习。 根本的先决条件是我之前一篇博客文章中所描述的数据分析,您可以边学习数学边去掌握更多的算法和技术。


来源:PPV翻译小组


近期精彩活动(直接点击查看):

福利 · 阅读 | 免费申请读大数据新书 第21期


END


投稿和反馈请发邮件至hzzy@hzbook.com。转载大数据公众号文章,请向原文作者申请授权,否则产生的任何版权纠纷与大数据无关。

大数据


为大家提供与大数据相关的最新技术和资讯。


长按指纹 > 识别图中二维码 > 添加关注


近期精彩文章(直接点击查看):

华为内部狂转好文,大数据,看这一篇就够了!

读完这100篇论文,你也是大数据高手!

如何建立数据分析的思维框架

百度内部培训资料PPT:数据分析的道与术

论大数据的十大局限

打包带走!史上最全的大数据分析和制作工具

数据揭秘:中国姓氏排行榜

程序猿分析了42万字歌词后,终于搞清楚民谣歌手唱什么了

计算机告诉你,唐朝诗人之间的关系到底是什么样的?

数据分析:微信红包金额分配的秘密

2000万人口的大北京,上下班原来是这样的(附超炫蝌蚪图)

大数据等IT职业技能图谱【全套17张,第2版】

不要跟赌场说谎,它真的比你老婆还了解你

如果看了这篇文章你还不懂傅里叶变换,那就过来掐死我吧

不做无效的营销,从不做无效的用户画像开始


更多精彩文章,请在公众号后台点击“历史文章”查看,谢谢。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存