机器学习 |《机器学习与Python实践》书评
本文转载自公众号统计之都
作者:黄跃,博士,景顺长城基金量化投资部研究员
受朋友推荐,我仔细翻阅了近期一本关于机器学习的新书,书名为《机器学习与Python实践》,出版方为人民邮电出版社,作者黄勉是上海财经大学一位具有丰富业界经验的统计学教授。读罢此书,受益良多。虽然这本书的定位偏向于机器学习的入门书籍,但其中仍不乏值得深入思考和学习的干货,特别是书中的颇多案例,与实践相结合,能够让初学者对抽象的机器学习方法不再陌生,同时也令相关从业者对于如何在具体实践中使用机器学习方法有豁然开朗之感。相比于市面上众多的机器学习书籍,其精华尽在实践之中。
这本书的整体框架和传统的机器学习书籍相似,涵盖了无监督学习和有监督学习(回归、分类),以及模型评价和选择的方法。但除此之外,整本书也有很多的创新之处,是在其他书籍中极少涉及的,主要有以下三个方面:
(1)和金融业界应用场景高度相关的案例分析
书中的案例大多以量化金融为主,但并非一蹴而就,而是穿插在各个章节中由浅及深,并且颇有脉络。例如,在针对初学者介绍Python时,引入了股票行情数据读取的案例,而后在描述性统计部分,引入了指数收益率的描述性统计的案例,虽然是两个基础案例,但确实是所有金融量化分析从业者的必经之路。
当然,后续的案例中也包含了一些大家耳熟能详的应用场景,例如通过各种机器学习算法预测股票收益,这想必是宽客们在初学机器学习时最先想到的应用方式,作者也不吝笔墨,将此案例贯穿了书中逻辑回归、决策树和深度学习三个部分的内容,虽然用来预测的特征十分简单,但也能明显的看出非线性模型相比于线性模型在低信噪比数据建模中的优势,抛砖引玉之后,让读者对于非线性机器学习方法的效果有了一定的了解,才敢于去寻找更有效的特征提取方式进行深入研究。
此外,还有一些对于初学者不那么直观或者目前在国内量化领域相对前沿的应用场景,书中也配以案例。例如,在介绍主成分分析时,引入了利率期限结构和股票收益率协方差阵分解两个案例,由于主成分天然的不易解释性,很多人对主成分分析的印象仅停留在降维上,对于主成分的具体含义和其他应用场景并不了解,而书中这两个案例就具体的展示了怎么去解读主成分的含义以及如何在实践中正确使用主成分分析。类似的应用在实践中也属前沿,特别是在股票风险模型的构建中,如何通过主成分分析的方法构造反应更迅速的风险模型,如何衡量不同股票对于利率期限结构变化的敏感度并将其纳入风险模型,单从机构研究报告来看,也是近年才覆盖到的研究内容。除此之外,书中最后一章的案例是应用深度Q网络搭建智能交易机器人,是近两年才出现的前沿成果,且目前在业界中仍属于一片蓝海,有待进一步挖掘研究。
(2)机器学习方法背后的统计学理论知识
一直以来,机器学习的发展得益于统计学理论的发展,但随着计算机算力的增加和大数据时代的到来,机器学习领域很多新的成果并不依赖于已有的统计理论,在不同的数据集上刷分成了检验成果的最好方式,所以很多介绍机器学习的书着重于介绍具体算法以及改进算法的一些人工经验,而忽视了其背后的统计学理论。
此书从内容的编排风格上看,与Hastie等人的那本经典的机器学习入门书籍《The Elements of Statistical Learning》比较相似。书中在讲解机器学习方法时,没有详细的算法介绍,而是有逻辑性的逐步引出内容,对于模型的假设也做了应有的说明,没有大量堆砌的词藻,言简意赅的指明了每个模型的应用场景。对于模型的统计学理论,书中均有大量提及,但限于篇幅展开的较少,部分重要的推导证明放在了各个章节后的练习题中,对于读者而言,手推一遍,无疑能够加深对于这些模型的理解,应用起来更加得心应手。
(3)强化学习等前沿机器学习领域
此书在传统机器学习方法的基础之上,也补充了一些新的前沿研究穿插在各个章节之中。例如,在决策树部分对Xgboost的介绍,作为在小数据集上能够战胜深度学习的算法,在实践中的重要性不言而喻;例如,在深度学习部分对深度残差网络的介绍,残差网络的构造方式对于卷积神经网络而言是一个里程碑式的进步;例如,书中最后一章关于强化学习的介绍,自从AlphaGo横空出世后,对于如何将深度学习与强化学习有机结合成为学术界和业界又一个火热的研究方向,作者甚至还以DQN构造智能交易机器人为案例,这在市面上的机器学习书籍中是十分罕见的。
总体而言,这是一本非常适合机器学习初学者、金融量化分析从业者以及在经济和金融领域有志于学习和应用机器学习方法的从业者,书的核心价值在于作者在实践中接触到的各种案例,场景明确且辅以可以实操的Python代码,上手速度快,知识体系完备,能引发一些更加深入的思考。
点击搜索你感兴趣的内容吧
往期推荐
数据Seminar
这里是大数据、分析技术与学术研究的三叉路口
欢迎扫描👇二维码添加关注