查看原文
其他

推荐 | 陈强老师的《机器学习及Python应用》上市啦

数据Seminar 2023-01-01

The following article is from 计量经济学及Stata应用 Author 爱计量



本文转载自公众号计量经济学及Stata应用




盼望着,盼望着,陈强老师的《机器学习及Python应用》(高等教育出版社)终于上市啦!内容充实,满满干货,厚达617页,目前已经在京东现货销售……


为何学习Python?


  • “人生苦短,我学Python!


  • Python简洁高效,已是主流的计算机语言


  • 作为通用语言,Python为业界所推崇,因为企业可在生产经营的全过程统一使用Python


  • 在神经网络(深度学习)方面,Python明显领先于R


为何《机器学习及Python应用》多达617页,而姊妹篇《机器学习及R应用》只有458页


  • 作为通用语言,基础Python处理数据的能力有限,故在介绍Python之后,还需介绍Numpy(Numerical Python)、pandas (提供处理数据框的能力)、statsmodels(用于统计分析)、sklearn(用于机器学习)以及keras(用于深度学习)。在画图方面,则介绍了Matplotlib,pandas与seaborn的画图方法。另外,与R相比,Python拥有更为彻底的“面向对象编程”(object-oriented programming,简记OOP)。因此,需要更长篇幅介绍Python。当然,读者在此过程中,也学到了更多主流的计算机知识。


  • 为此,《机器学习及Python应用》的第2章《Python入门》花了整整100页(第8-107页),对Python的精髓进行了深入浅出的全面介绍。另一方面,《机器学习及R应用》的相应第2章《R语言入门》则只花了60页(第8-67页),因为R本来就是为处理数据而生的语言,在很大程度上已经自给自足。


  • 由于在R语言中不便估计卷积神经网络模型,故《机器学习及R应用》未介绍卷积神经网络的实操。另一方面,《机器学习及Python应用》则分别使用sklearn与keras对各种神经网络模型进行了深入的演示(详见下文的目录)。


  • 另外,Python在处理数据时,一般需要先导入若干模块或函数,而R语言通常已经自带相应的功能,这使得Python代码通常更长些。


内容简介


本书对于机器学习的核心方法,进行了深入而详细的介绍,并特别关注各学科最常用的算法。最大特色在于力图以生动的语言、较多的插图与大量的实例来直观地解释机器学习的原理。同时,结合主流的Python语言,及时地介绍相应的软件操作与经典案例,为读者提供“一站式”服务。本书还提供详尽的数学推导,尽量避免跳跃,并辅以直观的文字解释。对于看似复杂的机器学习原理,则删繁就简,娓娓道来,让读者渐入佳境。


本书适合普通高等学校理、工、农、医、计算机、统计学以及经济管理、社会科学类的高年级本科生与研究生使用。先修课包括微积分、线性代数与概率统计,但不要求有编程或Python语言经验。本书将从零开始,让读者快速体会到Python语言的美妙与威力。


详细目录


第1章 绪论

1.1 什么是机器学习

        1.2 机器学习的分类

1.3 机器学习的术语

1.4 机器如何学习

1.5 机器学习与统计学、计量经济学的关系


第2章 Python入门

2.1 为何使用Python

2.2 Python与Spyder的安装

2.3 计算器与赋值

2.4 模块

2.5 字符串

2.6 布尔型

2.7 列表

2.8 元组

2.9 字典

2.10 集合

2.11 数组

2.12 数据框

2.13 缺失值

2.14 描述性统计

2.15 使用Matplotlib画图

2.16 使用pandas与seaborn画图

2.17 读写数据

2.18 随机抽样

2.19 条件语句

2.20 循环语句

2.21 函数

2.22 类

2.23 进一步学习Python的资源


第3章 数学回顾

3.1 微积分

3.1.1 导数

3.1.2 偏导数

3.1.3 方向导数

3.1.4 向量微分

3.2 最优化

3.2.1 一元最优化

3.2.2 多元最优化

3.2.3 约束极值问题:等式约束

3.2.4约束极值问题:非负约束

3.2.5约束极值问题:不等式约束

3.2.6 最优化算法

3.3 线性代数

3.3.1 矩阵

3.3.2 方阵

3.3.3 矩阵的转置

3.3.4 向量

3.3.5 矩阵的加法

3.3.6 矩阵的数乘

3.3.7 矩阵的乘法

3.3.8 线性方程组

3.3.9 逆矩阵

3.3.10 矩阵的秩

3.3.11 正交矩阵

3.3.12 矩阵的特征值与特征向量

3.3.13 实对称矩阵的对角化与谱分解

3.3.14 二次型

3.4 概率统计

3.4.1 概率

3.4.2 条件概率

3.4.3 独立事件

3.4.4 全概率公式

3.4.5 贝叶斯公式

3.4.6 离散型概率分布

3.4.7 连续型概率分布

3.4.8 多维随机向量的概率分布

3.4.9 条件分布

3.4.10随机向量的数字特征

3.4.11 迭代期望定律

3.4.12 随机变量无关的三个层次概念

3.4.13 正态分布

3.4.14 最大似然估计


第4章 线性回归

4.1 监督学习的回归问题

4.2 最优预测

4.3 线性回归模型

4.4 最小二乘法

4.5 OLS的正交性与几何解释

4.6 施密特正交化与QR分解

4.7 拟合优度

4.8 过拟合与泛化能力

4.9 偏差与方差的权衡

4.10 模型评估的再抽样方法

       4.11 线性回归的Python案例


第5章 逻辑回归

5.1 逻辑回归

5.2 最大似然估计

5.3 Logit模型的解释

5.4 非线性模型的拟合优度

5.5 Logit模型的预测

5.6 二分类模型的评估

5.7 ROC与AUC

5.8 科恩的kappa

       5.9 逻辑回归的Python案例


第6章 多项逻辑回归

6.1 多项逻辑回归

6.2 最大似然估计

6.3 多项逻辑回归的解释

       6.4 多项逻辑回归的Python案例


第7章 判别分析

7.1 贝叶斯决策理论

7.2 线性判别分析

7.3 二次判别分析

7.4 费雪线性判别分析

7.5 费雪线性判别与基于正态的线性判别之关系

7.6 多分类问题的费雪判别分析

       7.7 判别分析的Python案例

附录A7.1 总体中的多分类费雪判别分析

附录A7.2 样本中的多分类费雪判别分析

附录A7.3 线性判元对于组间方差的贡献率


第8章 朴素贝叶斯

8.1 朴素贝叶斯

8.2 拉普拉斯修正

       8.3 朴素贝叶斯的Python案例


第9章 惩罚回归

9.1 高维回归的挑战

9.2 岭回归

9.3 岭回归的计算

9.4 岭回归的几何解释

9.5 套索估计量

9.6 套索估计量的计算

9.7 调节变量的选择

9.8 弹性网估计量

       9.9 惩罚回归的Python案例

附录A9.1 估计量均方误差的分解

附录A9.2 次梯度向量与次微分

附录A9.3 连续凸函数的最小化定理

附录A9.4 标准正交设计下Lasso问题的解析解


第10章 K近邻法

10.1 回归问题的K近邻法

10.2 如何选择K

10.3分类问题的K近邻法

10.4 K近邻法的优缺点

       10.5 K近邻法的Python案例


第11章 决策树

11.1 分类树的启发案例

11.2 二叉树的数学本质

11.3 分类树的分裂准则

11.4 信息理论

11.5 成本复杂性修枝

11.6 回归树

11.7 C5.0算法

11.8 决策树的优缺点

       11.9 回归树的Python案例

       11.10 分类树的Python案例


第12章 随机森林

12.1 集成学习

12.2 装袋法

12.3 装袋法的原理

12.4 袋外误差

12.5 随机森林

12.6 变量重要性

12.7 偏依赖图

       12.8 回归问题的随机森林Python案例

       12.9 分类问题的随机森林Python案例


第13章 提升法

13.1 自适应提升法

13.2 AdaBoost的统计解释

13.3 回归问题的提升法

13.4 回归问题的其他损失函数

13.5 梯度提升法

13.6 二分类问题的逻辑损失函数

13.7 多分类问题的交叉熵损失函数

13.8 随机梯度提升

       13.9 回归提升树的Python案例

       13.10 二分类提升树的Python案例

       13.11 多分类提升树的Python案例

13.12 XGBoost算法

附录A13.1 交叉熵损失函数


第14章 支持向量机

14.1 分离超平面

14.2 最大间隔分类器

14.3 软间隔分类器

14.4 软间隔分类器的统计解释

14.5 支持向量机

14.6 多分类问题的支持向量机

14.7 支持向量回归

14.8 支持向量机的优缺点

       14.9 支持向量机的Python案例:模拟数据

       14.10 支持向量机的二分类Python案例

       14.11 支持向量机的多分类Python案例

        14.12 支持向量回归的Python案例


第15章 人工神经网络

15.1 人工神经网络的思想

15.2 感知机

15.3 神经网络的模型

15.4 神经网络的激活函数

15.5 通用函数近似器

15.6 神经网络的损失函数

15.7 神经网络的算法

15.8 神经网络的小批量训练

15.9 神经网络的正则化

15.10 卷积神经网络

        15.11 使用sklearn估计回归问题的神经网络

        15.12 使用sklearn估计分类问题的神经网络

        15.13 使用Keras估计回归问题的神经网络

        15.14 使用Keras估计二分类问题的神经网络

        15.15 使用Keras估计多分类问题的神经网络

        15.16 使用Keras估计卷积神经网络


第16章 主成分分析

16.1 总体中的主成分分析

16.2 方差分解

16.3样本中的主成分分析

16.4 主成分分析的应用

       16.5 主成分分析的Python案例

       16.6 主成分回归的Python案例


第17章 聚类分析

17.1 K均值聚类的思想

17.2 K均值聚类的算法

17.3 如何选择K

17.4 分层聚类

17.5 基于相关系数的距离指标

       17.6 K均值聚类的Python案例

       17.7 分层聚类的Python案例


第18章 数据科学的Python语言

18.1 何为数据科学

18.2 读写文件

18.3 输入数据

       18.4 缺失值

18.5 重复观测值

18.6 合并数据

       18.7 Sci-Kit Learn的管线类

18.8 结束语




参考文献


陈强,《高级计量经济学及Stata应用》,第2版,高等教育出版社,2014年


陈强,《计量经济学及Stata应用》,高等教育出版社,2015年(好评如潮的配套教学视频,可在Peixun.net 或网易云课堂购买)


陈强,《机器学习及R应用》,高等教育出版社,2020年


陈强,《机器学习及Python应用》,高等教育出版社,2021年,京东现货







星标⭐我们不迷路!
想要文章及时到,文末“在看”少不了!

点击搜索你感兴趣的内容吧


往期推荐


机器学习 | 项目的备忘清单!

老姚专栏 | 均值回归的力量

机器学习 | 有趣有用的通俗讲解

数据治理 | 数据清洗最基础的10个问题,基本涵盖目前常见的数分场景!

机器学习 | 数据从哪里找?手把手教你构建数据集

因果推断 | 蔡瑞初、陈微、郝志峰:因果推断与因果性学习研究进展

统计计量 | 微观计量经济学实证分析中的问题







数据Seminar




这里是大数据、分析技术与学术研究的三叉路口


推荐 | 青酱

    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更多

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存