第三十一讲 R-机器学习与回归概述

Original 跟投必得学投必得医学 2022-05-07

收录于合集 #R与生物统计专题 56个

在“R与生物统计专题”中，我们会从介绍R的基本知识展开到生物统计原理及其在R中的实现。以从浅入深，层层递进的形式在投必得医学公众号更新。

从第三十一讲开始，我们将正式进入机器学习的学习。很多人可能听到“机器学习”，就觉得这是多么高大上的东西。其实不然，我们比较熟悉的回归分析，以及之前的Cox比例风险模型，都算是机器学习的范畴。只是，机器学习的范畴远大于回归分析。我们在生物统计学中常用的多元线性回归分析和多元逻辑回归分析都只是机器学习的一小部分内容。

我们将从机器学习和多元回归的基本概念开始给大家一一讲解，让大家明白，“高大上”的机器学习，其实我们生物统计经常使用。

1. 机器学习与统计

机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。

在生物统计学中，例如我们常见到的预测模型，某个或某几个生物指标诊断或预测疾病发生或愈后等，都是运用了机器学习的理论知识。

2、机器学习分类

机器学习通常被分为两大类：

有监督机器学习：

它是指通过建立数学模型以预测未来结果。具体说来，它是指从给定的训练数据集中学习出一个函数，当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出，也可以说是特征和目标。训练集中的目标是由人为标注的。而在应用这个函数模型时，我们只需要输入特征，函数便能给我们算出目标，即预测结果。常见的监督学习算法包括回归分析和统计分类。

回归分析可以用于预测连续变量结果。例如，根据收入值预测预期寿命。

也可以用于预测个体的类（或组）。例如，根据患者血浆中的葡萄糖浓度来预测糖尿病阳性的可能性。

机器从已知的观察结果中学习，以便预测未来病例的结果。

无监督机器学习：

无监督学习与监督学习相比，训练集没有人为标注的结果。常见的无监督学习算法有

聚类分析和主成分分析。聚类的目的是识别感兴趣数据集中的相似对象组或模式。主成分分析则是对数据的汇总，它是一种降维的方法，它将多个变量通过一定的方法投影到若干个主成分上，从而使得每一个主成分可以最大限度解释这些变量，并且各个主成分间相互独立。

这些方法是“无监督的”，它不受先验思想的引导。

监督学习和非监督学习的差别就是训练集目标是否人标注。

此外，机器学习还有其他类别：

半监督学习：介于监督学习与无监督学习之间。

增强机器学习：为了达成目标，随着环境的变动，而逐步调整其行为，并评估每一个行动之后所到的回馈是正向的或负向的。

2. 经典的机器学习算法

算法	类别
线性回归	监督学习
逻辑回归	监督学习
线性判别分析	监督学习
决策树	监督学习
朴素贝叶斯	监督学习
K邻近	监督学习
学习向量量化	监督学习
支持向量机	监督学习
随机森林	监督学习
AdaBoost	监督学习
高斯混合模型	非监督学习
限制波尔兹曼机	非监督学习
K-means 聚类	非监督学习
最大期望算法	非监督学习