查看原文
其他

第三十一讲 R-机器学习与回归概述

跟投必得学 投必得医学 2022-05-07

在“R与生物统计专题”中,我们会从介绍R的基本知识展开到生物统计原理及其在R中的实现。以从浅入深,层层递进的形式在投必得医学公众号更新。

从第三十一讲开始,我们将正式进入机器学习的学习。很多人可能听到“机器学习”,就觉得这是多么高大上的东西。其实不然,我们比较熟悉的回归分析,以及之前的Cox比例风险模型,都算是机器学习的范畴。只是,机器学习的范畴远大于回归分析。我们在生物统计学中常用的多元线性回归分析和多元逻辑回归分析都只是机器学习的一小部分内容。

我们将从机器学习和多元回归的基本概念开始给大家一一讲解,让大家明白,“高大上”的机器学习,其实我们生物统计经常使用。


1. 机器学习与统计

机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。

在生物统计学中,例如我们常见到的预测模型,某个或某几个生物指标诊断或预测疾病发生或愈后等,都是运用了机器学习的理论知识。


2、机器学习分类

机器学习通常被分为两大类:


有监督机器学习:

它是指通过建立数学模型以预测未来结果。具体说来,它是指从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。训练集中的目标是由人为标注的。而在应用这个函数模型时,我们只需要输入特征,函数便能给我们算出目标,即预测结果。常见的监督学习算法包括回归分析和统计分类。


回归分析可以用于预测连续变量结果。例如,根据收入值预测预期寿命。

也可以用于预测个体的类(或组)。例如,根据患者血浆中的葡萄糖浓度来预测糖尿病阳性的可能性。

机器从已知的观察结果中学习,以便预测未来病例的结果。



无监督机器学习:

无监督学习与监督学习相比,训练集没有人为标注的结果。常见的无监督学习算法有

聚类分析和主成分分析。聚类的目的是识别感兴趣数据集中的相似对象组或模式。主成分分析则是对数据的汇总,它是一种降维的方法,它将多个变量通过一定的方法投影到若干个主成分上,从而使得每一个主成分可以最大限度解释这些变量,并且各个主成分间相互独立。

这些方法是“无监督的”,它不受先验思想的引导 。

监督学习和非监督学习的差别就是训练集目标是否人标注。


此外,机器学习还有其他类别:

半监督学习:介于监督学习与无监督学习之间。

增强机器学习:为了达成目标,随着环境的变动,而逐步调整其行为,并评估每一个行动之后所到的回馈是正向的或负向的。


2. 经典的机器学习算法


算法

类别

线性回归

监督学习

逻辑回归

监督学习

线性判别分析

监督学习

决策树

监督学习

朴素贝叶斯

监督学习

K邻近

监督学习

学习向量量化

监督学习

支持向量机

监督学习

随机森林

监督学习

AdaBoost

监督学习

高斯混合模型

非监督学习

限制波尔兹曼机

非监督学习

K-means 聚类

非监督学习

最大期望算法

非监督学习


我们将在之后的介绍中,主要给大家介绍生物统计学中最常用到的:回归分析、聚类分析和主成分分析。


参考内容:

1. Alboukadel Kassambara, Machine Learning Essentials: Practical Guide in R

2. https://en.wikipedia.org/wiki/Machine_learning


好了,本期讲解就先到这里。小伙伴们赶紧试起来吧。

在之后的更新中,我们会进一步为您介绍R的入门,以及常用生物统计方法和R实现。欢迎关注,投必得医学手把手带您走入R和生物统计的世界。

提前预告一下,下一讲我们继续讲解机器学习——回归分析概述。


第一讲 R-基本介绍及安装

第二讲 R-编程基础-运算、数据类型和向量等基本介绍

第三讲 R编程基础-矩阵和数据框

第四讲 R-描述性统计分析

第五讲 R-数据描述性统计分析作图

第六讲 R-数据正态分布检验

第七讲 R-相关性分析及作图

第八讲 R-单样本T检验

第九讲 R-单样本Wilcoxon检验

第十讲 R-两独立样本t检验

第十一讲 R-两独立样本Wilcoxon检验

第十二讲 R-配对样本t检验

第十三讲 R-配对样本Wilcoxon检验

第十四讲 R-单因素方差分析1

第十五讲 R-单因素方差分析2

第十六讲 R-双向方差分析1

第十七讲 R-双向方差分析2

第十八讲 R-多元方差分析

第十九讲 F检验:两样本方差比较

第二十讲 多样本间的方差比较

第二十一讲 单比例的Z检验

第二十二讲 两比例Z检验

第二十三讲 R-卡方检验之拟合度检验

第二十四讲  R-卡方检验之独立性检验

第二十五讲 生存分析基础概念

第二十六讲 R-生存分析:绘制KM生存曲线

第二十七讲 R-生存分析:生存函数的假设检验

第二十八讲 R-Cox比例风险模型(1)

第二十九讲 R-Cox比例风险模型(2)

第三十讲  R-Cox比例风险模型的假设检验条件

当然啦,R语言的掌握是在长期训练中慢慢积累的。一个人学习太累,不妨加入“R与统计交流群”,和数百位硕博一起学习。


快扫二维码撩客服,

带你进入投必得医学交流群,

让我们共同进步!

↓↓


- END -


长按二维码关注「投必得医学」,更多科研干货在等你!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存