统计学-相关性分析 | 生物统计学基础系列课
什么是生物统计学
生物统计学是一种很有用的工具,正确使用这一工具可以使科学研究更加有效,使科学研究可以更加高效的开展。因此,它是每位生物科学工作者必须掌握的基础知识。联川生物近日对生物统计学进行了系统式的学习,所用的教材——《生物统计学基础(原书第5版)》是一本非常有特色的书,与其他同类书比较,其有以下几类优点:
①教材内容通俗易懂但又非常严谨、细致、深入而又全面。书中的多数公式都有证明,且多用初等数学方法证明,对于不能用初等方法证明的也都给出了出处。
②本书核心是医学应用,作者通过大量的医学实例,引入及介绍统计方法,从如何构思到分析结果的解释,几乎都有全过程。由于一切从实用出发,所以对实用极为重要的知识,比如功效(power) 及样本量的估计,都是实际工作者极为关心的。
③学术上的先进性。作者将每个版本中的当时国际上最流行的统计方法及统计软件及时吸收在了本书内。
得“秘籍”如此,专业知识及科研水平定会有质升的提高!故此,小编为大家推出“生物统计学基础”相关知识系列课,和大家一起探索这本书里的珍贵知识,今日推送第五课:统计学-相关性分析!
往期精彩回顾:
相关性分析
一、两变量之间的相关分析客观现象之间的数量联系可以归纳为两种不同的类型,一种是函数关系,另一种相关关系
1、函数关系是指事物与现象之间存在着严格的依存关系,其主要特征是它的确定性,即对一个变量的每一个值,另一个变量都具有唯一确定的值与之相对应。变量之间的函数关系通常可以用函数式Y=f(x)确切的表示出来。比如,圆的周长C对于半径r的依存关系就是函数关系:C=2πr。
2、相关关系反映出变量之间虽然相互影响,具有依存关系,但彼此之间是不能一一对应的。比如,学生成绩与其智力因素。
相关系数是反映变量之间的线性相关密切程度的统计分析指标。相关系数可依总体数据或样本数据计算,分别定义为总体样本系数ρ和样本相关系数r。
1)Pearson、Spearman和Kendall相关
Pearson积差相关系数衡量了两个变量之间的线性相关程度;Spearman等级相关系数则衡量了分级定序变量之间的相关程度;Kendall'S Tau相关系数也是一种非参数的等级相关度量。(常用cor()函数计算三种相关系数)
2)偏相关
偏相关是指在控制一个或多个变量定量时,另外两个定量变量之间的相互关系。(常使用ggm包中的pcor()函数计算偏相关系数)。
3)其他类型的相关
多分格(polychoric)相关系数和多系列(polyserial)相关系数等;
计算得到相关系数以后,如何对它们进行统计显著性检验呢?
常用的原假设为变量间不相关,即总体的相关系数ρ=0,在R语言中可以使用cor.test()函数对单个的Pearson、Spearman和Kendall相关系数进行检验。
(1)生物学重复异常判断
(2)菌群与环境因子/临床指标相关性分析
(3)菌群与代谢物的相关分析
l 相关分析
研究一个变量与另一个变量或另一组变量之间的相关方向和相关密切程度的统计分析方法。
l 回归分析
根据相关关系的具体形态,选择一个合适的数学模型来近似地表达变量间平均变化关系的统计分析方法。
l 两者的联系
1)相关分析回归分析是研究现象之间相关关系的两种基本方法,它们不仅具有共同的研究对象,而且在具体应用时,常常互相补充。
2)相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。
3)只有当变量之间存在高度相关时,进行回归分析寻求相关的具体形式才有意义。
l 两者的区别
1)相关分析中,变量x和变量y处于平等地位,不需区分自变量和因变量;回归分析,变量y称为因变量,处在被解释的特殊地位,变量x称为自变量,可以通过x的变化来解释y的变化,亦称为解释变量。
2)相关分析中所涉及的变量y和x均是随机变量,而在回归分析中,因变量y是随机变量,自变量x可以是随机变量也可以是非随机的确定变量。
3)相关分析的研究主要是刻画两变量间的线性相关的密切程度。而回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。
今天的生物统计学系列课就此结束,下一课会定时在下周四掉落~
下期预告——统计学之三大相关性系数
米娜桑~下期再会,不见不散哦~