查看原文
其他

“P值”背后那些不可不知的事儿

2017-12-06 小昌 宏基因组

本文转载自"态昌基因",己获授权。

在微生态分析中,许多人都很会关注样本之间的差异,通常也会做一些微群落结构差异 和 组间差异分析 (点击蓝字链接跳转往期文章),并且用P值来判断差异是否显著。那么,如何评价差异的可靠性呢?


许多文章中都会包含显著性差异的计算,如通过比较组内差异和组间差异的大小,来判断组间群落结构的差异是否显著。那么,有哪些常用的方法呢?



首先,我们来聊聊不可不知的P值




书上说P值


①犯第Ⅰ类错误的真实概率(α为犯第Ⅰ类错误的上限控制值);

②在假定原假设时,得到与样本相同或者更极端的结果的概率。


是不是好抽象,不要怕,我们来跟随猎场大佬的脚步学习一下。



贾衣玫(左)和罗伊人(右)正为争夺郑秋冬展开撕*大战,这时贾提议用一枚硬币决定谁可以和郑厮守终身,正面是贾赢,反面是罗赢。罗毕竟是经历过大风大浪的女子,觉得事情并不简单,这硬币会不会有问题?于是,她悄悄地跑到一边先抛了5次做测试,结果傻眼了,5次全部都是正面朝上......贾的阴谋终于没有得逞。(为罗姐姐打call)

这里跟P值有啥关系嘞,且听小昌认真地分析一下当时罗的心路历程。


心路历程(~~)

① 首先罗心地善良,相信贾的为人,认为这个硬币没什么毛病,正反的概率都为0.5,这叫原假设H0 ;

② 罗的样本就是她5次测试,而5次结果都为正,硬币似乎有偏向正面的倾向,这叫备择假设H1 ;

③ 罗想了一下,会不会是我运气不好呢,有没有可能错怪她,这种错误叫做第一类错误,记为α

④ 罗又一细想,背脊发凉,万一硬币真的有问题,我做测试又没能发现,岂不是着了她的道,这种错误叫做第二类错误,记为β

⑤ 假设硬币是均匀的,连抛5次得到都是正面的概率就是0.5的5次方,也就是0.03125,这就是p值

⑥ 罗想起了费舍尔爷爷规定的 α = 0.05,(这个界限值的意思是说,根据约定俗称的规定,在假设硬币没问题的情况下,得到不正常结果的概率最小为0.05还是可以接受的,可能真的是运气不好)但是,现在p只有0.03125,这么小概率的事怎么可能发生呢???我必须拒绝跟贾打赌,这个硬币有问题的可能性太大了。


总结一下就是:P<α,拒绝H0;如果P>α,不拒绝H0

看来必要的统计知识还是很有用哒,哈哈。



2我们再来看看如何评价差异的可靠性呢?



一般地,我们在文章中看到除了P值外,还会有个R²。


决定系数(coefficient of determination,)是反映模型拟合优度的重要的统计量,为回归平方和总平方和之比。


R²取值在0到1之间,且无单位,其数值大小反映了回归贡献的相对程度,即在因变量的总变异中回归关系所能解释的百分比。R²是最常用于评价回归模型优劣程度的指标,R²越大(接近于1),所拟合的回归方程越优。


最近,小昌在看了一篇文章后,对和p值对于模型拟合好坏判断有了新的认知。大家也可以看看这篇文章是如何“现身说R²和p”的:《Lung Microbiota is Related to Smoking Status and to Development of ARDS in Critically Ill Trauma Patients》。


作者对76名受试者做差异分析,论证吸烟对下呼吸道微生物组成及丰度的影响。在Alpha多样性分析中并不能显著区分吸烟者、吸二手烟者和不吸烟者的情况下,通过PERMANOVA分析三组差异,得到了R² = 0.032 , p = 0.0069的结果;又通过PERMANOVA分析吸烟与二手烟、不吸烟者两组差异,得到了R² = 0.02 , p = 0.003的结果。至此得出结论,吸烟确实会对下呼吸道微生物的组成造成影响。

道理我都懂,虽然p值很小,可是R²也这么小,该怎么权衡呢?

小昌认为,p值显著是前提,不显著的结论是不可靠的;其次,R²反映的是自变量对因变量方差的解释比例,显然,如果影响因变量的全部因素或者“主要因素”、“重要因素”都捕捉到的话,R²就会是比较大的,说明研究模型考虑到了重要的影响因素。如果R²很小,比如案例中小于0.05,那说明研究模型只是抓住了影响因变量的次要因素而已,模型遗漏了其他更重要的因素。



最后再聊聊常用的Adonis和ANOSIM分析这对好基友。



1.Adonis多因素方差分析

 定义:Adonis又称置换多因素方差分析(permutational MANOVA)或非参数多因素方差分析(nonparametric MANOVA)。它利用半度量(如Bray-Curtis) 或度量距离矩阵(如Euclidean)对总方差进行分解,分析不同分组因素对样品差异的解释度,并使用置换检验对划分的统计学意义进行显著性分析。


我们来看下Adonis的结果长什么样:

Df --- 表示自由度; 注:Group --- 表示分组;

SumsOfSqs --- 总方差,又称离差平方和;

MeanSqs --- 均方(差),即SumsOfSqs/Df;

F.Model ---- F检验值;

 --- 表示不同分组对样品差异的解释度,即分组方差与总方差的比值,越大表示分组对差异的解释度越高;

Pr --- 表示P值,小于0.05说明本次检验的可性度高。



注意:大家可能在文章中看到最多的是PERMANOVA,PERMANOVA与Adonis十分类似,不过Adonis不像PERMANOVA只支持分类变量,它还支持连续型变量。



2. ANOSIM相似性分析

定义:相似性分析(ANOSIM)是一种非参数检验,用来检验组间(两组或多组)的差异是否大于组内差异,从而判断分组是否有意义。原假设为组间差异大于等于组内差异,首先计算两两样品间的距离,然后将所有距离从小到大进行排序,按以下公式计算R值,之后将样品进行置换,重新计算R’值,R大于R’的概率即为P值。ANOSIM与NMDS的差异排序是一致的,将两个分析组合进行显著性检验。

  

其中,---- 表示组间(Between groups)距离排名的平均值;

    ---- 表示组内(Within groups)距离排名的平均值;

    n ---- 表示样品总数。


我们来看下ANOSIM的结果长什么样:

注:理论上,R值(R statistic)范围为-1到+1,实际中R值一般从0到1。原假设为组间差异大于等于组内差异,R值接近1表示组间差异越大于组内差异,R值接近0则表示组间和组内没有明显差异;此次统计分析的可信度用P-value表示,

P< 0.05表示统计具有显著性;Number of permutation表示置换次数。



参考资料:

《Lung Microbiota is Related to Smoking Status and to Development of ARDS in Critically Ill Trauma Patients》

http://blog.sina.com.cn/s/blog_d8f8fbd40102x4lu.html

https://mp.weixin.qq.com/s/9UQ-dXbP9wuOZ5B_TjDstg

猜你喜欢

写在后面

为促进读者交流、加速科学问题解决,我们建立了“宏基因组”专业讨论群,目前己有800+科研人员加入。参与讨论,获得专业指导、问题解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职务”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论。问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存