Points of Significance: Error bars
Error bars
简介
Nature methods从2013年9月开始发表月刊Points of Significance系列,该系列主要介绍统计在生物学中的应用,让读者可以更正确的理解及使用统计。有研究发现,在医学类期刊上发表的文章中,有接近半数的统计方法的使用都是不正确的,所以Nature methods推出该系列统计文章,以实用易懂的方式来介绍统计中的一些基本概念。
前言
上次的Points of Significance介绍了利用样本估计总体的方法:
用样本均值估计总体均值
用样本方差估计总体方差
用样本均值的方差估计总体方差除以样本数量
详情可以看上一篇推文:扫描或识别文末的二维码关注NGSHotpot公众号,回复“2001”获取上一篇推文。
Error bar介绍
上次我们已经说了可以用样本的均值和方差分别估计总体的均值和方差,总体是一个分布,通常我们使用均值和error bar来表示数据的分布。基本上所有的科研人员、需要做数据分析与统计的人员都使用过error bar,但是不是每一个(大部分)人真正的理解了error bar所表示的统计意义。
大家可以尝试一下回答以下几个问题:
如下图a所示,有三种error bar,s.d.是什么?s.e.m又是什么?CI又是什么?他们之间的关系是什么?
s.d. 标准差(standard error)用于衡量样本离散程度,可以估计总体方差。
s.e.m 样本均值标准差 (standard error of mean)样本量较大时,样本均值趋近于服从一个正态分布,s.e.m就是这个正态分布的的标准差。
CI 为置信区间,上述三个error bar的计算如下:
Error bar的意义
我们现在知道了每一种error bar是如何计算的,那么他们分别所代表的意义和他们之间的关系是什么呢?
s.d 标准差代表的是数据分布范围,可以用来标识数据的离散程度,而s.e.m表明的是样本均值的不确定性及其与样本量的关系。均值的95%置信区间代表的总体的均值有95%的几率落在该区间内,或者理解为,对总体抽样N次,其中有0.95N次的置信区间包含真实的总体均值。
三种Error bar间的关系
下面我们看看这三种error bar的大小与差异显著性的关系。如下图a中所示,模拟两组数,每组数样本量为10,均值分别为0和1,另外确保其s.d,s.e.m.及95%CI一样大小,做t检验发现,s.d.具有最小的p值,而s.e.m具有最大的p值。如下图b中所示,确保显著性都为0.05,可以发现s.d.具有最大的error bar,而s.e.m具有最小的error bar。
这个图想说明什么?这个图就是想告诉我们,不同类型的error bar,其显著的条件不一样,我们在使用和理解error bar的时候要注意看是哪一种,有可能两组数据的error bar重合很多,差异也是显著的(s.d.),也有可能两个error bar明明没有重叠,可能还隔的很开,但是却没有显著差异(s.e.m.)。
我们知道,s.d.可以用来估计总体的方差,其不随着样本量的变化而变化,但是我们的s.e.m和95%CI会随着样本量的变化而变小,如下图b所示。
文献中提供了一个图来展示s.e.m.与95%CI在几个常用的p值的情况下的大小和位置情况。
另外,该文献还提供了一个supplemental table,里面可以自行改变参数来观察样本数量、error bar的大小,error bar之间的间隔,p value等之间的关系。
参考文献
1. Krzywinski, M., and Altman, N. (2013). Points of significance: error bars. Nature methods 10, 921-922.
声明:上述内容为NGSHotpot读文献整理写出,若有遗漏或错误,感谢您指出。
若有任何意见、建议、或对上述内容有疑问请发送邮件到:ngshotpot@126.com
扫描或识别下方二维码关注NGSHotpot