Points of Significance: Power and sample size
Points of Significance:
Power and sample size
简介
Nature methods从2013年9月开始发表月刊Points of Significance系列,该系列主要介绍统计在生物学中的应用,让读者可以更正确的理解及使用统计。有研究发现,在医学类期刊上发表的文章中,有接近半数的统计方法的使用都是不正确的,所以Nature methods推出该系列统计文章,以实用易懂的方式来介绍统计中的一些基本概念。
系列索引
1. Points of Significance: Importance of being uncertain
2. Points of Significance: Error bars
3. Points of Significance: Significance, P values and t-tests
扫描或者识别文末的二维码关注NGSHotpot公众号,查看该系列上述文章。
问题引入
我们知道t检验可以检验观测值是否显著的与某个分布有差异,通过前面对p值的理解我们知道,p值等于0.05代表的是我们观测的值只有5%的可能来自原假设,此时我们拒绝原假设,认为备择假设是正确的。从定义上,上面的这个结论不一定是正确的(有5%的可能会是错的),那么我们该怎么确定统计检验真实效果呢?统计检验的效应大小是什么?为满足我们需要的效应大小,或者为满足我们需要的检验精度,我们该怎么设计实验呢?样本数量为什么可以影响我们的统计检验的效应呢?
基本概念
要回答上述问题,我们首先需要理解一些基本的概念。如下图所示,图a为某个蛋白的表达的原假设,该分布为均值为10的正态分布,图b为该蛋白表达的备择假设,该分布为均值为12的正态分布。
若在统计检验的时候设定p值小于0.05就认为是显著的,拒绝原假设,那么如上图a,当观测到的表达值大于x*时显著,此时x*右边红色部分面积alpha刚好等于0.05,alpha被称为一类错误,即假阳性。我们想象一下,这样的错误为本来是属于原假设分布的,但是有alpha的概率被认为是属于备择假设。同时如图b所示,在备择假设分布中刚才的x*左边灰色部分面积beta被称为二类错误,即假阴性。这样的错误为本来属于备择假设,但是有beta的概率被认为属于原假设。综上,如上图c中所示:
----alpha为一类错误,为我们设定显著与不显著p值的分界值,通常为0.05。
----beta为二类错误,为备择假设中被认为是非显著的部分。
----1 - alpha为特异性(specificity),原假设中同时在alpha的标准下被认为是原假设部分。
----1 - beta为检验效应(power),属于备择假设且在alpha标准下被认为是备择假设的部分。
很明显,我们做统计检验肯定是想一类错误和二类错误都越小越好,即特异性和效应值都越大越好,但是事与愿违,一旦我们的原假设和备择假设的分布确定下来,随着alpha的减小,beta会增大,随着beta的减小,alpha会增大(如下图所示)。所以在我们需要在一类错误与二类错误之间权衡一个最适合的值。
通常情况下,我们检验保证较小的一类错误(alpha,一般0.05),从而保证较少的假阳性,但是可能会遗失较多的真实信息(beta可能会较大,power较小)。
效应(power)的重要性
通常我们保证较小的一类错误(0.05),但如果power较低的话也会有一些问题。比如,如果我们喂小鼠吃某种药,吃完药之后小鼠的100个基因中,有50个基因的表达有变化,而另外50个没有变化(如下图a上排),当我们确定alpha为5%时,那么没有变化的50个基因里面会有5%的基因,即2.5个基因被为有变化,但如果我们的检验效应只有0.2,那么50个有变化的基因里面有20%的基因,即10个基因会被认为有变化(下图b上排)。此时总共有12.5个基因被认为有变化,10个是正确的,正确率有80%,但是有40个有变化的基因没有被检测出来。同时在这个条件下我们看到,当检验效应增大时,我们的正确率会增加(当效应为0.5时,正确率到91%,效应为0.8时,正确率可以达到94%),同时漏检率会减少(下图b上排)。
从上面的讨论看来,当效应值只有0.2时,正确率也有80%,感觉还不错,好像没有什么问题。
但是如果当小鼠吃药之后受影响的基因没有这么多时,效果就不一样了。如上图下排所示,若100个基因中90个基因不受影响,只有10个基因受影响,同样在alpha为0.05时,90个不变化的基因中有5%,即4.5个基因会被认为有变化,同时当效应只有0.2时,10个基因中有20%,即2个基因被认为有变化,此时共有6.5个基因被认为有显著变化,正确率只有31%,而随着效应值增加到0.8,正确率可以达到64%。
从上面我们看到,效应值小的时候检验的正确率是很低的,所以我们设计的实验,设计的统计检验不仅要保证alpha较小,也要尽量使得效应较大。
Alpha大小与power大小关系
如下图a所示,当alpha取0.05时,power的值为0.64,如果想要power值达到0.8,我们可以将alpha增加到0.12,power从0.64增加到0.8增加了25%,但此时alpha从0.05增加到0.12增加了140%。
上图b为随着x*的增加,特异性、效应以及alpha的变化趋势图。
如何提高效应(power)
由Points of Significance系列第一篇Importance of being uncertain中提到,样本均值趋近于服从正态分布,该分布均值可以用样本均值进行估计,该分布方差可以由样本方差除以样本量进行估计。刚才我们已经阐明,若原假设分布与备择假设分布确定,那么alpha和beta就是负相关的。显然如果当原假设均值与备择假设均值已知,那么,标准差越小可以使得两个分布都更加集中在各自均值附近,从而两个分布相交部分减少。此时可以在确保alpha很小的时候保证足够大的power(如下图a)。
同时,若当原假设与备择假设方差确定,那么加大两个分布均值之间的距离同样可以使得两个分布分得更开。Effect size定义为均值之差再除以标准差,所以随着effect size的增大,相同alpha条件下,power值增大。
综上,在特定alpha(0.05)的条件下,要想保证足够大的power,我们可以通过增加样本量或者原假设与备择假设均值差异来实现。显然,增加足够的样本是最简单易行的办法。所以当我们设计差异验证试验时,我们可以根据原假设与备择假设均值大小计算可以满足我们效应要求的最小样本量。
参考文献
1. Krzywinski, M., and Altman, N. (2013). Points of significance: Power and sample size. Nature methods 10, 1139-1140.
声明:上述内容为NGSHotpot读文献整理写出,若有遗漏或错误,感谢您指出。
若有任何意见、建议、或对上述内容有疑问请发送邮件到:ngshotpot@126.com
扫描或识别下方二维码关注NGSHotpot