统计知识 | 不能信任的小样本相关结果
大数据如火如荼,但现实研究中由于种种原因(没钱(* ̄︶ ̄)!),样本量总是有所局限。所以样本量对数据结果是否有影响、有何影响是我们一直关注的问题。接下来搬小板凳、拿小本本和大家一起学习。
这篇博客说明样本量对相关系数估计的两个重要效应:小样本增加相关系数估计的变异和降低该相关性的可重复性。这个问题并非相关分析中特有的问题,但在本文中我们(即原作者)将聚焦于一个情况:对于最常用的Pearson相关来说,小样本量意味着什么(类似的结果在Spearman相关分析中也存在,在回归分析中也存在相同的问题)。本博客所涉及到的R代码可以在github上找到。(https://github.com/GRousselet/blog/tree/master/smallncorr)
让我们从图1的例子开始。非常漂亮的散点图,对吧!样本量为30,r为0.703。似乎我们发现在变量1和2之间有较强的相关:来,我们投到Nature或PNAS上去吧!让我们用另一个无法重复的效应来污染已发表文献!
是的,散点图中的数据是偶然得到的。它们是从零相关的总体中抽取出来的。我怀疑许多发表的文章中报告的相关可能就是这样的。这样的事情也并不是什么新闻,假阳性和高估的效应量是小样本实验(见https://garstats.wordpress.com/2017/02/04/small-sample-sizes/)很自然的结果,而这个问题在可疑研究操作与奖励发表阳性结果的背景下会变得更加严重。
为了理解小样本实验的相关估计问题,我们可以模拟下,从一个Pearson相关(rho)为0的正态总体中抽取出许多样本量不同的样本,然后计算它们的相关系数。不同样本量时对rho估计的抽样分布如图2所示:
图2
这个抽样分布告诉我们的是从长远看(即无数次抽样),统计量会有怎样的结果,这像是我们做了许多次实验的结果分布。本文中,随着样本量的增加,抽样分布更窄,这意味着从长远来看,我们可以获得更精确的估计。但是,通常一篇文章只报告一次对相关的估计值,这个估计值完全有可能是错误的。那么我们应该使用多大的样本量来获得精确的估计?答案取决于:
单变量和双变量分布的形状(如果异常值很多,请考虑稳健的方法, robust methods
[https://garstats.wordpress.com/2018/06/01/smallncorr/
作者: Guillaume A. Rousselet]);
预期的效应量(效应量越大,需要的试次越少 - 见下文);
我们想要的精确度。
对于图2中的采样分布,我们可以针对每个样本量均提出这个问题:估计值在总体真值的上下a个单位内的比例是多少?例如:
如果想要70%的估计值在真实相关值的+/- 0.1范围之内(在-0.1和0.1之间),我们至少需要109次观察;
如果想要90%的估计值在真实相关值的+/- 0.2范围内(在-0.2和0.2之间),我们至少需要70次观察。
这些值在图3中使用黑线和箭头示出。该图显示了在不同的样本量和不同的精确度情况下,估计值在真实值附近的比例。最重要的是,即使我们接受不太精确的测量,要从长远来看达到相应的精确度和有足够的频次估计值,也需要大量的观察结果(如,黄线所示的,90%的估计值在偏离真值0.2的范围内,需要样本量约为70)。
图3
小样本量的相关估计带来的不确定性会导致另一个问题:效应很可能无法被重复。对于什么是成功的重复有着多种定义。在这里,我不考虑两个实验发现相同方向的统计学上显著(p<0.05)的情况,因为这种标准是相对不重要的。在这里,我们将考虑两次估计值有多接近。在一定精度水平的情况下,我们可以得到在两个连续实验中观察到相似效应的概率。也就是说,我们可以找到两次估计值最多相差特定值的概率。毫不意外,这个概率结果与图3中观察到的模式相似:可重复的概率(y轴)随着样本量(x轴)和我们愿意接受的不确定性(参见带有颜色的图例)的增加而增加(如图4所示)。
图4
在图4中,黑线表示如果需要重复实验有80%的可能性得到与原结果相差最多0.2的结果,我们需要至少83次观察。
到目前为止,我们说的是从相关为零的总体抽取出样本的情况,在这种情况下,大的相关估计值是由偶然性造成的。那么,有效应时的情况会如何? 如图5所示的是样本大小为30时的情况。
图5
快速地检查一下,我们可以看到抽样分布的模式随着总体相关性的增加而逐渐增加。更有趣的是,随着效应量的增加,抽样分布也越来越窄。 因此,我们试图估计的真实效应越大,我们的估计就越精确。 换句话说,给定精确度水平后,真实效应越大时,我们需要更少的数据点来估计真正的效果。图6显示的在样本量为30及不同精度水平时,估计值接近真值的比例,它随着总体的相关性(即真实的效应量)而变化。
图6
总的来说,从长远来看,如果我们在研究真的较大的效应,我们更可能得到更精确的测量。准确的估计值将取决于预期效果量的先验分布、分布形状和所期待的精度水平或能够获得的样本量。如图7所示,我们可以更详细地看一下rho = 0.4的抽样分布。
图7
对于n < 50的样本量,rho的抽样分布似乎是负偏态的(小于50的偏紫色的分布),这意味着从长远来看,实验可能倾向于得到关于真值的有偏的估计;特别是n = 10或n = 20的实验,可能更容易比其他样本量得到正负相关的估计值(即估计值是负相关),也更容易高估相关值(分布向右偏移)。根据相同的数据,我们可以计算接近真实值的估计值的比例,它随着样本量和精度水平而变化。
图8
我们得到了这个近似结果:
如果估计值的70%在真实值的±0.1之内(在0.3和0.5之间),我们至少需要78次观察;
如果90%的估计值在真实相关值的± 0.2范围内(在0.2和0.6之间),我们至少需要50次观察。
你可以使用(github)上提供的R代码来重复此练习,根据自己的先验(即你给定总体的相关值为多少)和想要的精确度来进行估算。
最后,对于给定的精度水平,我们可以得到在两个连续实验中观察到相似估计值的概率。也就是说,两次测量最多相差某个固定值的概率是多少呢? 图9显示结果的变化范围从0.05(非常精确)到0.4(非常不精确)。黑色箭头表明,要得到两次实验最多相关0.2的概率为80%,我们至少需要59次观察。
图9
同样,我们可将本文中所进行的模拟分析应用于的统计检验力(statistical power)。但是,如果我们的目标是对效应进行量化,对统计检验力进行分析的意义可能并不大。测量和估计值的精度应该是比通过统计显著性将效应标记出来的概率更值得我们关注(McShane, Gal, Gelman, Robert, & Tackett, 2018)。
关于相关性估计还有许多值得说的地方,我特别推荐Ed Vul(Vul, Harris, Winkielman, & Pashler, 2009; Vul & Pashler, 2012)和Tal Yarkoni(Yarkoni, 2009)在讨论voodoo相关[译者注:指的是社会认知神经科学领域关于迷之高度相关的讨论:]时代的论文。 最近,Schönbrodt and Perugini (2013)研究了样本量对相关性估计的影响,与这篇文章相似,他们重点关注的是精确度。 最后,关于假阳性,这篇更具有普适性的论文(Forstmeier, Wagenmakers, & Parker, 2017)非常值得一读。
回帖更新
更新:2018.06.02
在原帖中,我提过一些图片中的非线性结果。Jan Vanhove在Twitter上回复说他看不到任何内容,并建议了另一段不同的代码。我使用他的代码更新了模拟结果,现在非线性已经消失了!谢谢Jan!
Johannes Algermissen在Twitter上提到他最近的论文(Algermissen & Mehler, 2018)涉及类似的问题。值得一看!他还提醒我与这篇博客有类似观点的一篇近期的论文(Schönbrodt & Perugini, 2013)。
Gjalt-Jorn Peters在Twitter上提到“你也可以使用suppdists这个R包(https://cran.r-project.org/web/packages/SuppDists/index.html) 中Pearson分布。另请参阅pwr.confintR来计算某个特定的参数估计正确率(Accuracy in parameter estimation, AIPE)所需的样本量,这个方法在计划研究时也非常容易上手”。
Wolfgang Viechtbauer在Twitter上提到“研究者可以直接计算r的密度(无需模拟)。例如:https://gist.github.com/wviechtb/e87ee35ea5544a3a5f875f61e270cd18。然后,一切都会非常顺利”。
更新:2018.06.30
Frank Harrell在Twitter上写道:“我也建议在说明样本量时使用精确的相关系数估计值。需要n> 300来估计r。详见BBR (http://www.fharrell.com/doc/bbr.pdf)第8章”。
★关于本文内容相关的连接
Correlations in neuroscience: are small n, interaction fallacies, lack of illustrations and confidence intervals the norm?
Small n correlations + p values = disaster
Power estimation for correlation analyses
★本文涉及到的文献来源
[1] Algermissen, J., & Mehler, D. M. A. (2018). May the power be with you: are there highly powered studies in neuroscience, and how can we get more of them? Journal of Neurophysiology, 119(6), 2114–2117. doi:10.1152/jn.00765.2017
[2] Forstmeier, W., Wagenmakers, E.-J., & Parker, T. H. (2017). Detecting and avoiding likely false-positive findings – a practical guide. Biological Reviews, 92(4), 1941–1968. doi:10.1111/brv.12315
[3] McShane, B. B., Gal, D., Gelman, A., Robert, C., & Tackett, J. L. (2018). Abandon Statistical Significance. arXiv. Retrieved from https://arxiv.org/abs/1709.07588
[4] Schönbrodt, F. D., & Perugini, M. (2013). At what sample size do correlations stabilize? Journal of Research in Personality, 47(5), 609–612. doi:10.1016/j.jrp.2013.05.009
[5] Vul, E., Harris, C., Winkielman, P., & Pashler, H. (2009). Puzzlingly High Correlations in fMRI Studies of Emotion, Personality, and Social Cognition.Perspectives on Psychological Science, 4(3), 274–290. doi:10.1111/j.1745–6924.2009.01125.x
[6] Vul, E., & Pashler, H. (2012). Voodoo and circularity errors. NeuroImage, 62(2), 945–948. doi:10.1016/j.neuroimage.2012.01.027
[7] Yarkoni, T. (2009). Big Correlations in Little Studies: Inflated fMRI Correlations Reflect Low Statistical Power—Commentary on Vul et al. (2009). Perspectives on Psychological Science, 4(3), 294–298. doi:10.1111/j.1745-6924.2009.01127.x
原文作者:Guillaume A. Rousselet
翻 译:朱桦
校 对:王凤娟 胡传鹏
编 辑:安玉萌