查看原文
其他

统计知识 | 小样本条件相关+基于p值=灾难

OpenScience OpenScience 2020-01-02

 戳上面蓝字关注我们,开始你的学术之旅!






前面我们说明了小样本条件下,相关估计是很不稳定的。小样本的实验中观察得到的结果可能跟研究群体实际水平相差甚远,这样的结果反映的信息也可能是不正确的,所以小样本下的相关是不值得相信的。除了在小样本条件下结果的不稳定性,Yarkoni(2009)的文章还提到了基于P<0.05(或者其他阈值)的结果的选择性报告也能够导致相关结果严重高估。如果你还没有看过这篇文章,真的应该去好好读一读。

为什么这样说呢?接下来将会进行详细解释(代码公开在GitHub上,传送门 https://github.com/GRousselet/blog/tree/master/corrcondpval)。首先我们假设总体的rho = 0。图1是根据样本大小得出的样本分布,我们在之前的帖子看到过的。

 图1

       然后我们再看看,基于p<0.05的样本分布(译者注:即只将p < 0.05的那些样本的分布画出来,见图2)。这里相关系数被严重高估,且样本量越小问题越严重,因为样本量越小,得到的相关因为偶然因素而显著的可能性更大。

 图2

所以,你在文献中看到显著性统计结果时,不用太兴奋。。。

我们再来看看样本量相对较大时是什么情况。假设rho = 0.4,样本分布是下面这个样子的(图3):

 图3

   如果我们只看p<0.05的样本估计到的相关系数,分布是这样的(图4):

图4

       总之,小样本条件下,估计值即使方向是对的,但效应量被高估了的。更何况还有可能出现极大的负相关(-0.8~-0.6那一段紫色线稍微凸出的情况),虽然可能性较小。事实上,虽然真正的相关值为0.4,模拟结果中有0.77%的概率出现了极大的p<0.05的负相关。

本文翻译自basic statistics


翻  译:刘青兰

校  对:朱桦

编  辑:王薇薇


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存