查看原文
其他

P值 | X教学,XX理解,XXX使用

AWei 自我整合 2023-02-24

错误地教学、错误地理解、错误地使用 

P值在心理学中,老师错误地教学,学生错误地理解,科研人员错误地使用。


整整60年前,斯特林(1959)在心理学杂志上发表了他对统计测试的调查。这篇文章应该是每个有抱负的心理学研究者必读的。斯特林的文章以一场关于使用0.05作为评估统计结果的“行业标准”的辩论开始。更重要的是,他指出使用这样的标准只发布显著的结果是非常有问题的。 


一般遵守这种僵硬的战略本身是令人感兴趣的,但可能对所达成的决定没有进一步的影响。然而,当把固定的显著性作为选择报告在专业期刊上发表的关键标准时,它可能会导致令人尴尬和出乎意料的结果。


问题是,我们只能更长时间地量化显著结果的百分比。一旦只发布显著的结果,根据定义,显著性结果的百分比为100%。假设这些显著结果中只有5%可能是假阳性是错误的,因为5%的值适用于所有已进行的研究,而不适用于具有显著结果的一组研究。根据上一篇推文P-Values到底是什么?,我们假设情境知道。


对于场景A,我们会错误地假设只进行了50项研究,并且期望不超过50*0.05 = 2.5假阳性,而实际数字是5。


对于场景B,我们会错误地假设只进行了5项研究,并且期望不超过5*0.05 = 0.25假阳性,当实数为5时。


对于场景C,我们会错误地假设只进行了23项研究,并且期望不超过23*0.05 = 1.15假阳性,而实际数字是5。


如果不知道产生显著结果的研究的百分比,p <0 .05是没有意义的。也许这解释了为什么心理学研究者很难解释p值。长期以来,统计显著性一直被用作书写结果或发布结果的标准,以至于显著性检验的主要目的似乎是发现可发布的结果。这是错误的。只发表显著的结果使得p值和统计显著性的声明变得毫无意义。


斯特林(1959)发现心理学期刊的研究成功率超过90%。1995年,他重复了这一发现(Sterling et al., 1995)。他指出,这些已发表的显著性结果并没有提供关于已发表结果的可信度和可重复性的信息,因为(a)进行的研究比发表的多得多,(b)缺乏测试已发表结果是否可信的重复研究。因此,发表在心理学杂志上的统计结果没有任何意义,因为它们没有提供关于一个显著性结果为假阳性结果的风险的信息。


60年了,似乎只有少数心理学研究者明白,期刊上充斥着根据p < alpha规定的结果,却没有提供任何统计信息,就像在考试中只计算正确答案并不能告诉我们关于学生学习的任何事情一样。虽然这一点对大多数教学读者来说可能是显而易见的,但为什么他们如此难以理解,仅仅报告重要的结果并不能告诉我们任何有关心理科学实质的信息,原因就不那么清楚了。


p值提供了有用的信息,可以与显著性标准进行比较,从而对长期的假阳性结果的比例做出有根据的猜测。在没有任何其他信息的情况下,长期频率也是从所有研究中随机抽取的单个研究的最佳猜测。


然而,要有意义,发布所有测试是很重要的。如果只公布显著性的结果,p值就不再提供关于假阳性风险的任何有意义的信息。因此,只发表证实假设的显著性结果的可疑做法必须结束。只要这种做法继续存在,心理学就不是一门科学,不管心理学研究者是否自称为科学家。


斯特林(1959)不会对近年来导致重复性危机的大规模复制失败感到惊讶,尤其是在社会心理学方面。为显著性选择的p值只提供了一种虚幻的保证,即假阳性很少,而且power很高。现在是时候清醒地认识到,心理学的许多进步都是建立在仍然隐藏的大量不显著结果之上的。这是真正的心理学研究者应该谦虚,承认错误,改革心理科学的时候了。这些改革必须从更好、更严格的统计学教学和阅读斯特林预测重复危机的经典文章开始。


来源https://replicationindex.com/2019/01/08/psychologists-p-values/

声明:部分文章和信息来源于互联网,如转载内容涉及版权等问题,请立即与小编联系,我们将迅速采取适当的措施。

感谢您抽出  · 来阅读此文

更多精彩请点击下列分类文章

↓↓↓

心理学上的验证危机

结构方程建模 | 打包步骤

有子量表测验的打包策略

评估心理学中错误发现的风险

心理学上发表了多少的错误发现?

治疗

作为一条基本原则,在许多考虑需要自我暴露的情况下,治疗师可以运用与患者分享他左右为难的感受的方法,而不是直接把对患者的感受反馈给患者。

向左滑动

关注“自我整合”

从心开始做更好

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存