显著性误读 | 一个师生共存的问题
★
背景
关于P值的争议由来已久,主要集中在大量应用统计假设检验进行实证研究的心理学和医学领域里。2000年,德国柏林自由大学教育科学与心理学系教授与马克思•普朗克人类发展研究所研究员在德国的6所大学中进行了一项小型的关于“显著性(Significance)误读:一个师生共存的问题”的问卷调查,调查结果大大出乎他们的意料。
问卷调查
此次问卷的调查对象是德国六所大学的心理学系师生。调查对象被分成三组:第一组是教师组(N=30名),包括给心理学系学生讲授统计学和假设检验的教授和辅导新生的高年级研究生助教;第二组是研究员组(N=39名),包括没有讲授统计学的教授和研究人员;第三组是学生组(N=44名),全部由心理学专业的学生组成。
问卷非常简短,只包含一个问题和6个“是非”选项:“假设你进行了一项对照组试验,需要比较两组实验结果的均值(每组样本个数为20),采用的方法是独立均值t检验,检验结果为t=2.7,df(自由度)=18,p(p值)=0.01。”请判断以下6个陈述是“正确”还是“错误”(“错误”意指该陈述不能由以上检验结果得出,以下错误结果可能不止1个)。
问 题 | 正确 | 错误 |
---|---|---|
1. 你可以完全否定“总体均值无差异”的原假设。 | ||
2. 你已经知道了原假设为真的概率。 | ||
3. 你可以完全肯定“总体均值有差异”的备择假设。 | ||
4. 你可以推断出备择假设为真的概率。 | ||
5. 如果你决定拒绝原假设,你就可以推断你做出错误决定的概率。 | ||
6. 如果以上同样的试验重复很多遍,将有99%的试验获得显著性的结果。 |
Haller教授与Krauss研究员将113份有效调查问卷进行统计分析,最终结果如表1所示。表1中的比率值为各组回答的“错误率”,即在每组参加调查者的回答中至少出现一个错误的人数占小组人数的百分比;表1第4列的比例是Oakes在1986年所做类似研究的结果。
P值被误读的原因分析
Haller教授与Krauss研究员对以上调查结果表示极其惊讶,“尽管Oakes(1986)的调查结果和研究著作发表已经过去了15年,而且有关讨论显著性检验误解的论文也发表了很多篇,但是似乎一切都没改变”。
表1显示,问卷调查结果中学生组全部答错,错误率100%;近90%的心理学科学研究人员至少将一个含有错误“意义”的P值误认为是正确的;更加重要的是,造成以上结果的重要原因在于,讲授假设检验方法的教师们的错误率也高达80%,可以想象他们对显著性的“误解”正在课堂的讲解中一遍又一遍地重复,不断“误导”着一批又一批的学生,对于这种现象,两位学者表示“实在是令人目瞪口呆、无言以对”。
事实上,Haller教授与Krauss研究员调查问题中的6个“是非”陈述选项答案全是错误的。
陈述选项1和3容易答对,两者的错误比较明显:显著性检验绝对不能证明(或否定)假设;显著性检验只能提供“可能的”信息,这些信息最多只能用来对某些理论进行印证;统计推断不可能得出“完全肯定(或否定)”“绝对”的结论。
一般来说,通过显著性检验不可能得到任何假设成立的概率:既不能得到概率值为1(陈述选项1和3)也不能得到其他概率值(陈述选项2和4)。所以,陈述选项2和4也都是错误的。对假设给出概率的描述只可能在贝叶斯统计中出现。
陈述选项5看起来与第一类错误的定义非常相似(即当原假设为真时拒绝原假设的概率),但实际上如果你决定拒绝原假设(陈述选项5所述),当且仅当原假设是正确的情况下,你的这个决定才是错误的,因此在陈述选项5中的“概率”(“你做出错误决定”)其实是“原假设”为真的概率,而这个概率如选项2所述,是不可能由这种检验方法得到的。
陈述选项6是所有选项中极易混淆的难题,它实际上反映的是所谓“重复谬误”。在Neyman和Pearsons的检验范式中,以频率学派的观点,可以通过P=0.01解释“如果原假设为真,在多次重复试验中拒绝原假设的相对频率”,但在本例中你只进行了一次试验,没有证据证明原假设是真的。在许多人的脑海里,会对“P=0.01”的含义“过度”引申,将1-P错误地演变成拒绝原假设的相对频率,即显著性结果可以被重复的概率。实际上,如果你将以上同样的试验重复多遍,由于影响试验条件的不确定性,你很难每次试验都获得显著性的结果。
所以,我们不能简单地停留在“P值是什么”的问题上,而要将重点放在“P值为什么”而真正理解“统计显著性”又要从了解“P值不是什么”开始。
P值是目前科学界广泛使用的主流统计学方法中最重要的一个概念,同时也可能是被误读和误导最多的一个概念。翻阅各学科的文献,很容易就发现对P值的错误理解和表述,即便是发表在《Science》和《Nature》之类顶级期刊的文章也不可避免。
对P值定义的误解一般可分为两个层面:一是基本层面,将P值简化误认为“P值是原假设为真的概率”;二是引申层面,先按“原假设为真”推断至“备择假设为假”再将“P值是原假设为真的概率”引申到“P值是备择假设为假的概率”
当P值很小时就拒绝原假设,认为备择假设是真的吗?那难道不是说P值代表原假设有多真吗?不是,这个问题最简单的解释是:对于任何一个假设它为真的概率都是固定的。然而,已经知道P值是根据具体的样本数据计算得出的,同样的实验重复做几次,每次得到不同的样本,P值也自然会有区别。因此,P值不可能是原假设为真或备择假设为假的概率。
进一步,回顾“显著性检验”的统计思维逻辑:P值越小,样本提供的支持“原假设正确”的证据就越少,少到一定程度时则可以(统计)推断原假设是不正确的。P值只描述样本与原假设的相悖程度,原假设的真与假是我们“仅仅以一次试验观察为根据”做出的一个判断。事实上,P值并不是刻画“原假设为真假”或“备择假设为真假”的概率。
所以,P值既不是原假设为真或假的概率,也不是备择假设为真或假的概率。目前,所广泛使用的一整套统计推断和假设检验方法及其思想体系,均属于统计学的“频率学派”,P值能做的就是在特定的原假设条件下,对数据未知特征进行推断分析。但是,如果要对这些假设本身作出判断,仅凭数据本身是不够的,还需要根据相关学科的理论知识,了解研究对象中除了人们感兴趣的假设以外其他假设存在的概率。
实际上,假设本身成立与否的概率是统计学科中另一个近年来日渐受到重视的流派“贝叶斯学派”试图解决的问题。随着大数据时代的到来和计算机技术的发展,需要大量计算辅助的贝叶斯统计方法逐渐受到了重视,也有不少统计学者呼吁学术界应当用贝叶斯方法补充如今仅以P值为中心的频率学派方法。
参考文献
郝丽, 刘乐平, & 申亚飞. (2016). 统计显著性:一个被误读的p值——基于美国统计学会的声明. 统计与信息论坛, 31(12), 3-10.
声明:部分文章和信息来源于互联网,如转载内容涉及版权等问题,请立即与小编联系,我们将迅速采取适当的措施。
感谢您抽出
更多精彩请点击下列分类文章
↓↓↓
许多选择成为治疗师的人可能对在绝对私密的外衣的保护下,继续一对一的排他性的关系有潜意识的需要。这种排除外界第三方参与的类似乱伦的安排可能造成一种情形,即有一种活动是秘密的、被禁止的,禁止外人入内。