别再用了，很危险！美国顶级学术期刊宣布禁用p值

2018-02-16 林泽民 中外学术情报

1月22日，美国政治学顶级学术期刊《政治分析》在他们的官方twitter上宣布从2018年的开始的第26辑起禁用p值。根据该刊的声明，其主要原因是：“p值本身无法提供支持相关模式或假说之证据。”

以《政治分析》在政治学之地位，其禁用p值的决定，将会引起连锁效应，导致其他刊物跟进。一直以来，关于p值的讨论争论不断。小编今天为大家介绍美国德州大学奥斯汀校区政府系林泽民教授2016/6/6在台湾政大社科院的演讲，题目为《看电影学统计：p值的陷阱》。

院长、陈老师，各位老师、各位同学，今天很荣幸能够到政大来，和大家分享一个十分重要的课题。

今天谈的当然是不一样的题目，虽然它是一个很重要、很严肃的题目，但我希望大家可以轻松一点，所以也要放两部电影片段给大家看，一部是《玉兰花》，另一部则是《班杰明的奇幻旅程》，这两部电影都有助于我们来了解今天要谈论的主题：p 值的陷阱。

科学的统计学危机：p 值有什么问题？

为什么要谈论 p 值的问题？因为在近十多年来，不只是政治学界，而是很多学门，特别是在科学领域，有很多文章讨论传统统计检定方法、尤其是 p 值统计检定的问题，甚至有位很有名的统计学者，Andrew Gelman 写了篇文章，叫作《科学的统计学危机》（The Statistical Crisis in Science），说是危机一点都不言过其实。这就是为何我说：今天要讨论的其实是很严肃的问题。

投影片上这些论点，大部分是说我们在传统统计检定的执行上，对 p 值有各种误解跟误用。现在很多人谈到"p 值的危险"、"p 值的陷阱"、"p 值的误用"、还有"p 值的误解"。甚至有些学术期刊，也开始改变他们的编辑政策。像有本叫作 Basic and Applied Social Psychology 的心理学期刊，已经决定以后文章都不能使用 p 值，大家能够想像吗？我们作计量研究，都是用 p 值，各位一直用，在学界用了将近一百年，现在却说不能用。甚至有些文章，说从前根据 p 值检定做出来的研究成果都是错的，有人更宣告 p 值已经死了。

所以这是一个很严重的问题。在这本期刊做出此决定后，美国统计学会（ASA）有一个回应，表示对于 p 值的问题，其实也没这么严重，大部分是误解跟误用所造成，只要避免误解与误用就好。可是在今年，ASA 真的就发表了正式声明，声明里面提出几点，也是我今天要讨论的主要内容，包括 p 值的真正的意义，以及大家如何误用，换句话说就是：p 值到底是什么？它又不是什么？（图一）今天除了会深入探讨这些议题之外，也请特别注意声明的第三点提到：科学的结论，还有在商业上、政策上的决策，不应只靠 p 值来决定。大家就应该了解这问题影响有多大、多严重！

图一

我举个例子，美国的 FDA，他们在批准一项新药时，一定要看实验的结果，而且实验结果必须在统计上要显著。可是 ASA 却告诉我们说，决策不该只根据统计的显著性，大家就可想像这影响会有多大。甚至有其他这里没有列出来的文章，提到为何我们使用的各种药物，都是经过这么严格的 p 值检定出来、具有显著性，可是在真正临床上，却不见得很有用。其实很多对 p 值的质疑，都是从这里出来的。

有关 p 值的讨论，其实并非由政治学门，而是从生命科学、例如医学等领域所产生的。ASA 声明的第四点说：正确的统计推论，必须要"full reporting and transparency"，这是什么意思呢？这是说：不但要报告 p 值显著的研究结果，也要报告 p 值不显著的研究结果。

但传统方法最大的问题是：研究结果不显著，通通都没有报告。在英文有个词叫，摘樱桃。什么叫摘樱桃？摘水果，水果熟的才摘，把熟的水果送到水果摊上，大家在水果摊上看到的水果，都是漂亮的水果，其实有很多糟糕的水果都不见了。我们在统计上也是，大家看到的都是显著的结果，不显著的结果没有人看到。

可是在过程中，研究者因为结果必须显著，期刊才会刊登、新药才会被批准，所以尽量想要挤出显著的结果，这之中会出现一个很重大的问题：如果我们作了 20 个研究，这 20 个研究里面，虚无假设都是对的，单独的研究结果应该是不显著。可是当我们作了 20 个统计检定时，最少有一个结果显著的或然率其实很高。虽然犯第一类型错误的或然率都控制在 0.05，可是 20 个里面最少有一个显著的，或然率就不是 0.05，大概是 0.64。如果就报告这个显著结果，这就是 cherry-picking。

ASA 给的建议是：实验者必须要 full reporting and transparency，就是一个研究假如作了 20 个模型的检定，最好 20 个模型通通报告，不能只报告显著的模型。ASA 这个声明是今天要讨论的主要内容。

P 值是什么?

P 值是什么？我想在座有很多专家比我都懂，但是也有一些同学在场，所以还是稍微解释一下。P 值是由 Ronald Fisher 在 1920 年代发展出来的，已将近一百年。P 值检定最开始，是检定在一个 model 之下，实验出来的 data 跟 model 到底吻合不吻合。这个被检定的 model，我们把它叫做虚无假设（null hypothesis），一般情况下，这个被检定的 model，是假设实验并无系统性效应的，即效应是零，或是随机状态。在这个虚无假设之下，得到一个统计值，然后要算获得这么大（或这么小）的统计值的机率有多少，这个或机率就是 p 值。

举一个例子，比如说研究 ESP （超感官知觉）时会用到比例（proportion）这个统计值。我们用大写的 P 来代表比例，不要跟小写的"p 值"的 p 混淆。在 p 值的争论里，有一篇研究 ESP 的心理学文章被批评得很厉害。文章中提到了一个实验，让各种图片随机出现在荧幕的左边或者右边，然后让受测者来猜图片会出现在哪边。我们知道如果受测者的猜测也是随机的，也就是没有 ESP 的效应，则猜对的或然率应该是一半一半，算比例应该是差不多 P = 0.5，这里比例 P = 0.5 就是我们的虚无假设。但这个实验，实验者是一位知名心理学教授，他让受测者用各种意志集中、力量集中的办法，仔细地猜会出现在左边还是右边。结果发现，对于某种类型的图片--不是所有图片，而是对于某些类型的图片，特别是色情图片--受测者猜对的比例，高达 53.1 %，而且在统计上是显著的。所以结论就是：有 ESP，有超感官知觉。

这里 p 值可以这样算：就是先做一个比例 P 的 sampling distribution（抽样分配）。如果虚无假设是对的，平均来讲，P = 0.5。0.5 就是 P 的抽样分配中间这一点，这个比例就是我们的虚无假设。在受测者随机猜测的情况之下，P 应该大约是 0.5 的。可是假如真正得到的 P 是 0.531，抽样分配告诉我们：如果虚无假设是对的，亦即如果没有任何超自然的力量，没有 ESP 存在，大家只是这样随机猜测的话，则猜对的比例大于或者等于 0.531 的机率，可以由抽样分配右尾的这个面积来算。作单尾检定，这面积就是所谓的 p 值。如果作双尾检定的话，这值还要乘以 2。以上就是我们传统讲的 p 值的概念。

我们得到 p 值以后，要作统计检定。我们相约成俗地设定一个显著水准，叫做 α，α 通常都是 0.05，有时候大家会严格一点用 0.01，比较不严格则用 0.10。如果我们的 α = 0.05，则若 p < 0.05，我们就可以拒绝虚无假设，并宣称这个检定在统计上是显著的，否则检定就不显著，这是传统的 p 值检定方法。如果统计上显著的话，我们就认为得到实验结果的机会很小，所以就不接受虚无假设。

为什么说 p 值很小，就不接受虚无假设？我个人的猜想，这是依据命题逻辑中，以否定后件来否定前件的推论，拉丁文称作 modus tollens，意思是以否定来否定的方法，也就是从"若 P 则 Q"和"非 Q"导出"非 P"的推论，这相信大家都知道。P 值检定的逻辑是一种有或然性的 modus tollens，是 probabilistic modus tollens。"若 H0 为真，则 p 值检定显著的机率很小，只有 0.05"，现在 p 值检定显著了，所以我们否定 H0。但是命题逻辑的 modus tollens，"若 P 则 Q"是没有或然性、没有任何误差的余地的。"若 H0 为真，则 p 值检定不可能显著"，这样 p 值检定显著时，你可以否定 H0，大家对此都不会有争议。

问题是假如容许或然性，这样的推论方法还是对的吗？举一个例子："若大乐透的开奖机制是完全随机的，则每注中头奖的机率很小，只有 1 / 13,980,000"，现在你中奖了，你能推论说大乐透开奖的机制不是随机的吗？p 值的问题，便是在于我们能不能够因为 p 值很小，小到可能性很低，我们就用否定后件的方法来否定前件。我们用命题逻辑来作统计推论，但其实我们的推论方法跟命题逻辑却不完全一样，因为我们的 α 绝对不可能是零，如果 α 是零的话，就不是统计了。

再来就是看电影时间，电影很有趣，可以帮助我们了解什么是 p 值，也可以再接着讨论为什么用 p 值来作统计推论会有错。这部电影叫做"玉兰花"，是 1999 年的电影，已经很旧了，可能在座年轻的朋友就没看过。网络上在 Youtube有这一段，请大家观赏。

相信大家应该都看得懂这短片的用意。玉兰花这部电影，虽然里面有讲一些脏话，但是其实是一部传教的影片。它的推论方式，其实就是我刚刚讲的 p 值的推论方式，它有一个虚无假设，就是说事情发生没有什么超自然的力量在作用，都是随机发生的，是 by chance，不是 by design，可是它发生了，竟然有这么巧合的事情。大家可以想一下，如果事情的发生都是 by chance，都是随机的，那么像这种事件发生的机率有多少？很小很小，0.0…01，几乎不可能发生。所以假如是随机发生的，就几乎不可能发生，可是它发生了，我们就以否定后件来否定前件，推论虚无假设－by chance 的这个假设－是不对的。

既然不是 by chance，它是什么？就是 by design，是设计出来的。这是基督教的一种论证上帝创造世界的方法。在美国，有些学区还在争论，生物是创造的还是进化的？创造论的主张者都会用这样的论证，说你看我们人体，它是这么复杂的一个系统，这种系统可能是随机发生的吗？若是随机发生，机率有多少？是 0.0…01，所以它不可能是随机发生，因此是创造的。这个理论叫做 intelligent design（智慧的设计）即我们这个世界都是上帝创造、是上帝很有智慧地依照蓝图设计出来的。我今天也不想争辩这种推论对不对，我只是举例来说明这种推论的逻辑。

P 值不是什么？

我本来放这部电影都是为了在教学上解释 p 值的概念，可是后来当我注意到对于 p 值的争议之后，觉得其实这一部电影也可以用来帮我们了解为什么用 p 值来做统计推论有可能是错的。

下面这个表是大家都熟悉的。（图二）我们可以用这个表来呈现有关虚无假设是对或者不对，是被拒绝或者被接受的四种可能性，其中两种是作出错误统计推论的情况。第一个情况，虚无假设是对的，但统计检定是显著的，因此虚无假设被推翻了。这种情况叫做 Type I error，我们保留了 α = 0.05 的机率容许它存在。第二个情况，如果虚无假设是错误的，但统计检定不显著，所以它没有被推翻，这个情况叫做 Type II error。Type II error 刚学统计的同学可能不太了解，因为我们通常都不会很清楚地去计算它的机率--所谓 β。这个 β 跟 α 不一样，不是你可以用相约成俗的方法来订定，而是会受到若干因素的影响。

图二

我们可以开始讨论：传统用 p 值来作统计检定方式，为什么有问题？刚刚 ASA 的声明说：p 值 do not measure the probability that the studied hypothesis is true。P 值告诉你：如果虚无假设是对的，你"观察到资料"的机率有多少，但它并没有告诉你"虚无假设是对的"的机率有多少，或"研究假设是对的"的机率有多少。这是很不一样的：前者是 data 的机率，后者是 model 的机率。进一步说明，p 值是在虚无假设为真的条件之下，你观察到和你所观察到的统计值一般大小（或更大／更小）的机率。但我们作检定的时候，我们是看 p 值是不是小于你的统计水准 α，如果 p < α，我们就说统计是显著的。

换句话说，如果虚无假设为真，那么你的检定是显著的机率是 α = 0.05。但这其实不是我们作研究最想回答的问题；这个机率只告诉我们，如果你的虚无假设为真，有百分之五的机率，data 会跟它不合，但它没有告诉我们虚无假设这个 model 为真的机率有多少，而这才是我们应该问的问题。所以我们应该反过来问，如果你统计检定是显著的，在此条件之下，"虚无假设是对的"的机率有多少？如果我们把关于 data 这个伪阳性的机率记作 α = Pr（Test=+|H0），大家可以看出这个关于 model 的机率其实是它倒反过来的：Pr（H0| Test=+），所以我把它称作"伪阳性的反机率"。这两个机率原则上不会相等；只有在 α = 0 的时候，两者才都是零而相等。

譬如今天你去健康检查，医生给你做很多筛检，如果筛检结果是阳性，其实先不要怕，因为你应该要问，如果筛检出来是阳性，那么你真正并没有病的机率是多少？也就是伪阳性的反机率有多少？大家可能会很惊讶，伪阳性的反机率通常都很高，但是这个机率，p 值并没有告诉你。所以必须要去算在检定是阳性的条件下，结果是一种伪阳性的反机率；这就必须要用"贝式定理"来算。

虽然在座有很多可能比我更高明的贝氏统计学家，但我还是要说明一下贝式定理。先举一个我终身难忘的例子，刚刚陈老师说我是台大电机系毕业的，我在电机系的时候修过机率这一门课。我记得当时的期中考，老师出了一个题目，说我口袋里面有三个铜板，其中有一个铜板是有偏差的铜板，偏差的铜板它得到正面的机率是 1/3 --不是 1/2--而得到反面的机率是 2/3。考题问：现在我随机从口袋里面掏出一个铜板，这个铜板是那个偏差铜板的机率是多少？很简单大家不要想太多，1/3 嘛。可是我现在拿铜板丢了一下，出现的是正面，我再问你这个铜板是那个偏差铜板的机率是多少？我不期望大家立刻回答，因为要用贝式定理来算，当你获得新的资讯的时候，新的资讯会更新原来的机率。这里我也没有时间详细告诉大家怎么算，但是可以告诉大家，结果是 1/4。

如果我丢掷铜板，它得到了正面，它是偏差铜板的机率变成只有 1/4。这是因为偏差铜板出现正面的机率，比正常铜板要小，所以出现正面的话，它相对来讲就比较不太可能是偏差的铜板，所以机率会比原来的 1/3 小些，只有 1/4。（大家可以想像如果偏差铜板出现正面的机率是 0，而丢掷得到正面，则此铜板是偏差铜板的机率当然是 0。）原来所知的"1/3 的机率是偏差铜板、2/3 的机率是正常铜板"这个机率分配在贝氏定理中叫做先验机率（prior probability）。大家要建立这个概念，即是还没观察到数据之前，对于模型的机率有一些估计，这些估计就叫做先验机率。至于观察到数据之后所更新的模型机率，1/4 和 3/4，这个机率分配叫做后验机率（posterior probability），也就是前面所说的反机率（inverse probability）。

我们再来看另外一个跟统计检定问题非常接近的例子。可以用刚刚身体检查的例子，但我这里用美国职棒大联盟对球员的药物检查为例，也许比较有趣。这里假设大约有 6 % 的美国 MLB 的球员使用 PED（performance enhancing drugs），这是一种可以增强体能表现的药物，是类固醇之类的药物。这个估计数字可能是真的，是我从网页上抓下来的。这边的 6 % 即为我前面说的先验机率：随机选出一个球员，则他有使用 PED 的机率是 0.06，没有使用 PED 的机率是 0.94。现在大联盟的球员都要经过药检；举大家熟知的火箭人 Roger Clemens 为例。他也是我心目中的棒球英雄，他被检定有阳性的反应。

为了方便起见，假设药检的准确度是 95 %。所谓准确度 95 %的定义是：如果一个球员有使用药物，他被检定出来呈阳性反应的机率是 0.95；如果一个球员没有使用药物，他被检定出来呈阴性反应的机率也是 0.95。也就是我假设两种误差类型的机率 α 跟 β 都是 0.05。在这假设之下，使用贝式定理来计算，当球员被筛检得到的结果是阳性，但他并不是 PED 使用者的后验机率或反机率，其实高达 0.45。大家可以从图三看到贝氏定理如何可以算出这个机率。（图三）

图三

使用贝式定理算出来的结果大家应该会觉得很诧异，因为我们药物筛检的工具应该是很准确的，0.95 在我们想像中应该是很准确的，我们认为说我们错误的可能性只有 5 %，其实不然。检定是阳性，但其实伪阳性的反机率可以高达45 %！所以虽然我不是医学专家，不过大家健康检查，如果医生说，你的检查结果呈现阳性反应，大家先不要慌张，你要先问一下医生检验的准确度大概有多少，如果一个真正有这种病的人来检定，呈现伪阳性的机率有多少？如果一个没有病的人来检定，呈现伪阴性的机率有多少，然后再问他先验机率大概有多少？然后自己用贝氏定理去算一下伪阳性的反机率。医学上很多疾病，在所有人口里面，得病的比例通常很小的。也就是说，得病的先验机率通常都很小，所以伪阳性的反机率会很大。

现在换成了统计检定，看下图的表格。（图四）这表格跟图三的表格很像，只是把内容改成了图二的内容：虚无假设是真的、或是假的，然后统计检定是显著、或是不显著的。然后再加上一行先验机率，就是"虚无假设是对的"的先验机率有多少、"虚无假设是错的"的先验机率有多少，都用符号来代替数目。我们可以用贝式理得到一个公式，显示伪阳性的反机率是统计水准 α、检定强度（power = 1 - β）、和研究假设之先验机率（P（HA））的函数。α 跟检定强度都没问题，但公式里头用到先验机率。你会问：在统计检定里面，先验机率是什么？

图四

在此我必须要稍微说明一下，先验机率，以浅白的话来讲，跟你的理论有关系，怎么说呢？如同刚刚提到 ESP 的实验，好像只要就这样用力去猜，你猜对的可能性就会比较高。发表这样子的实验报告，我们有没有办法告诉读者，当受测者这样皱着眉头去想的时候，到底是什么样的一个因果机制，能够去猜到图片是出现在左边还是右边。

一般来说这种 ESP 的实验，是没有这种理论的，是在完全没有理论的条件之下来做实验。在此情况之下，我们可以说，此研究假设的先验机率很小很小。当然我们作政治学的研究就不一样，我们可能引用很多前人的著作，都有一个文献回顾，我们也引用很多理论，然后我们说：我们的研究假设是很有可能展的。假如你有很好的理论，你的研究假设的先验机率就会比较高，在这种情况之下，问题会比较小。但是还有一个问题，就是如果从文献里面来建立理论，来判定你的研究假设的先验机率有多少，问题出在于：通常文献回顾是从学术期刊里面得来，而现在所有的学术期刊，发表的都是显著的结果，不显著的结果通通都没有发表，从学术期刊上来判断研究假设的先验机率有多少，这样的判断是有偏差的。这是我今天要讲的第二个问题，现在先继续讨论伪阳性反机率的问题。

现在要详细讨论影响伪阳性反机率的因素，就是影响到"统计检定是显著的条件之下，虚无假设为真"这一个机率的因素。这里再重覆一下，我们一般了解的统计推论，奠基于虚无假设为真时，p 值显著的机率，也就是伪阳性的机率被控制在 α 之内：Pr（Test=+|H0）= Pr（p<α|H0） = α。但我们现在要反过来问的是：统计检定是显著的情况下，H0 为真的机率，也就是伪阳性的反机率：Pr（H0| Test=+）= Pr（H0| p<α），这好比筛检结果为阳性、但其实球员并未使用 PED、患者其实无病的机率。如果 α 等于零，可以很清楚的发现，这两个机率是一样的，都是零；但 α 不等于零的时候，它们就不一样。由下图来看，伪阳性的反机率跟先验机率－研究假设的先验机率－以及检验的强度有关。（图五、六）看图可以得知，power 越大，还有先验机率越大的话，伪阳性的反机率就越小。可是当 power 越小的时候，还有先验机率越小的时候，伪阳性的反机率就越大。

图五

图六

我做了一个表，列出研究假设的先验机率，从最小排列到最大，可以看到在不同检定强度之下，伪阳性的反机率是多少。（图七）它可以高到近乎 1.00。换句话说，研究假设的先验机率如果很小很小，则即使 p 值检定显著，但虚无假设仍然为真的机率其实还是很大很大的。如果研究假设的先验机率是 0.5 --你事先也许不知道哪一个是对的，你假设是 0.5，就像丢铜板一样，此时，伪阳性的反机率才是 0.05，才跟 α 一样。也就是说，研究假设的先验机率必须要高于 0.5，伪阳性的反机率才会小于 0.05。可是假如你的研究假设，譬如刚刚提到的 ESP 研究，这种实验没有什么理论、没有什么因果关系，然后你就去做了一个统计分析。换句话说这个研究假设的先验机率可能很低，此时伪阳性的反机率其实是很高的。图七第一栏是假设 power 为 0.95，如果 power 低一点到 0.75 呢？如果是 0.50 呢？我们可以看到其实结果差不多。当然 power 越低，问题会越严重，但其实差不多，当你的先验机率是 0.5 的时候，原来是 0.05，现在是 0.09，所以差别不是特别大。原则上，power 对于伪阳性反机率的作用不是那么强，作用强的是 prior，即是研究假设的先验机率。

图七

小结：当检定强度或研究假设的先验机率甚低的时候，α = 0.05 可能严重低估了伪阳性之反机率，也就是在 p 值检定显著的情况下，虚无假设 H0 仍然极有可能为真，而其为真的条件机率可能甚大于 α。此时如果我们拒绝虚无假设，便作出了错误的统计推论。

摘自社会学吧

注：本平台部分优选文章无法联系作者，若有不当，请及时联系我们处理。投稿、合作、建议等可后台回复“约”加本站编辑。

更多中外高校要闻信息，敬请关注：

精英家长、基础教育工作者请关注：

反向激励，在加速这个社会的黑化

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

别太贪婪，这些技能让你一辈子满足

平安信托深陷“爆雷”旋涡：终于尝到“偏爱”房地产的苦果

刀片电池存设计缺陷，或将导致几十万比亚迪车主自费更换or召回？