其他

别再用了,很危险!美国顶级学术期刊宣布禁用p值

2018-02-16 林泽民 中外学术情报


1月22日,美国政治学顶级学术期刊《政治分析》在他们的官方twitter上宣布从2018年的开始的第26辑起禁用p值。根据该刊的声明,其主要原因是:“p值本身无法提供支持相关模式或假说之证据。”

以《政治分析》在政治学之地位,其禁用p值的决定,将会引起连锁效应,导致其他刊物跟进。一直以来,关于p值的讨论争论不断。小编今天为大家介绍美国德州大学奥斯汀校区政府系林泽民教授2016/6/6在台湾政大社科院的演讲,题目为《看电影学统计:p值的陷阱》


院长、陈老师,各位老师、各位同学,今天很荣幸能够到政大来,和大家分享一个十分重要的课题。

今天谈的当然是不一样的题目,虽然它是一个很重要、很严肃的题目,但我希望大家可以轻松一点,所以也要放两部电影片段给大家看,一部是《玉兰花》,另一部则是《班杰明的奇幻旅程》,这两部电影都有助于我们来了解今天要谈论的主题:p 值的陷阱。

科学的统计学危机:p 值有什么问题?

为什么要谈论 p 值的问题?因为在近十多年来,不只是政治学界,而是很多学门,特别是在科学领域,有很多文章讨论传统统计检定方法、尤其是 p 值统计检定的问题,甚至有位很有名的统计学者,Andrew Gelman 写了篇文章,叫作《科学的统计学危机》(The Statistical Crisis in Science),说是危机一点都不言过其实。这就是为何我说:今天要讨论的其实是很严肃的问题。

投影片上这些论点,大部分是说我们在传统统计检定的执行上,对 p 值有各种误解跟误用。现在很多人谈到"p 值的危险"、"p 值的陷阱"、"p 值的误用"、还有"p 值的误解"。甚至有些学术期刊,也开始改变他们的编辑政策。像有本叫作 Basic and Applied Social Psychology 的心理学期刊,已经决定以后文章都不能使用 p 值,大家能够想像吗?我们作计量研究,都是用 p 值,各位一直用,在学界用了将近一百年,现在却说不能用。甚至有些文章,说从前根据 p 值检定做出来的研究成果都是错的,有人更宣告 p 值已经死了。

所以这是一个很严重的问题。在这本期刊做出此决定后,美国统计学会(ASA)有一个回应,表示对于 p 值的问题,其实也没这么严重,大部分是误解跟误用所造成,只要避免误解与误用就好。可是在今年,ASA 真的就发表了正式声明,声明里面提出几点,也是我今天要讨论的主要内容,包括 p 值的真正的意义,以及大家如何误用,换句话说就是:p 值到底是什么?它又不是什么?(图一) 今天除了会深入探讨这些议题之外,也请特别注意声明的第三点提到:科学的结论,还有在商业上、政策上的决策,不应只靠 p 值来决定。大家就应该了解这问题影响有多大、多严重!

图一

我举个例子,美国的 FDA,他们在批准一项新药时,一定要看实验的结果,而且实验结果必须在统计上要显著。可是 ASA 却告诉我们说,决策不该只根据统计的显著性,大家就可想像这影响会有多大。甚至有其他这里没有列出来的文章,提到为何我们使用的各种药物,都是经过这么严格的 p 值检定出来、具有显著性,可是在真正临床上,却不见得很有用。其实很多对 p 值的质疑,都是从这里出来的。

有关 p 值的讨论,其实并非由政治学门,而是从生命科学、例如医学等领域所产生的。ASA 声明的第四点说:正确的统计推论,必须要"full reporting and transparency",这是什么意思呢?这是说:不但要报告 p 值显著的研究结果,也要报告 p 值不显著的研究结果。

但传统方法最大的问题是:研究结果不显著,通通都没有报告。在英文有个词叫 ,摘樱桃。什么叫摘樱桃?摘水果,水果熟的才摘,把熟的水果送到水果摊上,大家在水果摊上看到的水果,都是漂亮的水果,其实有很多糟糕的水果都不见了。我们在统计上也是,大家看到的都是显著的结果,不显著的结果没有人看到。

可是在过程中,研究者因为结果必须显著,期刊才会刊登、新药才会被批准,所以尽量想要挤出显著的结果,这之中会出现一个很重大的问题:如果我们作了 20 个研究,这 20 个研究里面,虚无假设都是对的,单独的研究结果应该是不显著。可是当我们作了 20 个统计检定时,最少有一个结果显著的或然率其实很高。虽然犯第一类型错误的或然率都控制在 0.05,可是 20 个里面最少有一个显著的,或然率就不是 0.05,大概是 0.64。如果就报告这个显著结果,这就是 cherry-picking。

ASA 给的建议是:实验者必须要 full reporting and transparency,就是一个研究假如作了 20 个模型的检定,最好 20 个模型通通报告,不能只报告显著的模型。ASA 这个声明是今天要讨论的主要内容。

P 值是什么?

P 值是什么?我想在座有很多专家比我都懂,但是也有一些同学在场,所以还是稍微解释一下。P 值是由 Ronald Fisher 在 1920 年代发展出来的,已将近一百年。P 值检定最开始,是检定在一个 model 之下,实验出来的 data 跟 model 到底吻合不吻合。这个被检定的 model,我们把它叫做虚无假设(null hypothesis),一般情况下,这个被检定的 model,是假设实验并无系统性效应的,即效应是零,或是随机状态。在这个虚无假设之下,得到一个统计值,然后要算获得这么大(或这么小)的统计值的机率有多少,这个或机率就是 p 值。

举一个例子,比如说研究 ESP (超感官知觉)时会用到比例(proportion)这个统计值。我们用大写的 P 来代表比例,不要跟小写的"p 值"的 p 混淆。在 p 值的争论里,有一篇研究 ESP 的心理学文章被批评得很厉害。文章中提到了一个实验,让各种图片随机出现在荧幕的左边或者右边,然后让受测者来猜图片会出现在哪边。我们知道如果受测者的猜测也是随机的,也就是没有 ESP 的效应,则猜对的或然率应该是一半一半,算比例应该是差不多 P = 0.5,这里比例 P = 0.5 就是我们的虚无假设。但这个实验,实验者是一位知名心理学教授,他让受测者用各种意志集中、力量集中的办法,仔细地猜会出现在左边还是右边。结果发现,对于某种类型的图片--不是所有图片,而是对于某些类型的图片,特别是色情图片--受测者猜对的比例,高达 53.1 %,而且在统计上是显著的。所以结论就是:有 ESP,有超感官知觉。

这里 p 值可以这样算:就是先做一个比例 P 的 sampling distribution(抽样分配)。如果虚无假设是对的,平均来讲,P = 0.5。0.5 就是 P 的抽样分配中间这一点,这个比例就是我们的虚无假设。在受测者随机猜测的情况之下,P 应该大约是 0.5 的。可是假如真正得到的 P 是 0.531,抽样分配告诉我们:如果虚无假设是对的,亦即如果没有任何超自然的力量,没有 ESP 存在,大家只是这样随机猜测的话,则猜对的比例大于或者等于 0.531 的机率,可以由抽样分配右尾的这个面积来算。作单尾检定,这面积就是所谓的 p 值。如果作双尾检定的话,这值还要乘以 2。以上就是我们传统讲的 p 值的概念。

我们得到 p 值以后,要作统计检定。我们相约成俗地设定一个显著水准,叫做 α,α 通常都是 0.05,有时候大家会严格一点用 0.01,比较不严格则用 0.10。如果我们的 α = 0.05,则若 p < 0.05,我们就可以拒绝虚无假设,并宣称这个检定在统计上是显著的,否则检定就不显著,这是传统的 p 值检定方法。如果统计上显著的话,我们就认为得到实验结果的机会很小,所以就不接受虚无假设。

为什么说 p 值很小,就不接受虚无假设?我个人的猜想,这是依据命题逻辑中,以否定后件来否定前件的推论,拉丁文称作 modus tollens,意思是以否定来否定的方法,也就是从"若 P 则 Q"和"非 Q"导出"非 P"的推论,这相信大家都知道。P 值检定的逻辑是一种有或然性的 modus tollens,是 probabilistic modus tollens。"若 H0 为真,则 p 值检定显著的机率很小,只有 0.05",现在 p 值检定显著了,所以我们否定 H0。但是命题逻辑的 modus tollens,"若 P 则 Q"是没有或然性、没有任何误差的余地的。"若 H0 为真,则 p 值检定不可能显著",这样 p 值检定显著时,你可以否定 H0,大家对此都不会有争议。

问题是假如容许或然性,这样的推论方法还是对的吗?举一个例子:"若大乐透的开奖机制是完全随机的,则每注中头奖的机率很小,只有 1 / 13,980,000",现在你中奖了,你能推论说大乐透开奖的机制不是随机的吗?p 值的问题,便是在于我们能不能够因为 p 值很小,小到可能性很低,我们就用否定后件的方法来否定前件。我们用命题逻辑来作统计推论,但其实我们的推论方法跟命题逻辑却不完全一样,因为我们的 α 绝对不可能是零,如果 α 是零的话,就不是统计了。

再来就是看电影时间,电影很有趣,可以帮助我们了解什么是 p 值,也可以再接着讨论为什么用 p 值来作统计推论会有错。这部电影叫做"玉兰花",是 1999 年的电影,已经很旧了,可能在座年轻的朋友就没看过。网络上在 Youtube有这一段,请大家观赏。

相信大家应该都看得懂这短片的用意。玉兰花这部电影,虽然里面有讲一些脏话,但是其实是一部传教的影片。它的推论方式,其实就是我刚刚讲的 p 值的推论方式,它有一个虚无假设,就是说事情发生没有什么超自然的力量在作用,都是随机发生的,是 by chance,不是 by design,可是它发生了,竟然有这么巧合的事情。大家可以想一下,如果事情的发生都是 by chance,都是随机的,那么像这种事件发生的机率有多少?很小很小,0.0…01,几乎不可能发生。所以假如是随机发生的,就几乎不可能发生,可是它发生了,我们就以否定后件来否定前件,推论虚无假设-by chance 的这个假设-是不对的。

既然不是 by chance,它是什么?就是 by design,是设计出来的。这是基督教的一种论证上帝创造世界的方法。在美国,有些学区还在争论,生物是创造的还是进化的?创造论的主张者都会用这样的论证,说你看我们人体,它是这么复杂的一个系统,这种系统可能是随机发生的吗?若是随机发生,机率有多少?是 0.0…01,所以它不可能是随机发生,因此是创造的。这个理论叫做 intelligent design(智慧的设计)即我们这个世界都是上帝创造、是上帝很有智慧地依照蓝图设计出来的。我今天也不想争辩这种推论对不对,我只是举例来说明这种推论的逻辑。

P 值不是什么?

我本来放这部电影都是为了在教学上解释 p 值的概念,可是后来当我注意到对于 p 值的争议之后,觉得其实这一部电影也可以用来帮我们了解为什么用 p 值来做统计推论有可能是错的。

下面这个表是大家都熟悉的。(图二) 我们可以用这个表来呈现有关虚无假设是对或者不对,是被拒绝或者被接受的四种可能性,其中两种是作出错误统计推论的情况。第一个情况,虚无假设是对的,但统计检定是显著的,因此虚无假设被推翻了。这种情况叫做 Type I error,我们保留了 α = 0.05 的机率容许它存在。第二个情况,如果虚无假设是错误的,但统计检定不显著,所以它没有被推翻,这个情况叫做 Type II error。Type II error 刚学统计的同学可能不太了解,因为我们通常都不会很清楚地去计算它的机率--所谓 β。这个 β 跟 α 不一样,不是你可以用相约成俗的方法来订定,而是会受到若干因素的影响。 

图二

我们可以开始讨论:传统用 p 值来作统计检定方式,为什么有问题?刚刚 ASA 的声明说:p 值 do not measure the probability that the studied hypothesis is true。P 值告诉你:如果虚无假设是对的,你"观察到资料"的机率有多少,但它并没有告诉你"虚无假设是对的"的机率有多少,或"研究假设是对的"的机率有多少。这是很不一样的:前者是 data 的机率,后者是 model 的机率。进一步说明,p 值是在虚无假设为真的条件之下,你观察到和你所观察到的统计值一般大小(或更大/更小)的机率。但我们作检定的时候,我们是看 p 值是不是小于你的统计水准 α,如果 p < α,我们就说统计是显著的。

换句话说,如果虚无假设为真,那么你的检定是显著的机率是 α = 0.05。但这其实不是我们作研究最想回答的问题;这个机率只告诉我们,如果你的虚无假设为真,有百分之五的机率,data 会跟它不合,但它没有告诉我们虚无假设这个 model 为真的机率有多少,而这才是我们应该问的问题。所以我们应该反过来问,如果你统计检定是显著的,在此条件之下,"虚无假设是对的"的机率有多少?如果我们把关于 data 这个伪阳性的机率记作 α = Pr(Test=+|H0),大家可以看出这个关于 model 的机率其实是它倒反过来的:Pr(H0| Test=+),所以我把它称作"伪阳性的反机率"。这两个机率原则上不会相等;只有在 α = 0 的时候,两者才都是零而相等。

譬如今天你去健康检查,医生给你做很多筛检,如果筛检结果是阳性,其实先不要怕,因为你应该要问,如果筛检出来是阳性,那么你真正并没有病的机率是多少?也就是伪阳性的反机率有多少?大家可能会很惊讶,伪阳性的反机率通常都很高,但是这个机率,p 值并没有告诉你。所以必须要去算在检定是阳性的条件下,结果是一种伪阳性的反机率;这就必须要用"贝式定理"来算。

虽然在座有很多可能比我更高明的贝氏统计学家,但我还是要说明一下贝式定理。先举一个我终身难忘的例子,刚刚陈老师说我是台大电机系毕业的,我在电机系的时候修过机率这一门课。我记得当时的期中考,老师出了一个题目,说我口袋里面有三个铜板,其中有一个铜板是有偏差的铜板,偏差的铜板它得到正面的机率是 1/3 --不是 1/2--而得到反面的机率是 2/3。考题问:现在我随机从口袋里面掏出一个铜板,这个铜板是那个偏差铜板的机率是多少?很简单大家不要想太多,1/3 嘛。可是我现在拿铜板丢了一下,出现的是正面,我再问你这个铜板是那个偏差铜板的机率是多少?我不期望大家立刻回答,因为要用贝式定理来算,当你获得新的资讯的时候,新的资讯会更新原来的机率。这里我也没有时间详细告诉大家怎么算,但是可以告诉大家,结果是 1/4。

如果我丢掷铜板,它得到了正面,它是偏差铜板的机率变成只有 1/4。这是因为偏差铜板出现正面的机率,比正常铜板要小,所以出现正面的话,它相对来讲就比较不太可能是偏差的铜板,所以机率会比原来的 1/3 小些,只有 1/4。(大家可以想像如果偏差铜板出现正面的机率是 0,而丢掷得到正面,则此铜板是偏差铜板的机率当然是 0。)原来所知的"1/3 的机率是偏差铜板、2/3 的机率是正常铜板"这个机率分配在贝氏定理中叫做先验机率(prior probability)。大家要建立这个概念,即是还没观察到数据之前,对于模型的机率有一些估计,这些估计就叫做先验机率。至于观察到数据之后所更新的模型机率,1/4 和 3/4,这个机率分配叫做后验机率(posterior probability),也就是前面所说的反机率(inverse probability)。

我们再来看另外一个跟统计检定问题非常接近的例子。可以用刚刚身体检查的例子,但我这里用美国职棒大联盟对球员的药物检查为例,也许比较有趣。这里假设大约有 6 % 的美国 MLB 的球员使用 PED(performance enhancing drugs),这是一种可以增强体能表现的药物,是类固醇之类的药物。这个估计数字可能是真的,是我从网页上抓下来的。这边的 6 % 即为我前面说的先验机率:随机选出一个球员,则他有使用 PED 的机率是 0.06,没有使用 PED 的机率是 0.94。现在大联盟的球员都要经过药检;举大家熟知的火箭人 Roger Clemens 为例。他也是我心目中的棒球英雄,他被检定有阳性的反应。

为了方便起见,假设药检的准确度是 95 %。所谓准确度 95 %的定义是:如果一个球员有使用药物,他被检定出来呈阳性反应的机率是 0.95;如果一个球员没有使用药物,他被检定出来呈阴性反应的机率也是 0.95。也就是我假设两种误差类型的机率 α 跟 β 都是 0.05。在这假设之下,使用贝式定理来计算,当球员被筛检得到的结果是阳性,但他并不是 PED 使用者的后验机率或反机率,其实高达 0.45。大家可以从图三看到贝氏定理如何可以算出这个机率。(图三) 

图三

使用贝式定理算出来的结果大家应该会觉得很诧异,因为我们药物筛检的工具应该是很准确的,0.95 在我们想像中应该是很准确的,我们认为说我们错误的可能性只有 5 %,其实不然。检定是阳性,但其实伪阳性的反机率可以高达45 %!所以虽然我不是医学专家,不过大家健康检查,如果医生说,你的检查结果呈现阳性反应,大家先不要慌张,你要先问一下医生检验的准确度大概有多少,如果一个真正有这种病的人来检定,呈现伪阳性的机率有多少?如果一个没有病的人来检定,呈现伪阴性的机率有多少,然后再问他先验机率大概有多少?然后自己用贝氏定理去算一下伪阳性的反机率。医学上很多疾病,在所有人口里面,得病的比例通常很小的。也就是说,得病的先验机率通常都很小,所以伪阳性的反机率会很大。

现在换成了统计检定,看下图的表格。(图四)这表格跟图三的表格很像,只是把内容改成了图二的内容:虚无假设是真的、或是假的,然后统计检定是显著、或是不显著的。然后再加上一行先验机率,就是"虚无假设是对的"的先验机率有多少、"虚无假设是错的"的先验机率有多少,都用符号来代替数目。我们可以用贝式理得到一个公式,显示伪阳性的反机率是统计水准 α、检定强度(power = 1 - β)、和研究假设之先验机率(P(HA))的函数。α 跟检定强度都没问题,但公式里头用到先验机率。你会问:在统计检定里面,先验机率是什么?

 图四

在此我必须要稍微说明一下,先验机率,以浅白的话来讲,跟你的理论有关系,怎么说呢?如同刚刚提到 ESP 的实验,好像只要就这样用力去猜,你猜对的可能性就会比较高。发表这样子的实验报告,我们有没有办法告诉读者,当受测者这样皱着眉头去想的时候,到底是什么样的一个因果机制,能够去猜到图片是出现在左边还是右边。

一般来说这种 ESP 的实验,是没有这种理论的,是在完全没有理论的条件之下来做实验。在此情况之下,我们可以说,此研究假设的先验机率很小很小。当然我们作政治学的研究就不一样,我们可能引用很多前人的著作,都有一个文献回顾,我们也引用很多理论,然后我们说:我们的研究假设是很有可能展的。假如你有很好的理论,你的研究假设的先验机率就会比较高,在这种情况之下,问题会比较小。但是还有一个问题,就是如果从文献里面来建立理论,来判定你的研究假设的先验机率有多少,问题出在于:通常文献回顾是从学术期刊里面得来,而现在所有的学术期刊,发表的都是显著的结果,不显著的结果通通都没有发表,从学术期刊上来判断研究假设的先验机率有多少,这样的判断是有偏差的。这是我今天要讲的第二个问题,现在先继续讨论伪阳性反机率的问题。

现在要详细讨论影响伪阳性反机率的因素,就是影响到"统计检定是显著的条件之下,虚无假设为真"这一个机率的因素。这里再重覆一下,我们一般了解的统计推论,奠基于虚无假设为真时,p 值显著的机率,也就是伪阳性的机率被控制在 α 之内:Pr(Test=+|H0)= Pr(p<α|H0) = α。但我们现在要反过来问的是:统计检定是显著的情况下,H0 为真的机率,也就是伪阳性的反机率:Pr(H0| Test=+)= Pr(H0| p<α),这好比筛检结果为阳性、但其实球员并未使用 PED、患者其实无病的机率。如果 α 等于零,可以很清楚的发现,这两个机率是一样的,都是零;但 α 不等于零的时候,它们就不一样。由下图来看,伪阳性的反机率跟先验机率-研究假设的先验机率-以及检验的强度有关。(图五、六)看图可以得知,power 越大,还有先验机率越大的话,伪阳性的反机率就越小。可是当 power 越小的时候,还有先验机率越小的时候,伪阳性的反机率就越大。

 

图五

 

图六

我做了一个表,列出研究假设的先验机率,从最小排列到最大,可以看到在不同检定强度之下,伪阳性的反机率是多少。(图七)它可以高到近乎 1.00。换句话说,研究假设的先验机率如果很小很小,则即使 p 值检定显著,但虚无假设仍然为真的机率其实还是很大很大的。如果研究假设的先验机率是 0.5 --你事先也许不知道哪一个是对的,你假设是 0.5,就像丢铜板一样,此时,伪阳性的反机率才是 0.05,才跟 α 一样。也就是说,研究假设的先验机率必须要高于 0.5,伪阳性的反机率才会小于 0.05。可是假如你的研究假设,譬如刚刚提到的 ESP 研究,这种实验没有什么理论、没有什么因果关系,然后你就去做了一个统计分析。换句话说这个研究假设的先验机率可能很低,此时伪阳性的反机率其实是很高的。图七第一栏是假设 power 为 0.95,如果 power 低一点到 0.75 呢?如果是 0.50 呢?我们可以看到其实结果差不多。当然 power 越低,问题会越严重,但其实差不多,当你的先验机率是 0.5 的时候,原来是 0.05,现在是 0.09,所以差别不是特别大。原则上,power 对于伪阳性反机率的作用不是那么强,作用强的是 prior,即是研究假设的先验机率。 

图七

小结:当检定强度或研究假设的先验机率甚低的时候,α = 0.05 可能严重低估了伪阳性之反机率,也就是在 p 值检定显著的情况下,虚无假设 H0 仍然极有可能为真,而其为真的条件机率可能甚大于 α。此时如果我们拒绝虚无假设,便作出了错误的统计推论。

摘自社会学吧

注:本平台部分优选文章无法联系作者,若有不当,请及时联系我们处理。投稿、合作、建议等可后台回复“约”加本站编辑。



更多中外高校要闻信息,敬请关注:



精英家长、基础教育工作者请关注:


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存