查看原文
其他

讨论显著性差异时还能不能用p值?

荆木 木耶百新 2019-07-03

感谢大家长期对木耶百新的支持,我的愿望就是提高大家的学术能力。我努力将木耶百新打造成一个有品质的学术平台,感谢路上一直有你的陪伴。


上一篇文章:《封杀这个公式,AI智商将为零》,点击链接可阅读。


写在前面:点击右边的小程序 ➤ ,加入木耶学社,和290多位同行一起主动学习。学习的主要方式为:1. 每周任务  ➤  完成任务  ➤  点评任务  ➤ 总结并提高;2. 针对某些具体的问题,发表短话题,供大家学习。从加入学社算起往后1年时间都可以在学社中学习,免费获取以前所有的文件资源。





前两天有一位读者在木耶百新的后台问我,前两天看到朋友转发的一篇文章,似乎是说,在讨论显著性差异时不能用p值,真的是这样吗?


这个问题很有价值,所以今天拿出来跟大家讨论一下。


结论可以直接拖到文章末尾看。


首先我们得弄清楚什么是p值,它对我们论文的数据分析有什么作用?


p值通常是我们在统计学中用到的概念,指的是在一个特定的统计模型下,数据的某个汇总指标等于某个观测值,或者比某个观测值更为极端的概率。


我们在统计学中用的时候并没有这么复杂,方法很简单。


首先我们设立一个假定模型,称之为原假设。我们在这个模型下面观察数据与原假设是否匹配,匹配程度是多少?p值越小说明原假设与观察数据的匹配度越低。


p值曾经一度是很多学生统计学的的噩梦,大家经常被各种概念弄得很乱,比如原假设、零假设、备择假设、第一类错误和第二类错误;p值也是很多人写论文时的一个重要工具,大家都在用各种方法,将论文中的p值变得越小越好。


但是,这会带来3个非常严重的问题,之前大家没有重视,最近几年,这些问题越来越引起众多学者的注意。


问题一

p值的大小,表征的是统计结果的显著性,统计结果的规律越显著,越容易发文章,这几乎已经成为了一个学术界的共识。因此那些统计结果不具有显著性的文章,就不容易被录用,那些工作也就不容易被大家所知道。也许这些工作非常重要,甚至具有划时代的意义,最后也有可能被湮没掉。


问题二

p值大小不能代表结果的效应性、显著性和重要性。当统计样本足够大,统计精确度足够高时,不论这个结果是不是具有效应性,p值都有可能非常小;而当统计样本数量不够多,统计精确度不够高时,即使统计的结果具有效应性,p值也有可能比较大。


我给大家讲一个真实的案例。


Nature之前发布过一篇文章,内容是,弗吉尼亚大学有一位博士研究生叫莫德尔,他做了一项关于政治极端分子的行为研究,样本大约是2000人群,结果发现相比较政治极端分子,政治温和派,似乎更能辨别不同色度的灰色。


莫德尔对这项研究非常满意,因为数据也给出了非常积极的结果,统计结果显示,p值为0.01,按照统计学结果来说,这个结果是非常显著,莫德尔十分有把握,能把自己的论文发表在高质量期刊上。


因为害怕实验结果无法重复,所以莫德尔和导师决定添加新的数据,做重复实验,结果发现,p值变成了0.59,和之前的0.01不在一个层次上,按照统计学结果来说,这个结果是非常不显著的。


问题三

p值从来没有被证明,可以用来接受某个假设,即使是拒绝假设,也是基于某个样本得出的结论,当样本变动时,结论很可能也会变动。


这个问题就涉及到p值的来源,和很多统计学家的统计思想,过程比较复杂,我简单给大家解释一下。


提到p值,就一定离不开Fisher,以及他的假设检验思想。他的思想简单来说就是在一个样本均值为a的正态分布总体中,抽样得到这个均值为b的样本的几率会有多大?我要是能计算出这个概率,就知道这个样本来自该总体这件事有多靠谱。


如果概率太小,就认为是不靠谱的事情,那么可以认定这个假设是错的,这个就是假设检验里的小概率事件原理。这个概率就是后来风靡学术界的p值,一般认为概率小于5%就是不可靠的事情,则需要拒绝原假设。


所以在Fisher的检验思想中,从来没有涉及到备择假设的概念,没有被认为可以用来证明某个假设是对的。


后来我们在统计学中学到的,备择假设、第一类错误和第二类错误都是Neyman-Pearson提出来的。他用两类错误以及power作为辅助参考,从来不承认p值这个东西。


所以统计学家之间对于p值也没有达成一个共识,正如罗斯福大学经济学家史蒂芬所说,p值没有起到人们期望的作用,因为它根本就不可能起到这个作用。


在2017年9月19号《Nature》上讨论过一个问题:我们是否需要一个统一的p值阈值?


有学者提议,p值阈值应该降低到0.5%,以防止假阳性出现在社会科学和生物医学文献中。这个提议在《Nature》上引起了强烈的反响,在6938位调查对象中,有31%的学者认为不应该降低,有69%等学者认为应该降低。


所以目前为止,在整个科学界并没有形成一个统一的结论,要不要真的抛弃p值。不同研究领域,对于p值的要求也是不一样的。


比如土木领域的建筑结构和岩土方向,由于材料本身的离散性、不均匀性和环境的变异性,在研究过程中,经常会出现比较大的误差,最大30%以内的误差都可以被接受。所以此时如果用p值,那么p值可以相对较高。


但是物理学和生物学,这些要求精度非常高的研究方向,如果你用p值,那么你的p值阈值必须得非常低,才能排除因为标准太松出现错误的结论。


比如需要从原子对撞实验中搜集海量数据的粒子物理学家们早就规定p值的阈值为0.0000003;有很多遗传学家在十多年前就已经将全基因组关联研究的阈值定为0.00000008。这么做的目的就是为了让标准更高,防止出现错误的结论。


所以,如果你的研究精度要求比较高,那么你可以考虑不用p值,用贝叶斯分析的专门技术,如果要用p值,那么p值阈值一定要降低。


如果你的研究精读要求没有那么高,目前来看,你还可以继续使用p值,可以将p值阈值定为0.05或者0.01。


今天关于是否还能继续使用p值的内容就介绍到这里。



以上。

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存