厉害了!百位作者借助Google Docs合作撰文讨论P值问题
有关“P<0.05表示有统计学差异”似乎从诞生之初就备受争议,事实上,为什么把检验水准定在0.05,有什么科学道理?到现在大家也没整明白,但是这并不妨碍众多作者在研究结果中对于P<0.05的痴迷,总得有点儿“有意义”的结果,论文才“好看”。但是呢,带来的问题是各种假阳性结果的泛滥。于是乎,就不断有人提出修改目前所使用的统计学显著的标准。
Daniel J. Benjamin等人提出将现行的0.05标准降低到0.005—《Redefine Statistical Significance》于2017.7.22发表在Nature Human Behaviour。
在这篇论文中,70名牛X的科学家支持在研究中提高被广泛使用的统计学显著的阈值,也就是我们常常想尽一切办法获得的P<0.05。这些科学家说,应该把检验水准调整为0.005,目的嘛,就是为了降低发现假阳性结果的可能性,提高科学的可重复性。
而来自荷兰埃因霍温科技大学的心理学家Daniël Lakens却抱怨道:“这群优秀的人怎么就给出了如此可怕的Bad Advice”。Lakens认为一个更小的α(或者说检验水准),毫无疑问会需要更大的样本量,而这无疑会让一些研究永远无法完成(比如说一些罕见病研究,疾病发生率本来就低,难道要等到患者达到一定的数量才开始搞研究,这显然是极度违背伦理的!)。
Lakens进一步发问道,“既然科学是如此的多元化,那么为什么要把科学研究局限在一个单一的P值上?”
Lakens等人最近也发表了一篇他们自己的论文来提供另外一种选择,这篇文章同样发表Nature Human Behaviour。就文章内容而言并没有什么惊天动地大发现,但是呢,整个论文的成稿过程却绝对会让你叹为观止! 这篇论文由来自全球100多名作者(既有国际大腕儿Prof.,亦有博士研究生Ph.D.),利用Google docs(一款在线协助编辑工具),为期两个月撰写完成。
用发起者Lakens的话来说,对于这件事应该尽可能地民主化——大家只要想参加就都可以加入进来,不一定都是业界大咖。
老实讲,P值确实不是一个容易让人理解的概念,各种误用误读的情况屡见不鲜,我们在公众号上也在不断地努力倡导大家对于统计分析结果的谨慎解读。正如Lakens提到的,“P值或者检验水准α小于0.05,并不是一个大家想象地那么靠谱儿的研究证据”。
在看到《Redefine Statistical Significance》这篇文章后,Lakens创建了一个名为《Justify Your Alpha: A Response to ‘Redefine Statistical Significance》的Google docs,其中包含了12个话题讨论,比如说“我们应不应该评论或忽略这项建议?”,“重新定义统计显著性的潜在负面影响是什么?”。
接近150名作者参与了这项大讨论,整个文件长达100页。
(使用电脑打开以下网址,即可查看:https://docs.google.com/document/d/12CNMlmxhD2q6mymyDl_Bp1mTIAAiWCblZneDDQc2nQY/edit)
令Lakens没有想到的是这项讨论参与者的多元化,而那些权威的研究机构代表反而成为了少数,这其中许多贡献者都分享了他们的个人经验。一些人认为他们没有能力为了满足这项“新标准”(α=0.005)而开展一项大型研究,并且招募到足够多的研究对象。
另一些人则担心,降低α可能会强迫研究者报告所谓的“方便样本”(Convenience Samples),例如,纳入过多的本科生(最听话,也最容易获取研究样本~),或者把研究搬到网上(大家自愿参加~)。
批评者也认为大型研究同样不太可能被重复,并且一个更苛刻的α可能会迫使研究者不愿意冒风险去攻克难题。
在整个讨论过程中,尽管有各种分歧,参与者也达成了一致——即把α设定到0.005同0.05一样“武断随意”。一个关键问题在于,α=0.005的产生是依赖于已经搞清楚的研究问题,并且考虑获得一个错误答案的风险而制定的。事实上,具体问题要具体分析——在初步的探索性研究中,研究者愿意接受一个存在假阳性风险的结果;但是,在药物临床试验中却可能需要一个更低的α。
Lakens等人正是基于这项讨论的主要内容而完成了这篇论文。Lakens激动地回忆着整个过程:
Daniel Bradford,一位来自威斯康星大学麦迪逊分校临床心理学博士研究生,一开始对于这种众包式的论文撰写工作是持怀疑态度。Bradford分享道,“我之前仅仅和5位作者共同完成过数篇论文,并且认为只有少于这个数量的作者才能让论文的整个撰写过程更加高效,而这一次的经历改变了我看法”。
(众包,一种特定的获取资源的模式,这种模式下,个人或组织可以利用大量的网络用户来获取需要的服务和想法——维基百科)
最终,这篇论文建议将“Statistically Significant(统计学显著)”的标签一起摒弃,取而代之的是,研究者应该阐明对于研究设计和数据解读的考虑,包括检验水准——α可能是0.05,也可能是0.005,或者0.10。
Redefine Statistical Significance作者之一Valen Johnson教授,却认为这并不能解决什么问题,“允许每一篇论文的作者自行决定统计学显著α的标准,是一个疯狂的建议!根本没有足够的资源来对每个α的理由进行彻底和公正的考察,问题的关键是,并不清楚如何来证明作者所提出的α在实践中是否行得通。”
ps:尽管对于P值的争论仍在继续,但是作者脑洞大开地采用众包的形式开展一项学术讨论确实令人眼前一亮,传统的学术研究是否也要拥抱互联网+?
以上内容整理自:
http://www.sciencemag.org/news/2018/01/nearly-100-scientists-spent-2-months-google-docs-redefine-p-value-here-s-what-they-came
更多阅读
医咖会微信:medieco-ykh
关注医咖会,涨姿势!
有临床研究设计或统计学方面的难题?快加小咖个人微信(xys2016ykf),拉你进统计讨论群和众多热爱研究的小伙伴们一起交流学习。如果想进群,添加小咖时请注明“加群”二字。
点击左下角“阅读原文”,看看医咖会既往推送了哪些有意思的文章。