查看原文
其他

研究各阶段常犯的10大统计学错误

The following article is from 医咖会 Author 杨超


在我们的日常科学研究或者论文撰写过程中,统计学错误普遍存在,近年来也日益受到学者以及大众媒体的广泛关注。关于如何改进统计学应用与实践的争论,目前主要集中在统计推断方法的选择,尤其是P值和显著性检验上。

 

2020年6月,PM&R杂志发表了题为“Ten Common Statistical Errors from All Phases of Research, and Their Fixes”的文章,作者列举了研究四个阶段(研究设计→数据整理与清洗→数据分析→结果报告)常犯的10个统计学错误案例,并给出了可以帮助研究人员避免这些错误的潜在解决方案。让我们来一起看看吧!


研究设计

(Study Design)阶段


1. 研究目的是为了证明等效性或非劣效性,但研究未进行相应设计。

举例:30名运动员被随机分为两组:生酮饮食组和习惯性饮食组,为期4周。研究目的是为证明生酮饮食与正常饮食相比,不会引起炎症反应升高。研究者直接比较了两组患者4周的脂联素(炎症标志物)水平,差异无统计学意义(P=0.50),于是得出结论:4周的生酮饮食不会增加炎症反应。

解决办法:研究者应把这项研究设计成一个非劣效性试验,目的是为证明一种干预措施不差于另一种干预措施。因此,研究者应事先设定一个非劣效性界值(non-inferiority margin),比如脂联素增加0.5 mg/L,同时样本量计算也应包含这个非劣效性界值。
 
图片来源:医咖会既往推文
非劣效性检验是个啥?非劣效性的结论是否有价值?

2. 未进行样本量计算,导致结果估计不精确、可信区间过宽。

举例:某研究旨在评估一种新型卒中患者平衡测试的评分者间的可靠性。两名评分者分别测量了10名卒中患者,研究者计算了组内相关系数(intra-class correlation coefficient,ICC)和95%可信区间,结果为0.76(0.23-0.93)。问题在于,对ICC的估计过于不精确,导致无法判断结果的可靠性。

解决办法:研究者应该事先进行样本量计算。对于评价一致性或可靠性的研究,样本量的计算应基于实现较高的ICC精度或者将ICC与非零值(比如0.50)进行比较。
 
3. 研究使用了既往未经验证的测量量表。

举例:某研究旨在探讨网球比赛对主观精神疲劳的影响,随访了12名运动员整个赛季,并在每场比赛前后收集精神疲劳评分。研究者要求运动员在自制的量表上(0-100分)报告他们的精神疲劳情况。研究发现,从赛前到赛后精神状况都有明显的下降。但问题是,这种自制量表的有效性和可靠性均未经验证,因此观察到的差异有可能是因为测量误差导致的。

解决办法:研究者应该使用一个先前验证过的主观精神疲劳的测量方法。该方法应具有已知的信度和效度,而且最好在类似研究人群中进行过验证。


数据整理与清洗

(Data Wrangling and Cleaning)阶段


4. 数据处理中的错误操作导致了二分类变量编码的1/0反转。

举例:研究人员调查了700名跑步者,以了解他们的防晒习惯。初步分析发现,女性、年龄较大和有皮肤癌病史的跑步者不太可能经常使用防晒霜,这些结果与预期相反。在进一步检查后发现了一个编码错误:防晒是按照1(经常使用)到5(从不使用)的维度来编码的,然而当数据在Excel中转换为二分类变量时,4和5的值被错误地编码为经常使用防晒霜,而1到3的值被重新编码为表示缺乏防晒措施。

解决办法:建议在统计分析软件(如SAS、STATA、R)中进行数据清理,以便所有数据更改记录都可以保存在代码中。在运行统计模型之前,应检查所有变量的准确性和一致性。
 
5. 数据输入错误导致了虚假关联。

举例:研究人员前瞻性地收集了150名美国大学长跑运动员的数据,包括睡眠习惯和1英里跑步时间。初步分析发现,较长时间的平均夜间睡眠与更快的1英里跑步时间存在中度相关性(r=-0.55,P<0.01)。

但是,在绘制数据散点图时发现了一个数据输入错误:1名运动员报告了他的跑步时间(7分30秒)与相当短的睡眠时长(每晚5小时)。在移除这个数据点之后,睡眠时长和跑步时间的相关性变为阴性(r=-0.15,P=0.46),最终原因是这名运动员的数据在数据库中输入有误导致的

解决办法:在进行正式分析之前,研究者应该核查数据并尽可能绘制散点图,以识别异常值和数据输入的错误。输入有误的数据应及时更正,异常值应保留在数据集中,但是其影响应该通过敏感性分析来探究。


数据分析

(Data Analysis)阶段


6. 未检查统计模型的相关性假设,导致错误的推断。

举例:有学生分析了健康对照组和轻度脑外伤患者在四种不同条件下的头部旋转角度数据。使用重复测量方差分析发现,研究条件的主效应差异具有统计学意义(P=0.032)。然而,在查看原始数据时发现其中两种研究条件下的旋转角度方差是其他条件的3倍,而且也非正态分布。

因此,该数据违背了方差分析的两个假设:方差齐性(本例中更具体地说是球形检验)和残差的正态性。违反球形检验的假设可能会导致一类错误率增加。当对本例中数据进行非参数检验时,得到的P值要高得多(P=0.24)。

解决办法:研究者在运行任何正式的统计模型和检验之前,应充分了解数据集中的变量情况,为所有相关变量进行描述性统计、生成散点图和直方图等。研究者还应该检验数据是否满足统计模型或检验的假设条件。
 
7. 应用了错误的统计方法,导致了潜在的误导性结论。

举例:某研究旨在了解钙摄入量对软组织损伤后运动恢复的影响,随访了62名澳大利亚业余足球运动员两个赛季,记录了他们的钙摄入量和受伤情况。研究者采用线性回归模型,对于未受伤的运动员(n=50),结局变量编码为0;对于受伤的运动员(n=12),结局变量为缺席比赛的周数。

基于这个模型,研究者得出结论:钙摄入与更快的恢复时间有关,每摄入100 mg钙,平均减少0.2周的恢复期(P=0.03)。本研究的问题在于“重返赛场时间”具有一个双峰分布,其中许多运动员都有“0”值。线性回归模型拟合了两个峰之间的直线,因此观察到的关联更可能反映出预测因素对于发病率、而不是损伤恢复时间的影响。此外,线性回归模型的应用假设也不被满足。

解决办法:本研究建议仅在受伤的运动员中进行分析,同时也可以考虑使用零膨胀模型。
 
8. 数据分析忽略了重要的相关性来源,导致P值被严重低估。

举例:研究者进行了一项旨在预防运动性伤害的整群随机对照试验,随机抽取了5所高中进行干预,5所高中随机分为对照组。其中,干预组教练参加了时长1小时的教育研讨会,学习可以减少伤害的特定热身方案,而对照组教练收到一封教育性邮件。

在接下来的一年里,研究人员参加了球队的比赛,并记录了热身活动的次数。他们发现,干预组教练在54/200(27%)的比赛中实施了这一程序,然而对照组教练只在30/200(15%)的比赛进行了热身训练。

通过卡方检验,研究者得出结论:两组差异非常显著,P<0.005。本研究问题在于,本研究的400个观测对象其实是非独立的,而且存在两种相关性的来源:1)每个教练在多场比赛中被反复测量;2)来自相同高中的教练也存在相关性。因此,本研究可能会大大增加P值,因为有效的样本量远远小于400。

解决办法:在分析具有相关性的观测值时,数据中的一些相关性来源需进行调整或校正,比如可以通过改变观察单位(从比赛到教练)或利用能够处理相关观测值的统计学模型。


结果报告

(Reporting)阶段


9. 摘要突出强调了组内比较结果,但忽略了组间比较结果,掩盖了组间差异不具有统计学意义的事实。

举例:研究者进行了一项随机对照试验,评估鱼油改善卒中患者的认知功能情况。鱼油组(n=20)患者的认知功能平均改善了3分,组内变化差异在α=0.05水平上具有统计学意义(P=0.043);安慰剂组(n=20)的认知功能改善了2.1分,组内变化差异无统计学意义(P=0.087);平均组间差异(0.9分)无统计学意义(P=0.47)。

然而,研究者在摘要中写道:鱼油组有显著改善(P<0.05),而安慰剂组没有(P>0.05)。因此,鱼油可能有助于改善认知功能。这是一个具有高度误导性的结果陈述。

解决办法:在报告随机对照试验的结果时,摘要和主要结论应主要呈现组间比较的结果。
 
10. 来自单一数据集的高度相关结果分别在多篇不同文章中进行报告。

举例:研究者调查了1000名老年人,以了解他们当前的关节疼痛与锻炼习惯的关系。研究者分别建立了三个Logistic回归模型,探讨早期进行游泳、跑步和球类运动对老年关节疼痛的影响。

该研究发现,游泳可以降低关节疼痛的风险,跑步可以增加风险,而球类运动没有任何效果。这些结果分别发表在三篇独立的论文中,作者也没有告知读者其他研究的存在。

本研究问题在于,检验三项运动会增加总体的I型错误率;分开进行分析的话排除了调整潜在相关性的可能,例如对同时参与不同运动进行调整;读者也很难发现不同模型中的细小差异。

解决办法:研究者应仔细考虑来自同一数据集的多个分析,是否值得在多篇论文中分别进行发表。如果对同一样本的相关结果采用相同的统计方法,那么写成一篇完整的论文可能更合适。
 
总之,从研究设计到最终结果报告,在研究的各个阶段都会出现统计学上的错误。上述提到的十大错误,其实大多与误用P值或统计学检验是无关的。因此,建议广大研究者在今后的研究过程中加强统计学思维和素养的提升。那么如何提升统计学知识、避免犯上述错误?

一个最好、最简单的办法就是关注医咖会的公众号,与我们的小伙伴一起学习、一起进步吧!
 
参考文献:
[1] David N Borg, Keith R Lohse, Kristin L Sainani. Ten Common Statistical Errors from All Phases of Research, and Their Fixes. PM R, 2020, 12(6): 610-614.
[2] 一文搞懂:非劣效性检验是个啥?有何价值?

# 温馨提示

微信公众号信息流改版导致收不到消息推送或者推送靠下?想要及时获取投必得学术的最新动态,可以试试以下方法✔



END


转自:医咖会
声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本公众号观点或证实其内容的真实性;如其他媒体、网站或个人从本公众号转载使用,须保留本公众号注明的“来源”,并自负版权等法律责任。如本公众号内容不妥,或者有侵权之嫌,请先联系小编topedit2021删除,万分感谢!
发表SCI论文很迷茫?
来找「投必得」帮忙↓↓↓

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存