多因素回归要不要做逐步回归法? 美国top杂志《内科学年鉴》给出答案
内科学年鉴(Annals of Internal Medicine)的统计分析指南(二)
美国医师协会的杂志Ann Intern Med(影响因子17.0左右)是医学界十分具有影响力的期刊。它里面有一份详细的投稿论文的统计学要求,我认为很多的东西是我们国内杂志社应该学习的,特翻译过来并进行解读。
我将分为4篇推文说明内科学年鉴的统计学要求。
第2篇 回归统计分析方法和效应评估
第3篇 缺失、混杂和P值
第4篇 Meta分析
有兴趣的朋友们可以一起学习和感悟!
第2篇 回归统计分析方法和效应评估
1. 多因素回归
1.1 自变量筛选
关于自变量筛选,Ann Intern Med说,自变量筛选不推荐基于单因素回归,挑选"statistically significant"的自变量。很多混杂因素,虽然P值>0.05,但是对于我们感兴趣的目标变量的效应有干扰,或者很多因素只在另外因素存在的时候会变成混杂因素。
郑老师:自变量筛选方面,最好不是数据驱动法,无论P值<0.05,还是<0.2,纳入多因素回归,都是一种懒人的做法。
1.2 逐步回归法?
这是诸位比较关心的事情。Ann Intern Med明确说:Authors should avoid stepwise methods of model building, except for the narrow application of hypothesis generation for subsequent studies. Stepwise methods include forward, backward, or combined procedures for the inclusion and exclusion of variables in a statistical model based on predetermined P value criteria. 这段英文翻译过来就是应该避免使用逐步回归方法进行多因素回归。
郑老师:本人在11月17日举行的“2019年杭州真实世界研究培训班”也明确指出,先单因素后多因素+逐步回归的方法是一种垃圾方法,不推荐。推荐使用DAG的方法和效应改变方法,具体可以后续关注本培训班的视频。
划重点来了!!!中山大学方积乾对此的意见是:回归分析目的很多,主要包括研究影响因素、预测结局;如果控制混杂、探讨影响因素,那么不推荐逐步回归法;但如果回归用于构建预测模型,那么逐步回归法仍然是一种好方法。
1.3 回归分析表格
Ann Intern Med认为,很多人在论文内容中提供了单因素回归分析的结果,那其实没有必要的!如果存在着混杂因素,那么单因素结果只是中间见过,在讨论和结论中没有太大价值,纯粹增加篇幅!
郑老师:我们很多中文论文就是放了单因素和多因素两个结果,实在没有必要!
2. 纵向随访分析
纵向随访分析主要基于多时间点随访数据开展回归分析,常见的是重复测量方差分析、混合效应模型等。对此,Ann Intern Med也有话要说。
1.1 对于纵向研究,我们可以汇报同组不同时间、同时不同组、以及总体上不同组效应的差异、也可以构建模型控制协变量。
1.2 纵向研究可以采用重复测量方差分析或者广义估计方程(generalized estimating equations [GEEs])
1.3 另外一种方法,便是混合效应模型,或者说随机系数模型
1.4 纵向研究容易存在着数据缺失,因此在建模过程中,必须考虑数据缺失问题,是随机缺失还是非随机缺失。在GEE模型中,缺失必须必须是完全随机的,而随机系数模型,缺失可以针对已观察的数据是随机的,但针对未 观察的数据是不随机的
3. 关于效应指标报告
3.1 论文应该报告具有临床意义的结局指标,比如OR、RR、RD等。Ann Intern Med统计指南指出,不建议报告1个单位改变所有引起的OR值或RR等,因为这样没有实际意义(比如年龄每改变一岁引起的OR值变化或者血压每改变一个单位引起的变化、BMI指数没改变一个单位引起的变化)。
郑老师:这是什么意思?我们构建回归分析的时候,效应值也就是回归系数或者EXP(b)反应的是自变量每增加一个单位,应变量改变的量。如果自变量是连续性的定量数据,得到的OR值或者RR值就是改变一个点位得到的结果。这样的结果没有意义,比如年龄增加一岁,OR值为1.005,没有太大的临床意义!建议的做法是,将年龄转为等级数据进行分析并开展趋势性检验。
3.2 效应指标都要需要同时提供置信区间。
3.3 效应指标更关注组间的比较结果,而不是组内。一般建议提供组间差异性结果,比如均属差值或者率的差值,以及置信区间!结果讨论建议从差值角度讨论而不是从P值是否小于0.05的角度。
3.4 OR值的结果解释
很多时候,我们用logistic回归分析产生的Odds ratios(OR)值来反应 研究因素的效应,但是不容易解释。Ann Intern Med说不容易解释的原因是我们需要知道的:
第一,当对照组的的阳性事件发生率比较高时,我们一般会高估研究因素的效应。比如当然对照组发生率为25%的时候,我们计算出来OR值为3.0,而实际上用于准确估计效应值的RR值不过是2.0;暴露组的发生率将是对照组3倍的说法是不对的。
第二,读者很多时候更喜欢用风险增加的倍数来反应效应值,因此OR值就会带来不容易解释的局面。
因此,Ann Intern Med建议提供一个预期概率和置信区间( predicted probabilities and confidence bounds)来反应OR值带来的信息。
3.5 HR值的结果报告
生存分析中,hazard ratios(HR)也是非常重要的结果。HR值从COX回归分析结果得到,可以反应干预因素或者暴露因素的效应。但这个结果也不容易解释,它往往和随访时间长短有关系,而且必须要要求COX回归符合等比例的的假设要求。因此这个结果往往也有误导性。Ann Intern Med建议提供给累计生存曲线,也就是Kaplan-Meier曲线结合不同时期的生存人数表来反应生存时间变化,如果存在着混杂因素,建议提供调整混杂因素后的生存曲线。
本篇就到此结束,欢迎继续关注!
更多相关内容学习:
1.临床研究基线均衡性比较除了用P值大小来反映,还可以用这种方法!
2.当代流行病学大神Rothman:关于P值的18个误读与真相
3.当正态、偏态、率的数据狭路相逢,如何绘制规范医学论文表格
欢迎关注本公众号,我们是资源的搬运工,所有科研资源全部免费下载:
1. 绝对干货满满!“2019年真实世界研究杭州培训班” 6讲PPT可以下载了!
3.《中国统计年鉴》1978-2019,巨量呈现40年全国各行业指标(包括卫生、人口在内)!
4. 问卷和量表如何统计分析?Amos亚洲一哥张伟豪"量化研究SPSS视频"下载!
5. 公共卫生研究必备:5次国家卫生服务调查100万居民分析报告
8. 中国70年人口变化数据:1949-2018《中国人口就业统计年鉴》