【April聊统计第二期】Logistic回归---实例分析
疾病研究当中经常需要分析哪些原因影响了疾病的发生发展,而这些因变量往往是分类变量,与因变量不是线性关系,这时候我们往往不能用线性回归模型来分析,而是使用logistic回归模型。
Logistic回归和多重线性回归很像,只不过因变量的形式不同,这里的因变量必须是分类变量。Logistic回归模型表示为:
(P表示暴露于某种状态下的结局(如发病、死亡等)发生概率;常数项a表示当各种暴力因素均为0时,结局发生与不发生概率之比的自然对数值。bi为偏回归系数,表示其他自变量固定的条件下,xi每变动一个单位,logit P的改变量。如果将bi变为指数形式EXP,则EXP (bi)等于优势比OR,表示事件发生与不发生的比值,该值越大,表示事件发生的可能性越大)
下面我们将通过一个实例来简单介绍Logistic回归分析方法(注意本文用到的所有数据纯属虚构,可能与真实结果不符):
背景
分析影响某肿瘤进展的因素有哪些,其中重点关注对象是某些基因是否突变。总共入组了70名患者,每一例患者均有基因突变的检测结果,也收集到了患者相应的临床信息。
确定各因素进入模型的适宜形式
如下表所示,此次分析的变量均为二分类变量,不需要考虑哑变量处理,直接进入方程即可;
2
单因素分析
对进入模型的因素进行单因素分析。程序和数据如下:
data logistic;
input SampleID$ Age Gender Primary_site Vascular_invasion GeneA GeneB Y;
cards;
T1 1 1 0 0 1 1 1
T2 1 0 0 1 1 1 1
T3 1 1 0 1 1 1 1
T4 1 1 0 0 1 1 1
T5 1 1 0 1 1 1 1
……
T65 1 1 1 0 1 1 1
T66 1 1 1 1 1 1 1
T67 1 1 0 0 1 1 1
T68 0 1 0 0 1 1 1
T69 1 1 0 0 1 0 0
T70 1 0 0 1 1 1 1
;
run;
proc logistic data=logistic descending;
model Y = Age;
run;
proc logistic data=logistic descending;
model Y = Gender;
run;
proc logistic data=logistic descending;
model Y = Primary_site
run;
proc logistic data=logistic descending;
model Y = Vascular_invasion;
run;
proc logistic data=logistic descending;
model Y = GeneA;
run;
proc logistic data=logistic descending;
model Y = GeneB;
run;
结果解读
以GeneB为例,我们来看一下单因素分析结果。
第一部分
模型信息,描述模型用到的观测数,以及模型对Y=1进行求解;
第二部分
模型拟合优度信息,可以看到加入变量之后,AIC、SC、-2Log L值比仅截距时均有明显降低,说明加入变量后模型有改善;
第三部分
模型总体检验结果,似然比检验卡方值为15.1501, P值小于0.0001,说明模型总体有统计学意义。得分检验和Wald检验的结果与似然比检验结果相同;
第四部分
参数估计结果,显示GeneB对肿瘤进展的影响有统计学意义(P=0.0029)。
第五部分
优比估计结果,显示GeneB突变患者发生肿瘤进展的风险是未突变患者的26.857倍;
第六部分
预测概率与观测响应关联结果,指标c,反映曲线下面积为0.830,提示GeneB有一定的诊断价值。
我们将几个因素的单因素分析的结果整合到一起,结果见下表:
结果提示,除了性别和肿瘤位置对肿瘤进展的影响无统计学意义外,其他因素对肿瘤进展的影响均有统计学意义。
3
多因素分析
我们对4个在单因素分析中有统计学意义的变量做进一步的多因素分析。
程序和结果如下:
proc logistic data=logistic descending;
model Y = Age Vascular_invasion GeneA GeneB/aggregate scale=none;
run;
四个变量加入模型后, AIC和-2Log L减少明显,模型总体变优,似然比检验结果显示变量对模型的影响有统计学意义。但是在模型参数估计中,GeneA对肿瘤进展的影响变得无统计学意义,且点估计值也变小。
我们怀疑变量之间相关性导致了这种变化。我们对GeneA和GeneB用卡方做相关分析,列联系数为0.3446,P=0.0203.可能GeneA对肿瘤进展影响较小,但是GeneA与GeneB相关,导致单因素分析中GeneA也有统计学意义。
我们将GeneA去掉之后再重新做多因素分析,程序和结果如下:
proc logistic data=logistic descending;
model Y = Age Vascular_invasion GeneB/aggregate scale=none rsquare;
run;
去掉GeneA之后的拟合方程中,Age、Vascular_invasion和GeneB3个变量的加入对于只有截距项的方程而言有明显改善,似然比检验显示模型总体来说有统计学意义。3个变量对肿瘤进展的影响均有统计学意义。
3
模型
4
结论
年龄、血管侵犯以及GeneB突变是某肿瘤进展的危险因素。年龄≥50岁、肿瘤侵犯血管且GeneB发生突变的患者,肿瘤进展的危险明显增高。
我们举的小例子只是对Logitic回归应用条件的检查、单因素分析和多因素分析、模型参数估计和检验以及模型解释做了一个简单介绍。更多内容在模型诊断和评价中,这部分内容需要多次反复调整、也会综合专业背景知识判断来考虑变量纳入与否、纳入形式,每次遇到的项目不一样,需要考虑的因素也不相同,
有任何问题,欢迎在文末留言讨论~
/End.
文字:April
编辑:Anymore
作者原创作品,未经授权禁止转载
扫码关注,获取更多精彩内容
我
是
彩
蛋
喜马拉雅FM搜索并订阅:生信者言;收听内容:
《一分钟听懂NGS基础概念》,让生信分析不再遥不可及
《亲爱的姑娘,你值得被温柔以待》,11个真实的人物故事
《众病之王:癌症传》,一起聆听人类对抗癌症的斗争史
回复文字:果然科学,看一篇好玩的科普文。