查看原文
其他

【April聊统计第二期】Logistic回归---实例分析

April 生信者言 2022-03-29


疾病研究当中经常需要分析哪些原因影响了疾病的发生发展,而这些因变量往往是分类变量,与因变量不是线性关系,这时候我们往往不能用线性回归模型来分析,而是使用logistic回归模型。

 

Logistic回归和多重线性回归很像,只不过因变量的形式不同,这里的因变量必须是分类变量。Logistic回归模型表示为

 

(P表示暴露于某种状态下的结局(如发病、死亡等)发生概率;常数项a表示当各种暴力因素均为0时,结局发生与不发生概率之比的自然对数值。bi为偏回归系数,表示其他自变量固定的条件下,xi每变动一个单位,logit P的改变量。如果将bi变为指数形式EXP,则EXP (bi)等于优势比OR,表示事件发生与不发生的比值,该值越大,表示事件发生的可能性越大)

 

下面我们将通过一个实例来简单介绍Logistic回归分析方法(注意本文用到的所有数据纯属虚构,可能与真实结果不符):


 背景  


分析影响某肿瘤进展的因素有哪些,其中重点关注对象是某些基因是否突变。总共入组了70名患者,每一例患者均有基因突变的检测结果,也收集到了患者相应的临床信息。


 

1

确定各因素进入模型的适宜形式


如下表所示,此次分析的变量均为二分类变量,不需要考虑哑变量处理,直接进入方程即可;




2

单因素分析


对进入模型的因素进行单因素分析。程序和数据如下:

data logistic; input SampleID$ Age Gender Primary_site Vascular_invasion GeneA GeneB Y; cards; T1   1    1    0    0    1    1    1 T2   1    0    0    1    1    1    1 T3   1    1    0    1    1    1    1 T4   1    1    0    0    1    1    1 T5   1    1    0    1    1    1    1 …… T65  1    1    1    0    1    1    1 T66  1    1    1    1    1    1    1 T67  1    1    0    0    1    1    1 T68  0    1    0    0    1    1    1 T69  1    1    0    0    1    0    0 T70  1    0    0    1    1    1    1 ; run; proc logistic data=logistic descending; model Y = Age; run; proc logistic data=logistic descending; model Y = Gender; run; proc logistic data=logistic descending; model Y = Primary_site run; proc logistic data=logistic descending; model Y = Vascular_invasion; run; proc logistic data=logistic descending; model Y = GeneA; run; proc logistic data=logistic descending; model Y = GeneB; run;


结果解读


以GeneB为例,我们来看一下单因素分析结果。

第一部分

模型信息,描述模型用到的观测数,以及模型对Y=1进行求解;


第二部分

模型拟合优度信息,可以看到加入变量之后,AIC、SC、-2Log L值比仅截距时均有明显降低,说明加入变量后模型有改善;



第三部分

模型总体检验结果,似然比检验卡方值为15.1501, P值小于0.0001,说明模型总体有统计学意义。得分检验和Wald检验的结果与似然比检验结果相同;



第四部分

参数估计结果,显示GeneB对肿瘤进展的影响有统计学意义(P=0.0029)。



第五部分

优比估计结果,显示GeneB突变患者发生肿瘤进展的风险是未突变患者的26.857倍;



第六部分

预测概率与观测响应关联结果,指标c,反映曲线下面积为0.830,提示GeneB有一定的诊断价值。


 

我们将几个因素的单因素分析的结果整合到一起,结果见下表:

 

 

结果提示,除了性别和肿瘤位置对肿瘤进展的影响无统计学意义外,其他因素对肿瘤进展的影响均有统计学意义。

 

3

多因素分析


我们对4个在单因素分析中有统计学意义的变量做进一步的多因素分析。

 

程序和结果如下:

proc logistic data=logistic descending;

model Y = Age Vascular_invasion GeneA GeneB/aggregate scale=none;

run;



 

四个变量加入模型后, AIC和-2Log L减少明显,模型总体变优,似然比检验结果显示变量对模型的影响有统计学意义。但是在模型参数估计中,GeneA对肿瘤进展的影响变得无统计学意义,且点估计值也变小。

 

我们怀疑变量之间相关性导致了这种变化。我们对GeneA和GeneB用卡方做相关分析,列联系数为0.3446,P=0.0203.可能GeneA对肿瘤进展影响较小,但是GeneA与GeneB相关,导致单因素分析中GeneA也有统计学意义。

 

我们将GeneA去掉之后再重新做多因素分析,程序和结果如下:


proc logistic data=logistic descending;

model Y = Age Vascular_invasion GeneB/aggregate scale=none rsquare;

run;


 

去掉GeneA之后的拟合方程中,Age、Vascular_invasion和GeneB3个变量的加入对于只有截距项的方程而言有明显改善,似然比检验显示模型总体来说有统计学意义。3个变量对肿瘤进展的影响均有统计学意义。

 

3

模型


 

4

结论


年龄、血管侵犯以及GeneB突变是某肿瘤进展的危险因素。年龄≥50岁、肿瘤侵犯血管且GeneB发生突变的患者,肿瘤进展的危险明显增高。

 


我们举的小例子只是对Logitic回归应用条件的检查、单因素分析和多因素分析、模型参数估计和检验以及模型解释做了一个简单介绍。更多内容在模型诊断和评价中,这部分内容需要多次反复调整、也会综合专业背景知识判断来考虑变量纳入与否、纳入形式,每次遇到的项目不一样,需要考虑的因素也不相同,


有任何问题,欢迎在文末留言讨论~



/End.




文字:April

编辑:Anymore


 作者原创作品,未经授权禁止转载


扫码关注,获取更多精彩内容

喜马拉雅FM搜索并订阅:生信者言;收听内容:

《一分钟听懂NGS基础概念》,让生信分析不再遥不可及

《亲爱的姑娘,你值得被温柔以待》,11个真实的人物故事

《众病之王:癌症传》,一起聆听人类对抗癌症的斗争史

回复文字:果然科学,看一篇好玩的科普文。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存