真实世界数据分析(3):基于DAG方法进行自变量的筛选
"如何分析真实世界研究数据"系列第三篇
自变量筛选的重要的策略是严格限制纳入模型的自变量,常见的方法为有向无环图(Directed Acyclic Graph,DAG)方法。这是一种理论驱动的自变量筛选方法,它基于理论的因果关系,构建因果关系网络,从而找到合适进入模型的自变量(本讲具有一定的理解难度)
本篇通过虚构案例来介绍下DAG理论。
一、案例介绍
我们结合简单的结直肠癌案例来展示下DAG方法。该案例包括若干个变量,包括:病人性别、年龄、分期、入院前吸烟情况、有无转移、手术方式(人还是机器)、术后化疗方案,最终结局。
上述自变量都可能影响健康结局,而且它们之间还相互影响。我们用箭头来表各自的因果关系,箭头发出对象为因,箭头指向为果。比如,手术方式,它对结果的影响是直接影响生存结局,以及通过影响术后放疗的方式影响生存结局。因为可能不同的手术方式会影响到不同的化疗方案。
所有变量因果关系形成的单向网络,即称之为有向无环图(Directed Acyclic Graph,DAG)。如下图。
那么如果要探讨影响因素,若重点探讨手术方式对生存结局的影响,应该要放哪些因素进入模型呢?是不是所有的自变量都可以纳入呢?
二、几个必须了解的几个关键概念
学习DAG方法,最关键的是掌握几个重要的概念。
1. 中介变量
对于手术方式而言,术后化疗方式是它的中介变量。
可以通过下图可以看出,术后方式可以通过术后化疗影响结局,术后化疗处于手术方式与生存结局因果关系链上的中间变量或者中介变量。
2.混杂变量
对于手术方式,分期、转移和年龄都是混杂因素
为什么,因为分期、转移和年龄三者即影响手术方式、又影响结果,而且不是手术方式的中介变量,因此是混杂变量(具体我们在下一章详细陈述)
那么对于术后化疗来说,手术方式是什么呢?手术方式是混杂变量(如果能够理解,说明还不错)。
对于术后化疗来说,年龄和和分期呢?
年龄和分期没有直接和术后化疗相连接,它们算不算混杂因素呢?算!比如年龄,就通过手术方式传导到影响术后化疗。
3. 相关变量
对于手术方式而言,吸烟这个变量算什么?它不会影响手术方式,也不会传导到手术方式。但是手术方式和吸烟都受年龄影响,因此两者是相关的,因此我称吸烟是手术方式的相关变量,它们不存在着因果关系。同时,由于吸烟又跟生存结局有关系,因此吸烟这一相关变量也是混杂因素。
4.此外还有碰撞节点变量、工具变量。。。。不在这里讲述了,它们用的不多。上述四个变量,已经够喝一壶了。关于这几个概念,可以关注公众号论文(真实世界研究常用统计分析方法),或者具体可以见本人2014年发表于《中国卫生统计》杂志的论文《基于因果关系图进行多因素回归分析的变量筛选》
三、利用DAG限制变量纳入
了解DAG几个基本概念之后,我们可以理清不同变量的属性,在此基础上开展进行变量的纳入筛选。概括来说,基于DAG理论最重要的自变量筛选原则是:
1. 中间变量不能纳入
比如研究多因素影响生存结局,关注重点之一是手术方式。那么术后放疗方式是中介变量,是不能纳入的。为什么?现在我们需要评价手术方式的疗效。它对结局的作用是从两个通路产生影响。一方面是直接影响,另外一方面是通过术后放疗产生的影响。如果同时回归模型将两者(手术方法和术后化疗)放入内,手术方式通过术后放疗这一路的对生存的影响全部被术后化疗截走了!或者说,手术方式的间接影响通路被堵死了!因此这样评价手术方式的效果是不全的!
这一点非常重要!也是当前我国研究者构建回归模型最忽视的地方。切记!
2. 混杂因素必须放入
多因素回归时候,一般要研究多个影响因素,但也有一些因素不是我们关心的,比如年龄、性别!许多同志构建了回归模型,发现年龄性别也有统计学意义,在讨论中大论年龄与性别对结局的影响。。。多余!谁都知道知道年龄、性别对癌症结局的影响。它们存在的意义是因为它们是混杂因素。一般需要放入到模型中来但无须讨论。
现在不不妨思考下,如果现在重点探讨的术后化疗对结局的影响,以下的图中,哪些因素要放呢?
是手术方式、分期、转移,他们都可能是混杂因素,此外,相关变量也可能是混杂因素,如果遇到,也需要纳入。
总之,构建回归研究影响因素的时候,必然有一些因素是我们比较关心的变量。我们同时也研究其它因素的对结局的影响,但是关心的核心变量对结局的影响,必须准确详实。因此特别要关心中介变量和混杂变量的问题。
对于结直肠癌案例,总结来说:
对于手术方式,那么术后化疗是中介变量,不能放!
对于术后放疗,那么手术方式是混杂因素,必须放!
若能明白这两句话,那就学到家了!
三、病例对照和横截面调查更多的限制
观察性研究特别是横截面调查和病例对照研究研究影响因素的时候,特别需要理清因果关系,否则容易陷入因果颠倒的问题。
案例2: 基于调查调查人群的冠心病患病情况,同时调查相关因素:性别、年龄、红肉日均摄入量、吸烟、饮酒、高血糖、血管弹性指数、高血压。研究目的是探讨这些因素对冠心病发生的影响。
如果采用的方法是病例对照研究,哪些因素可以放呢?
答案是:固有的因素,保持不变的因素,回顾性的因素,理论上和结局时间逻辑明确的因素可以开展多因素回归分析
有哪些是呢?性别、年龄、高血糖、血管弹性指数、高血压,其它则不能纳入。
为什么?因为吸烟、饮酒、红肉日均摄入量,是当前的饮食特征、跟冠心病发病因果关系搞不清楚。我们没法理清到底是吸烟饮酒导致了冠心病,还是冠心病导致了吸烟饮酒行为的改变了。
因此,基于横截面调查的数据开展病例对照研究,必须要挑选变量排除因果关系可能颠倒的变量,排除反应当前情况特征的暴露变量!
如果,现在不是基于病例对照的思维开展研究,而是就是横截面调查,做个回归分析,那么特别要注意,横截面调查结论只能说变量变量可能存在着相关性!不能讨论因果关系!
总结:DAG 本身并不是完全统计学概念,而是因果关系的概念,理解困难,但是可以消化吸收。回归建模的第一步,就是要基于DAG思维来建立筛选自变量!
“如何分析真实世界研究数据”系列更多文章:
1.“如何分析真实世界临床研究数据”系列文章开启!敬请关注。
4.真实世界研究:他汀类药物(statin)能预防胆道癌吗?