查看原文
其他

GAN在因果推理中的应用研究

刘曼霞 闫秋女 壁仞科技研究院 2023-02-18


摘要

先是深度学习之父Yoshua Bengio对“因果推断是实现终极智能”观点的高度认可,继而加州大学伯克利分校的David Card、麻省理工学院的Joshua D. Angrist和斯坦福大学Guido W. Imbens的因果“三剑客”获得2021诺贝尔经济学奖,进一步加速了因果推断研究的发展。 

在因果推断中,因果效应估计是因果推理中的一个基础、核心问题。在有限观察数据的条件下,往往只能观察到干预(Treatment)或者非干预中的一种情况,但无法观测到两种情况同时出现,因此,如何有效地使用观察数据是因果效应估计的一个研究重点。随着生成对抗网络(Generate Adversarial Network,GAN)在计算机视觉应用领域的出色表现,也有将GAN应用于因果推断领域的探索研究,如[1-3]。本文以文[1]利用GAN的生成器功能来模拟潜在输出向量(Potential Outcome Vector)为例,评述生成对抗模型GAN、因果推断研究动态和发展趋势。 

本文首先阐述个体效应估计的重要性,然后剖析基于GAN的个体效应评估模型[1],最后总结GAN和因果推断的跨领域研究。


平均效应估计

在因果效应评估中,传统方法是直接估计平均干预效应(Average Treatment Effect, ATE),该方法从群体的整体层面进行估计,测量处理个体和控制个体之间平均结果的差异。图1表示药物对癌症病人的治疗效果,图1中红色虚线表示平均治疗效果。平均治疗效果的不足之处表现在不能很好地表达不同个体对干预的不同反应,图1中治疗效果对病人B明显高于病人A,而这种治疗对病人A的效果要低于平均治疗效果。如图2右边所示,结合病人A自身情况,单一的化疗治疗已经足够。但如果根据平均干预效应,病人A可能会同时接受如图2左边所示的化疗和放疗,白白让病人忍受不必要的身体之苦和经济压力。

           

图1:Individualized treatmenteffects (来源:文[3])

图2:治疗一年后癌症复发率(群体 vs 个体,来源文[5])


个体效应估计


在进行二元干预的个体效应估计(Individualized Treatment Effects, ITE)时,给定个体相关特征,以及干预和非干预两种情况下的潜在输出结果(1:干预,0:非干预),合起来又称为潜在输出结果向量,两个输出结果的差值作为个体效应估计,如图3所示。


图3:基于观察数据的因果效应评估(来源文[5])

然而,这种潜在输出结果向量往往在现实问题中是不可能被完全观察到。实际情况是,只能观察到两个结果中一个,另一个是观察不到的,这是个体效应估计面临的一个重大挑战。例如,我们可能观察到病人接受治疗(不治疗)情况下的康复情况(factual outcome,观察数据,见图4第二列不带虚框部分的,下文用表示),但不可能同时知道该病人不治疗(治疗)的康复情况(反事实,如图4第二列虚框部分的值,下文用表示),因此估计治疗的干预效应-一个难题。从另一个角度来看,可以看成监督学习中的标签,因此可以利用现有的神经网络分别针对两种情况训练得到两个模拟函数,其差值就是待求的因果效应,如图4第三列所示。与监督学习不同的是,标签含有缺失值。但是干预机制在现实问题中往往存在一个选择偏差(Selection Bias),也就是说如何决定个体是否进行干预并不是随机的。因此,这种方法需要额外的工作对选择偏差带来的影响进行消除,如使用倾向评分。   


图4:含有干预和非干预的潜在输出向量(来源文[5])


基于GAN的个体效应估计


图5:GANITE(来源文[1])


由上节可知,如何处理缺失值是个体效应估计中的重要研究内容。生成对抗模型已经在图像处理、自然语言等领域取得出色的成绩,一个原因是能利用现有数据模拟数据的产生机制,从而生成未曾在现有数据中出现的新特征。类似于图像生成,文[1]使用了GAN模型来生成潜在模型输出向量,对观察到的输出结果,生成缺失的反事实输出结果来模拟潜在输出向量概率分布,如图5中Counterfactual block所示,这个模块经过训练后产生的数据就当作真实数据。在进行个体效应估计时,只要给定个体的相关特征,在观察值缺失的情况下,就能估计出个体的处理效应。因此,图5中ITE block的GAN模型主要用于产生与Counterfactual block的潜在结果向量尽可能相似的向量。与传统GAN模型不同的是,在反事实和推理两个模块,在生成器的loss部分增加了计算生成的结果与真实结果的距离,如图5中的Supervised Loss所示。


思考


由于道德伦理、实验可操作性等原因,潜在结果输出向量在观察数据中并不能完全观察到。文[1]采用生成对抗模型来模拟潜在结果的生成机制,充分利用了广为熟知的神经网络的Universal approximator的功能,将这种功能用于因果推断中的个体效应估计,在因果推断和深度学习两大学科建立了关联,是值得借鉴的尝试。在具体实现上,文[1]中的所有生成器、辨别器只是使用了简单的多层感知机(MLP),相对于前沿的Transformer-based模型和图神经网络,网络结构显得异常简单,但能取得非常不错的模拟效果。这可能说明一点,并不是所有应用领域都需要超大、复杂的模型,有时候简单就足够了。

文[1]的出发点是捕捉潜在输出向量的概率分布,也就是补全中缺失项换言之,这也是典型的数据缺失问题。而EM(Expectation Maximization)是解决这类数据缺失问题的经典办法,往往能取得不错的效果,比较EM和GAN模拟潜在结果输出向量的概率分布或许值得尝试。


由于水平有限,文中存在不足的地方,请各位读者批评指正,也欢迎大家参与我们的讨论。


参考文献


[1] Yoon, Jinsung, James Jordon, and Mihaela Van Der Schaar. "GANITE: Estimation of individualized treatment effects using generative adversarial nets." International Conference on Learning Representations,2018. [2] Averitt, Amelia J., et al. "The Counterfactual χ-GAN: Finding comparable cohorts in observational health data." Journal of Biomedical Informatics, 2020 [3] Wen, Bingyang, et al. "Causal-TGAN: Generating Tabular Data Using Causal Generative Adversarial Networks.", 2021. [4] https://www.vanderschaar-lab.com/individualized-treatment-effect-inference/ [5] Bica, Ioana, et al. "From real‐world patient data to individualized treatment effects using machine learning: Current and future methods to address underlying challenges." Clinical Pharmacology & Therapeutics, 2021.


 往期推荐

1、除了用于Google地图的ETA预测,GNN还可以做什么?

2、因果发现最新进展及其在复杂系统中实践的探讨

3、基于观察数据的因果推断



关于壁仞科技研究院


壁仞科技研究院作为壁仞科技的前沿研究部门,旨在研究新型智能计算系统的关键技术,重点关注新型架构,先进编译技术和设计方法学,并将逐渐拓展研究方向,探索未来智能系统的各种可能。壁仞科技研究院秉持开放的原则,将积极投入各类产学研合作并参与开源社区的建设,为相关领域的技术进步做出自己的贡献。

扫码关注我们


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存