其他
因果推断 | 前沿综述:因果推断与因果性学习研究进展
本文转载自公众号集智俱乐部
作者:蔡瑞初、陈薇、郝志峰
选自《中国人工智能学会通讯》2020年 第10卷 第5期 机器学习及其应用专题
导语
本文主要从因果推断方法和因果性学习这两个方面介绍和分析了目前国内外相关领域的研究进展,探讨了这两方面研究的发展方向。
引言
因果推断的目标是发现变量/事物背后的因果关系。随机控制实验是发现因果关系的传统方法。由于实验技术局限和实验耗费代价巨大等原因,越来越多的因果推断领域学者希望通过观察数据推断变量之间的因果关系,已成为当前因果推断领域的研究热点。在基于观察数据的因果推断领域研究方面的代表性进展包括在上个世纪90年代,图灵奖得主Judea Pearl教授、卡内基梅隆大学Clark Glymour教授等先驱共同建立了基于观察数据因果推断的理论基础和基于约束的方法,以及近10年Bernhard Schölkopf、Kun Zhang、Shohei Shimizu等学者为代表提出的基于因果函数模型的方法。 因果性学习则体现了因果推断对于机器学习算法设计的指导作用。随着人工智能的发展,越来越多学者开始认识到因果推断对于克服现有人工智能方法/技术在抽象、推理和可解释性等方面的不足具有重要意义。正如图灵奖得奖者Judea Pearl在新作《The Book of Why》一书中提出的 “因果关系之梯”,他把因果推断分成三个层面,第一层是“关联”;第二层是“干预”;第三层是“反事实推理”。他特别指出,我们当前的机 器学习领域的研究只处于第一层,只是“弱人工智能”,要实现“强人工智能”还需要干预和反事实推理。在Kun Zhang等学者发表的《Learning causality and causality-related learning: some recent progress》[1]综述中,对基于因果思想的机器学习方法进行了总结,提出了因果性学习这一概念。 因果推断、因果性学习及一些相关概念的关系如图2所示。因果推断理论和方法为因果性学习提供了重要的理论基础和思想的来源。下面分别对基于观察数据的因果推断方法和因果性学习方法这两个方面的研究进展进行重点探讨。
1、因果推断
1、因果推断
表1 因果推断相关方法
1.1 基于约束的方法
基于约束的方法主要以美国卡内基梅隆大学Glymour教授和Spirtes教授的PC(Peter-Clark)算法,以及加利福尼亚州大学洛杉矶分校Pearl教授和Verma教授的IC(Inductive Causation)算法为代表。这两个算法的基本流程主要有两个阶段,首先利用基于独立性或条件独立性检验的相关方法判断变量之间的独立性,获得变量间的因果无向图;然后再利用V-结构和定向规则对变量间的无向边进行定向。这两个算法主要解决因果关系方向推断难题。后续有不少学者在此算法上 进行了一些拓展和改进。为了降低高维数据上的误发现率,北京大学耿直教授等提出了一种搜索局部结构的分解方法,通过递归方法将图一分为二,学习局部结构,并逐步自底向上整合成全局结构。Tsamardinos等则结合基于约束的方法和贪婪等价类搜索方法,提 出了最大-最小爬山法(MMHC)。这种方法先通过局部结构学习算法——最大-最小父亲孩子(MMPC)算法学习因果无向图,然后用贪婪贝叶斯评分爬山搜索方法对无向图进行定向。另一类学者们关注的问题是不完全观察数据情况下存在隐变量,不完全观察数据导致的虚假因果关系问题。例如,图1的例子中,如果 只有黄牙和肺癌的相关数据,利用因果推断方法,我们往往会发现二者之间存在因果关系。但是实际上这种关系是虚假的,未观察到的吸烟才是两者的共同原因,黄牙和肺癌之间在吸烟条件下是互相独立的。在现实场景中经常出现这种情况,这时对隐变量的检测就至关重要。针对隐变量问题,Spirtes教授等提出了FCI(Fast Causal Inference)算法,后续学者们对其进行了拓展,如Colombo等的RFCI(Really Fast Causal Inference)算法。考虑到小样本的情况,Ogarrio 等提出了GFCI(Greedy Fast Causal Inference)算法。鉴于线性图模型蕴含着多种协方差矩阵子矩阵的排序约束,Kummerfeld等利用这些排序约束,再加上条件独立性检验,提出了一种FTFC (Find Two Factor Clusters)算法,用于识别隐变量模型。1.2 基于因果函数模型的方法
基于因果函数模型的方法则是从数据产生的因果机制出发,探索利用因果函数模型来识别因果方向。此类方法主要以线性非高斯无环模型 (LiNGAM)、加性噪声模型(ANM),后非线性模型(PNL)和信息几何方法(IGCI)这几类模型为代表。线性无环模型是一种较为经典的模型,主要用于分析连续变量之间的因果方向与因果连接权重。利用数据的非高斯性,Shimizu等于2006年首先提出了LiNGAM,并用独立成分分析(ICA)求解,所以又称为ICA-LiNGAM算法。但该模型具有局部收敛的缺陷,使得求解结果往往是局部最优解,而不是全局最优解。2011年,Shimizu 等紧接地提出了DirectLiNGAM(A Direct Method for a Linear Non-Gaussian SEM)框架,通过不断地识别外生变量进而估计因果次序。与线性模型相比,非线性加噪模型不具有传递性,即每个直接因果关系遵循该模型,但却省略了中间因果变量。因此我们提出了一种级联非线性加性噪声模型(Cascade Nonlinear Additive Noise Models)来表示这种因果关系,并进一步提出了一种在变分自动编码器框架下从数据中估计模型的方法。实验结果表明,所提出的模型和方法极大地扩展了基于因果函数模型的方法在非线性情形中的适用性。上述方法主要适用于连续型数据。目前将连续空间上的因果方法推广到离散空间上,仍然是一个具有挑战的问题。Peters等尝试将加性噪声模型推广到离散的数据上,然而对于类别型变量来说,基于加性噪声模型的假设很难被满足。我们试图找到一种更为一般的,可适用于更多数据上的因果机制。如图3所示,通过假设了一种两阶段过程的因果机制,我们建立了HCR(Hidden Compact Representation)模型。在第一阶段中,原因变量通过一个恒等映射得到一个低秩的隐变量;在第二阶段中,结果由隐变量的状态决定,并在随机噪声干扰下产生。基于似然度框架,引 入贝叶斯准则,给出了一种识别该模型的方法。
1.3 混合型方法
混合型方法是融合了基于约束的方法和因果函数模型的方法而发展出来的另一类方法。这类方法有效地提高因果函数模型的不足,同时克服了高维数据上误发现率控制难题。现有的混合型方法主要依赖分治策略、组装策略与融合策略这三类策略方法。利用分治策略,我们尝试将因果推断问题分解为子问题并利用递归方法求解,提出了SADA(Scalable cAusation Discovery Algorithm)框架,主要适用于因果结构中的稀疏属性的观察分析,在样本集较少的情况下也能正确地识别因果变量。其主要思想是,首先通过求解因果分割集将高维问题分解成2个子问题;然后针对每个子问题进行递归分解直到其问题规模足够小;针对每个足够小的子问题,采用ANM等基于因果函数模型的方法进行求解,最后对小问题进行合并。我们在研究中发现,分治策略在分解问题时引入错误的划分,在后续过程中会不断累积使得总体误差呈现某种不可控的现象。而组装策略可以针对随机小变量集合,通过某种复杂的聚合过程排除由于分割引入的结构错误,获得可靠因果机制。所以我们设计了SMRP(Sophisticated Merging over Random Partitions)算法来合并所有划分的结果,运用基于传播的显著性增强方法和最大无环子图的因果次序方法等对局部结果进行合并。该框架能通过可靠的因果机制,有效地合并随机分块的部分结果。上述两类策略及方法主要基于分治的思想,还有另一类考虑融合不同方法的策略。考虑到基于评分的方法得到的结果存在马尔可夫等价类问题,而基于因果函数模型的方法有助于消除马尔可夫等价类,故尝试将两者进行融合,提出了SELF(Structural Equational Likelihood Framework)框架。其核心思想是将因果函数的噪声独立性假设嵌入似然度计算中,通过似然度框架实现两类方法的统一。在含有多个隐混淆因子的情况下,我们提出了融合基于约束方法和基于因果函数模型方法的MLCLiNGAM(LiNGAM with Multiple Latent Confounders) 算法。该方法能够快速检测到受隐混淆因子影响的观察变量,有助于解决含有多元隐混淆因子的因果结构学习困难的问题。混合型方法一定程度实现了基于约束的方法的高维扩展性和基于因果函数模型的方法的因果发现能力的结合,为我们在高维数据场景中的应用提供了重要基础。例如在与中国南方电网合作中,通过运用混合型方法建立了电网信息子系统的故障发生模型,并基于故障因果溯源,实现了根因故障的快速定位。在该应用案例中,故障定位中的平均准确率由原来的55.56%提高到 91.67%,大大减少了故障排查范围,提升了系统运行的可靠性。我们还与南方通讯建设、华为等单位合作,在移动通讯网络基站性能优化上进行了应用,通过重构基站性能指标之间的因果网络,成功给出了数据连接性能和通话质量优化等重要典型投诉的优化方案,相关方案在实际应用效果中超过了传统领域专家基于经验给出的优化方案。这些成功应用案例体现了因果推断在决策支持领域的重要价值,是因果推断研究的重要方向。2、因果性学习
表2 因果性学习相关方法
3、结束语
作者简介
蔡瑞初,广东工业大学教授。主要研究方向因果推断、图神经网络和迁移学习等。
陈薇,广东工业大学博士研究生。主要研究方向为因果推断。
郝志峰,佛山科学技术学院校长、教授。主要研究方向为优化算法和机器学习等。
参考文献
(参考文献可上下滑动查看)
点击阅读原文,进入CCAD数据库
星标⭐我们不迷路!
想要文章及时到,文末“在看”少不了!
点击搜索你感兴趣的内容吧
往期推荐
数据Seminar
这里是大数据、分析技术与学术研究的三叉路口
欢迎扫描👇二维码添加关注