Science经典论文:如何检测复杂生态系统中的因果关系?
点击上方蓝字“返朴”关注我们,查看更多历史文章
复杂系统要素众多,相互作用复杂,因果关系的推断非常困难,对此有一系列的研究。2012年发表在Science的一篇论文,提出了收敛交叉映射算法,针对复杂生态系统进行因果推断,取得较好效果。本文是对这篇经典论文的解读。
撰文 | 郭瑞东
审校 | 刘培源编辑 | 张爽现实中复杂系统中的因果关系,由于其本身的复杂性,往往不能根据领域知识,画出明确的因果图(Directed acyclic graph),从而无法按照 Judea Peral 在《为什么》这本书中提出的基于因果图进行因果推论。
例如判断黄石公园引入狼群是否恢复了生态系统的平衡,要考虑的混杂因素就会有几十项,从天上气候变化,到地上的微生物和真菌的变化,都需要考虑。
生态系统是典型的复杂系统,多种元素,相互作用。针对复杂生态系统,2012年的Science文章提出了收敛交叉映射算法(convergent cross mapping ),本文是对该论文及收敛交叉映射算法的详细介绍。
论文题目:
Detecting Causality in Complex Ecosystems
论文地址:
https://science.sciencemag.org/content/338/6106/496
为什么判断复杂系统中的因果关系很困难
在介绍这篇经典论文之前,先回顾一下之前关于因果推断的相关方法。
计量经济学家格兰杰(Clive Granger,2003 年诺贝尔经济学奖得主)提出了一套因果检测方法(Granger causality test)。格兰杰因果检验是针对时间序列时间,最常用的一种统计方法,从最初在计量经济学中使用,后来进入了生态学、复杂网络等自然科学领域。格兰杰因果检验考察的是两个事件发生的先后顺序,然后假设因一定比果先发生。
但格兰杰因果检验的假设——“原因比结果先发生”——是有问题的,其格兰杰检测只是判断两个事件的发生的先后顺序是否在统计上显著,并不能够判定因果关系。
例如,观测中美两国的股市,如果发现美国股市的暴跌总是比中国股市早零点几秒,于是用格兰杰检验会发现,在任何情况下,使用美国股市的数据都能更精确地预测中国股市的暴跌,因此两者之间有因果关系。但实际上,两国股市的起伏可能是某个突发事件同时引发的,只是由于光纤传递信息的延迟,导致了时间上的先后。
复杂系统的特点之一是存在非线性的相互影响,由此产生相变和混沌现象。具体来说,两个变量在很长一段时间内,看起来是高度相关的,但可能突然就变得毫不相关了。如果没有意识到这一点,就容易根据观察到的局部相关性,判断变量之间存在伪相关关系(spurious correlation)。 下图所示的是存在非线性关系的变量X和Y之间随时间变化的图,图中大部分时间,XY都是高度相关的:
对上图的例子,格兰杰检验就不会判定X和Y之间有因果关系,但根据俩者的微分方程,可以看出俩者之间是存在着因果关系的,因此在该例中,格兰杰检测就没有检出因果关系。
收敛交叉映射算法:复杂生态系统中的因果关系模型
图3:洛仑兹系统中的因果关系,Mx 和 My 分别是x和y在流形 M 上的映射 在t时刻,X的数值处在橙色圆圈附近,Y处于绿色圆圈附近,由于X和Y在动力学上是相关的,所以知道X所在的位置能够预测Y所在的位置,反过来也是这样。由于随着时间的流逝,X和Y的轨迹都会变得更加密集,因此,从X或Y能够更加精确的预测Y或X的值,从而可以推出——X和Y之间的因果联系更强了(图中蓝色圆圈部分的曲线密度更大)。 读者可能会问,前文写道可预测不等于因果,这里就需要澄清收敛交叉映射算法的核心词——收敛(convergence)。 首先,收敛交叉映射算法是一个向后看的模型:它考察当前的状态之间的关系,是根据当前的X预测当前的Y,而不是基于当前X的状态能否预测Y未来的值进行判断。
举公鸡打鸣和太阳升起的例子。假设公鸡在小时候,有时半夜鸡叫,有时正午才打鸣,长大后逐渐掌握了太阳升起的时间,打鸣准时了。等公鸡年长,都会根据四季的不同调整打鸣时间了,那时候公鸡就能欺骗收敛交叉映射算法——算法会认为是公鸡打鸣才是太阳升起的原因(因果性存在)。但这显然是荒谬的,由此通过反证法,该例子说明了收敛交叉验证算法能够从相关性之中,找到真正的因果性。
如何区分因果关系的方向和类型?
在简单情况下,因果关系可以分为三类:互为因果,单向因果与共同原因。三者在数据上看起来是很难区分的,但使用收敛交叉映射算法,可以将由共同诱因Z导致X和Y发生变化的情况与X导致Y区分开。
因果推断研究助力新一代人工智能
判定因果关系,尤其是在复杂系统和现实环境中,是极其困难的,连诺奖得主提出的格兰杰因果检验,都不能直接检测因果关系,也无法区分单向的与双向的因果关系。因此判断因果关系,要格外地战战兢兢如履薄冰。本文聚焦2012 年 Science 论文,通过和格兰杰因果检验的对比,展示了收敛交叉映射算法在判定因果关系上能力更优。 回顾因果判定方法的发展,如同咬住自己尾巴的蛇:统计模型的最终目的,不是去超越最简单的观察法,而是去模拟人类的因果推断,从而做到小样本下可解释的因果推断,再将其自动化地推广到大数据上。
为了让人工智能更值得被信任,因果推断是充分必要条件。近期,有一系列讨论复杂系统因果推断问题的研究进展,这里举几例:
有了因果推断,就不用担心模型会歧视少数族裔或者女性,因为模型可以自己回答反事实的问题,判断路径相关下的决策是否公平。
论文题目:
PC-Fairness: A Unified Framework for Measuring Causality-based Fairness
论文地址:
https://arxiv.org/abs/1910.12586
论文题目:
Feature relevance quantification in explainable AI: A causality problem
论文地址:
https://arxiv.org/abs/1910.13413
论文题目:
Deep causal representation learning for unsupervised domain adaptation
论文地址:
https://arxiv.org/abs/1910.12417
本文经授权转载自微信公众号“集智俱乐部”。
特 别 提 示
1. 进入『返朴』微信公众号底部菜单“精品专栏“,可查阅不同主题系列科普文章。
2. 『返朴』提供按月检索文章功能。关注公众号,回复四位数组成的年份+月份,如“1903”,可获取2019年3月的文章索引,以此类推。
相关阅读
近期热门
3 IBM驳斥谷歌,量子霸权 VS 量子优势,量子计算离我们还有多远?
↓↓↓长按下方图片关注「返朴」,查看更多历史文章