查看原文
其他

因果推断和simpson悖论(辛普森悖论)

来源:《统计与信息论坛》2000年第3期,
转载自计量经济学公众号作者:耿直,北京大学概率统计系

【摘要】因果关系与相关关系是两个不同的重要概念。两因素之间即使没有因果关系 ,仍可能会表现出虚假相关关系;相反 ,它们之间具有因果关系 ,也不一定表现出相关关系。文章通过 Simpson悖论的数值例子说明因果关系与相关关系的差异 ,强调实验研究与观察研究获取数据中所包含信息的差异 ,介绍判断混杂因素的可压缩性准则和可比较性准则。【关键词】观察研究; 因果推断; 混杂偏倚; Simpson悖论


一、 因果推断


早在 2000多年前亚里士多德就指出: 真正的科学知识是关于原因的知识。自古以来 ,探讨事物之间的因果关系就是哲学、自然科学、社会科学、医学等几乎所有科学研究的最终目的。因果与相关是两个不同的重要概念 ,尽管在很多科学研究中因果比相关更重要 ,但是 ,目前大多数统计方法仅适用于相关性研究。两个因素之间即使无因果关系 ,仍可能会表现出虚假的相关性;相反地 ,有因果关系也可能表现出虚假的独立性。很多例子可以说明虚假相关性 ,张三和李四的手表的时间具有很强的相关性 ,但是人为地改变张三的手表时间 ,不会引起李四的手表时间的变化。Freedm an( 1991)写到: 小学生的阅读能力与鞋的尺寸有相关性 ,但是很明显它们没有因果关系 ,人为地改变鞋的尺寸 ,不会提高他们的阅读能力。曾经不少统计学者和医学研究者问我: 有因果关系的话 ,总应该表现有相关性吧?! 实际上 ,虚假独立性的例子也很多。可以想象 ,打太极拳可以强壮身体 ,延长寿命 ,也就是说 ,打太极拳对身体健康有因果作用。但是 , 打太极拳的人的寿命可能会与不打太极拳的人的寿命没有什么差异 (或者反而打太极拳的人的寿命更短一些 )。这可能是因为打太极拳的人都是体弱多病的人 ,所以表现出虚假的独立性。再比如 ,在铀矿工作的工人与其它人的寿命一样长 (或更长 ) ,这并不能说明暴露于铀矿不会影响寿命 ,而可能是因为铀矿工人是经过挑选出来的身体健壮的人 ,假若当年他们不暴露于铀矿的话 ,寿命可能会更长一些。这种现象称为健康工人效应。


在统计科学的发展史上 ,因果推断研究未能得到应有的重视和发展早期的统计学关于因果推断的理论和方法为列联表、路径分析和结构方程模型。尽管相关关系与因果关系是两个众所周知的不同概念 ,但是 ,利用统计推断得到的事物之间相关关系常常被错误地用于解释为原因与结果之间的关系。目前 ,在上面的理论和方法的应用中 ,常忽视了原来模型提出时对因果机制的假定 ,仅是将关于相关的参数当作因果关系进行解释。Rubin ( 1974)提出了因果作用模型 , 与 Lew is ( 1973) 的虚拟事实( Counterfactuals)的哲学理论相似 ,又称为虚拟事实模型。( 令 Ye ( u ) 和 Ye ( u ) 分别表示个体 u 在暴露和非暴露情况下的响应; 个体的暴露的因果作用定义为 ICE= Ye ( u ) - Ye ( u ) ; 总体平均因果作用定义为 ACE= E ( Ye - Ye ) ,其中 E ( ) 表示总体的所有个体的期望。Holland( 1986)清楚地论述了因果推断的各种统计模型 ,提出了统计的因果分析的三个看法: ( 1)统计研究原因的结果 ,而不是研究结果的原因; ( 2)原因的结果总是相对其它原因而言; (3)不是所有事物都可以作为原因的 ,个体属性不能当作原因。Pearl( 1995)提出了因果网络图和外部干预的概念 , 将因果机制的知识和观察研究的数据结合 ,提出了因果推断的网络图方法。


二、 实验研究与观察研究


“观察与实验的区别在于观察向我们提供的知识似乎是自己呈现出来的; 而实验向我们提供的知识则是为了知道事实是否如此而进行某种试探的果实。” ( Zim mermann,论医学上的实验 , 1774)“观察是一种用于搜集事实的研究方法 , 而实验则是一种获得知识的手段。”( Berna rd,实验医学研究导论 , 1920)


由于实验与观察的手段不同 ,它们得到的数据有本质的差别。实验试图探索的是因果信息;观察仅能获得相关信息 ,而与样本大小无关。在一定条件或假定下 ,两者才可以相互转换。Ho lland( 1986)指出: 如果没有不可检验的假定的话 ,因果推断是不可能的。如果不进行随机化实验 ,或者没有经验不可证伪的假定的话 ,就不可能由数据的统计分析得出因果结论。根据Popperian哲学观点 ,当一个断言不是经验可证伪的话 ,它就不是科学的。随机化实验是评估因果作用的最好的科学方法。但是 ,许多研究是禁止使用随机化实验 ,甚至禁止使用实验方法 , 而仅能进行观测研究。众所周知的例子: 关于吸烟与肺癌的流行病研究。在不能应用随机实验的情况下 ,对照研究试图寻找一个与处理组可以比较的对照组 ,进行因果推断的实验研究。Grace et al. ( 1966)给出关于静脉吻合分流手术的 51次随机实验研究 ,对照研究和无对照研究的结果。它们说明不同的研究方法可能会导致完全不同的结论。( Freedman, 1991)


三、Simpson's 悖论与混杂因素


首先 ,我们通过一个数值例子介绍一下 Simpson 's悖论假设我们得到 表1 中关于吸烟与癌症的数据。由吸烟人群的患癌症的比率 ( 20% )与不吸烟人群的患癌症的比率 ( 30% )之差来看 ,似乎吸烟对人类没有患病的危害。但是 ,根据性别将数据进行分层后 ,我们得到 表2 的数据 ,发现吸烟对男性和女性都有患病的危害。这种现象称为 Simpson 's悖论 ( Simpson, 1951)。有很多真实的数据表现了 Simpson's 悖论现象 , 参见 Bickel 等 ( 1975) , Wag ner ( 1982) , Neufeld( 1995)。因此 ,在统计调查和分析时 ,必须慎重考虑哪些变量要观察 ,哪些可以忽略。

如果忽略背景因素 (如上例的性别 )后 ,所关心的相关测度 (如上例的风险差 )不发生改变 , 那末 ,我们称该背景因素是可压缩的 (或称可忽略的 )。当背景因素不可压缩时 ,通常称该背景变量 (如上例的性别 )为混杂因素 ,因为忽略该因素将混杂真实因果关系 ,得出错误的结论。这是一种以可压缩性判断混杂因素的准则关于可压缩性的讨论参见 Kleinbaum et al. ( 1982) , Whittem ore( 1978) , Geng ( 1992)。


另一种判断混杂因素的准则为可比较性准则假若暴露总体 (如吸烟人群 )不暴露 (即不吸烟 )的话 ,响应的分布 (如患病的概率 )与非暴露总体 (如不吸烟人群 )的响应分布 (如患病的概率 )相同;并且 ,假若非暴露总体暴露的话 ,响应的分布与暴露总体的响应分布相同 ,那么称暴露总体与非暴露总体是可互换的 ,也称无混杂。这时暴露总体的响应分布与非暴露总体的响应分布之差等于虚拟事实模型的总体平均因果作用 ,因此 ,在无混杂的情况下 ,可以通过对暴露总体和非暴露总体的观察进行总体平均因果作用的估计。当暴露总体和非暴露总体不可互换 , 但是根据某背景变量对总体分层后 ,使得暴露子总体与非暴露子总体是可互换的话 ,称该背景变量为混杂因素; 也就是说 ,用该变量对总体分层后 ,可以消除混杂 ,使得子总体的平均因果作用可估计 ,再用该混杂因素的分布将子总体平均因果作用进行加权平均 ,可以得到总体平均因果作用。有关判断混杂因素的可比较性准则参见 Miettinen 和 Cook ( 1981) , Greenland 和 Robins( 1986) , Wickramaratne和 Holford( 1987)。


混杂因素的可压缩性准则依赖于所用的相关测度 ,因此可能会出现对于有些测度是可压缩的 ,而对另一些是不可压缩的 ,造成对混杂因素的判断取决于所用的测度。准则可以简单地根据数据进行检验 ,因此在实际中被广泛应用可比较性准则建立在虚拟事实模型的基础上 ,不依赖于所用的相关测度 ,但是 ,总体的可互换性一般是不能通过数据进行检验的。Geng , Guo, Lau和 Fung ( 2000)讨论了两种准则之间的关系。
面对因果推断和混杂因子识别等难题 , 现有的统计理论和方法显得如此贫乏和无能为力。因果推断是一个涉及统计学和哲学以及有关应用领域的复杂问题 ,在国外的统计刊物上已开展了热烈的探讨 ,参见 Greenla nd, Robins和Pearl(1999), Freedman (1999) ,  Rosenbaum(1999) ,希望能得到我国的统计学者的重视。


参考文献:


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存