因果推断 | 英国社会学大佬谈因果:因果、统计与社会学
The following article is from Politicall理论志 Author kning
2021-09-28
本文转载于公众号Politicall理论志 (ID:ThePoliticalReview)
作者简介:John H. Goldthorpe,牛津大学纳菲尔德学院
文献来源:Goldthorpe, J. (2001). Causation, Statistics, and Sociology. European Sociological Review, 17(1), 1-20
摘要
本文区分了作为稳健依赖、结果控制和生成过程的因果性理解,并对因果分析的一般过程划分为建构现象、作出生成过程的假设和检验假设三个阶段。作者认为因果皆是不能仅仅通过统计方法得到,还需要主体相关的背景知识,以及理论一致性。社会学应当作为一门以社会行动概念为中心的非实验社会科学,并与以预测为目的、以控制为方法的“变量社会学”相区别。这不仅是由于实验干预经常出现的实践和伦理难题,还在于行动者对干预会采取行动导致因果解释力有限。在方法论个人主义的基础上,作者认为因果分析应始于作为现象的结果,并为其寻求因果解释,统计学为建构现象、描述行动及相互作用上作出了实质性贡献。作者认为因果分析不应该过于关注因果性的实用主义效用,而应该在社会行动理论基础上,追求研究者所认为的合法性目的。
引言
社会学家对因果概念及其在研究中的应用存在长期的不确定性。19世纪后期的不加批判的奉承在20世纪早期被完全的拒绝所取代,在第二次世界大战后的几年里,反过来又被实用主义的运用所取代。在1940、50年代,因果关系中引入了概率论,而不是确定论的思想,即与其说原因被视为必然的结果,不如被简单地视为提高了它们发生的概率。这种非决定论的观点可能仅仅基于这样一个理由:无论世界是否具有确定性,都太复杂且容易出现错误的认识,所以除了提供概率性的解释外,不能提供任何其他的解释。
本文区分了三种对因果关系的不同理解,即作为稳健依赖、结果控制和生成过程的因果性,并对因果分析的一般研究过程进行了划分。
作为稳健依赖的因果性 Robust Dependence
这一理解的出发点是一个在哲学和统计学中得到广泛承认的命题,即相关并不意味着因果,但因果一定在某种程度上意味着相关。接下来的关键问题是,如何确定一个时序优先的X与Y的相关程度如何能与X与Y为显著因果这一命题相等同。
一种观点认为可以比较Y在X存在与否下的概率,但这不能解决可能存在的Z导致的伪相关问题。这意味着因果关系的稳健相关性不能由引入一个或多个变量并加以控制进行证明。另一个例子是,格兰杰从预测力的角度看待因果关系,也就是通过发现或剔除任何非因果关系而建立起的X对Y的预测能力。
拉扎斯菲尔德的研究也显示了稳健相关思想的重要性,他认为研究应从具有实质兴趣的X和Y之间展开,例如居住地和投票行为,并通过寻求多个变量降低偏相关,例如社会阶层和种族。这种思路在20世纪70年代之后的定量社会学中非常常见,反映了将因果关系作为稳健相关的基本理解。
但因果性可以被理解为一种强大、稳健的依赖性吗?应当以格兰杰所确立的预测力作为因果关系的标准吗?如果以这种方式看待因果关系,那么因果分析就完全是一个统计推断问题,可以直接从对经验规律的分析中得出,与所有研究领域一样遵循相同的原则,并不需要背景知识或理论的引入。
显然,因果性不仅仅是预测力,或至少是与理论一致的预测力。社会学通常拒绝仅显示变量间关系的统计技术,从方法论个人主义的角度,这种技术不能显示这些关系是如何通过个体行动和相互作用产生的。
例如,在因果路径分析中,如果仅仅显示受教育程度和职业、收入水平的关系,是没有多大意义的,因为个人得到工作是因为组织提供的职位,或自己在市场上创造的位置,收入则是因为获得了工资或产生了利润。即使从统计分析中可以清楚地看出,个人的就业和收入很大程度上取决于教育水平,但更重要的问题是这种依赖性是如何产生的,例如教育提供了知识和技能,或者学历作为劳动力需求的过滤器等。
这就需要将教育变化置于某种普遍的行动叙事中以建立因果关系,这种行动叙事必须是相当成熟的社会行动理论,以帮助获得清晰、一致的实证检验。从预测力的角度,作为稳健相关的因果关系更像是关注过去,而非未来,模型对于未来的预测总是值得怀疑的。
作为结果控制的因果性 Consequential Manipulation
统计学关于因果关系是结果控制的观点出现的较早,医学和农业科学通过实验进行因果分析就是典型的范例。这一论点认为,原因职能是那些原则上可以进行实验处理的变量,也就是说,原因必须是可控制的。
相应的逻辑是,如果变量X在适当的控制下对Y产生了系统性的影响,就可以通过比较Y在暴露与未暴露在X中的不同进行因果分析。但问题是同时使一个单元同时进行处理,又不进行处理是不可能的,这就是所谓的因果推论基本问题,也就是反事实问题。统计学可以从平均处理效应的角度解决这个问题,但需要满足随机、稳定单元干预等假定,也就是理想的随机试验设计。
人们似乎普遍同意,作为结果控制的比作为稳健依赖的因果性的更有力。对于后者,X永远不能被认为对Y具有因果意义,而只能是一种暂时的感觉,因为不可能确定所有其他相关变量实际上都已得到控制。
相反,只要从适当设计的实验结果中推断出因果关系,就可以避免真假问题。然而,这种对因果关系的理解可能仅仅是对“造成的影响”的理解,而不是第一种对“影响的原因“的理解,因为原因被简单的当作已知的或给定的,研究的焦点仅仅在于如何测量效应。
还有一个更直接的问题是,大多数社会学研究存在出于实践和伦理障碍,因此不能具有实验性质。这一观点究竟能应用到什么程度仍是未知。赞同者认为,在实证研究中,社会学应尽可能模仿实验设计,通过关注单元分配过程解决随机实验的问题,具体就是识别所有相关的协变量,减少选择偏差。但同样的问题是,如何才能知道所有相关的变量都达到了充分的测量和控制?
尽管统计技术发展的非常快速,这种尝试永远无法得到“无误”,而只是一些不同程度合理性的结果,因为这部分合理性取决于现有的主体知识和理论。这进一步导致了观察性研究的边缘化,这几乎没有没有应用价值,并进一步得出社会学并不足以进行因果分析的结论。
作为结果控制的因果性的关键在于认为原因必须是可控制的,不能赋予那些不可控制的变量以因果意义。但那些不可控制的变量往往是那些单位的固有、内生变量,是其属性。在这种情况下,设想一个单位取不同于实际值是没有任何意义的。例如,性别、种族和教育程度的关系研究中,假设Ms. M是一个男人或Mr.N是一个女人的情况下其获得的教育程度是没有意义的。
可以看看Holland(1986)的一个例子,以下三种说法都暗示了因果关系。
她考得好,因为她是女人。 她考得好,因为她努力学习。 她考得好,因为她有老师辅导。
第三条即是干预,也就是Holland所支持的结果控制论。相反,第一条是指一个属性,以Holland的方法可以合理的认为性别不是生物学固定的性,而是社会学、可变的性别,因此一种可控制的因果解释就称为可能,这种指涉是非常危险的。
第二条的叙述则比较符合大多数社会学家对因果关系的理解,充分关注人类行为,即女人的成功是由于她采取了适当的手段来达到这个目的。然而在Holland看来,这种解释对于原因假定了过度的主观性,但正是主观性,即不能假定参与单元(接受干预的个体)的反应与自然实验单元的反应一致,的特性反驳了作为结果控制的因果性,也就是说这些人可能知道干预正在发生,他们对与形势、利益的行动事实上颠覆了干预。
因此,这违背了单元独立性假设,那么即使一项干预在没有引起抵抗反应的情况下产生了效果,这可以被视为因果关系吗?即使这是可能的,又具有社会学意义吗?“没有控制就没有因果”恰恰认为社会角色进行的行动不能被赋予因果意义,因为这是“自愿的”。
因果关系适用于社会学分析吗?过度科学主义关注实质而不是形式吗?
作为生成过程的因果性 Generative Process
这种因果性思路不能反映出具体的统计思维,但更像是试图往统计标准上添加什么。Cox认为结果控制和稳健依赖方法没有引入一个比数据分析更深入的过程概念。类似的观点认为,从相关到因果的过程中,必须追踪更多的东西,而不是仅仅发现X对Y有因果意义,反之不然。
同时,还必须假设相关性是由某种机制创造的,这种机制运行在比相关更微观的程度上,也就是说,因果关系的过程概念存在于不一定直接观察的时间与空间中,纯粹统计分析下的“黑箱”需要在更细致、实践的层面被打开。
流行病学提供了很好的例子。统计分析表明,吸烟和肺癌有很强的相关性,但对于因果关系论述更重要的是在吸烟者气管中分离出来的致癌物这一病理学证据,这对潜在生成过程进行了阐述。因此,作为生成过程的因果分析需要多元的数据集,以及分析其复杂的相互作用。
这种思路还可以纠正一些错误,例如,可以关注“她考得好,因为她是女人”中所指涉的固定属性是如何产生的,比如女性在进化中大脑发育的相对优势等。进一步的,如果将社会行动作为建构因果过程的标准,“她考的好,因为她努力学习”就不存在任何问题。
因果分析的三步
建构构成研究对象的现象
Merton强调社会学家研究的是规律,而不是个律。统计学是证明社会规律存在的最可靠的手段。建构现象的本质是描述性工作,是统计模型的描述,在解释为什么发生之前,首先要描述发生了什么。先进的统计方法,例如对数线性模型、序列分析、事件史分析等,识别、分离了大量的规律,这种复杂的描述统计与试图直接获得因果关系的统计分析应当区别开来。
在社会行动层面,假设生成过程
社会规律一旦通过描述方法相对可靠地建立起来,它们的形成、持续、相关、变化、崩坏等就可以作为社会学分析的解释对象。当分析成为因果关系时,社会规律就意味着必须发现原因的结果。因此,因果分析不可能是一个纯粹的统计任务,而是需要关键的主体知识。
基于方法论个人主义,这种主体知识是对个体行动及互动的解释,是一种行动叙事,要捕捉行动者在目标、约束等情况下的趋势。这种社会行为理论大体上包括理性行动和规范导向理论。在这一阶段,还需要明确因果形式和层次,因果过程是对称的、单向的还是不可逆的,是否是滞后、存在阈值的?是基本的,还是表面的原因?
例如,在教育不平等的研究中,如果将受教育程度作为收入的基本原因,那么某种教育政策的干预将预期减少收入差距,但如果教育不平等仅仅是表面原因,那么干预之后,教育-收入的联系可能不变,但其他因素之间,例如家庭背景和高薪工作,可能会增强。
检验假设
对社会规律的因果解释首先要检验其充分性,即这种生成过程真的能产生规律性吗?这种思路不针对实证效度,而是寻找最充分的解释过程。由于社会行动可能无法直接观察到,这种检验还应当是间接的,并使用多源数据重复测试。
这个阶段的检验不同于随机实验对影响的原因(Causes of effects)的关注,而是对原因的影响(Effects of causes)的探索,因此是一个持续的、并非一劳永逸的验证。
例如,在离婚对儿童的影响的研究中,就可以给出适当的生成过程,尽可能的广泛的进行实证检验,并进行批判性地比较。统计描述可以是在离婚和父母去世的孩子之间,在不同年龄经历离婚的双胞胎之间,在单亲家庭和有继父继母的孩子之间等等。这些看似合理的机制,或者说生成过程,可能会产生一些有趣的发现。例如,这些机制可以被归纳为代际间向下流动的趋势等。
点击搜索你感兴趣的内容吧
往期推荐
数据Seminar
这里是大数据、分析技术与学术研究的三叉路口
推荐 | 青酱
欢迎扫描👇二维码添加关注