查看原文
其他

因果推断经验研究中的中介效应与调节效应

江艇 中国工业经济 2023-08-28
本文是《中国工业经济》第824篇观点精粹。查阅论文原文和数据等附件,请访问《中国工业经济》网站或登陆中国知网下载。


作者:江艇
单位:
中国人民大学经济学院副教授,经济学博士
原文刊发:《中国工业经济》2022年第5期,原标题为《因果推断经验研究中的中介效应与调节效应》。




一、引言


自20世纪八九十年代以来,经济学因果推断的经验研究范式经历了“可信性革命”(Angrist and Pischke, 2010),从重视函数形式的搜索和检验、重视不可观测变量方差结构的建模,转向重视研究设计,强调运用实验和准实验数据,强调寻找外生的特定冲击,强调通过挖掘研究情境的制度蕴涵和理论蕴涵而非仅依赖统计方法来进行因果关系的论证。

人类社会经济生活现象中的因果关系往往是互相缠绕、错综复杂的。当从特定原因到特定结果的因果关系被数据初步验证,研究者会进一步关心这一因果关系的作用渠道(Channel)和作用机制(Mechanism)。分析因果关系作用渠道的出发点是,现象之间的因果关系可能包含多个逻辑环节,原因不是直接作用于结果,因此,有必要考察原因通过因果链条中的哪个或哪些中间变量影响结果,这样的分析经常被称作中介效应分析。而分析因果关系作用机制的出发点是,一种因果关系可能不会同一不变地作用于所有个体和所有时点,因此,有必要考察因果关系的强度如何随着对象特征和现实条件的不同而产生差异,这样的分析经常被称作调节效应分析。

新因果推断范式自然也深刻地改变了国内经济学经验研究的图景。与此同时,中介效应分析和调节效应分析这两种研究手段在近年来的经验研究论文中出现的频率越来越高,成为一种研究“时尚”,甚至是标准化操作。但不无遗憾的是,目前国内经济学研究中出现的中介效应分析和调节效应分析存在一定的盲目性和机械性,有的研究做了中介效应分析,却不问是否可信;有的研究做了调节效应分析,却不知用处何在。

鉴于此,本文尝试对这两种研究手段的工作原理和使用现状进行反思性的分析,并给出操作建议,以期引发更广泛的讨论。本文认为,目前中介效应分析的主要问题是对嫁接自心理学的中介效应逐步法检验的滥用;调节效应分析的主要问题是对其在因果识别上的重要性认识不足,实证结果的理论阐发不充分。本文的结论和建议都基于一个原则:因果推断的经验研究和写作需要紧紧围绕更干净的因果识别这一首要目标。对统计手段的合理运用和对实证结果的准确阐释需要服从于这一原则。因此,本文希望达到两个目的:一是引发大家反思中介效应分析存在的科学性问题,二是引发大家重新认识调节效应分析在研究设计中的地位。最终,希望形成正确讨论因果关系作用渠道和作用机制的共识,进而提高国内经济学经验研究的可信性。

二、因果识别的基本策略

定量社会科学因果推断的经验研究致力于通过大样本数据识别、估计、检验和评价社会经济生活现象之间的因果关系。用Y表示研究所关注的结果、反应或被解释变量,用D表示有待考察的、导致结果发生的原因、处理或核心解释变量。

如果从D到Y的因果关系真的存在,那么D和Y之间的相关性必然存在,反之则不然。D和Y相关这一事实可能被多个基本因果模型所合理化。如果在特定的研究情境下,变量之间满足一定的假设条件,使得一个特定的因果模型没有与之竞争的、观测上等价的因果模型,则称这个特定的因果模型被识别,这样的假设被称作识别假设。

因果识别有两种基本策略。第一种基本识别策略是寻找特定的研究情境。不同的因果识别方法依赖于不同的识别假设,而不同的研究情境适用不同的识别假设。但有时候很难令人信服地论证识别假设的成立,此时研究者会尝试第二种基本识别策略——挖掘因果模型更丰富的、可验证的相关性含义,即提出这样的问题:如果从D到Y的因果关系真的存在,那么还将观测到何种现象?不同的因果模型对新的相关性可能给出不同的预测,由此通过打破其在观测上的等价性来达到用数据验证模型的目的。


三、中介效应分析与调节效应分析的现行做法


1.中介效应的定义

中介效应是指原因通过一个或几个中间变量影响结果,这种中间变量被称作中介变量。

一组因果关系及其作用渠道可以用如下结构模型来刻画:

其中,Y是结果变量,D是处理变量,M是中介变量。(1)式表示D对Y有因果影响;(3)式表示D对M有因果影响;(2)式一方面表示M对Y有因果影响,从而建立起了D→M→Y的因果链条,另一方面表示在M之外,D还可能独立影响Y。称为D对Y的总效应,为D对Y的直接效应,为D对Y(经由M中介)的间接效应。

2.中介效应检验

社会心理学家Judd和Kenny在1981年发表的论文(Judd and Kenny, 1981a)和出版的专著(Judd and Kenny, 1981b),是把中介效应分析引入社会科学项目评估的开创性工作。此后,基于线性回归的中介效应分析在心理学、流行病学、政治学、社会学、组织行为学等领域得到了广泛的应用,尤其是社会心理学研究,几乎成为必不可少的操作。本文接下来要讨论的中介效应分析不是泛指对因果关系作用渠道的探究,而是特指由Baron and Kenny (1986)提出的一整套检验流程:①估计(1)式,统计上显著的意味着存在可以“被中介”的效应;②估计(3)式,统计上显著的意味着处理影响了中介;③估计(2)式,统计上显著的意味着中介影响了结果;④如果在统计上不显著,则意味着M是D与Y关系的“完全中介”,否则意味着M是“部分中介”。这一方法也被称为逐步法(Causal StepsApproach)。

3. 调节效应的定义与常见情形

调节效应是指原因对结果的影响强度会因个体特征或环境条件而异,这种特征或条件被称作调节变量。交互项模型是对调节效应进行建模的主要方式。

此时称D对Y的因果影响受到M的调节:如果,则D对Y的正面影响随着M的增大而增强(或负面影响随着M的增大而减弱);如果,则D对Y的正面影响随着M的增大而减弱(或负面影响随着M的增大而增强)。

当调节变量M为虚拟变量时,还可以把交互项模型等价地理解为分组回归。换言之,分组回归下D对Y的因果效应的组间异质性可以通过交互项模型来检验,即表现为交互项M×D系数估计的统计显著性。

当处理变量D和调节变量M均为虚拟变量时,交互项系数有一种方便的理解:处理组(D=1)与控制组(D=0)的结果均值的组间差异之差异,简称双重差分。

四、对中介效应检验的反思

1.心理学对中介效应检验的反思

Judd and Kenny (1981a, 1981b)在引入中介效应分析之初就明确指出,必须认识到中介效应分析的本质是一种相关性分析。具体而言,用线性回归方法考察(1)式—(3)式会存在两个问题:统计检验的功效较低,效应的估计可能存在偏误(Judd and Kenny, 1981a)。低统计功效来源于两个方面:一是处理变量和中介变量是高度相关的;二是中介变量和结果变量都可能存在测量误差。与此相比,估计偏误问题更为关键:①虽然有可能通过随机实验的方式保证处理的外生性,但几乎总是无法干预中介变量,因此,可能存在既影响中介变量又影响结果变量的混淆因素,如果这种因素在分析中被遗漏,就有可能导致(2)式中的系数估计产生偏误,这一问题即便在随机实验研究中也无法避免。②中介变量的测量误差倾向于使(2)式中的估计产生趋零偏误,进而使得被高估。③中介变量与结果变量可能是互为因果的,这也会导致(2)式产生估计偏误,偏误的方向取决于双向因果的符号。

2. 中介效应检验的偏误

心理学中的中介效应检验与经济学中的因果推断研究的“格格不入”之处在于,后者的研究主题是考察处理变量对结果变量的因果影响,如何选择合适的研究情境,运用经济学理论论证关键的识别假设,提高研究手段的因果识别力,是研究者主要致力的方向;而前者的聚焦点则是处理变量经由中介变量影响结果变量这一间接效应本身。因此,在前者的研究中,关键的识别假设被有意无意地认为是不证自明的,因果识别似乎“在场”,却分明“缺席”。

如果处理是随机的但中介不是随机的,那么通过估计(1)式可以得到处理对结果的因果效应,通过估计(3)式可以得到处理对中介的因果效应,但(2)式的最小二乘估计是不可靠的,无法得到处理对结果的直接因果效应(),也无法得到中介对结果的因果效应(),从而无法得到处理对结果的间接因果效应()。

在以处理观测性数据为主的经济学因果推断研究中,研究者面临着更富有挑战性的处境。此时处理变量的生成方式不再来自于研究者外生的实验干预,而来自于研究对象的主动选择,因此,研究者在研究设计上的努力主要聚焦在如何解决处理变量的内生性问题,中介变量的内生性问题不得不成为等而次之的问题。或者说,解决处理变量的内生性并探究其对结果的影响,同解决中介变量的内生性并探究其对结果的影响,应该成为两项独立研究各自的主题,以确保每项研究都聚焦在一个核心解释变量上。除非能够从理论上证明并不存在同时影响中介变量和结果变量的混淆因素,或者能够良好地定义、充分地穷举和准确地测度这些混淆因素并且方便地将其作为控制变量放入对(2)式中,否则这种回归并不能产生任何增进我们理解D→M→Y这一因果链条的有益知识。

五、经济学中的中介效应分析

1. 中介效应检验为何少见

上文的讨论表明,中介效应检验的适用前提是,识别D对M和Y的因果关系比较容易,同时识别D对Y的因果关系也比较容易。而对于观测性数据研究,真实的数据生成过程纷繁复杂,找到合适的研究情境研究对的因果关系已属不易,研究中介效应更是困难,这就是为什么中介效应检验历来在经济学经验研究文献中很少见的主要原因。

即使不考虑中介效应检验的内生性偏误,大多数开展此类检验的研究往往发现,D对Y的总效应中,除了通过M发生的间接效应之外,有相当一部分是直接效应,也就是说(2)式的估计中,往往显著不为零,M是“部分中介”。这是由社会经济现象的复杂性所决定的,原本是可以预期到的,但将其作为正式研究结论的一部分却并非值得称道之事,实际上暴露出研究者对D究竟如何影响Y,有相当一部分是不清楚的。

中介效应检验不可靠,并不意味着不研究因果关系的作用渠道。一种常见的做法是,提出一个或几个中介变量M,这些变量和Y的因果关系在理论上比较直观,在逻辑和时空关系上都比较接近,以至于不必采用正式的因果推断手段来研究从M到Y的因果关系;然后仅看D对M的影响,即只考察(1)式和(3)式,而不考察(2)式,从而避免去正式区分在间接效应之外是否还有无法解释的直接效应。这样的例子比比皆是。例如,Dell (2011)通过地理回归断点设计方法,发现16—19世纪秘鲁的强制徭役制度(D)导致当代居民家庭消费水平降低以及儿童发育迟缓(Y);在随后的“持续影响的作用渠道”分析中,将被解释变量依次替换为土地所有权、教育和道路等公共品供给、劳动供给以及市场参与等消费的直接决定因素(M),即视为达到了检验渠道的目的,至于这些M如何影响Y、D经由M影响Y的效应有多大,以及D是否在影响M之外还会直接影响Y,就不再着墨了。

2. 如何理解经济学中的中介效应检验

确实有少量研究在一定程度上借鉴了中介效应检验逐步法的思路,考察Y对D的回归中加入中介变量M后D的系数估计绝对值是否减少,以此论证M是否为D作用于Y的渠道。不过一旦认识到这种做法的固有缺陷,就不会过于强调论证力度,而只是将其视作某种试探性的证据。下面举两个例子。

第一个例子来自Alesina and Zhuravskaya (2011)。这是一项跨国研究,构造了每个国家的族群分散指数,发现分散指数越高的国家,政府的治理质量越低。用周边国家的族群分布来预测每个国家的族群分布(相同的族群倾向于靠近彼此的国界),从而构造出一国分散指数的工具变量,识别了族群分散对政府治理质量的因果影响。然后,提出了因果关系的三个作用渠道:人际信任、国家凝聚力和族群投票行为,同样用工具变量方法识别了分散指数对这三个中介变量的因果影响。在“渠道检验”中指出,要使这三个变量能够成为作用渠道,除了要和分散指数相关之外,还必须和政府质量相关,在政府质量对分散指数的回归中控制这些变量后,分散指数的系数估计绝对值应该会下降。结果表明,当控制人际信任后,分散指数的系数估计绝对值确实大幅下降,而且人际信任的系数显著为正;当继续控制另外两个中介变量后,分散指数的系数估计不再发生变化,两个中介变量的系数不显著。他们认为,这一结果意味着人际信任是将族群分散和政府质量联系起来的重要渠道,但不足以断定国家凝聚力和族群投票行为就不是额外的渠道,因为这三个变量是高度相关的,因此很难把每个渠道彼此分离。由此看出,他们在识别因果关系的作用渠道时,仍然更多地依赖于中介变量对处理变量的回归结果,而只是将诸如(2)式的回归结果作为一个旁证。

第二个例子来自Persico et al. (2004)。利用英国和美国青少年大型调查数据发现,在控制人口统计学、家庭背景和个人健康智力等特征后,青少年时期的身高与成年的工资水平显著正相关。随后提出了一系列潜在的作用渠道:职业选择、自尊、社交活动、能力测试。他们没有把这些中介变量对青少年身高进行回归,而是将其作为控制变量依次控制在工资水平对青少年身高的回归中。当控制职业选择和自尊后,青少年身高的系数估计没有发生大的改变,因而认为这两个变量的中介作用有限。当控制社交活动数量后,青少年身高的系数估计值下降了近40%且不再显著,而社交活动的系数估计显著为正。控制能力测试成绩也得到了类似的结果。但他们认为必须谨慎地解释这些结果。社交活动本身是一种主动选择,而该文中并没有对这一选择进行正式的建模,因此不能认为回归结果反映了社交活动对工资的因果效应。在解释能力测试与工资水平的显著正相关时,也十分小心地用辅助证据来论证这种相关性不是出于先天智商的混淆影响,而确实可能说明身高会影响青少年经历。

无论如何,在这两个例子中,都没有估计间接效应的大小并对其统计显著性进行正式检验。这仍然涉及对中介效应分析应该服务于何种目的的理解:究竟是在度量的意义上还是在解释的意义上考察中介效应?如果是前者,那么中介效应本身就是研究的主题;如果是后者,那么研究中介效应只是为了更好地理解处理与结果之间的因果关系。

3. 如何理解貌似中介效应检验的做法

在文献中经常可以看到一类做法:先进行Y对D的回归,然后在回归中控制一个新的变量X,并发现D的系数依然显著,以此来论证D对Y的因果关系。用中介效应检验的术语来讲,这似乎意味着D对Y有“直接效应”。但这为何就能用来进行因果关系的论证呢?事实上,这种做法尽管看起来跟逐步法类似,但研究策略的出发点是截然不同的。

Rajan and Zingales (1998)认为,金融的主要作用之一是为生产性项目提供外部融资,金融市场的发展能够通过降低企业的外部融资成本从而刺激产业增长。核心解释变量变量是一国的金融发展水平和某一行业的外部融资依存度两个变量的交互项。这项研究在因果识别上的威胁是,金融发展水平可能反映的是能够促进产业增长的其他因素,而产业增长对这种促进因素的依赖可能与其对外部融资的依赖高度相关。他们提出的一个竞争性解释是,外部融资依存度高的行业可能人力资本需求也高,而人力资本发展水平可能跟金融发展水平相关。交互项系数可能反映的是,对人力资本需求越高的行业在人力资本发展水平越高的国家增长越快。于是,在回归中控制了平均受教育年限与外部融资依存度的交互项,发现核心解释变量(金融发展水平与外部融资依存度的交互项)系数并未发生改变,说明这个竞争性解释不足以威胁研究的主要结论。

在这类做法中,关于D如何影响Y,先有一个基准理论,然后提出一个竞争性理论,再构造能够刻画这种竞争性理论的控制变量X放入基准回归,如果发现竞争性理论不能完全解释D和Y的相关性(存在“直接效应”),则说明基准理论很可能是对的。这类做法和逐步法的区别就在于,D不会影响X,X不是D影响Y的中介,D对Y的因果“故事”和X对Y的因果“故事”是两个互相竞争的“故事”。Y同时对D和X的回归有时被形象地称作“赛马”(Horse Race)。这种“貌似中介效应检验”的做法,实际上是用来强化因果关系论证的。

六、正确认识调节效应分析

1. 调节效应分析与异质性分析的关系

调节效应分析和异质性分析这两者是一回事。最简单的理解:当调节变量M是虚拟变量时,相当于把全样本分为M=0和M=1两个组,交互项M×D的系数就是分组进行的Y对D的回归中D的系数的组间异质性。当M是连续变量时,本质上并没有发生变化,D对Y的因果效应受到M的调节,也就是可以理解为,D对Y的因果效应在高M组和低M组之间存在异质性。

如今研究者习惯做异质性分析,但是在研究设计阶段很少问为什么要做异质性分析。也许因果效应的异质性本身就是重要的。例如,在教育回报率的研究中,除了得到一个全样本的点估计之外,研究者可能还会关心女性的教育回报率是否显著地高于或者低于男性,由此得出不同的政策含义。

想要将因果效应的异质性本身作为文章的主要“卖点”,势必要求这种异质性的对比十分鲜明。比方说,因果效应在全样本中是显著的,但这种显著性只在其中一个子样本中继续存在,在另一个子样本中则不存在。例如,研究小额信贷(D)对家庭财务状况(Y)的影响,可能发现总体上两者呈现出反直觉的负相关——借了钱的家庭反而更容易陷入窘境;但对家庭按理财素养(M)进行分组后发现,这个负面效应只在理财素养低的家庭中存在,在理财素养高的家庭中并不存在,这样的结果既在意料之外,又在情理之中。

但在一些文献中,研究者往往只是出于扩充文章篇幅的需要,在基准回归之外,出于某种“八股本能”,按地区、规模、所有制等进行一些异质性分析。反正这样做很安全,不管系数是否有差异,不管差异的方向是正是反,都有话可说。例如,某种效应如果在东部地区比较显著,可以解释为东部地区的市场化程度较高;如果在西部地区比较显著,则可以解释为西部地区受到国家优惠政策的倾斜更大。再比如,某种效应如果对非国有企业比较显著,可以解释为非国有企业的经济激励更强;如果对国有企业比较显著,则可以解释为国有企业的非经济激励更强。这种缺乏事前理论分析与预期,完全根据事后估计结果强行附会理论解释的做法,无异于数据挖掘。

一篇因果推断经验研究文章的重点永远是正确识别处理变量对结果变量的因果关系,因此,文章中的每一字每一句都应该为这一目标服务。而异质性分析更重要的作用正是通过分析因果关系的作用机制来强化因果关系论证。

2.通过调节效应分析论证因果关系

如果从统计上发现了D与Y的相关性,并且想要主张D是Y的原因,那么可以通过检验D影响Y的某个具体机制来对从D到Y的因果关系进行论证。论证的逻辑如下:①提出一个D影响Y的理论T。根据这个理论,D通过某个机制影响Y,并且可以识别出这一机制在某些子总体中存在,在另一些子总体中不存在,令M=1表示存在这一机制,M=0表示不存在这一机制。②在M=1组,发现D与Y的相关性继续存在,而在M=0组,D与Y的相关性不复存在。③可能导致D与Y出现相关性的竞争性解释还包括Y影响D的反向因果R,或者有混淆因素同时影响D和Y的遗漏变量理论C。如果无法想象理论R或理论C发挥作用的机制在M=1和M=0组存在差异,则理论R或理论C很可能不成立。否则,应该在M=0组也观察到D与Y的相关性。这样就完成了因果关系的论证。

有时候两组中D与Y的相关性都存在,但在M=1组这种相关性更强,表现在Y对D的回归中,D的系数估计绝对值在M=1组更大,且组间差异在统计上显著。这时至少可以说,D与Y的相关性不全是理论R或理论C所带来的,否则这种相关性应该在M=1和M=0组无差异。这样尽管没有证伪理论R或理论C,但至少证实了理论T,也在因果论证上迈出了一大步。

在Rajanand Zingales (1998)中,金融发展水平(D)与经济增长(Y)强相关,试图证明金融发展是经济增长的原因,并检验了金融发展通过缓解企业的外部融资约束来促进企业成长(理论T)。将行业分成两组,一组是外部融资依存度较高的行业(M=1),另一组是外部融资依存度较低的行业(M=0),发现在对行业增长的回归中,金融发展水平与外部融资依存度的交互项显著,表明金融发展水平与行业增长之间的相关性在外部融资依存度不同的组间存在显著差异。金融与增长之间的相关性可能是因为增长影响金融,高增长引发了融资需求从而导致金融市场发展(理论R),也可能是因为某个混淆因素(例如节俭传统)同时影响金融发展和经济增长(理论C),那么除非理论R和理论C在外部融资依存度不同的组间发挥作用的程度不同,否则就证明了理论T。

再举一例。Brown (2011)试图验证竞争是一种重要的激励机制,但考核相对绩效的锦标赛机制要想发挥作用,得有一个前提——竞争者的能力必须相对均衡,当存在能力超强的“超级明星”时,锦标赛机制反而可能出现负面效果。采用1999—2006年高尔夫球赛事中选手们的成绩数据,发现在“超级明星”——“老虎”伍兹参加的赛事中,其他选手的表现(用总杆数衡量)比在伍兹缺席的赛事中选手们的表现要更差。这意味着,与伍兹同场竞技时,其他选手受到了负向激励(因为夺冠无望而不正常发挥)。由于伍兹参赛并不是一个随机事件,伍兹是否参赛与其他选手表现之间的负相关性存在竞争性解释:有可能因为伍兹参加的都是难度较高的赛事,而在高难度赛事中其他选手发挥相对较差是很自然的事,与激励无关。为了排除这种竞争性假说,进一步考察了伍兹参赛与否所带来的成绩反差在高水平选手还是在低水平选手中体现得更明显。赛事难度的解释将预期到低水平选手的反差更大(低水平选手更难以适应高难度赛事),负向激励的解释将预期到高水平选手的反差更大(高水平选手更难以接受伍兹剥夺了他们夺冠的机会)。结果发现,高水平选手的表现反差大于低水平选手,这就证明了“超级明星效应”(尽管无法完全排除赛事难度的影响)。

3.好的调节变量

好的调节变量本身应该比较稳定,或者其变动是外生的,不受处理变量或结果变量的影响。内生的调节变量相当于在双重差分研究中,处理组和控制组的构成一直在变化,并且导致这种变化的因素和相关(隐藏在扰动项之中),这就很难说处理组和控制组的平行趋势假定还能成立。

在Rajan and Zingales (1998)中,调节变量“外部融资依存度”的定义是企业资本性支出中的外部融资占比(再取行业中位数)。这个变量本身是资金市场上供求均衡的结果,高外部融资占比既可能反映行业需求面的技术特征(是否依赖外部融资),也可能反映金融市场发展水平的供给特征(外部资金是否充裕),因此不适合用一国一行业的实际外部融资占比作为调节变量。他们的做法是,考虑到美国的金融市场发展相对完善(资金供给具有充分弹性),美国企业的实际外部融资占比可能更多反映的是企业的资金需求,因此,可以用这个指标在美国各行业的取值作为其他国家相应行业的外部融资依存度指标(同时将美国从估计样本中剔除)。

4. 作为因果识别第二种基本策略的调节效应分析

在因果推断研究中,研究者处理内生性的主要思路往往聚焦在寻找合适的控制变量和控制策略,即找到导致内生性的原因,然后正式地刻画、测量和控制它。调节效应分析则提供了另一种处理内生性的思路,即尝试挖掘因果模型的新的可验证含义——处理变量和结果变量之间更丰富的相关性,如果这种相关性是其他因果“故事”所不能解释的,那么即便此时内生性仍然存在,但至少证明研究者所感兴趣的因果关系是存在的,否则这种更丰富的相关性不会出现。因此,调节效应分析应该被看作因果识别的第二种基本策略的重要实现手段。

在金融促进增长的例子中,无法完全控制反向因果或第三方混淆因素(尽管可以控制不变的行业特征和国家特征,但仍然可能存在同时随行业和国家变化的遗漏变量),作者转而去挖掘更丰富的相关性:金融和增长的正相关性在外部融资依存度更高的行业是否更强?这个事实可以被金融通过缓解企业外部融资约束从而促进增长的“故事”所解释,但不能被其他“故事”合理解释,因果论证的目的就达到了。同样地,在超级明星效应的例子中,无法完全控制“赛事难度”这一导致处理变量“伍兹是否参赛”存在内生性的因素(尽管可以最大限度地控制赛事级别、场地质量、奖金总额等),作者转而去挖掘更丰富的相关性:伍兹是否参赛导致的比赛杆数差异对于高水平选手而言是否更大?这个事实可以被超级明星效应所解释,但不能被伍兹参加的都是高难度赛事所解释,因果论证的目的就达到了。

调节效应分析是一种很重要的因果论证手段,但在使用这种手段之前,首先要发展出一个说得通的理论:如果金融促进增长这个“故事”成立,那么就应该看到不同行业的效应大小不同(因为对金融的需求不同);如果超级明星效应这个“故事”成立,那么就应该看到不同选手的效应大小不同(因为激励强度不同)。然后再构建相应的交互项模型去验证这个理论。这就是因果推断理论先行的含义。也许可以先通过大量的尝试去发现稳定的相关关系,然后再试图给出理论解释,但这样的研究路径成功的机率不高,因为调节变量往往不会“躺”在数据集里等着研究者去发现,而需要研究者根据理论去构造。

七、国内应用现状与建议
 
1. 中介效应分析的应用现状

在经济学因果推断经验研究中使用中介效应检验是国内学术界一种独特的现象。其流行主要受到温忠麟等(2004)、温忠麟等(2005)、温忠麟和叶宝娟(2014)等研究的影响。不过,温忠麟等(2004)明确指出,在中介效应检验中,因变量和自变量之间的关系不一定是因果关系,而可能只是相关关系。温忠麟和叶宝娟(2014)进一步说明,中介效应检验不能验证因果关系,中介效应模型中的因果关系都要有理有据,或者有某种学科理论支持,或者有文献做铺垫,或者有经验常识作为佐证。总之,因果链中的每一个关系都要在提出假设和建模之前得到支持。但是国内经济学经验研究中进行中介效应检验时,多数似乎并没有听从这样的忠告。

这里仅以国内某权威期刊近两年发表的文章为例加以说明,其中暴露的问题在目前国内研究中具有普遍性。在发表的全部文章中,涉及讨论因果关系作用渠道的有近30%,其中,近半数文章没有进行中介效应检验,只是分别估计了(1)式和(3)式;超过半数的论文或多或少地进行了中介效应检验,具有如下特点:①有十余篇正式引用了温忠麟等(2004)、温忠麟和叶宝娟(2014)等相关的心理学文献。②绝大多数文章采用Baron and Kenny (1986)逐步法进行分析,其中有半数文章采用Sobel标准误或自助法对间接效应进行了统计检验;有1/4的文章关注了加入中介变量前后处理变量系数的变化,但没有对系数差异进行正式的统计检验;其余文章仅关注了系数估计的符号和统计显著性。③个别文章方法运用有误。例如,有的文章没有估计(3)式;有的文章在估计(1)式和(2)式时没有确保使用相同的估计样本,从而使得直接效应与间接效应之和不等于总效应;有的文章分别检验多个中介变量后,直接把间接效应显著的中介变量视为“主要中介”(尽管间接效应占总效应的比例很低)。还有一些不明所以的做法,例如,有的文章用加入中介变量之后处理变量系数估计显著性的下降(而非系数估计绝对值的下降)来论证中介效应的存在;有的文章通过(3)式得到M的拟合值然后用Y对的回归来考察中介效应。④最重要的是,所有文章都没有讨论中介变量在(2)式中可能存在的内生性问题。⑤有的文章甚至把中介效应检验视作稳健性检验的一种手段,这意味着,似乎只要“发现”了D对Y的间接效应,从D到Y的因果链条就能自动变得更加令人信服,这是大错特错的。中介效应分析的根本目的是考察D对Y的因果关系的作用渠道,这是D对Y的因果关系研究的一个扩展。如果做对了中介效应分析,自有其独立存在的价值,但不能用来论证D对Y的因果关系。换言之,在Y对D的回归中加入中介变量M后,不论D的系数是否发生变化,这一结果都无法使得D对Y的因果关系变得更加可信。

2.中介效应分析的操作建议

关于中介效应分析,本文提出以下操作建议:一是停止使用中介效应的逐步法检验,更不需要估计间接效应的大小并检验其统计显著性。把研究的重心重新聚焦到如何提高D对Y的因果关系的识别可信度。二是根据经济学理论,提出一个或几个能够反映D对Y的作用渠道的中介变量M,M对Y的影响应该是直接而显然的,采用和第一条中同样的方法识别D对M的因果关系。三是尽量避免提出与Y的因果关系不明显、因果链条过长或者明显受到Y的反向影响的中介变量。有时,考察Y对M的回归也许是有益的,但要记住这只是一条相关性证据。四是在绝大多数时候,做好前两条就足够了。如果要考察D对Y的效应在多大程度上可以被M这一作用渠道所捕捉,可以尝试在Y对D的回归中控制M,但必须先弄清楚这种考察对于理解D对Y的因果关系有何帮助,并且审慎解释回归结果。如有可能,尽量论证这一结果受到M的潜在内生性的影响是有限的。当存在多个M时,尤其要谨慎采用这种做法。

3.调节效应分析的应用现状

调节效应分析的使用更为普遍,除了少数例外,调节效应分析几乎已经成为国内经济学经验研究的必要步骤。但从对国内经济学领域的一些权威期刊最近几年所刊发论文的阅读中可以看到,这一研究实践尚存在如下主要问题:①大多数文章没有把调节效应分析,或者说机制检验,提高到强化因果关系论证的高度。没有明确分析当前的研究方法仍受制于何种因果识别的威胁,而特定的机制检验在何种意义上能够缓解这一威胁。②很多文章同时包含机制检验和异质性分析两部分,此时异质性分析的目的并不明确,很多时候只是为做而做,而没有进一步分析这种异质性出现的原因,即使稍有着墨,也往往是用现象解释现象,更谈不上讨论这种异质性如何服务于因果识别。甚至会出现两组异质性结果的理论解释互相冲突、无法自洽。③有一些调节变量存在明显的内生性问题,受到处理变量或结果变量的直接影响,此时不但难以解释调节效应,而且存在估计偏误。④个别文章使用了同一个变量既作为调节变量又作为中介变量,尽管理论上存在这种可能性,但实际上很难分析清楚。理由很简单,如果一个变量是调节变量,那么分析调节效应时,这个变量本身理应控制在回归中;但如果这个变量同时又是中介变量,那么这种控制又会造成估计偏误。这往往反映出作者混淆了作用渠道和作用机制之间的差异。⑤为数不少的文章采用分组回归的方式报告异质性分析结果,但并没有对异质性进行正式的统计检验。

4.调节效应分析的操作建议

关于调节效应分析,本文提出如下操作建议:一是将因果关系的作用机制检验视为因果识别的重要手段,尽量正式地讨论其如何有助于强化对文章主题(从D到Y的因果关系)的论证。二是在研究设计部分详细阐述调节变量与调节效应的理论依据,而不是等到报告实证结果时再进行附会解释。三是直观地展示调节效应,讨论其数值大小在经济上的重要性。四是如果以处理效应的异质性本身作为研究目的,明确说明这种异质性的经济意义——读者为什么要关心这种异质性。五是提高统计规范性,对异质性进行正式的统计检验。六是将对作用机制和作用渠道的讨论进行严格区分,不宜安排在同一章节下,明确其不同的写作目的。

八、结语

本文是试图提升国内经济学因果推断经验研究规范性的一项努力。中介效应分析和调节效应分析作为社会科学工作者积极探索和深入理解因果关系的重要研究手段,本就是应这种规范性要求而生的,体现了科研工作者试图拨开数据“迷雾”、洞察真实世界的不懈追求。但是由于社会科学的因果问题特别复杂,研究实践的初衷和最终呈现效果之间难免存在一定错位。中介效应分析的问题在于方法使用过度,研究者需要充分认识中介效应逐步法检验的局限性,小心从事因果识别;调节效应分析的问题在于方法发挥不足,研究者需要充分认识调节效应分析对于夯实因果识别的重要意义,大胆进行因果论证。如此则经验研究成果的科学性和可信性将进一步提高,其学术影响力和政策参考价值也将进一步提高。

本文的一般性意义在于,藉由对具体方法的讨论,重申了定量社会科学因果推断的方法论立场。在因果推断中,较艰巨的任务不在于统计方法的运用,而在于如何调用社会科学理论资源构建理解世界的方式。来自社会心理学家Judd and Kenny的告诫虽属老生常谈,但对向来标榜因果推断严谨性的经济学经验研究者来说,仍然值得一再强调:统计学是在因果模型正确的前提下开展工作,但因果模型很可能是错的,而统计学无法告诉我们错在哪里(Judd and Kenny,2010)。

(以上内容仅代表作者本人观点)


如在科研工作中使用了作者提供的数据和程序等附件内容,请务必在研究成果上注明引文和下载附件出处
参考文献引用范例:
[1]刘守英,熊雪锋,章永辉,郭贯成.土地制度与中国发展模式[J].中国工业经济.2022,(1):34-53.
如果研究中使用了未在杂志纸质版刊发、但在杂志官方网站上正式公开发表的数字内容(包括数据、程序、附录文件),请务必在研究成果正文中注明:
数据(及程序等附件)来自刘守英等(2022),详见《中国工业经济》网站http://ciejournal.ajcass.org/附件。


欢迎订阅2022年《中国工业经济》,邮发代号:82—143。2022年将为广大读者呈现更多高质量的前沿成果。诚邀您一起“畅游”学术殿堂。



推文主编:覃毅

推文编辑:杨涵淇



《中国工业经济》是应用经济学和管理学类综合性权威理论刊物,重点覆盖国民经济、产业经济、工商管理、案例研究等学科领域,专门刊发以重大前沿理论和现实问题为研究对象的前瞻性、引领性、规范性最优秀研究成果。为国家社会科学基金第一批重点资助期刊,中国社会科学院创新工程首批试点学术期刊;曾荣获第三届国家期刊奖(最高层次奖),中国社会科学院优秀学术期刊特别奖(2020)、第二至四届优秀期刊奖连续3届一等奖,第三届全国百强报刊;为全国中文核心期刊工业经济类第一名(历年),中国人文社会科学综合评价AMI权威期刊(2014、2018),连续10年荣获中国最具国际影响力学术期刊(2012—2021)称号,是国家自然科学基金委员会管理科学部认定的管理科学A类重要学术期刊(历年),中国工业经济学会核心会刊。

阅读全文请访问官方网站:

http://ciejournal.ajcass.org/

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存