控制变量越多越好吗?
👇 连享会 · 推文导航 | www.lianxh.cn
🍎 Stata:Stata基础 | Stata绘图 | Stata程序 | Stata新命令 📘 论文:数据处理 | 结果输出 | 论文写作 | 数据分享 💹 计量:回归分析 | 交乘项-调节 | IV-GMM | 时间序列 | 面板数据 | 空间计量 | Probit-Logit | 分位数回归 ⛳ 专题:SFA-DEA | 生存分析 | 爬虫 | 机器学习 | 文本分析 🔃 因果:DID | RDD | 因果推断 | 合成控制法 | PSM-Matching 🔨 工具:工具软件 | Markdown | Python-R-Stata 🎧 课程:公开课-直播 | 计量专题 | 关于连享会
连享会 · 2022暑期班
作者:张雪娇 (中山大学)
邮箱:zhangxj78@mail2.sysu.edu.com
温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:
编者按:本文主要摘译自下文,特此致谢!
Source:Whited R L, Swanquist Q T, Shipman J E, et al. Out of control: The (over) use of controls in accounting research[J]. The Accounting Review, 2022, 97(3): 395-413. -PDF- -Link-
目录
1. 引言
2. 控制变量的重要性
2.1 控制变量在会计研究中的使用
2.2 遗漏变量偏误和因果图
2.3 识别好和坏的控制变量
3. 好控制和坏控制的描述
3.1 混杂变量
3.2 中介变量
3.3 对撞变量
3.4 相同结构的控制变量
4. 良好控制的其他注意事项
4.1 测量误差
4.2 仅与 Y 或 X 相关的变量
4.3 固定效应
4.4 控制交互项变量
5. 总结
6. 相关推文
1. 引言
在没有随机分配的情况下,选择适当的控制变量对于设计一个具有明确因果效应的实证检验至关重要。然而,与其他方法学问题相比,控制变量在会计研究中的重要性似乎未得到充分重视。
我们评估了会计研究中控制变量使用的演变,并讨论了研究人员在选择控制变量时应考虑的一些问题。通过模拟,我们认为 “更多控制变量” 并不总是更好,一些控制变量可能会引入偏差。最后,我们为未来的会计研究提供了一些实践性的建议。
2. 控制变量的重要性
2.1 控制变量在会计研究中的使用
作者通过梳理 1980-2020 年发表在 The Accounting Review,Journal of Accounting and Economics,以及 Journal of Accounting Research 上的文章发现,虽然会计类文献也有使用 “准自然实验” 或 “外生冲击” 方法的趋势,但研究人员仍然更多依赖控制变量来识别因果关系。
与此同时,回归变量的个数从 1980-2000 的平均 6 个,上升至 2020 年的 16 个。总体来看,我们观察到研究人员越来越依赖基于回归的分析,并使用更多的控制变量,但关于回归结果对控制变量的敏感性研究并没有增加。
2.2 遗漏变量偏误和因果图
单变量的回归分析不太可能得出处理 对结果 的无偏估计。由于 和 之间相关性所产生的内生性问题被称为遗漏变量偏误 (OVB),通过从误差项 () 提取 构造多元回归可以缓解 OVB。但鉴于会计研究中的大多数处理方法都是自选择或非随机分配的,因此研究人员必须准确的指定适当的 ,才可以正确识别出 对 的因果影响。
为了构建明确的因果模型,研究人员可以借助因果图来帮助识别遗漏变量的来源、理解因果关系,从而制定合适的模型进行研究。我们用以下因果图来示例变量之间的因果关系:
在上图中,A 导致 B,B 导致 C,C 导致 D 和 E,D 也导致 E。如果我们感兴趣的是 D 对 E 的影响,则 C 作为混杂因素,必须要控制。如果感兴趣的是 C 对 E 的影响,则 D 不应该被控制,因为 D 是 C 和 E 之间关系的中介。实际上,回归不能告诉我们是 C 导致 E 还是 E 导致 C,回归只是在给定条件下对相关性的估计,只有理论才能为因果关系提供说明。
2.3 识别好和坏的控制变量
根据 Angrist 和 Pischke (2009) 提供的经验法则,“好” 的控制变量是指在确定处理变量 时就已经固定的变量,而 “坏” 的控制变量则是那些本身就是结果变量的变量。一般来说,如果潜在控制变量是在处理变量 之后才确定的,那么研究人员应考虑其是否适合。因为位于处理变量 和结果 之间的因果路径上的变量不能保证当 变化时可以保持不变。
3. 好控制和坏控制的描述
为了具体说明 “好” 控制和 “坏” 控制,我们提供了两个例子来证明控制变量对因果效应估计的影响。第一个例子采用包含注册会计师认证状态、会计师技能和收入的模拟数据集。第二个例子使用有关审计师类型、客户规模和审计费用的档案数据。
在第一个例子中,变量包括:内在的会计技能 Skill、注册会计师 CPA 和收益 Earnings。在第二个例子中,变量包括:是否四大审计机构 Big 4,审计费用自然对数 **ln(Fee)**,总资产自然对数 **ln(Asset)**。
3.1 混杂变量
术语 “混杂” (Confounders) 是指影响 和 之间因果关系的变量,或为 和 之间因果关系提供另一种解释的变量。在控制变量中包含混杂变量有助于缓解遗漏变量偏误问题。
假如现在要探究的问题是:四大审计机构是否收取更高的审计费用?众所周知以下几个事实:
四大审计师收费更高; 大客户倾向于选择四大审计师; 大客户的审计成本更高。
三者之间的关系可以由如下因果图来表示:
在此例子中,客户规模是影响审计费用和审计师选择的共同因素,所以客户规模在这里就代表混杂因素。对比模型中没有纳入混杂因素的结果 (详见下表),在控制客户规模 ln(Asset) 后,四大审计机构变量 Big4 的系数由 2.33 急剧下降至 0.55,说明了包括混杂结构控制的重要性,特别是当混杂变量对 和 都有强烈的影响时。
3.2 中介变量
虽然混合控制可以改善因果估计,但 “中介” 变量 (Mediators) 可以通过 “阻止” 影响 的路径,来改变对 和 之间关系的解释,造成因果估计的偏差。同样,以审计数据为例,来看中介变量的作用。
假如现在要探究的问题是:大公司是否支付更高的审计费用?由下图可知,客户规模可以通过两条 “路径” 影响审计费用。一是客户规模增加了审计工作,从而增加了审计费用 (即直接影响)。二是大客户更有可能选择更昂贵的四大审计机构,从而增加了审计费用 (即间接路径)。
由下表可知,在考虑了公司规模通过选择审计机构影响审计费用的路径后,即加入中介变量 Big4,ln(Asset) 的系数变小了。事实上,列 (2) 对 ln(Asset) 的估计是有偏的,而 Big4 的估计是无偏的。因此,研究人员在借鉴现有文献或根据控制变量系数显著性来判断模型是否合适时应更加谨慎。
3.3 对撞变量
对撞变量 (Colliders),作为 的结果变量,通常会削弱因果推断。例如大公司是否更倾向于选择四大审计机构?由因果图可知,审计费用 () 是处理变量 () 和结果变量 () 的结果。因此, 不应该 (也不可能) 在改变 和 的时候能够保持不变,这是违反直觉的。然而,统计学的估计工具并不具备这种直觉,无论其是否具有实际意义,都会给出系数估计。
由下表可知,在加入 ln(Fees) 之后,ln(Assets) 的系数估计值减半 (0.10 到 0.05),产生了严重偏误。与中介变量不同,如果对撞变量与 和 有一定的关联,则会明确地损害 和 的因果推断。
3.4 相同结构的控制变量
“同一结构” 的控制变量指的是与 或 不可分割的变量,因为它们在很大程度上反映了与 或 相同的基础结构。虽然这些控制变量与中介和对撞变量类似,但不同的是它们不能清晰地放置在因果图中。因为根据定义,它们与 或 是同时确定的 (即,它们与 或 属于同一个类),并且会显著扭曲因果估计。
如果 反映与 相同的结构,则代表它是 的结果,此时如果控制 则会产生反直觉的估计:“保持与 相同结构的变量 () 不变时, 与 之间的关系”。也就是说,该变量捕获了一个替代因变量,而不是一个混杂因素。如果 反映与 相同的构造,也会出现相关问题。理论上, 不能在保持与其基础构造相同的另一个度量不变的情况下进行变化。此时, 对 的偏导数不能捕捉 对 的因果效应。
例如,在保持审计公司客户数量 ln(Auditor Client) 不变的情况下,研究四大审计机构 (Big4) 如何影响审计费用 ln(Fees)。由于 Big4 是审计机构规模的虚拟变量,ln(Auditor Client) 的变动很难不引起 Big4 的变化。
由下表可知,ln(Auditor Client) 变量的加入,使得 Big4 的系数由 0.55 降低至 0.17。通常具有多重共线性问题的方差膨胀因子 (VIFs) 都小于 5.0,但方差膨胀因子 (VIFs) 不一定可以诊断相同结构变量的问题,这突出了必须依赖理论来识别相同构造问题的重要性,而非依赖 VIFs。
4. 良好控制的其他注意事项
4.1 测量误差
对混杂因素的适当 “控制” 取决于对这些因素进行精确的观察和测量能力。测量误差的来源主要有:数据中的误差以及无法准确捕捉潜在理论结构的经验代理变量。
为了说明控制变量测量误差造成的影响,假设 3.1 部分中表列 (2) 捕捉了 Big4 对 ln(Fees) 的真实影响。在此基础上,通过对控制变量 ln(Assets) 人为增加随机噪音来模拟在控制变量存在测量误差的情况下,回归结果的不同。
由下图可知,在没有噪声 (测量误差) 的情况下,Big4 估计值为 “真实” 效应。然而,随着噪声的增加,ln(Assets) 的影响逐渐衰减为零。更令人担忧的是,随着 ln(Assets) 系数估计值趋近于 0,Big4 的效应被严重高估,逐渐向 3.1 部分中表列 (1) 收敛,即没有控制变量的情况。
随着控制变量噪声的增加,它实际上成为一个与 和 不相关的随机变量,从而重新引入遗漏变量偏误 (OVB),造成 系数的估计偏差。因此,控制变量 可以有效解决 OVB 在很大程度上取决于 捕捉基础结构的准确度。对于高度相关的混杂结构,研究人员可以考虑使用多种可操作的措施 (例如,同时控制公司规模与资产、收入和股权)。
4.2 仅与 Y 或 X 相关的变量
4.2.1 变量仅与 Y 相关
对于仅仅影响 ,但对 没有影响的控制变量,在随机实验 (或自然实验) 中很常见。虽然无偏估计不需要这些 “伪影变量” (Carlson 和 Wu,2012),但是将它们作为控制变量加入回归函数,也可以通过减少 中未解释的变化来提高估计精度。
4.2.2 变量仅与 X 相关
控制变量也可能仅直接影响 ,但与 没有直接关系。将此类变量作为控制变量的效果取决于因果关系的本质,具体存在两种情况。第一种情况,控制变量 仅与 相关,但 通过 与 相关,这种情况反映了 作为工具变量的主要条件。虽然 可能是 的一个好工具变量,但在这种情况下它并不能作为一个有用的控制变量。
这里以注册会计师的数据进行举例。假设注册会计师预备课程 (CPA Prep) 除了通过增加获得注册会计师资格 (CPA) 的可能性来影响会计师的收入 (Earnings) 以外,不会以任何其他方式影响会计师的收入。
假设只有 CPA 会对 Earnings 产生影响,因此下表的两列回归结果都是无偏估计。但是对比两列结果,虽然 CPA Prep 没有实质性的影响,但是它降低了变量 CPA 估计精度。这是因为 CPA Prep 对 CPA 有强烈预测作用,但相对于仅包括 CPA 的回归模型来说,加入 CPA Prep 没有增量模型的解释力,但却增加了标准误。
第二种情况,控制变量 与 相关,但与 无论是直接或是间接都不相关。这种情况下, 对 预测的部分与 无关,这就类似于测量误差。因为是 的测量部分,不显示与 的预测关系,那么控制与 中测量误差相关的 可以将部分消除 中的测量误差,从而更准确地估计 对 的影响。
4.3 固定效应
固定效应是一系列 “虚拟” 控制变量,因此 “固定效应” 也属于控制变量的讨论范围。固定效应将组内 (例如,公司、行业、年份) 处理变量 X 和结果变量 Y 的变化分离开,因此在某些情况下它可以改善因果解释。然而,它们也可以分离出不可概括的变异或内生的变异。
4.3.1 分离不可概括变异的固定效应
假设我们想要探究审计委员会会计专家 (以下简称 ACAE) 对欺诈事件 (Fraud) 的影响。如果不随时间变化且不可观察的公司因素 (如文化) 与 ACAE 和 Fraud 相关,那么就需要在回归中加入公司固定效应。
由下表可知,与不包含固定效应的结果相比,加入固定效应之后,ACAE 对 Fraud 的抑制作用由 -4.32 下降至 -1.71。这是因为固定效应分离了 ACAE 在公司组内的变化的影响。
4.3.2 分离内生变异的固定效应
在某些情况下,固定效应还可以分离组内的内源性变异。继续上面的 ACAE 的示例,假设公司倾向于在发生欺诈事件后增加 ACAE 来缓解公司治理问题。
由下表可知,当加入固定效应之后,ACAE 对 Fraud 的负向影响远远超过其真实效应。这是由于因欺诈而增加 ACAE 的公司,在事后欺诈很少发生。因此,列 (2) 中 ACAE 的负系数捕捉了触发增加 ACAE 的欺诈事件的反向因果关系,这说明固定效应可以放大变量之间的内生关系。
4.4 控制交互项变量
在会计研究中,经常使用 来研究变量 对 与 间关系的调节作用。如果 和 相关,交互项 也与交互项 相关。因此,如果 影响 ,那么不包含 可能导致遗漏变量偏误 (OVB)。
例如,我们可以通过以下模型来检验 Event 是否会调节 ROA 和 Outcomes 之间的关系。由于资产回报率 ROA 与资产ln(Assets) 和内部控制缺陷 Weak相关,即使 Event 与控制变量不相关,ROA × Event 也会与 ln(Assets)/Weak × Event 相关,如果模型不包括 ln(Assets)/Weak × Event 作为控制变量,那么模型就可能会遭受遗漏变量偏误问题。
5. 总结
虽然准自然实验得到越来越多地应用,但我们希望研究人员可以继续依赖统计控制和观察数据进行因果推断。因此本文根据以上内容总结了以下几点较为通用的建议,希望可以为后续相关研究提供帮助:
从 和 之间的简单相关性开始,并找到对于 和 关系的替代解释 ; 使用因果图来识别因果机制; 考虑变量测量的时机——“良好” 的控制需要捕捉处理前处理变量 的结构; 根据模型所包含的控制变量来进行解释——研究人员应考虑在改变 或 的同时,保持 恒定是否可行。如果不可行,则证明 很可能是一个 “坏” 控制变量; 考虑控制变量中的测量误差; 考虑控制交互项的潜在需求; 尝试在模型中包含或不包含某些控制变量——许多变量同时包含 “好” 和 “坏” 的方面; 尝试利用似然随机变动——似然随机变动不需要控制变量进行无偏估计。
6. 相关推文
Note:产生如下推文列表的 Stata 命令为:
lianxh 控制变量, m
安装最新版lianxh
命令:
ssc install lianxh, replace
专题:论文写作 控制变量如何选?大牛们的10条建议 专题:Stata命令 敏感性分析B-Stata实操:控制变量内生时的系数敏感性分析-regsensitivity 敏感性分析A-理论基础:控制变量内生时的系数敏感性分析-regsensitivity Stata:控制变量组合的筛选-tuples Stata新命令-pdslasso:众多控制变量和工具变量如何挑选? 专题:回归分析 调节效应是否需要考虑对控制变量交乘? 控制变量!控制变量! 不用太关心控制变量,真的! 加入控制变量后结果悲催了! 专题:IV-GMM Lasso一下:再多的控制变量和工具变量我也不怕-T217 专题:断点回归RDD RDD:断点回归可以加入控制变量吗? Stata:RDD-中可以加入控制变量 专题:其它 锚定情境法(一):有效控制变量自评偏差
课程推荐:因果推断实用计量方法
主讲老师:丘嘉平教授
🍓 课程主页:https://gitee.com/lianxh/YGqjp
New! Stata 搜索神器:
lianxh
和songbl
GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
. ssc install lianxh
. ssc install songbl
👉 使用:
. lianxh DID 倍分法
. songbl all
🍏 关于我们
连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。 直通车: 👉【百度一下: 连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。