查看原文
其他

忽略交互效应后果很严重,审稿人很生气!

计量经济圈 计量经济圈 2021-10-23

凡是搞计量经济的,都关注这个号了

投稿:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

前些日,咱们引荐了实证研究中用到的200篇文章, 社科学者常备toolkit”、实证文章写作常用到的50篇名家经验帖, 学者必读系列过去10年AER上关于中国主题的Articles专辑AEA公布2017-19年度最受关注的十大研究话题, 给你的选题方向2020年中文Top期刊重点选题方向, 写论文就写这些。后面,咱们又引荐了使用CFPS, CHFS, CHNS数据实证研究的精选文章专辑!这40个微观数据库够你博士毕业了, 反正凭着这些库成了教授Python, Stata, R软件史上最全快捷键合辑!关于(模糊)断点回归设计的100篇精选Articles专辑!关于双重差分法DID的32篇精选Articles专辑!关于合成控制法SCM的33篇精选Articles专辑!最近80篇关于中国国际贸易领域papers合辑!最近70篇关于中国环境生态的经济学papers合辑!使用CEPS, CHARLS, CGSS, CLHLS数据库实证研究的精选文章专辑!最近50篇使用系统GMM开展实证研究的papers合辑!这些文章受到了各位学者的欢迎和热议,博士生导师纷纷将其推荐给学生参阅。

correction: "如何选择正确的自变量(控制变量),让你的计量模型不再肮脏"标题应该是选择正确的自变量(控制变量)。

正文

当一个变量的作用取决于另一变量的值时,就会发生交互效应。交互效应在回归分析,方差分析和设计的实验中很常见。在此文中,我们将解释交互效应,如何在回归中解释它们,以及如果不将其包括在模型中将面临的问题。
在任何研究中,无论是味道测试还是制造过程,许多变量都会影响结果。改变这些变量会直接影响到结果。例如,在味道测试中改变食物中的调味品会影响其整体带给我们的享受。以这种方式,分析人员使用模型来评估每个自变量与因变量之间的关系。这种效果称为主效应。但是,仅评估主效应可能是错误的。
在更复杂的研究领域,自变量可能会相互影响。交互效应表明,第三个变量会影响自变量和因变量之间的关系。这种影响使模型更加复杂,但是如果现实世界确实以这种方式运行,则将其包括到模型中就显得至关重要。例如,调味品和味觉享受之间的关系可能取决于食物的类型,正如我们将在本文中看到的那样!

具有类别自变量的交互效应的示例

我们认为交互效应就是“取决于”效应。您会明白为什么!让我们从一个直观的示例开始,以帮助你从概念上理解这些影响。
想象一下,我们正在进行味道测试,以确定哪种食物调味品产生最高的味觉享受。我们将执行方差分析,其中我们的因变量是味觉享受(enjoyment)。我们的两个自变量都是分类变量:食物(food)和调味品(condiment)。
具有交互效应项的方差分析模型为:
味觉享受enjoyment=食物food*调味品condiment
为简单起见,我们在分析中将仅包括两种食物(冰淇淋icecream和热狗hotdog)和两种调味品(巧克力酱chocolate和芥末酱mustard)。
给定示例的细节,交互效应就不足为奇了。如果有人问你:“你喜欢在食物中加入番茄酱或巧克力酱吗?” 毫无疑问,你会回答:“这取决于食物的类型!” 这就是交互效应的“取决于”性质。在不了解有关交互效应术语中其他变量更多信息的情况下,你不能回答问题。
这就是概念。现在,我将向你展示如何在模型中包括一个交互项以及如何解释结果。

如何解释交互效应

让我们进行分析。所有统计软件都允许您在模型中添加交互项。
下面输出的p值告诉我们,交互较硬(食物调味品)在统计上是显著的。因此,我们知道你从调味品中获得的味觉享受取决于食物的类型。
但是,我们如何解释交互效应并真正理解数据在说什么呢?理解这些影响的最佳方法是使用特殊类型的图——交互图(interaction plot)。这种类型的绘图在y轴上显示因变量的拟合值,而在x轴上显示第一个自变量的值。同时,各条线代表第二个自变量的值。
在一个交互效应图上,平行线表示没有交互作用,而不同的斜率表明可能存在一个。以下是食物*调味品的图。
图中的交叉线表明存在交互作用,而从食物*调味品的p值也可以得到确认。该图显示,当食物为冰淇淋时,巧克力酱的味觉享受水平更高。相反,当食物是热狗时,芥菜的味觉享受较高。如果将芥末放在热狗上的冰淇淋或巧克力酱上,你不会高兴!
哪种调味料最好?这取决于食物的类型,我们使用统计数据来证明这种效应。

忽视交互效应是危险的!

当你具有统计学上显著的交互效应时,如果不考虑交互效应就无法解释主效应。在前面的示例中,如果不知道食物的类型,就无法回答哪种调味品更好的问题。同样,它“取决于”。
假设我们想通过选择最好的食物和最好的调味品来最大化味觉享受。但是,想象一下我们忘记了交互作用,而只评估了主效应。我们将根据以下主效应图做出决定。
根据这个图,我们会选择巧克力酱和热狗,因为它们各自都能带来更高程度的味觉享受。尽管主效应显示出来他们各自都能带来最高的味觉享受,但这不是一个好的搭配选择!当你进行具有统计学分析时,如果不考虑交互效应,就无法解释主效应。
考虑到我们这个愚蠢示例的直观性质,一眼就可以看出忽略交互效应的后果。但是,情况并非总是如此。

具有连续自变量的交互效应示例

在下一个示例中,我们将在制造过程(manufacturing process)的回归模型中评估连续自变量。自变量(加工时间time,温度temperature和压力pressure)影响因变量(产品强度strength)。
在回归模型中,我将包括温度*压力作为交互效应。结果如下:
如你所见,交互项在统计上显著。但是,你如何解释回归方程中的交互项系数?你可以尝试在回归方程式中输入值,然后将它们拼凑在一起。但是,使用交互关系图要容易得多!
在上图中,变量是连续的而不是类别的。为了生成该图,统计软件会选择一个压力高值和一个低值,并将它们与温度值范围一起输入方程式中。
如你所见,温度和强度之间的关系会根据压力改变方向。对于高压,温度和强度之间呈正相关,而对于低压,则呈负相关。通过在模型中包括交互项,你可以捕获基于另一个变量的值而变化的关系。
如果你想最大程度地提高产品强度,并且有人问你该过程应该使用高温还是低温,则你必须做出回答,“这取决于情况”。在当前这种情况下,产品强度取决于压力。如果不知道压力值,就无法回答有关温度的问题。

交互项的重要注意事项

虽然这些图可以帮助你理解交互项的影响,但可以使用假设检验来确定这种影响是否具有统计学意义。图表可以显示代表随机样本误差而非实际效果的非平行线。P值和假设检验可帮助你理清噪声的实际影响。
本文中的示例是双向交互,因为每个交互项中都有两个自变量(食物 * 调味品和温度 * 压力)。用两种方式解释这些影响同样有效。例如,以下变量之间的关系:
  • 味觉享受和调味品取决于食物。

  • 味觉享受和食物取决于调味品。

您可以进行更高阶的交互。例如,三向交互效应在交互项中具有三个变量,例如Food * Condiment * X。在这种情况下,味觉满意度和调味品之间的关系取决于食物和X。但是,这种效果很难解释。在实践中,我们很少使用它们。但是,在某些模型中,可能需要提供适当的拟合。
最后,当具有统计学上显著的交互效应时,不要在不考虑交互效应的情况下尝试解释主效应。如本文所示,你可能出错误的结论!

关于交互项,我们引荐了很多相关文章,比如:

1.计量回归中的交互项到底什么鬼? 捎一本书给你2.计量经济学中"交互项"相关的5个问题和回应3.实证机制分析那些事,机制分析什么鬼?4.政策评估中"中介效应"因果分析, 增添了文献和Notes5.内生变量的交互项如何寻工具变量, 交互项共线咋办6.因果中介效应分析出现在顶刊, 是时候使用新方法了7.中介和调节效应自助法检验,针对非正态截面数据8.面板数据中介效应的计算程序, 打开面板这扇门9.中介和调节效应操作指南, 经典书籍和PPT珍藏版10.中介效应分析的四种方式, 原则方法和应用综述11.中介效应分析的方法和模型, 一篇听说必须看的文献12.多重中介效应的估计与检验, Stata MP15可下载13.具有调节变量的中介效应分析, moderated mediation14.具有调节变量的中介效应程序和数据, 独家解读相关结果15.有限混合模型FMM,异质性分组分析的新筹码16.省份/行业固定效应与年份固定效应的交乘项固定效应17.面板数据中去中心化的交互项回归什么情况18.面板交互固定效应是什么, 白聚山教授推动了最前沿的研究19.广义合成控制法gsynth, 基于交互固定效应的因果推断20.一个完整的实证程序, 以logit或ologit为例21.跨数据比较回归系数技巧22.U型, 倒U型, 还是线性关系, 你平常的做法不靠谱DID中行业/区域与时间趋势的交互项, 共同趋势检验, 动态政策效应检验等还有很多文章,各位学者可以自行搜索公众号内容。

拓展性阅读

就内生性问题及其解决方法,咱们为各位学者引荐了很多文章,例如:看完顶级期刊文章后, 整理了内生性处理小册子1.“内生性” 到底是什么鬼? New Yorker告诉你2.Heckman两步法的内生性问题(IV-Heckman);3.IV和GMM相关估计步骤,内生性、异方差性等检验方法4.最全估计方法,解决遗漏变量偏差,内生性,混淆变量和相关问题5.毛咕噜论文中一些有趣的工具变量!6.非线性面板模型中内生性解决方案7.内生性处理的秘密武器-工具变量估计8.内生性处理方法与进展9.内生性问题和倾向得分匹配10.你的内生性解决方式out, ERM独领风骚11.工具变量IV必读文章20篇, 因果识别就靠他了12.面板数据是怎样处理内生性的13.计量分析中的内生性问题综述14.工具变量IV与内生性处理的解读15.一份改变实证研究的内生性处理思维导图;16.Top期刊里不同来源内生性处理方法17.面板数据中heckman方法和程序(xtheckman);18.控制函数法CF, 处理内生性的广义方法19.二值选择模型内生性检验方法20.2SRI还是2SPS, 内生性问题的二阶段CF法实现21.内生变量的交互项如何寻工具变量22.工具变量精辟解释, 保证你一辈子都忘不了除此之外,还有很多与此相关的文章,因此建议学者根据自身需要搜索相关内容。

之前,咱们小组引荐了1.DID运用经典文献,强制性许可:来自对敌贸易法的证据2.连续DID经典文献, 土豆成就了旧世界的文明3.截面数据DID讲述, 截面做双重差分政策评估的范式4.RDD经典文献, RDD模型有效性稳健性检验5.事件研究法用于DID的经典文献"环境规制"论文数据和程序6.广义DID方法运用得非常经典的JHE文献7.DID的经典文献"强制许可"论文数据和do程序8.传销活动对经济发展影响, AER上截面数据分析经典文9.多期DID的经典文献big bad banks数据和do文件10.因果推断IV方法经典文献,究竟是制度还是人力资本促进了经济的发展?11.AER上因果关系确立, 敏感性检验, 异质性分析和跨数据使用经典文章12.第二篇因果推断经典,工作中断对工人随后生产效率的影响?13.密度经济学:来自柏林墙的自然实验, 最佳Econometrica论文14.AER上以DID, DDD为识别策略的劳动和健康经济学15.一个使用截面数据的政策评估方法, 也可以发AER,16.多期DID模型的经典文献,big bad banks讲解",",17.多期DID的经典文献big bad banks数据和do文件18.非线性DID, 双重变换模型CIC, 分位数DID,受到博士生导师普遍欢迎,并分享给其指导的学生学习。

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2年,计量经济圈公众号近1000篇文章,

Econometrics Circle




数据系列:空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 |

计量系列:匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 

数据处理:Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |


干货系列:能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 |

计量经济圈组织了一个计量社群,有如下特征:热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存