查看原文
其他

统计计量 | 陆铭:交互项有什么用?为啥要做异质性分析?(加导读版)

数据Seminar 2022-12-31

作者:陆铭

来源:计量经济圈

本文转载自公众号:计量经济学

Author:陆铭,上海交通大学安泰经济与管理学院特聘教授、博士生导师、中国发展研究院执行院长。计量经济圈整理

 

 # 导读 # 

计量经济学不等同于统计学。中国传统的计量经济学教材和课程都强调数学推导和软件操作,而较为忽视经济学直觉。陆铭老师的这段关于交互项和异质性的评论(看文字可能是口头评论的记录),是从(劳动)经济学的一些热点主题出发,首先解释交互项这一模型设定在实证研究当中如何运用,起到什么作用。值得加粗强调的是这句话,“ 其实在我们使用交互项的时候,本质上就是在看difference in difference,或者说差异的差异... 我要说的一个意思就是,交叉项可以帮助我们解释变量之间的相互依赖性,同时也可以近似的被认为是一个双差分的分析,来接近因果的识别。”写到这里,不禁想起老姚专栏的“博主”在提到DID被狭义理解为两个虚拟变量交互时的无奈。随后陆老师谈到的异质性分析,也是基于其实际研究经验做的分享。关于异质性分析,我的认识是,从经济学的角度来说,其实是我们用理论去解释现象,预测政策效应的时候,一定要注意不能漏掉一些重要的约束条件,比如文中提到的开发区的政策效果取决于其所处的地理条件。而从计量的角度来说,异质性问题其实也是遗漏变量问题。经济学角度的理解和计量角度的理解,其实是相互呼应的。(最后,还是要公开呼吁老姚专栏的“博主”尽快上新,谢谢!


——杨奇明


1.交互项有什么用?看差异的差异

很多时候我们在讨论一些具体的现实问题的时候,就涉及到解释变量对被解释变量的影响是如何相互依赖的。我来举几个例子,比如说在城市发展当中,很多人都认为当城市长大了,特别是那些比较大的产业结构比较高端的城市,只需要高技能劳动者,而不需要低技能劳动者。那么高技能劳动者和低技能劳动者之间的关系到底是怎样的?从经济理论角度来讲,有一种说法叫“技能互补性”,也就是说,当高技能劳动力增加的时候就会带来很多对于低技能劳动者的需求,来进行生产上的辅助性的工作,这时候增加雇佣一些低技能劳动力,其实是可以提高高技能劳动力的劳动生产率的。这个时候高技能劳动力对于生产的影响,其实就取决于低技能者的数量。

同样的道理,我刚才所说的高技能劳动力和低技能劳动力之间的相互依赖关系,其实也存在于本地劳动力和外来劳动力之间。因为往往本地劳动力平均来讲它的教育水平比较高,而外来劳动力的平均教育水平要相对来说低一点,他们所从事的工作岗位也有非常大的差异。比如说在我们的城市生活当中,大量的环卫工人、送快递的、做早餐的,其实都是外来劳动力,这时候本地劳动力的生产力或者他们的生活质量也是取决于外来劳动力的数量,换句话说本地劳动力和外来劳动力之间,恐怕也是相互依赖的关系。

还有一个例子涉及到推迟退休年龄这样的问题,大家都知道中国现在出现了比较明显的老龄化的趋势,那么为了缓解养老金的压力,如果我们可以推迟退休年龄,这个时候就可以延长大家工作的时间,从而缓解劳动力供给不足和老龄化的问题。但是这个时候大家可能会担心一种问题,那就是推迟退休年龄是不是会导致老年人口仍然占着工作岗位,从而导致年轻人失业,对于这个问题本身又取决于,相对来说比较老年的人口和年轻的劳动力的关系,是相互替代的还是互补的。如果担心推迟退休年龄会导致失业,本质上来说,就是认为老年人和年轻人之间是相互替代的,你有工作了,我就没工作了。但其实可能还有另外一种可能性,那就是老年人和年轻人其实是互补的,一方面,老年人有经验,他们可以通过传帮带这样的做法,来提高年轻人的劳动生产率。反过来说,年轻劳动力如果从事一些辅助性的岗位,也有可能提高老年人的工作效率。那么他们到底是互相替代的还是互补的,本身就对于我们理解推迟退休年龄这样的公共政策会导致什么样的后果,具有非常重大的意义。

对于我刚刚讲的这些例子来说,在实证研究当中,都需要使用到交互项,也就是说在方程右边的解释变量里,可能我们需要把两个决定被解释变量的影响因素进行相乘,来看这样一个交互项或者交叉项的系数是正还是负。比如说在我刚刚所讲的几个例子里,如果高低技能劳动者,本地和外来劳动者,老年人和年轻人之间是互补的,那么它们之间的交互项对于产出的影响的系数,就应该是正的,如果是互替的,它们就应该是负的。

再比如说在我之前做的一个研究里,我研究了新城建设的问题,当时我发现,在中国大量建设了很多新城,而这些新城往往建得密度非常低,同时这些新城又建设在距离当地的老城非常远的地方。于是我们发现,如果一个地方新城建设的密度非常低,同时又建得非常远的话,那这个地方的投资效率就比较低,从而带来债务负债率比较高这样的现象。当时我就问了一个问题,如果一个新城建得离老城非常远,在这种情况下,同时如果这个新城建设的密度比较高一点,是不是可以缓解远距离对于债务这种负面的影响呢?于是我们在研究中也构造了一个密度和距离之间的交互项,这样我就可以回答是不是密度增加,可以有助于缓解距离远这样新城建设当中的负面影响,结果的确如此。

在上面这样一些例子当中,我都讲了一些关于交互项的实际运用的例子,但是我今天所想讲的另外一个意思可能更为重要,那就是交互项的巧妙运,有的时候能够帮我们在没有很好的因果关系识别的方法的时候,能够帮我们靠近因果识别

比如说在之前我举过一个例子,那就是户籍与消费之间的关系,我们当时想说的一个道理就是,在城市里居住但是却没有本地城镇户籍的外来劳动力,他会挣钱,但是相对来说消费就不会消费那么多。换句话说,外来人口这样一个户籍身份,会对消费不利,但是可能你会反问我,这种农村户籍或者说外来人口户籍,它到底是一个制度的影响还是一个文化的因素?也就是说是不是因为农村居民有某种特定的文化或者消费习惯,他进到城里来,他也不太习惯增加消费。

这个问题其实是合理的,当时为了回答这个问题,我们就想了这样一个逻辑,如果农村户籍的身份,真的只代表文化的话,那么我们应该看到,当这些人在城市里居住的时间越来越长的时候,那么农村户籍对于消费的负面影响应该会逐渐的变小,因为它有一个在城市里逐渐适应城市文化的这样一个过程。所以在做这个研究的时候,就可以在方程的右边放入农村户籍身份乘以在城市里居住时间这样一个因素,构成一个交叉项或者交互项,来看它的系数会怎样。

最后我再举一个例子,最近我和上海对外经贸大学的王丹利老师做了一个研究,我们想研究在中国农村教育有的时候水平比较低是由什么样的因素导致的?其实我们想讲,在有些地方可能具有这样一种传统文化,那就是当宗族的势力比较强的时候,这个地方很容易产生宗族之间的冲突,如果宗族冲突非常激烈的话,就需要进行一些武力的斗争,比如说我们会发现有一些现象叫做“械斗”。我们发现在一个地方械斗比较严重的话,这个地方就会产生武力的冲突,而大家就会少投资于教育,从而导致教育水平会比较偏低。

但这其中会有一个问题产生了,我们所看到的械斗这样一个现象,到底是不是真的代表了宗族的冲突,还是由于一些其他的因素所导致的,比如说是不是因为在械斗比较严重的地方,同时也是资源比较贫乏的地方呢。为了回答这样的问题我们想了很多办法,其中有一个办法是跟交互项的使用有关的,那就是在逻辑上,如果械斗的确代表的是一种宗族冲突,大家可以想,这种影响主要会影响男性,因为男性是参与械斗的主力,女性不大会参与械斗的。与此同时,这种影响估计主要会产生在农村地区,而对于城市地区来讲,恐怕就不大会通过械斗来进行宗族之间的冲突,从而影响教育。所以我们就可以把械斗发生的度量指标和是否在农村地区以及个体是男性还是女性这样的变量进行交乘,从而观察这些交互项的作用,来看它是不是真正的是因为宗族冲突的作用影响了教育。

其实我讲到这里,如果一些熟悉微观实证研究方法的听众朋友就已经反应过来了,其实在我们使用交互项的时候,其实本质上就是在看difference in difference,或者说差异的差异。比如说在刚才械斗这样一个例子里,我们就是想看械斗对于教育的影响是否在农村和城市之间存在差异,是否在男性和女性之间存在差异,这个本质上其实就是一个双差分的分析。

我要说的一个意思就是,交叉项可以帮助我们解释变量之间的相互依赖性,同时也可以近似的被认为是一个双差分的分析,来接近因果的识别。

2.为什么要去做异质性分析?不要相信有普适的政策

这节的话题是为什么要做异质性分析?我们先从一个具体的例子开始谈起,那就是开发区政策,大家都知道在中国经济改革开放以来,沿海地区,特别是东南沿海地区,获得了相对好的、比较快速度的发展,尤其是长三角和珠三角。

相对来讲在中国的中西部,制造业的发展、经济发展的速度总体上来讲不尽如人意,于是就有了这样一种理解,认为中国的东部沿海地区,特别是东南沿海地区,他们的经济发展是因为享受了一些优惠的政策,其中就包括了开发区政策。因为你如果回顾中国早期改革开放的历史的话就知道,中国的一些经济特区,比较大的经济技术开发区等等,都首先是从沿海地区,特别是东南沿海地区开始实施的。

既然是这样的话,是不是可以把同样的开发区政策,在广大的中西部进行实施,这样的话就可以促进中西部的发展呢,很多人就这样想的。可是如果要是你真的是这样相信的话,或者说像有一些有关开发区的研究所得到的结论那样,开发区的政策的确可以促进经济发展,甚至有的研究就直接认为开发区政策可以促进欠发达地区的经济发展,那么我们就要问一个问题了,如果你真的相信开发区政策是无条件的可以应用在所有的地方的话,那么为什么我们今天在中西部的广大地区可以看到这样的现象,那就是开发区遍地开花,——以工业园为例,现在几乎每一个县都有一个以上的工业园,——如果开发区政策、工业园政策真的是无条件有用的话,那为什么看到在中西部大量的开发区现在出现闲置呢?为什么企业不搬迁到中西部的这些开发区去,然后把开发区填满呢?

我们在之前的一项研究里就说了这样一个道理,其实开发区政策是否能够促进当地的发展,实际上是取决于一个地方的地理条件的。中国改革开放以来,特别是上世纪90年代中期以后,开始全面发展开放经济,以及出口导向的制造业,这个时候,沿海地区因为拥有大港口,在国际贸易里的国际贸易成本可以借助海运降到比较低的水平,于是又在这个基础上形成了产业的集聚效应。所以这个时候,如果你给一个当地经济发展的优惠政策,它就可以借助于集聚效应,能够更加有效的进行工业的发展。

而相反,在中国的广大中西部地区,它恰恰是远离沿海大港口的地区,运输成本比较高,同时因为当地的产业发展,没有形成集群,所以它的集聚效应也不够高。也就是说如果你把同样的开发区政策,放在远离大港口的地方,本身的产业规模又比较小,人口密度又不够高,甚至有一些中小城市,它本身就远离大的经济集聚的中心城市,交通基础设施条件也不够好,那么当你把经济的资源和政策集中在这些地方的时候,其实它就不会产生在沿海地区同样的促进经济发展的作用。换句话说,我们往往把一些政策想用来促进欠发达地区的发展,但是欠发达地区的一些地理条件、自然条件,往往又会局限这种政策的作用,这就是一个悖论。

也是因为同样的道理,在我的研究当中,还去考察了新城建设,中国现在很多地方都建有当地的新城,希望通过城市的扩张,新城的建设搞房地产开发、基础设施建设来推动当地的经济发展。其实类似像这样的政策是否能够成功也是有条件的,在我的研究当中我告诉大家,如果一个新城建设在人口流出地,那么人口在流出,城市的建设却在扩张,这个时候这样的投资就比较无效率,甚至有可能因为大量的新城建设,依赖于地方政府的负债,结果导致增加负债的负面效果。

而这样人口流出地又是在什么地方呢?往往又同时是在中国的中西部,特别是一些中西部的中小城市,最后给他带来了巨大的债务负担,又尤其是当当地做新城建设的时候,把新城建设的特别大,远远超过实际需求,还有建设的地方又远离当地所在的地级市的市中心的时候,这样的新城建设效率就更加低,推动经济发展的作用就更小,带来的债务负担就更大。

在我今天举的例子里面我都提醒大家,做经济分析,特别是实证的研究的时候,要注重做一些异质性的分析,也就是说政策的效果往往是取决于其他的条件的,而在现实生活当中我们往往发现,一些自上而下推进的政策往往都有一刀切的嫌疑,往往会忽略政策实施的有效性的条件。而地方政府在学习其他地方经验的时候,也往往会照搬其他地方的政策,也会忽略自己恐怕缺乏其他地方获得成功的条件。这些现实情况就提醒我们,在做政策的应用分析的时候,特别是要多做一点思考。

首先要做一些理论机制的分析和思,来想一想是不是有可能在不同的样本里,不同的地区会产生同样政策效果的差异性。但是我这样说,也同时提醒大家,在做实证研究的时候,不要过于机械的分组,比如说你看现在有关区域经济的一些研究,都会对自己的样本进行沿海、内地或者东中西部的分组,可是你要进一步的问自己,在你的研究当中东中西到底代表了什么,到底它代表的是一个地理的条件、气候的条件,或者说它代表了到沿海大港口的距离,还是说它代表了人口流入还是人口流出,为什么会有这样的政策分析的差异性呢?这些问题不能不回答,不能只是简单的分分组结束了,否则你根本不知道自己这样的分组可以带来什么样的含义,以及为什么会这样。

同样,我还会提到另外一个我们在实证研究当中碰到的情况,特别是对于很多的初学者来讲,在做研究的时候,会在起步的时候碰到自己想要的解释变量对被解释变量的影响在统计上不够显著的问题,这个时候很多人会着急。但是我想大家有的时候要冷静一下,你看到一个因素对一个被解释的因素的影响在统计上不显著,可能只是因为你看到的是一个平均效应,是所有样本的平均效应,但是其实可能你的X对于Y的影响其实只是在某一个子样本里面存在显著性,那么当你看总体上的平均效应的时候,它就可能不显著了。甚至有可能在第一个子样本里它的效应是正的,而到了另外一个样本里它的效应是负的,这个时候当你在加总的样本里去看平均效应的时候,正效应和负效应就会相互的抵消,以使得你看到的总体效应不显著。

所以我特别提醒年轻的学生和刚刚起步的青年学者,在你们做实证研究的时候,特别是当碰到效应不显著的情况的时候,不妨看一看在不同子样本里面情况的差异,当然不要忘记事先做一些理论、逻辑的分析,为什么会可能存在这样的差异性。

好的,我用一句话来总结,那就是不要去相信会有普适的政策,尤其是在中国这样地域辽阔的大国家。




星标⭐我们不迷路!
想要文章及时到,文末“在看”少不了!

点击搜索你感兴趣的内容吧


往期推荐


数据呈现 | Pandas 表格样式设置指南,看这一篇就够了!

数据呈现 | 一行 Python 代码绘制酷炫科研风格图表!

数据呈现 | 厉害了,Pandas表格还能五彩斑斓的展示数据,究竟是怎么做到的呢?

数据资源 | 答辩过了!六个惊艳导师组的数据可视化工具

数据资源 | 这15个获取数据的爆赞的网站,你用过几个?

软件应用 | 分享20个常用的Python函数,助你快速成为Pandas大神!!






数据Seminar




这里是大数据、分析技术与学术研究的三叉路口


推荐 | 郑泽青


    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更多

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存