查看原文
其他

计量回归中的交互项到底什么鬼? 捎一本书给你

欢迎投稿(荐稿)计量经济圈,计量相关都行

箱:econometrics666@sina.cn

编辑: @计量经济圈(ID: econometrics666);来源: 统计学和量化研究 公众号


计量经济圈社群群友推荐的一本关于系统理解经济研究中的交互效应的书籍。各位社群的群友可以在小鹅社群直接下载提取。

嵌套模型,包括交互项分析


搞清楚了变量的分布,才能得出变量是个什么样的状态,适合进行怎样的排列、recode和分组。比如说,某个表示年龄的变量体现出了明显的阶段性(队列特性),那么,就说明把“年龄”变量重新编码为“队列--分组”是个可以尝试的选项。这样,可以检验年龄组作为分类变量的群体性影响。另外还有一个就是cross-table交互列联表的分组情况,这样可以考虑设置交互项,例如不同出生队列受教育程度的均值肯定是不同的,考虑一个比较粗略的分组:50后,60后,70后,80后,90后等等。在进入劳动力市场之后,这些人都会有不同的收入表现,这些表现也就是“群体异质性”的体现。很有意思,有时间的话,可以拿命令来操作一下。


言归正传,本期给大家介绍嵌套模型分析。


 嵌套模型,顾名思义,就是不同的模型有着相近的结构和部分相似的变量。这些模型之间,可以进行某些因素(如总体方差和解释方差)的加减、乘除,进而得到一些有相互关联的结果。


【例2】某科研小白在参考了某“stata与计量研究”教程之后,做出了自己人生中第一个OLS模型,当然这个模型只是实验性质的,所以他就按图索骥,根据书中的指导顺路检验了模型的各种可能存在的问题,于是就有了上次文章的长长论述,说实话还是有很多收获的。


这次呢,科研小白作了一些功课。他觉得这个“收入”是个很有趣的研究问题,于是就通过知网、万方、B&G Scholar等途径查阅了很多相关领域、学科的文献,发现还真的是有很大的发现。


(1)小白发现了“明瑟方程(Mincer's Equation)”,这是一个工资决定方程,主要形式是:收入=α+β1*受教育程度+β2*工作经验+β3*工作经验的平方;这个方程是该领域颇为流行的一个模型,后世也有很多改进版和本土版,所以这一块儿他的心里有底了。


(2)按照社科研究方法论,他应该先制定一个研究框架,并提出一些研究假设。考虑到他这是第一次尝试这个模型,心中还有些小激动,于是就先尝试着做一个探索性模型,看看到底能得出什么结论。


(3)探索性模型,首先还是跟其他模型一样,需要设置一个“0模型”,或者也可以叫做“空模型”“基准模型”。这个模型就是一把标尺,在没有变量进入的情况下,看因变量和截距之间的关系。根据空模型设定的方式,因变量=α+误差项。所以在这个时候,所有变量“几乎”都被扔进了截距项。之所以用“几乎”是因为有一部分变量被扔进了“误差项e”中。


于是小白就动手实践了他的研究。他认为呢,世间万物皆成因果,所有相关的因素都可能对因变量造成影响。于是他就假设了所有变量都与因变量有关系。但考虑到社会科学研究是一种尽可能简化的研究,他不可能罗里啰嗦的把一切因素都放进去。于是就结合已有的文献综述,提出了四个研究假设。


a.教育程度越高收入越高(能力假设)

b.男性高于女性(性别不平等假设)

c.工作时间越长收入越高(工作技能假设)

d.父亲受教育程度越高,子代收入越高(家庭社会经济地位假设)



当然不能忘了对变量进行描述性统计分析。这是模型分析第一步,对所使用的变量进行描述性统计。


指标:案例数,均值,标准误,最大最小值。


 作用:了解所用变了的基本情况,便于初步的统计检验。


 实际上,在实际分析中,如果无法提前处理的话,应当先行剔除变量中的“缺失值”,这样可以确保研究样本数量的统一。但是,本文只是个演示,并且相互之间样本量差距没有太显著,在模型设置中尤甚,所以没有考虑那么多,就一股脑都搬上来了。


【模型设置结果】


在模型(1)中,仅设置了空模型,没有其他变量;模型(2)中,加入了性别、年龄、户口、党员身份、婚姻等变量;(3)中,加入了受教育程度;(4)中加入了工作经验和工作经验的平方项;(5)为全模型,其中进一步加入了父亲的受教育程度。


可见,模型(1)中常数项显著,也就是说明,有很多变量在没有纳入模型时候,对因变量有显著性的影响。但模型的R方为0,也说明这个空模型没有解释因变量的方差变化,需要进一步考虑其他模型结果。


 模型(2)-(6)都涉及到了性别因素,发现了性别之间的收益确实是不平等的,男性在各种条件下都显著地高于女性。


模型(3)-(6)都涉及到了教育因素。教育假设得到了验证,受教育程度提高,确实有利于经济收益的提高。


模型(4)中工作技能假设得到验证,但加入二次项之后,模型(5)和(6)中影响变得不显著。这说明两者之间存在较为复杂的关系。需要进一步讨论。


模型(6)父亲的受教育程度显著影响收入,这说明良好的家庭环境有利于子代的成长。这也验证了家庭社会经济地位假设。


 进一步,针对上面的结果,可以发现:

(1)性别、户籍、政治身份、教育程度、父亲教育程度(家庭社会经济地位)显著;(2)婚姻状态不显著;(3)模型(2)和(3)中,在加入“教育”后,年龄和户口类型显著性方向改变。

       

 因此,得到问题:教育与年龄和户口类型很可能存在某些没有阐明的作用。这些作用就是“交互作用”。

**--基本命令--**

*-嵌套模型分析

*m1:0模型

reg lninc

est store m1


*m2:加入个体社会人口属性变量

reg lninc sex age hktype party marital

est store m2

*m3:加入教育程度

reg lninc sex age hktype party marital educ

est store m3

*m4和m5:加入工作经验及其平方

reg lninc sex age hktype party marital educ exp

est store m4

reg lninc sex age hktype party marital educ exp exp2

est store m5

*m6:加入父亲受教育程度

reg lninc sex age hktype party marital educ exp exp2 f_educ

est store m6

*--输出回归结果
esttab m1 m2 m3 m4 m5 m6 using workingfile.rtf,replace b(3) se(3) r2 star(* 0.05 ** 0.01 *** 0.001) nogap compress

上面留了一个尾巴,就是二次项的检验和使用。请看下图:我们在一个较小的尺度上可以看到二次项的显著作用。但实际上,将尺度稍微拓展一下,就会发现这个弧度很微弱。所以说,不要被作图欺骗了,要保持一定的警惕。


 至于二次项是否存在,首先应该看二次项的显著性,然后再看二次项和一次项之间存在的关系。下面的命令是检验二次项的:

**--基本命令--**

reg lninc sex age hktype party marital educ exp exp2

wherext exp exp2

twoway qfit lninc exp
gr save p1.gph,replace

twoway qfit lninc exp if exp<=45
gr save p2.gph

twoway qfit lninc exp if exp<=45, xlabel(0(5)45) ylabel(4(1)7)
gr save p3.gph

gr combine p1.gph p2.gph p3.gph, row(1) 

1.“交互作用”概念

(1)主效应:某一变量不依赖于其他变量的独立作用

(2)交互效应:条件效应,某一变量发挥作用的同时,也会与其他变量协同发挥作用,或者依赖于其他某个变量。

(3)交互效应应考虑变量间的协方差和联合显著性(test _b[var1]=_b[var2]=0)

(4)虚拟变量:由分类变量编码而成,作为“分类”的自变量使用。

(5)模型形式

y=a*x1+b*x2+c*(x1*x2)

//带交互项的回归模型

∂y/∂x1=a+cx2

∂y/∂x2=b+cx1

(∂y∂y)/(∂x1∂x2)=c


2.分析性假设


 所谓分析性假设,就是指在前期进行了描述性和探索性分析之后,得出了相关的简单结论,并同时发现了不同变量间的复杂关系。这种关系在没有交互作用时候会体现出不同嵌套的模型间的差异。


在上文分析中,我们已经发现了户籍、年龄、性别与受教育程度可能存在的一系列作用。因此,在分析性假设中,我们提出几个说法:

        (1)教育程度提高可以降低城乡间收入不平等

        (2)教育程度提高,提高了年龄间收入不平等的程度,其中年龄越高、受教育程度越高,收入越不平等。

        (3)受教育程度增加,可以降低男女间的收入不平等。

接下来就是对这几个说法一一验证。


均值分别是10.26和43.38,先计算出来。

结果解读:

参考:伍德里奇《计量经济学导论》第6章,例6.3


(1)主效应显著


(2)户籍和教育程度的交互作用不显著。(联合检验显著test 

_b[hktype]=_b[hk_educ]=0 )户籍的偏作用=-0.308+0.022*10.26=-0.0823。边际作用绝对值降低了0.0307。这说明,教育程度增加,可以降低城乡之间收入不平等。(或者可以讲:教育可以对城乡收入不平等产生调节作用)


(3)年龄和教育交互作用负向显著。(联合检验显著)年龄的偏作用:0.016+(-0.001)* 10.26 =0.0057。教育的偏作用此时应为:0.146+(-0.001)*43.38=0.103。解释方法同上。


(4)性别与教育的交互项显著,联合检验显著。性别的偏作用=0.338-0.017*10.26=0.164,边际作用绝对值增加了0.007。这说明,教育程度增加,反而加大了男女之间收入的差距。


注:以上解释仅针对本案例数据,如果想针对此问题进行深入研究,需更严谨的设计研究方案和数据操作。

**--基本命令--**

**-----交互作用分析


gen hk_educ= hktype*educ

gen ageeduc=age*educ

gen sex_educ=sex*educ


*ma1:主效应

reg lninc sex age hktype party marital educ

est store ma1


*ma2:教育和户籍的交互


reg lninc sex age hktype party marital educ hk_educ

est store ma2


test _b[hktype]=_b[hk_educ]=0


*ma3:教育和年龄的交互


reg lninc sex age hktype party marital educ ageeduc

est store ma3


*ma4:教育和性别的交互


reg lninc sex age hktype party marital educ sex_educ
est store ma4


*ma5:全模型

reg lninc sex age hktype party marital educ hk_educ ageeduc sex_educ

est store ma5

esttab ma1 ma2 ma3 ma4 ma5 using workingfile2.rtf,replace b(3) se(3) r2 star(* 0.05 ** 0.01 *** 0.001) nogap compress


接下来,我们看看回归中的极端值/离群值处理


如何处理极端观测值:
首先,应检查是否因数据输入有误导致极端观测值。
其次,对出现极端观测值的个体进行背景调查,看看是否由与
研究课题无关的特殊现象所致,必要时可以删除极端数据。
最后,可同时汇报“全样本”(full sample)与删除极端数据后的
“子样本”(subsample)的回归结果,让读者自己做判断。

**--基本命令--**

**----极端值处理
*检验
reg lninc educ exp age marital
predict lev,leverage
gsort -lev
sum lev
dis r(max)/r(mean)
*自行判断删除标准


**--基本命令--**

/**如果你要删除极值,可以用如下方法:

_pctile lninc,p(5,95)
return list
drop if var<r(r1)|var>r(r2)
**/

*另外,可以用winsorization,这个方法是将极值变为除极值外的最大或最小值,换句话说,这种方法不减少观察值:
findit winsor
winsor lninc, gen(n_lninc) p(0.05)
winsor2 lninc, cuts(1 99)  trim


缺失值处理


(1)线性插值:ipolate

利用线性回归来插补缺失

(2)多重插补:mi

**--基本命令--**

cap drop lny
gen lny=lninc

mi set wide
mi register imputed lny
mi impute regress lny age educ, add(20)
mi estimate: logit edul lny sex age hktype party marital exp exp2 f_educ

最后,我们再看看内生性问题思路


先看看这篇文章:你的内生性解决方式out, ERM已一统天下而独领风骚


 内生性问题主要是指误差项和回归模型中其他(包括自身)相关,并导致回归结果出现误差的现象。

后果:(1)统计角度而言:OLS (MLE) 估计结果有偏且不一致;(2)实践角度而言:经验结果存在多种可能的解释 (并非“因果”推断)。


【内生性问题解决】

1.基于工具变量的方法:工具变量(instrumental variable)

原理:与某个自变量xk相关,但与误差项相互独立

缺点在于难以找到真正“适合”的工具变量。

两阶段最小二乘(2SLS)

同样基于工具变量:内生变量数量少于外生变量数量


第一阶段模型是结构模型:y1 = b0 + b1y2 + b2z1 + u1, y2 是内生变量,z1是外生变量。

第二阶段模型是简约模型:y2 = p0 + p1z1 + p2z2 + p3z3 + v2,其中z2 与 z3 是工具变量。


webuse hsng2, clear

ivregress 2sls rent pcturban (hsngval = faminc i.region), small  //小样本2sls

过度识别问题:m个工具变量,h个内生变量,有m-h个过度识别约束(overidentifying restrictions)


广义矩估计(GMM)

webuse hsng2, clear

ivregress liml rent pcturban (hsngval = faminc i.region)

ivregress gmm rent pcturban (hsngval = faminc i.region)  //default

ivregress gmm rent pcturban (hsngval = faminc i.region), vce(unadjusted)


2.基于Heckman的两阶段模型

3.基于Heckman的局部工具变量回归的“边际处理效应模型(MTE)”

4.基于倾向得分匹配PSM的“异质性处理效应模型(HTE)”。


后面插播一条推文,有兴趣就看,无兴趣就可以到此结束。

近日,在中国某知名高校120周年校庆之际,计量经济圈依然能够看到有很多学子转发“耶鲁大学前校长说中国高等教育是笑话”的文章(都差不多10年前的旧文)。这篇文章是用英文写的,我们看过之后认为文章写得不错且切中要害,但是我们通过到Yale官网证实发现,事实上只是有人以耶鲁大学前校长小贝诺施密德特先生(MR.Benno C. Schmidt Jr.)之名所发。


我们想说的是,原作者确实在用心良苦地提醒“中国高等教育的问题”,但是我们认为这种方式并不是我们应该大力提倡的。

耶鲁大学也作出过官方回应,原文如下:

Yale University Statement Regarding Alleged Remarks Made by Former Yale President

Published: September 29, 2009

New Haven, Conn. — Yale University has been contacted regarding 
rumors that Benno C. Schmidt Jr., former president of Yale University, criticized Chinese universities and the country’s higher education system in general. These alleged disparaging remarks purportedly appeared in a Yale publication.

Yale University has contacted Mr. Schmidt concerning these rumors. "
I have never said anything about Chinese universities that has appeared in a Yale publication," Mr. Schmidt told Yale. “Most importantly, those quotes are not my comments and they do not reflect my views."


这是回应的链接:https://news.yale.edu/2009/09/29/yale-university-statement-regarding-alleged-remarks-made-former-yale-president


Schmidt是个法学教授


网上流传的那篇责难中国高等教育的文章翻译过来之后是这样的:


曾任耶鲁大学校长的小贝诺施密德特,日前在耶鲁大学学报上公开撰文批判中国大学,引起了美国教育界人士对中国大学的激烈争论。


对中国大学近年来久盛不衰的“做大做强”之风,施密德特说:“他们以为社会对出类拔萃的要求只是多:课程多,老师多,学生多,校舍多”。“他们的学者退休的意义就是告别糊口的讲台,极少数人对自己的专业还有兴趣,除非有利可图。他们没有属于自己真正意义上的事业。”“而校长的退休,与官员的退休完全一样,他们必须在退休前利用自己权势为子女谋好出路。”“新中国没有一个教育家,而民国时期的教育家灿若星海。”


对于通过中国政府或下属机构“排名”、让中国知名大学跻身“世界百强”的做法,施密德特引用基尔克加德的话说,它们在做“自己屋子里的君主”。“他们把经济上的成功当成教育的成功,他们竟然引以为骄傲,这是人类文明史最大的笑话。”


中国大学近来连续发生师生“血拼”事件,施密德特认为这是大学教育的失败,因为“大学教育解放了人的个性,培养了人的独立精神,它也同时增强了人的集体主义精神,使人更乐意与他人合作,更易于与他人心息相通”,“这种精神应该贯穿于学生之间,师生之间”。“他们计划学术,更是把教研者当鞋匠。难怪他们喜欢自诩为园丁。我们尊重名副其实的园丁,却鄙视一个没有自由思想独立精神的教师。”


中国大学日益严重的“官本位”体制,施密德特也深感担忧,他痛心地说:“宙斯已被赶出天国,权力主宰一切”。


“文科的计划学术,更是权力对于思考的祸害,这已经将中国学者全部利诱成犬儒,他们只能内部恶斗。缺乏批评世道的道德勇气。孔孟之乡竟然充斥着一批不敢有理想的学者。令人失望。”施密德特为此嘲笑中国大学“失去了重点,失去了方向,失去了一贯保持的传统”,“课程价值流失,效率低,浪费大”。


他嘲笑说“很多人还以为自己真的在搞教育,他们参加一些我们会议,我们基本是出于礼貌,他们不获礼遇。”


由于当前经融危机引发的一系列困难,导致大学生就业难。施密德特对此说,“作为教育要为社会服务的最早倡议者,我要说,我们千万不能忘记大学的学院教育不是为了求职,而是为了生活”。


他说大学应该“坚持青年必须用文明人的好奇心去接受知识,根本无需回答它是否对公共事业有用,是否切合实际,是否具备社会价值等”,反之大学教育就会偏离“对知识的忠诚”。


对中国大学的考试作弊、论文抄袭、科研造假等学术腐败,施密德特提出了另一种观察问题的眼光,他说“经验告诉我们,如果政权是腐败的,那么政府部门、社会机构同样会骇人听闻的腐败”。


他还说“中国这一代教育者不值得尊重,尤其是一些知名的教授。”


施密德特认为中国大学不存在真正的学术自由,他说中国大学“对政治的适应,对某些人利益的迎合,损害了大学对智力和真理的追求”。


他提出“大学似乎是孕育自由思想并能最终自由表达思想的最糟糕同时又是最理想的场所”,因此,大学“必须充满历史感”,“必须尊重进化的思想”,“同时,它倾向于把智慧,甚至特别的真理当作一种过程及一种倾向,而不当作供奉于密室、与现实正在发生的难题完全隔绝的一种实体”。他说“一些民办教育,基本是靠人头计算利润的企业。”


我们应该改变目前对于大学的认识,大学中的学生必须充满着历史感,尊重进化的思想,学生和老师们应该追求自己真正有兴趣的那些知识点,不是为了对政治的适应、对经济利益的迎合选择一种自己本不喜欢的专业或学科,重视对智力和真理的追求。不要把经济上的成功等同于教育上的成功,做一个令人尊重的教育者。


Seeking truth


计量经济圈是中国计量第一大社区,我们致力于推动中国计量理论和实证技能的提升,圈子以海内外高校研究生和教师为主。计量经济圈六多精神:计量资料多,社会科学数据多,科研牛人多,名校人物多,热情互助多,前沿趋势多。如果你热爱计量并希望长见识,那欢迎你加入到咱们这个大家庭戳这里,要不然你只能去其他那些Open access圈子了。注意:进去之后一定要看小鹅社群“群公告”,不然接收不了群息,也不知道怎么进入咱们的微信群和计量论坛。


帮点击一下下面的小广告,谢谢支持!


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存