查看原文
其他

互助问答第18期:组间系数差异检验、PSM和数据类型转换

论文导向实证方法 学术苑 2021-09-21


问题1:在检验系数差异时,我对suest、chowtest、chowreg三种命令有如下疑惑,希望各位老师能够给予解答,谢谢!

(1)三种命令都可以用来检验系数差异吗?(尤其是chowtest是否可以用来检验系数差异?)

(2)我使用chowtest的命令:chowtest Y X Controls, group(M);chowreg的命令:chowreg Y X Controls, d(M) type(3),请问 type(1,2,3)应该如何选择?

(3)请教chowtest以及chowreg如何使用,其Stata命令如何?

答案1:

(1)suest命令和chowreg命令均可用于检验系数差异,其中,suest命令用于检验似无相关模型的组间系数差异,chowreg命令可用于结构性变化回归和邹至庄检验。对于chowtest命令,在stata13和stata14中均未找到此命令,请提问者确认命令的全称。

(2)chowreg只能在设定的点(即dum项设置),检验前后参数是否存在结构性变化,并分别给出前后回归方程参数。它分了3种情况,也就是这里的type(1,2,3),type(1)是截距项引起的方程结构变化;type(2)是所有自变量斜率引起的方程结构变化;type(3)是同时由截距和所有自变量斜率引起的方程结构变化。

(3)从第(2)问来看,提问者已经知道chowreg命令的用法了。该命令的帮助文件也有应用案例,照样操作一遍可巩固对该命令用法的了解。

问题2:我在用企业数据测算城市级别的资源错配,其中,企业生产率离散度是采用90%分位点的企业生产率与10%分位点的企业生产率的比值。现在我根据工业企业数据库整理了2001年-2009年的企业生产率数据以及企业所在城市的邮编(数据见下图)。请问怎么根据邮编计算每个城市的90%分位点企业生产率、10%分位点企业生产率以及城市的要素错配。希望老师能够提供Stata命令。

答案2:

我理解提问者是想在每个邮编码内部计算企业生产率90%分位数和10%分位数,再把两者相除计算出资源错配程度。不太清楚需要使用哪个邮政编码变量,如果以yzbm1为准,Stata代码如下。

*每个邮编内生成生产率90%分位数

bysort yzbm1: egen tfp90 = pctile(tfp), p(90)

*每个邮编内生成生产率10%分位数

bysort yzbm1: egen tfp10 = pctile(tfp), p(10)

*生成资源错配程度

gen misalloc = tfp90 / tfp10

问题3:我最近一直在学习PSM的方法,顺带模仿别人论文以验证自己所做的结果。我在学习中遇到了以下两个问题:

(1)我当前的实验组只有67家,而待匹配的控制组有2300多家,我把所有的匹配方法都试了一遍发现,除非用1:1不放回匹配,得到跟实验组同等数量的控制组,如果换成1:1可放回、核匹配、半径匹配等方法,得到匹配后的实验组有65个,但是控制组有1700多家,这样实验组和控制组样本差别太大了,是不是即使后面做出很显著的结果也不可靠,会不会被怀疑是样本差异大而造成的显著结果呢?

(2)为了解决上面那个疑问,我又看到了一篇类似的文献,他采用1:3匹配,然后把重复的公司删除(见下图,文献名称为《审计报告新准则实施对审计质量的影响研究—基于2016年A+H股上市公司审计的准自然实验证据》)。但是我使用同样的方法试了一下,并没有找到重复的公司,我的疑问是这步是如何做出来的?

答案3:

(1)匹配结果是否可信,除了匹配方法的根本前提(给定可观测特征,个体进入处理组还是控制组与潜在因变量结果无关)在多大程度上成立以外,还取决于匹配之后处理组与控制组在各特征上是否足够相似。也就是说,处理组与控制组在样本量上的差异不是判断匹配质量好坏的标准。例如,如果处理组和控制组都是60多个样本,但某个控制变量在处理组中的均值与其在控制组中的均值差异过大,匹配效果就是不好的;如果处理组60多个样本且控制组有一千多样本,但只要所有控制变量特征在两组中的统计指标(比如均值)足够相似,匹配效果就是好的——这与两组样本量的差异没有必然联系。

(2)单凭文中描述,无法完全确定原作者是如何处理样本的(比如,对于重复出现的公司,是全部删除,还是只保留一家?)。但是,重申我的观点,处理组和控制组变量匹配好即可,是否出现个体重复并不关键,无需特别关注和处理。

问题4:假如有一个国家50个省级地区1994-2017年的投资环境方面的排名面板数据,排名数据具体包括15个子指标如行政风险、经济风险、治安风险、财政潜力、基础设施潜力、旅游潜力等的排名方面的面板数据,如何分析这些排名数据呢?比如,我想利用旅游潜力指标,分析哪些因素影响这个国家的旅游潜力等信息,如何利用这个排名数据或这些个排名数据结合地区层面的开放度、经济发展水平、FDI流入水平等普通的宏观经济指标,展开有效的计量分析呢?之前我咨询过几位老师,有老师建议用panel ordered logit或probit ,我还是没弄明白。

答案4:

如果你不确定研究什么题目,我个人建议首先对手中的样本进行彻底的统计描述。比如看一看15个子指标在时间维度上、空间维度上的均值或变化,看看能否从其中发现一些值得研究的现象乃至规律。

如果你确定研究旅游潜力指标的决定因素,首先要明确相关理论逻辑——理论上,旅游潜力是由什么因素决定的?你能否建立一个理论分析框架或借助文献搭建好的框架?理论逻辑明确后,你才能知道自变量有哪一些。至于计量模型,是后面才需要考虑的问题。因为潜力指标是排名数据,所以可以用panel ordered logit或probit模型(Stata命令为xtologit或xtoprobit)。

问题5:请问怎样将表1中有codes和公司名称的截面数据填充到表2中成为面板数据?

表1

表2

答案5:

首先,清理原始数据,如下图所示:

然后将数据导入Stata,使用命令reshape long x ,i(codes) j(year)将数据转换成面板数据,最后将生成的x变量命名为“公司名称”(rename x 公司名称)。


学术指导:张晓峒老师 

本期解答人:杨芳 中关村大街 

编辑:杨芳 知我者 田人合

统筹:芋头 易仰楠

技术:知我者  

往期回顾

互助问答第17期:面板模型与中介调节效应

互助问答第16期:outreg2输出Word、Excel的使用

互助问答第15期:似不相关回归模型(SUR)与联立方程相关的Stata操作

关于我们

如果您在计量学习和实证研究中遇到问题,请及时发到邮箱szlw58@126.com,专业委员会有30名编辑都会看,您的问题会得到及时关注!请您将问题描述清楚,任何有助于把问题描述清楚的细节都能使我们更方便地回答您的问题,提问细则参见:实证研究互助平台最新通知


如果您想成为问题解答者,在帮助他人过程中巩固自己的知识,请发邮件至szlw58@126.com(优先)或给本公众号留言或加微信793481976给群主留言,我们诚挚欢迎热心的学者和学生。具体招募信息请参见:实证研究互助平台志愿者团队招募公告


鲜活的事例更有助于提高您的研究水平,呆板的教科书让人生厌。如果您喜欢,请提出您的问题,也请转发推广


(版权声明:本文作者拥有完整版权,所有原创文章最早发表于“论文导向计量实证群”,欢迎转发分享,全文转载请注明出处,引用及合作请留言,任何侵权行为将面临追责)

: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存