当自变量为哑变量时,你的实证操作空间有多大?
在大部分的实证研究中,我们常常去关注两个变量之间的相关性关系,或者A对B的影响因果关系以及这种因果关系在不同场景中的变化,但实际上,这些关系的分析和挖掘都建立在我们准确掌握因变量和自变量的统计分布规律的基础之上。
当然,考察这种相互影响关系必定会涉及到因变量和自变量的分布情况,也就是变量的分布是连续性随机变量,还是具有明显特征的离散型变量,这都是我们在实证分析中都应该加以关注的焦点。从日常的实证研究来讲,由于我们常常探讨因果影响关系,所以自变量和因变量往往是我们关注的焦点,这也是影响我们在实证研究中选择方法的重要因素。
譬如:当因变量或自变量的数值分布是呈现离散型的哑变量(0-1)时,我们实证分析操作所采用的方法会具有明显的特殊性。今天,我们将聚焦自变量为哑变量(0-1)这个特殊情况,来总结一下实证研究中的操作技巧和推进空间,以充实咱们的实证检验,提高实证分析的严谨性和完整性。
大家都知道,哑变量也被称为虚拟变量,它的数值分布范围为1和0两者,即要么是1,否则为0,是一种非无即有的逻辑关系。在实证研究中,如果咱们的自变量为哑变量(0-1),我们后续实证分析的设计空间有多大?具体的实证操作思路有哪些?根据自己的研究经验,以及文献阅读学习和积累,我认为在一篇实证研究的文章里,如果自变量为哑变量,我们可以从下面方向入手来设计实证分析的操作思路(或选择其一即可):
1、样本均值比较。通过利用自变量为哑变量的条件,我们以此为基础进行分样本的均值比较,通过比较开解读和挖掘不同样本中不同变量或经济现象的差异性,并从中获得有价值的信息。不同样本中某变量的均值比较,其中均值比较:ttest var1,by(group)。
2、进行回归结果分析时,我们可以进行两类样本的比较。在解读主效应的实证结果时,我个人是比较自变量为哑变量的情况下的结果。这是因为,通过这个哑变量的系数我们可以比较两个样本分布下因变量的差异比较,而且还可以通过自变量的系数可以直观观察到一个单位的自变量变化可以改变因变量数值多少,这就是所谓的计量结果的经济意义。譬如,当我们在考察政治关联对企业投资水平的影响时,如果此时政治关联的回归显著为0.233,这表明相对于没有建立政治关系的企业而言,有政治联系的企业投资水平会更高,而且整体而言,政治联系企业的投资水平要高于非政治联系企业的23.3%。显然,这类相似的实证结论更为直观,为我们解读和掌握相关信息提供了便利。
3、样本自选择考察:Heckman二阶段法的运用。Heckman两步法主要用于解决实证研究中所获得的数据不能代表研究总体而导致的样本选择问题。样本选择偏差既可能是由非随机抽样所导致的,也可能是由自选择问题所导致的。
方法一:Heckman 因变量控制变量, select (自变量哑变量 =工具变量其他影响因素-控制变量) twostep。
方法二:先在第一阶段中计算出除逆米尔斯比率IMR,再在第二阶段中将逆米尔斯比率imr作为控制变量,予以考察。基本步骤如下:步骤1: 通过运用probit模型计算影响所考察变量的哑变量(0-1)的影响因素(即“第一阶段”);步骤2: 在上述一步基础上,计算预测:predict w,xb;步骤3: 再次,计算生成:gen IMR=normalden(w)/normal(w);步骤4: 最后,将所生成的逆米尔斯比率IMR引入主要考察模型,并予以控制(即“第二阶段”)。
或者,将Heckman两步法解读为:
第一阶段,建立Probit选择模型。用以估计存在选择偏差变量发生的可能性,并计算逆米尔斯比率(Inverse Mills Ratio,简称IMR)。IMR的作用是为每一个样本计算出一个用于修正样本选择偏差的值。如果IMR大于0,表明样本存在选择性偏差,此时采用Heckman两步法选择模型估计是恰当的修正。第二阶段,利用选择性样本观测值,将第一阶段估计的IMR与其他变量一起放入第二阶段的回归模型中。自选择问题已经通过第一阶段的选择模型得以修正,并在第二阶段由IMR反映出来。
4、倾向得分匹配法PSM的运用。倾向得分匹配法是一种研究方法,它在研究某项治疗、政策、或者其他事件的影响因素上很常见。对于经济、金融学领域来说,比如需要研究某个劳动者接受某种高等教育对其收入的影响,或者比如研究某个企业运用了某项管理层激励措施以后对企业业绩的影响。
通俗地说,我们真正要做的是考虑,如果拿小明来说,小明读了研究生和小明没有读研究生,他的收入会差多少?可是小明已经读了研究生,我怎么才能估计出他要是不读研究生,他的收入会是多少呢?于是,我们引入“倾向得分匹配”这样一种研究方法。英文叫Propensity Score Matching。这种方法能让我们从一大堆没有读研究生的人群中(也就是我们的总体样本的一个子集),对每个人读研究生的概率进行估计,然后选出和小明具有非常相似的去读研究生的概率,可是没有去读的同学小刚——作为小明的对照,然后再来看他们的区别。
当样本中的每个研究生”小明“都找到了匹配的非研究生”小刚“,我们便能对这两组样本进行比较研究了。
1. 所以第一步,我们要对总体样本执行probit或者logit模型,然后估计出每一个观测对象读研究生的概率是多少。以probit模型为例,在stata中,执行以下命令:probit [dependent var] [independent var];其中,[dependent var]是一个0或1的二进制变量,1代表该对象读了研究生,否则是0。
2. 对每一个观测值,我们根据估计出来的probit模型,算出他读研究生的概率是多少。Stata中,执行如下命令:predict pscore, p;其中,pscore是定义的记录每个观测对象概率的变量名称。
3. 使用psmatch2命令,让Stata帮你对于每个读了研究生的观测对象,找出一个与之具有最接近的概率值的,可是没有读研究生的观测对象:psmatch2 [dependent var], pscore(pscore) noreplacement;其中,(pscore)是在第二步中生成的那个记录对象概率的变量,noreplacement是一个选项,使得任何读了研究生的观察对象的对照对象都具有唯一性,换言之,只能1对1匹配。
4. Stata会在你的数据中自动添加几个变量,其中_id是自动生成的每一个观测对象唯一的ID;_treated表示某个对象是否读了研究生,如果读了,_n表示的是他被匹配到的对照对象的_id;_pdif表示一组匹配了的观察对象他们概率值的差。
做好了这些,你就完成了一个最简单的1对1的倾向得分匹配。psmatch2还提供多种匹配方法,比如在一定的半径范围内的临近匹配、在一定概率阀值内的全部匹配等等。具体的可以在Stata中输入help psmatch2查看所有可用的选项。
需要注意的是,psmatch2会在每一轮匹配的时候重新刷新_ID,所以如果比如你需要对psmatch2加入if语句,进行多次循环匹配的话,需要在每一次结束的时候即使将match的结果使用你自己数据的ID导出到其他变量,否则所有本轮_ID以及_n的信息会在下一轮匹配中被清除,事后你将无法判断对照对象究竟为哪个。
最后,在考察哑变量问题,我们常常面临变量数值的分布限制性,为了提高数据处理的灵活性,我们还会通过一系列操作来实现或生成哑变量。譬如:如果原始的自变量不是哑变量,可以通过数值转化得到,如何将一连续变量生存其哑变量的命令,例:gen dmarket=1 if market>=8.94(其中, 8.94为中位数或均值);replace dmarket=0 if market<8.94。
为此,当自变量为哑变量(0-1)时,针对以上几种方法,你可以在实证论文撰写中引用一种方法,也可以根据实际情况运用多种。