其他
【研究方法】还用三步法?KHB方法:最新的中介分析检验方法
编者按:本期推送的是Kohler, Karlson和Holm于2011年发表在The Stata Journal的文章Comparing coefficients of nested nonlinear probability models上篇。以往的中介分析方法多用于线性回归模型,而由于测量尺度的问题,很多方法无法应用到非线性回归模型。这篇文章介绍了可以对非线性回归模型进行中介分析检验的KHB方法以及在stata中的具体操作。这一方法由karson, Holm和 Breen开发,不仅可用于一个自变量和一个中介变量的情况,而且适用于多个自变量、多个中介变量、多分类因变量等情况。
社会学家通常对通过比较嵌套线性回归模型的估计系数来分析的研究问题感兴趣。在这篇文章中,作者使用的一个例子是将总效果分解为直接效果和间接效果。在社会流动的研究中,社会学家分析了父母的职业地位如何影响其子女的职业地位。一般认为,父母职业地位的总体效应通过影响子女的受教育程度间接发挥作用,而更直接地作用则是通过继承及经济资本或社会资本。而政治学家试图弄清楚长期政党认同对投票决定的影响有多少是由短期问题和候选人取向所介导的。在主观幸福感研究中,经济学家一再提出这样一个问题:失业的负面影响在多大程度上可以用失业造成的收入损失来解释。在线性回归模型的背景下,对估计系数的比较——以及因此将总效应分解为直接效应和间接效应——是直接了当的。这一方法非常常见,常被用于广义线性模型。然而,比较嵌套的非线性概率模型并不像线性模型那样简单。在嵌套的非线性概率模型中,不受控制的(变量)系数和受控制的(变量)系数可以不同;加入的中介变量变量,无论是否与自变量相关,都会改变自变量的系数。针对交叉模型(ross-model)系数可比性问题,目前学者们已提出了几种解决方案,包括因变量标准化、使用平均局部效应、二元相应模型的分解法。然而,Karlson、Holm和Breen(2010)以及 Karlson和Holm(2011)提出的蒙特卡罗研究表明,Karlson、Holm和Breen 提出的KHB方法与以上方法一样好,甚至是更好。此外,KHB方法可以分解离散变量和连续变量的影响,可以扩展以适应平均偏影响,提供分析推导的统计检验,并且计算简单直观。事实上,KHB方法将线性模型的可分解性扩展到非线性概率模型。
KHB方法
KHB方法可以适用于多种情况,如:一个自变量和一个中介变量、多个自变量和多个中介变量;regression, logit, ologit, probit, oprobit, cloglog, slogit, scobit, rologit, clogit, mlogit, xtlogit或xtprobit等模型都可以使用,其他模型也可能输出结果,但可能是实验性的。KHB方法的命令是:Concomitant(varlist)指定控制变量不是中介变量,允许因子变量。Disentangle请求一个表,该表显示每个控制变量提供的完整模型(总效应)和简化模型(直接效应)之间的差异有多大。Summary请求所有自变量的分解情况。默认情况下,khb报告完整模型和简化模型的效果、它们的差异以及它们的标准误。通过Summary选项,khb还提供了一个表,显示混淆比率(confounding ratios)、由于混杂而减少的百分比和缩放因子(rescale factor)。
在这一部分,作者将通过教育社会学的例子展示KHB方法在stata中的具体操作。继Boudon(1974)之后,该领域的研究人员关注社会起源影响教育成就的两种方式,即“主要”和“次要”效应(“primary” and “secondary” effects)。在范例中,次要效应指的是直接效应,即社会出身对受教育程度和在校表现的影响;主要效应是间接效应,即社会出身和受教育程度之间的那部分关系是由于在校表现造成的。在应用程序中,作者使用了丹麦国家纵向调查(DLSY)的子数据。该数据包含了1896个于1954年出生的个体,这些人第一次接受采访是在七年级,从那时起一致被跟踪到2000年左右。其中包括大学毕业(univ)、父母社会地位(fses)和学术能力(abil)等信息,Fses和abil被标准化为零均值和单位方差。利用khb命令,将父母社会地位对大学毕业的总体影响分解为直接影响部分和间接影响部分。(一)基本应用:一个关键自变量和一个中介变量khb的语法需要四个元素:模型类型、因变量、被分解的变量(关键自变量)和中介变量。在示例中,因变量是大学毕业率(univ)。这个变量是二分类的,所以选择logit作为模型类型,尽管也可以选择probit或其他二进制响应模型。我们分解了父母社会地位(fses)对大学毕业(univ)的影响,使用学术能力(abil)作为中介。为了将关键变量与中介分离,语法需要两个管道符号||。除了这些必需的元素之外,该命令还具有concomitant()选项,它允许在完整模型和简化模型中添加受控变量。在例子中,使用这个选项来控制性别(boy)和完整家庭(intact)。
输出显示了简化(Reduced)模型的估计效果、完整(Full)模型的估计效果以及两者的估计差异(Diff)。对于指导性例子,作者把简化模型的估计效应称为总效应,把完整模型的估计效应称为直接效应,把估计的差异称为间接效应。我们发现,父母的社会地位会使完成大学学业的几率增加0.55。在控制学业能力的情况下,父母社会地位的影响降低到0.38,留下了0.16的间接影响。
KHB方法确保在相同的尺度上测量出系数(因此不受前面描述的尺度识别问题的影响)。然而,logit系数的大小通常很难解释,因为它们是用“任意”的尺度来衡量的。这同样适用于对总体、直接和间接影响的解释。Karlson, Holm和 Breen(2010)提出了混杂比和混杂百分比来克服这些问题。两种测量都可以很容易地从标准输出khb计算;但是,summary选项直接提供信息。在下面的命令中,使用summary和notable来节省空间:
(二)比较平均局部效应(average partial effects) 平均部分效应经常用于报告logit和probit模型的效应,因为它们在概率尺度上的自然解释。然而,Karlson, Holm和Breen(2010)的研究表明,在实际应用中遇到的一系列场景中,简单地比较有或没有混杂因子模型的平均部分效应可能会失真。因此,平均部分效应可能不适用于效应的分解。应用KHB方法来平均部分效应解决了这个问题。这是该方法的吸引力之一,因为平均部分效应比logit和probit 模型的估计系数更具可解释性。因此 khb有ape 选项,它要求对平均部分效应应用KHB方法:
平均而言,父亲的社会经济地位的标准差变化会使年轻人完成大学学业的概率增加3.9个百分点。在对学术能力进行控制后,平均增幅降至2.7个百分点。父母社会地位的提高会导致更高的学术能力,进而转化为更高的1.1个百分点的大学毕业概率。尽管估计表中显示的值可能更容易解释,但汇总表中的混杂比和混杂百分比始终等于根据回归系数确定的混杂比和混杂百分比。
(三)多个中介变量,理清每个中介变量的贡献如果使用了不止一个中介变量,那么问题就来了:哪一个中介变量的贡献最大。这时,可以使用disentangle选项回答这个问题。该选项请求一个额外的表,该表分别显示每个中介的贡献。在下面的例子中,作者将abil、intact和boy作为中介变量,将disentangle与summary和notable组合起来:
作为其通用性的一个副作用,该程序不会为任何可能赤岸的情况提供合理的错误消息。用户应该意识到,如果估计完整模型和简化模型的中间步骤返回错误,khb不能提供任何输出。此外,khb继承了执行这些中间步骤时出现的所有问题。因此,研究这些中间步骤是明智的。KHB提供了两种方法:verbose选项显示了在评估完整和简化模型的中间步骤中产生的输出。如果khb返回不清楚的错误消息,并检测诸如高分辨力或完美的多重共线性等问题,这是有帮助的。keep选项存储(3)的残差。这对希望对简化模型进行特定诊断的用户很有帮助。KHB方法解决了嵌套非线性回归模型之间比较效果的一般问题,因此它将在许多应用中有用。该方法可以在非线性模型的效应差异解释和线性模型的解释之间进行完全的类比。
文献来源:Kohler, U., Karlson, KB & Holm, A. Comparing coefficients of nested nonlinear probability models. The Stata Journal, 2011, 11(3):420-438.
本文转载自微信公众号“社论前沿”。免责申明:本文仅用于学术交流,版权归原作者和原发刊所有,转载请注明出处。如果我们的行为侵犯了您的权益,请及时联系我们,我们将会妥善处理该部分内容。
欢迎关注