有限混合模型FMM,异质性分组分析的新筹码
可有偿投稿计量经济圈,计量相关则可
邮箱:econometrics666@sina.cn
所有计量经济圈方法论丛的do文件都放在社群里,可以直接取出使用运行,也欢迎到研究小组交流访问.
计量经济圈推荐
今天,我们微观计量研究小组给计量经济圈的圈友引荐“有限混合模型”(finite mixture model)。我们经常做异质性分析,比如针对不同的年龄段,不同收入阶层或者不同的地域等,也就是所谓的分组回归然后来探讨各个组别之间为什么不同。这实际上暗含了,我们各组都有自己的概率分布,而这个总体的分布是通过各分组的概率分布联合起来的。
人与人之间本身就是不同的,有些人比较喜欢冒险而有的人比较喜欢平稳的生活,有的人做事情比较匆忙而有的人做事比较缓慢。如果我们找不到一个划分各组别的依据,比如,个体的冒险倾向或者个体的储蓄倾向或者个体患病的倾向,那我们如何去区分高风险倾向个体与低风险倾向个体呢?就是说,有时候我们对于那些具有异质性个体所展现的异质性观测不到或不太了解,我们若只用一个概率分布函数去逼近样本数据就会损失效率和出现偏误,此时我们不妨使用fmm这个可以将几个分概率密度"组装"起来的弹性模型。看一段原话:“Finite mixture models (FMMs) are used to classify observations, to adjust for clustering, and to model unobserved heterogeneity.”
有限混合模型已经广泛应用于如下研究中:互联网流量聚类等机器学习,医疗保险的需求,疾病风险等健康经济学,顾客感知风险等保险经济学等。计数模型和质点分布的混合模型经常用于零点膨胀和截断的计数结果变量。提供参考文献:“A mixture of regression models can be used to model phenomena such as clustering of Internet traffic (Jorgensen 2004), demand for medical care (Deb and Trivedi 1997), disease risk (Schlattmann, Dietz, and Bohning ¨ 1996), and perceived consumer risk (Wedel and DeSarbo 1993). A mixture of a count model and a degenerate point mass distribution is often used for modeling zero-inflated and truncated count outcomes; see, for example, Jones et al. (2013, chap. 11). McLachlan and Peel (2000) and Fruhwirth-Schnatter ¨ (2006) provide a comprehensive treatment of finite mixture modeling.”
注意:以下所引荐的fmm的程序执行需要Stata 15, 如果没有Stata 15可直接在社群下载使用。
有限混合模型fmm就像bootstrap和bayes,它是作为前缀放在回归模型的前面。以下这些回归模型都可以使用fmm进行分组,从而能以不同概率密度进行逼近:线性回归模型、二值响应模型、有序响应模型、多值响应模型、广义线性模型、分数响应模型和生存模型。
对于具体的fmm在各种不同模型里的用法,我们举8个示例,来展示fmm程序使用规则。从以下这些标准回归程序中,我们能够知道如下几点关于fmm的使用法则。第一,fmm后面的数字代表了对这个因变量y进行分组估计的数目,比如2就代表我们需要对y分2组进行估计。第二,我们能够使用lcinvariant(errvar)或者lcinvariant(coef)来限定各组回归里y的方差相等或解释变量系数相等。第三,我们能够使用lcprob(z1 z2)来预测我们这个观察值属于某个小组的概率,其中z1和z2是指定的协变量。
1.针对reg,普通线性回归模型的有限混合模型。
2.针对betareg,贝塔分布回归模型的有限混合模型。
3.针对cloglog,离散时间Cloglog模型的有限混合模型。
4.针对glm,广义线性回归模型的有限混合模型。
5.针对intreg,区间线性回归模型的有限混合模型。
6.针对ivregress,工具变量线性回归模型的有限混合模型。
7.针对nbreg,负二项回归模型的有限混合模型。
8.针对pointmass,零点膨胀泊松回归模型的有限混合模型
上面这8个示例有一个共同的特征,即这些分组回归模型的自变量都是一样的。在第一个组里,我们用某些自变量去做回归,然后用相同的自变量也去对第二组的数据进行回归。然而,这显得fmm不那么具有灵活性,毕竟我们限定这两组的回归协变量竟然完全相同,这与咱们的经济理论和直觉都有有偏离。
我们看看下面这个实际生活中的例子。一个机动车保险公司想要针对不同风险程度的个体设置不同的保险费率,为此,它首先需要区别开高事故群体与低事故群体。accident:一个个体在一年中发生交通事故的次数,age:该个体的年龄,metro:该个体是否生活在大城市,male:该个体的性别。我们用泊松概率密度去预测一个个体发生交通事故的概率,然后据此,我们来区分开高风险事故群体与低风险事故群体。
下面这个程序就是用相同的协变量去预测个体发生交通事故的数量。
但是,我们认为高风险事故群体与低风险事故群体发生交通事故次数的受影响因素是不一样的。因此,我们采用了不同的协变量来对这二组群体进行回归——在第二组里面,我们少放了“是否居住在大城市”的虚拟变量。从而,我们允许二个组别回归中的协变量出现差异,用不同的协变量来预测不同组别的结果变量。
除了协变量可以在不同组别进行分别设置之外,fmm还允许我们在不同组别之间用不同的概率密度分布去逼近数据集里面的真实分布。下面是用泊松分布去预测高风险群体发生交通事故次数,而用负二项分布去预测低风险群体发生交通事故的次数。这样就给我们赋予了极大的弹性,让fmm能够更好地运用于经济研究实践中。
现在,我们来举一个可以直接操作的简单例子,目的是看看fmm方法是怎样逼近一个由三组正态分布构成的总分布的。下面的柱状图显示我们的这个变量thickness是有些右偏的,所以从总体的角度而言不符合正态分布。不过,当我们把他分成不同的子区间,我们发现这些子区间符合正态分布的假设。因此,我们用fmm有限混合模型去分组逼近thickness的真实分布。
fmm 3: regress thickness //把thickness划分成三个组别分别对常数进行回归
下面这个iteration过程是在寻找“初始值”,有限混合模型寻找初始值显得有些麻烦,不过程序给出了几个选择来发现初始值。
下面这个表格是估计的该变量thickness属于组一、组二和组三的系数(难于解释),这个经过如下方程的转换就可以得到这个变量属于各组的边际概率。
下面我们用estat lcprob来获得该变量thickness属于某个组别的边际概率。从下表我们可以看出,变量thickness属于组3的边际概率最大,其次是属于组2的概率。就数量关系而言,thickness属于组3的概率是他属于组1的概率的2倍多,这与咱们的柱状分布图实际上是有些偏离的。也可以这么说,有44%的观测值属于组3,37%的观测值属于组2,19%的观测值属于组1。
我们列出前十个thickness的观测值分别属于组1、组2和组3的概率。实际上,我们总共有485个观测值,我们可以全部列出来看看那些观测值属于这些不同的小组。不过,我们看到前面5个观测值竟然全部以高于90%的概率属于第3组,这种情况有些不符合现实情况,因为这表明我们用thickness中最小的观测值反而更容易出现在第3组(即最右边那个区间段),因此我们用glm家族的lognormal连接函数重新去做一遍。
fmm 3: glm thickness, family(lognormal) //现在我们使用lognormal回归,因为上面的回归方差过大
下面这个图形中,我们用绿色去标注用glm拟合的曲线,而红色去标注reg拟合的曲线。通过比较柱状图与两条曲线,我们发现绿色的曲线拟合的更好。
我们列出前十个thickness的观测值分别属于组1、组2和组3的概率。现在thickness中的最小值都以极大概率属于第一组,与我们的柱状图所传达的信息相符合。而且thickness属于组1与组3的概率相差就小很多(注:组3是一个比较长的区间但比较扁平,而组1是一个比较短的区间但比较陡峭),这与柱状图所示的信息是更加符合的。
我们现在列举一个带有协变量且有经济学意义的示例。我们想要预测这个人
这是医疗支出的柱状图,从图里我们觉得他好像只服从一个正太分布。当我们需要用一系列控制变量去预测一个个体的医疗支出时,我们可能发现存在三组个体:低医疗支出个体、平均医疗支出个体和高医疗支出个体。
当我们分3组来对医疗支出进行回归fmm 3: regress lmedexp income c.age##c.age totchr i.sex 。回归的结果与前面的示例样式是相仿的,因此我们不再在这里进行展示。
下面这张表格展示的是各组间的边际均值,我们发现低医疗支出群体属于组1,平均医疗支出群体属于组2,高医疗支出群体属于组3。除此之外,我们发现组1和组2两组的均值实际上相差不大,因此我们接下来考虑把把lmedexp划分成2组和直接合并成1组分别进行回归。
我们下表的fmm1、fmm2和fmm3分别代表把lmedexp合并成1组、划分成2组和三组的回归结果。从AIC和BIC信息准则来看,我们会选择fmm3这个模型。
fmm3的图形拟合结果与原来的lmedexp柱状图进行对比,我们发现整体拟合效果还是挺好的。
还有其他很多示例,我们就不再一一展开讲述了。最后,我们实际上是说了一个关于不同群体具有异质性的问题,从而我们使用不同的概率密度分布函数和协变量去进行对应回归。在经济学中的应用天地广阔,只要存在分组的可能,不管这个分组变量能不能够被观测到,我们都可以使用fmm来进行latent class regression。
Econometric applications of finite mixture models include the seminal work of Heckman and Singer (1984), of Wedel et al. (1993) to marketing data and El-Gamal and Grether (1995) to data from experiments in decision making under uncertainty
微观计量研究小组各种方法论丛的do file都放在咱们的社群,可以直接到社群提取使用。
计量经济圈是中国计量第一大社区,我们致力于推动中国计量理论和实证技能的提升,圈子以海内外高校研究生和教师为主。计量经济圈六多精神:计量资料多,社会科学数据多,科研牛人多,名校人物多,热情互助多,前沿趋势多。如果你热爱计量并希望长见识,那欢迎你加入到咱们这个大家庭(戳这里),要不然你只能去其他那些Open access圈子了。注意:进去之后一定要看小鹅社群“群公告”,不然接收不了群息,也不知道怎么进入咱们独一无二的微信群和QQ群。
进去之后就能够看见这个群公告了