泊松回归与负二元回归什么鬼?
欢迎投稿(荐稿)计量经济圈,计量相关都行
邮箱:econometrics666@sina.cn
编辑:计量经济圈;注出处:中美社工合作社
墨西哥海湾雄蟹所追逐的雌蟹之美:
泊松回归与负二元回归
美丽的墨西哥海湾,东起美国佛罗里达半岛和古巴岛,西至墨西哥,气候温润潮湿。每年春夏,是马蹄蟹繁殖季节,成群栖息于墨西哥湾的雌蟹和雄蟹匍匐于松软的海滩上,产卵受精,繁育后代。
马蹄蟹,又称鲎(读“后”),像虾又像蟹,有两个甲壳,是一类与三叶虫 (现在只有化石)一样古老的动物。雌雄一旦结为夫妻,便形影不离,肥大的雌蟹常驮着瘦小的丈夫蹒跚而行。此时捉到一只蟹,提起来便是一对,故马蹄蟹享有“海底鸳鸯”之美称。
蟹通常驮着雄蟹在沙滩上掘洞产卵,在这对夫妻边上还聚集着一些雄蟹,称为“卫星蟹”。有些雌蟹美貌惊艳,堪称蟹界的“绝代美人”,常招来很多卫星蟹聚于周边,而有些雌蟹则“貌寝”(明朝魏禧《大铁椎传》语,意为丑陋),形单影只,除了这对夫妻外再无其它雄蟹光顾。
公元20世纪某年,有好事者搜集了173只雌蟹的数据,发现其中有四只最为惊艳,周边分别聚集了11、12、14、15只雄蟹;大部分的雌蟹没有或仅有寥寥无几的雄蟹(62只没有任何雄蟹;16只仅有一只雄蟹)。这些卫星蟹个数的分步,如下面的直方图所示:
那么,为什么有的雌蟹如此受宠,而有的则如此孤寂呢?
雄蟹眼中的雌蟹之美是什么?
为了回答这个问题,那位好事者又采集了每一雌蟹的四个数据:
(1)颜色(1=浅棕色,2=中棕色,3=暗棕色,4=暗色);
(2)甲壳的磨损状况(1=双甲壳无任何磨损,2=有一个甲壳磨损或破裂,3=双甲壳均磨损或破裂);
(3)甲壳的宽度(用厘米计量,平均数为26.299厘米,最窄的雌蟹为21厘米,最宽的雌蟹为33.5厘米);
(4)体重(用克计量,平均数为2,437克,最小的为1,200克,最大的为5,200克)。
要探究雄蟹眼中的雌蟹之美,我们可以仿照当年Galton研究子女身高与父母身高之关系的方法,做一个多元回归分析:把卫星蟹的个数当作因变量,把以上四个变量当作自变量。
但是,在这里,我们遇到了回归模型的假设遭到违背的问题。任何多元回归,都假设因变量服从正态分布,即卫星蟹的分布应似钟形曲线(两边对称)而不出现偏态,这显然于上面所看到的直方图不符。
为了应对这一回归假设的违背,我们的方法从简单变到了复杂,这个方法就是研究“偏态因变量”的泊松回归(Poisson regression)或负二元回归(negative binomial regression)。这两个回归模型都属重要的广义线性模型,它们的区别在于:泊松回归要求因变量的均值等于它的方差,而负二元回归则允许因变量的方差大于均值。
具体到马蹄蟹的美学研究,我们用负二元回归更为精确,因为在这个数据中,卫星蟹的方差为9.91,均值为2.92。
用负二元回归做分析后,我们发现前两个自变量对卫星蟹个数都没有解释意义(即不存在统计意义上的显著性),而真正让雄蟹趋之若鹜的是雌蟹的宽度和重量:在其它因素控制以后,雌蟹的宽度每增长一厘米将导致围绕周边的雄蟹个数增长18% (p<.001, 统计意义上非常显著);同理,在其它因素控制以后,雌蟹的重量每增长10克将导致围绕周边的雄蟹个数增长1% (p<.001, 统计意义上非常显著)。
追求美,特别是追求异性之美,是人类和大自然的普遍规律。Chasing Beauty Is Universal! 但是,对美的定义,却因人而异,也因大自然万物的种类而异。以上的例子说明,雄蟹并不在乎雌蟹的色泽和甲壳的光泽,它们眼中的美是体态姣圆、丰润、和肥硕。
这个例子还说明,泊松回归或负二元回归并不复杂,它只是多元回归的衍生。当研究的因变量出现偏态,我们就需要用到这类特殊的回归模型。这类模型在所有统计软件包中都能找到。关于本例的原始数据和部分分析,见Alan Agresti (2013) Categorical Data Analysis, Wiley 公司出版。
似曾相识燕归来
厘清几个重要统计学概念
随着现代统计方法的引进,以及在世界一流杂志(如SSCI期刊)发表文章的压力和要求,国内社会行为科学研究者越来越多地运用定量方法写文章、做分析,真可谓“沉舟侧畔千帆过,病树前头万木春”,形势一派大好。
但是在定量分析欣欣向荣之际,也有令人担忧的问题。比如,重要词汇翻译不准确,重要概念误用和滥用…… 这些问题亟需引起同行和学人们的注意。
我曾经与国内的年轻学子讨论“内生性”问题,兜了很大一个圈子后,才意识到同学们将“自相关”理解成了“内生性”— 这是两个截然无关的概念。又如,讲到动态研究和追踪调查,国内的老师和同学都会说到“面板数据”,这是一个很糟糕的翻译。Panel 有“面”和“板”的意思,但在这儿是指“一组人”, Panel Data是指对一组人跟踪后产生的数据,所以应当翻译成“追踪数据”。
用这类数据所做的分析应当称为“追踪研究”Panel Study或“动态研究”(Longitudinal Research)。“面板数据”的翻译不仅让人无法理解它是什么数据(有谁能告诉我,数据还有“面板型”?),而且正好与它所对立的“横截面数据”(Cross-sectional Data)近似,把两类有重要差异的研究搞混了。
横看成岭侧成峰,远近高低各不同。某些重要概念“似曾相识”,但在定义上却有重要区别。这些区别,需要引起我们的高度关注和重视。今天,我就掇其要,厘清几个容易搞混的概念。
“内生性问题”(Endogeneity) 与“自相关问题”(Autocorrelation)。所有回归模型都假设回归的残差项与回归分析所用的自变量独立而不相关,这一假设称为自变量的“外生性”(Exogeneity)。这一假设的违背,被称作“内生性问题”,它的产生源自于重要解释变量(也称控制变量)的缺省或丢失,它是我们做因果分析时面临的“选择性偏差” (Selection Bias )问题,而与“自相关”毫无关系。
自相关问题,是指回归分析关于“独立观察个体”(Independent Observations) 的假设遭到违背,它的出现,通常源于多层次数据、时间序列数据、或追踪数据。以多层次数据为例,我们把小学生分成不同的班级,这样一个分组会产生一种“群组效应”(Clustering Effects),因为同班级的学生由同一个老师教出,学生们下课以后又互相学习,学习成绩(研究的因变量)上会高度相似。
这种相似,被称为自相关。所谓自相关或群组效应,是指部分的数据成为多余— 我们每班有20个学生,但是由于自相关,我们实际上并没有20项独一无二的信息量。又如,在时间序列中,今年的自变量与去年或明年高度相关、与前年或后年的自变量也相关但在程度上“衰减”,这样一种由“时间自相关” (Temporal Autocorrelation )所产生的问题【参数估算的无偏性(Unbiasedness)及有效性 (Efficiency)遭挫】需要研究者用新的、“最小二乘法”之外的方法来解决。
“协方差”(Covariance) 与“异方差”(Heteroskedasticity)。这也是两个截然不同的概念。前者是测量一个变量如何随着另一个变量变化而变化。在公式上,协方差与方差很接近,我们或可把方差看作是协方差的特例,即某个变量是如何随自身变化而变化的。
协方差与相关系数很接近,测量的是一回事:相关系数是两个标准化后的变量所形成的协方差,但是它比没有标准化的协方差要好,因为它永远居于-1 和 +1 之间,以它的绝对值靠近1 表示高度相关。异方差是一个回归假设遭违背的问题。所有回归模型,都假设因变量的方差在不同群组之间相同,称为“同方差”(Homoskedasticity) 假设。
当这一假设遭违背(比如,高收入的群组在储蓄上不仅比低收入的群组在平均数上要高,他们的储蓄率方差也要高很多),“最小二乘法”就不行了,研究者要采取补救措施做分析,通常采用“权重最小二乘法”(Weighted Least Squares)。
“标准差”(Standard Deviation) 与“标准误”(Standard Error)。 这是两个有关联但本质上完全不同的概念。标准差是方差的平方根,用于测量某个变量的变异度,与方差、全距、平方和的功能类似。标准误是源自于“中心极限定理”(Central Limit Theorem) 的一个重要概念,指的是某个统计量(如平均数,某个回归系数)的“抽样分布”(Sampling Distribution) 的标准差。
它是一个理论值,因为在现实生活中谁也无法观察到抽样分布。通常我们用数学方法推导出计算标准误的公式。标准误是我们检验统计假设、测量某个统计参数在总体中的显著性的最重要的统计量。
“阶梯线性模型”(Hierarchical Linear Model)与“阶梯回归”(Hierarchical Regression)。这也是两个完全不同的概念。前者是多层次分析(即需要解决自相关问题)的一种;后者是指在回归分析时,研究者将自变量分为不同的群组依次加入,以评估自变量的相对重要性。
“因变量与自变量高度相关”与“自变量之间的高度相关”。这也是两种完全不同的情形:前者是好事—当我们回归模型的因变量与某个自变量高度相关,它说明我们找到了最重要的解释变量;后者是坏事—当自变量两两之间高度相关,它说明解释变量之间存在共线性(Multicollinearity) ,需要研究者采取补救措施– 通常他们将高度相关的解释变量合在一起称作“量纲”(Scale),而量纲的开发需要证明它们具有计量心理学意义上的效度(Validity)和信度(Reliability)。
统计学产自数学,又主要由国外学者开发,经过几次转折,它们的重要术语和概念有被误解的可能。这里,请注意概念使用的精确性。须知,重要概念的误用和滥用,不仅不会给文稿加分,而且会“弄巧成拙”,将本来可能发表的文章自毙。
更重要的是,它们的“以讹传讹”,将给我们的研究带来灾难。附带说一句,本篇讨论的几组概念,是我和我的同事在新博士求职演讲中对他们的保留问题;如果他们答错了,他们本轮求职的第一关就没通过。此时,真可用到“似曾相识燕归来”一诗的前一句了:“无可奈何花落去”……
点击下图,有惊喜
写在后面:各位圈友,咱们的计量经济圈社群里面资料和计量咨询都很多,希望大家能够积极加入咱们这个大家庭(戳这里)。之后我们会逐步邀请社群里的圈友再直接建立微信群与圈圈对话,进去之后一定要看“群公告”,不然接收不了群息。
帮点一下下面的小广告,表示感谢!!!