线性回归能玩多变量,逻辑回归当然也能! | 协和八
※说人话的统计学※
敬告各位读者:本专栏上集(2017年10月13日)推送《逻辑回归是否靠谱,你懂得如何裁判吗?》标题有失严谨,与文章实际内容存在偏差,现更正为”逻辑回归的统计检验,原来招数辣么多?”,并在今日二版重新推送。特此声明,并向读者致以诚挚的歉意。
在过去几周里,我们用三篇文章搭起了逻辑回归的基本框架,你还记得多少?
《你在,或者不在,需要逻辑回归来算》指出了当因变量为二分类变量时,线性回归不再适用,但是施加一个小小的变换(不翻看老文章,你能写出这个变换的数学表示吗?)以后,我们就得到了逻辑回归这个新工具。
《逻辑回归的袅娜曲线,你是否会过目难忘?》则详细剖析了逻辑回归背后的数学模型,以及其中的回归系数的含义。在此基础上,我们还讨论了如何用极大似然估计,确定最符合数据的回归系数。
《逻辑回归的统计检验,原来招数辣么多?》(见今日二版推送)讲的则是如何对拟合逻辑回归模型后得到的回归系数进行统计推断,用Wald检验或者似然比检验得到我们关心的显著性(p值)等指标。
有了这个基本框架,逻辑回归差不多就算是学到手了。不过也别急着出师——你也许会注意到,在前面三集里,我们集中讨论的都是逻辑回归里最简单的、只有一个自变量时的情形,这当然是不够用的。今天我们就来讲讲,多个自变量的逻辑回归怎么做。
既然我们已经学过多重线性回归,那么我们是否可以利用已经掌握的知识,让多重逻辑回归掌握起来要容易一些?的确如此。我们不妨先从根本出发,看看两者背后的统计学模型究竟有什么异同。
回顾一下,逻辑回归模型长这个样子
其中,p是二分类因变量(用0或1表示)取1的概率。对比一下,多个自变量的线性回归模型则是
最明显的相同之处,自然就是两者在等式右边都有一组k个自变量的线性组合
其一,等号左边,逻辑回归模型是
其二,线性回归模型的右边还拖了个正态分布的随机误差𝜀,这个我们也已经知道,是由于模型认为实际值由于随机因素会围绕预测值上下波动。为什么逻辑回归没有呢?难道逻辑回归没有随机误差?非也非也。逻辑回归中的随机性,其实已经藏在了概率p里面——由于p在0和1之间,因此y的取值总是不确定的(逻辑回归里p无法正好取到0或1,想想看为什么?)。虽然y的取值根据模型的预测,有一定的趋势(p接近1时y更可能取1,反之则更可能取0),但总不会是板上钉钉的事儿。这就是在逻辑回归里随机误差的表现形式。本质上说,其根源和上一个不同点一样,还是源于因变量的形式。
回到两者的相同点上来,不论是逻辑回归还是线性回归,多个自变量的共同作用
如果你已经有些生疏了,我们不妨一起回想一下,在《自变量不止一个,线性回归该怎么做?》里,我们研究过子女身高与子女性别和父母平均身高之间的关系,并得到了这样一个线性回归模型:
以父母平均身高的回归系数0.395为例,它的含义是,在其他自变量(这里仅为子女性别)保持不变时,父母平均身高每增长1个单位,子女身高平均来说会增长0.395个单位。子女性别(男孩记为1)的回归系数的含义也类似,同样是在父母平均身高保持不变时,男、女孩之间的平均身高差。
多重逻辑回归的系数解读也要遵循相似的法则。我们来看一个具体的例子。前两集我们研究过蓝精灵王国在两位候选人聪聪和乐乐之间的选举。通过一个单变量逻辑回归模型,我们发现,教育程度越高,支持聪聪的概率越大。得到了这个初步结论以后,我们进一步思考,还有没有其他因素会影响蓝精灵选民的决策?
你意识到,两位镇长候选人聪聪和乐乐来自不同的村落,聪聪是地道的海边村村民,而乐乐则是山上村的代表。村里村外的选民对他们的熟悉程度自然不一样。地理位置是否也会影响蓝精灵选民的决策?在已经知道教育程度是一个重要因素的情况下,我们就要使用多重逻辑回归模型,同时考虑教育程度和地理位置的影响了。
假设这次选举的选民一共来自三个村庄,除了海边村、山上村以外,还有一个林间村。和前面的性别一样,这也是个分类变量,但是有三个类别。这里有一个新问题:我们之前还没有碰到过多于两个类别的分类变量,那么我们到底应该在模型中如何表示它?
想一想,性别有两种类别(至少在我们之前的例子中如此),我们选定其中某一个(如男性)用1表示,另一个类别则是0。现在有了三个类别,一个变量恐怕就不够用了。我们不妨先用一个0/1变量,如果是海边村村民,则该变量为1,否则为0。有这个变量,我们可以把海边村和其他分开来,但是剩下的两个村子还是混在了一起。
再加一个0/1变量如何?为了区分余下的山上村和林间村,我们让这个变量对山上村的村民取1,对其他(也包括海边村)村民取0。这样,山上村和林间村也能区分开了。
那我们还需要再来一个林间村为1、其他为0的0/1变量吗?不需要!我们的目的是把地理位置的三个类别分开,而有了这两个变量以后,海边村的村民第一个变量取1、第二个变量取0,山上村的村民第一个变量取0、第二个变量取1,林间村的村民两个变量都取0。因为根据这两个变量的取值,我们就可以判断出任意一个选民的地理位置,所以如果再加上第三个变量就多余了。
更普遍来说,如果一个分类变量有n个类别,我们就需要用n-1个0/1变量(称为哑变量,dummy variables)来表示,所有这些哑变量的定义,都是当样本中的一个个体属于某一个类别时取1,不属于该类别时取0。既然哑变量比类别的数目少一个,那么一定就会剩下某一个类别没有自己专属的哑变量,此时属于这个类别的成员所有哑变量取值都为0(就像前面的林间村村民),而该类别被称为“参考类别”(reference category)。可能有些读者还会记得,在《自变量不止一个,线性回归该怎么做?》里介绍身高的例子时,我们也把女性(在性别变量中记为0)称为参考类别,其实这只是在仅有一个哑变量时的特殊情况。参考类别何以称为“参考”呢?这层意义接下来也会变得更清晰。
解决了地理位置的三个类别如何表示,现在让我们回到要研究的问题:地理位置和教育程度是否分别与选民的投票决策有相关性?为了一目了然,我们把地理位置的两个哑变量直接叫做海边村和山上村。这样一来,我们的多重逻辑回归模型就是下面这个样子了:
多重逻辑回归模型的拟合方法和单变量的情况一样,都是通过极大似然估计,这里我们就不再重复了。我们最关心的是,得到回归系数之后,应当如何解读其含义。假设我们得到了如下结果:
我们前面说过,多重逻辑回归系数的解读,在很多方面遵循着与多重线性回归相同的法则。首先,我们来关注教育程度的作用,在这里,我们不妨把地理位置的三种类别都列出来。
海边村村民:海边村=1,山上村=0,因此相应的模型是
山上村村民:海边村=0,山上村=1,因此相应的模型是
林间村村民:海边村=0,山上村=0,因此相应的模型是
比较三个类别,我们很容易发现,教育程度的系数一直保持不变。具体地说,教育程度每增加一个单位,支持聪聪概率的分对数
然而,与多重线性回归不同的是,对于我们真正关心的概率
图1 地理位置与教育程度对投票决策的影响。红色、蓝色、黑色曲线分别代表海边村、山上村、林间村的选民。
研究过了教育程度,现在我们再来审视地理位置。海边村、山上村这两个哑变量的回归系数代表了什么?我们依然要紧记,在多重回归中,要讨论回归系数的意义,就必须固定住其他变量的取值。再次回顾三类选民的逻辑回归模型:
(1)海边村村民:
(2)山上村村民:
(3)林间村村民:
在教育程度给定时,三个等式右边的部分都相同,如果我们把海边村的等式减去林间村的等式,等式右边的差值正好是哑变量海边村的回归系数3.06。换言之,海边村的回归系数代表了在教育程度相同时,该村村民与林间村村民支持聪聪的概率之分对数
因此,推广到一般情形,哑变量的回归系数代表了这个哑变量对应的类别与参考类别之间的差异,这也解释了为什么我们把没有自己专属哑变量的类别称为参考类别。我们可以视具体问题的需要选定参考类别,进而确定哑变量的取值。选择不同的参考类别,得到的回归模型在数学上都是等价的,但是回归系数的意义会有所不同。在生物医学研究中,如果有对照组,那么将其确定为参考类别往往是一种合理的选择,因为这样我们就能从回归系数上直接体现其他处理与对照组的区别了。
我们还可以借助图形来帮助理解。在上面的图1中,任意选定一个教育程度,代表海边村的红色曲线总在代表林间村的黑色曲线上方,而代表山上村的蓝色曲线总在下方,这与海边村哑变量的回归系数为正、山上村哑变量的回归系数为负是吻合的。
明确了回归系数的意义,我们还得会对其进行统计推断,找出哪些效应是显著的。在上一集《逻辑回归的统计检验,原来招数辣么多?》里,我们介绍过Wald检验和似然比检验两种方法,它们同样适用于多重逻辑回归。根据统计软件给出的Wald检验结果,哑变量海边村、哑变量山上村、教育程度的回归系数各自对应的p值是0.006,0.18和0.001,因此海边村(与林间村的差别)和教育程度两者有显著效应,而山上村(与林间村的差别)尚不显著。似然比检验给出的结果与此相似。
最后,既然我们之前曾经拟合过仅仅包含教育程度的逻辑回归模型(参见《逻辑回归的袅娜曲线,你是否会过目难忘?》),而今天在模型中加入了代表地理位置的两个哑变量,我们自然还想知道,地理位置作为一个整体,是不是一个与选举投票决策相关的重要因素?换言之,对于包含地理位置和教育程度的模型
我们希望考察,海边村和山上村这两个哑变量有没有必要。对于这个目的,Wald检验就无能为力了,因为它针对的是单个变量的回归系数是否显著不等于0。然而,似然比检验可以帮助我们回答这个问题。对于不包含地理位置的模型
它实际上就是上一个模型(i)中使得
原假设
备选假设:
统计软件得到的p值为0.003,因此我们可以拒绝原假设,从而认为地理位置的确是与支持哪位候选人的概率有显著关联的因素。
精选每日一题
更多精选题可回顾历史推送文末
题目来源:临床执业医师资格考试往届真题
本期主播:闲闲闲兔
作者:张之昊
编辑:鹅不食草
质控:异叶青兰
点击下方标题可阅读本系列任意文章
干货
第1章 高屋建瓴看统计
第2章 算术平均数与正态分布
第3章 t检验:两组平均数的比较
第4章 方差分析(ANOVA):多组平均数的比较
第5章 线性回归:统计建模初步
线性模型生病了,你懂得怎样诊断吗?
「脱离群众」的数据点,是「春风化雨」还是「秋风扫落叶」
第6章 广义线性模型:统计建模进阶
(未完,更新中)
你在 或者不在 需要逻辑回归来算
逻辑回归的袅娜曲线,你是否会过目难忘?
自检
番外篇
持续更新中……
未来的旅程,希望一直有你们的陪伴。
张之昊,
2010 年本科毕业于清华大学生命科学学院,获理学学士学位。2016 年 5 月在耶鲁大学跨院系神经科学项目获得哲学博士学位。在耶鲁期间,他利用功能核磁共振成像( fMRI )技术与计算建模研究人类经济决策的脑科学基础及其与肥胖症的联系。2014 年,他以第一作者身份在 Current Biology 杂志发表论文,阐述了肥胖女性在涉及食物时的学习能力缺陷,受到 BBC 新闻、CBC、洛杉矶时报、新华社、果壳网等世界知名媒体的广泛报道。他还曾任耶鲁大学 Statlab 数据咨询师( Data Consultant ),为耶鲁师生提供实验设计、数据分析及统计学软件的咨询服务。2016 年 8 月至今在伯克利加州大学( UC Berkeley )哈斯商学院市场营销系担任博士后研究学者( Postdoctoral Scholar )。
田菊,
2010 年本科毕业于清华大学工程物理系,获工学学士学位。2016 年 5 月在哈佛大学医学院神经科学项目获得哲学博士学位。她在攻读博士期间研究基于奖赏的学习行为的神经回路及其计算模型,曾以第一作者或共同作者身份在 Nature,Neuron,Nature Neuroscience,Trends in Cognitive Science 等顶尖学术杂志上发表多篇论著。2016 年 6 月至今在 Facebook 担任数据科学家( Data Scientist )。