让人眼花缭乱的多项逻辑回归,原来是这么用的 | 协和八
❉说人话的统计学❉
在前面的一期“说人话的统计学”专栏《逻辑回归能摆平二分类因变量,那……不止二分类呢?》里,我们在理论层面讨论了多项逻辑回归,将逻辑回归推广到因变量大于两个类别的情况。光说不练可不是我们说人话系列的风格,这一集,我们来看看如何用它回答具体的问题。
最近,蓝精灵们沉迷网络,越来越宅,变成了懒精灵,格格巫嗅到了商机,赶紧在蓝精灵村落的很多地方安放了自动售货机。考虑到蓝精灵们都是吃货,格格巫的自动售货机主打食品,共提供四种选择:蓝莓,蘑菇,披萨还有面包。由于这款自动售货机刚刚推出,操作一次只能买一个商品。
自动售货机的生意进行得很顺利,但是格格巫对于运营却毫不懈怠,每天盯着交易记录,琢磨着怎样才进一步提高自动售货机的销量。思来想去之后,格格巫觉得如果能知道预测每一天不同时间段蓝精灵们买哪个商品较多,就可以有针对性地多存一些,说不定还可以进行一些捆绑销售增加销量,想到这里,格格巫不禁陶醉于自己天才的想法。
然而,格格巫对着屏幕上的数字琢磨来琢磨去,也看不出来有什么规律,无奈之下只好找蓝精灵聪聪帮忙。聪聪考虑到这事儿也是为了让村里人生活更方便,就答应帮忙了,正好还可以练习一下最近刚学到的多项逻辑回归方法。
首先,聪聪得决定用哪些收据来做分析,他发现自动售货机保存了每一次交易的时间和种类,再考虑到天气对蓝精灵们想吃什么影响也很大,聪聪也查找了交易当天的平均气温,并记录下来。为了简化分析,聪聪把时间可以分为白天和晚上两个时间段 。统计了各个自动售货机的销售记录,得到了下面形式的数据:
表1: 蓝精灵自动售货机交易数据,这里只显示了前十行的数据,数据总量有400行。
聪聪决定用多项逻辑回归来研究交易时间和气温对购买特定食品概率的相关关系,也就是说,模型的自变量是交易时间和交易当天的气温,因变量是购买不同食品的概率。为了方便模型的计算,我们把晚上时间段作为0,白天作为1来处理,当然反过来将晚上做为1也是可以的,只是在回归系数的含义会稍有不同。模型用数学公式可以表示为:
在上一集里,我们强调了多项逻辑回归必须得选择因变量的一个类别最为参考类别。在这个例子里面,我们选择了面包作为参考类别。那是不是选任何一个类别作为参考类别都是等价的呢?
这取决于你关注模型的哪些方面。首先,选取不同的参考类别不会影响模型的对因变量的预测值,无论选面包还是披萨作为参考类别,只要模型的输入(自变量取值)相同,那么对与购买各种商品概率的预测都是相同的。需要注意的事,选择不同的参考类别会影响回归系数意义的解读,甚至具体的回归系数是否具有统计显著性也与参考类别的选取有关。
将面包定参考类别之后,就可以在统计软件里面拟合模型,用最大似然法找出的模型回归系数如下:
表2: 用多项逻辑回归模型拟合蓝精灵自动售货机交易数据得到的回归系数
这也就是说,气温和是否是白天按照下面的规律与蓝精灵购买的商品种类相关:
如果我们想知道气温等于15度的时候购买不同商品的概率,可以按照下面步骤计算:
在上一集《逻辑回归能摆平二分类因变量,那……不止二分类呢?》里,我们提到,结合下面的隐含条件:
p蓝莓+p蘑菇+p披萨+p面包=1
我们便可以计算出特定条件下购买不同商品的概率
到这一步,聪聪就可以方便地用模型计算出在各种各样的条件下购买每种商品的概率了,为了能预测得更准确,还能再模型里面加入一些新的自变量,比如加入是否下雨/下雪,季节月份等因素。
使用多项逻辑回归模型来拟合数据,不仅能帮助我们做预测,它更加擅长的其实是帮助我们检验某个因素与因变量之间的关系是否具有统计显著性。这常常通过对回归系数假设检验来判定,在此之前,我们首先得要先弄明白模型的回归系数的意义。
由于多项逻辑回归的形式比之前的逻辑回归看起来复杂了n倍,为了不把大家绕晕,我们先关注与购买蓝莓概率有关的三个回归系数:
β0,蓝莓(即截距)= -1.526,β1,蓝莓:0.028,气温β2,蓝莓:0.072
我们顺便把它们对应的模型也晒出来:
首先,等式的左边
我们再来看看时间处于白天还是晚上如何影响买蓝莓的概率。 在气温不变的情况下,
由于log(x)-log(y)=log(x/y),
这说明白天的时候,买蓝莓与买面包的“概率比值”要比晚上稍微大一些,这里需要强调的是,我们不能简单地把结果解读为“白天时买蓝莓的概率比晚上大”,因为有可能晚上买蓝莓的概率其实比白天高,但是买面包的概率高得更多,于是出现两者比值减小等状况。
类似的,气温的回归系数可以解读为,在时间段相同的情况下,气温每增加10度,买蓝莓与买面包的概率比值会变成之前的e0.072×10=2.054倍。
总结上面的分析,我们可以看到,如果回归系数是正的,就代表买蓝莓的概率与买面包(参考类别)的概率比值随着自变量的增加而增加。
在上面的例子里,是否是白天对购买蓝莓和面包概率的分对数影响似乎并不大,如何才能知道它是否具有统计显著性呢?大多数统计软件在输出回归系的同时,也会返回回归系数的标准误差,与逻辑回归里的统计检验类似,我们可以借助Wald检验来判断回归系数是否具有统计显著性。
Wald检验利用了回归系数的拟合值与它的标准误差的比值近似于Z分布这一特性来计算p值。如果比值的绝对值大于1.96,就可以说回归系数具有统计显著性。这一集的数据得到的回归系数的统计检验结果如下表所示:
表3: 用多项逻辑回归模型拟合蓝精灵自动售货机交易数据得到的回归系数及其标准误差,以及用Wald检验计算出的p值
从表中的结果我们可以看出,蓝精灵们买蓝莓的概率与买面包等概率的比值在白天和晚上没有显著区别,而气温升高会使得蓝精灵们买蓝莓的概率与买面包等概率的比值显著升高。
看到这里,有些读者可能会疑惑,为什么讨论来讨论去都是买蓝莓的概率与买面包的概率比值
在逻辑回归里面,我们可以用回归系数除以4的法则来方便地估计自变量对y=1概率的影响的最大值,多项逻辑回归可就没有这个捷径了,这是多项逻辑回归本身的一种局限。下面我们稍微解释一下为什么会是这样。
在本集的例子里面,自变量与因变量取特定值的概率之间的关系由下面计算的公式决定:
观察等式右边的分母,我们会发现所有的回归系数都包含在了其中,这就是说,气温p蓝莓对的影响,并不仅仅由回归系数β2,蓝莓的取值决定,而是由模型的所有九个回归系数共同决定。
这可是与在二分类逻辑回归有着本质的区别!下面我们借助图示来给大家进行对比,加深理解:
图1 上图表示地理位置与教育程度对投票决策的影响。红色、蓝色、黑色曲线分别代表海边村、山上村、林间村的选民,使用的是二元变量的逻辑回归模型,详情见《线性回归能玩多变量,逻辑回归当然也能》;下图表示气温来购买蓝莓的概率的影响,蓝色代表白天,黑色代表晚上,使用的是多项逻辑回归模型。
左图的红,蓝,黑三条曲线之间是相互平行的,这说明,在二元变量的逻辑回归模型中,在y=1的概率为0.5或者其它一个特定值时,改变自变量对因变量的影响只与这个自变量本身的回归系数有关。
另外一方面,右图中的两条曲线并不平行,即改变气温对购买蓝莓的概率的影响还与另外一个自变量“是否是白天”的取值有关。另外,图中黑色和蓝色曲线的形状也不仅仅由βi,蓝莓决定,而是所有的回归共同决定,详细的数学证明在这里先忽略。
综合上面关于多项逻辑回归的回归系数解读的讨论,不难发现多项逻辑回归的回归系数只能方便地解释为对因变量y=特定类别的概率与y=参考类别的概率的比值,而无法直接对应到对y=特定类别的概率本身的影响,我们在选参考类别的时候,需要考虑到这一点。
作者:田菊
编辑:鹅不食草
质控:粉条儿菜
* 点击下方标题,或回复关键词「说人话的统计学」可阅读本系列任意文章!
干货
第 1 章 高屋建瓴看统计
第 2 章 算术平均数与正态分布
第 3 章 t 检验:两组平均数的比较
第 4 章 方差分析(ANOVA):多组平均数的比较
多因素 ANOVA=好几个单因素 ANOVA?可没这么简单!
第 5 章 线性回归:统计建模初步
线性模型生病了,你懂得怎样诊断吗?
「脱离群众」的数据点,是「春风化雨」还是「秋风扫落叶」
第 6 章 广义线性模型:统计建模进阶
(未完,更新中)
你在 或者不在 需要逻辑回归来算
逻辑回归的袅娜曲线,你是否会过目难忘?
自检
番外篇
张之昊
2010 年本科毕业于清华大学生命科学学院,获理学学士学位。2016 年 5 月在耶鲁大学跨院系神经科学项目获得哲学博士学位。在耶鲁期间,他利用功能核磁共振成像(fMRI)技术与计算建模研究人类经济决策的脑科学基础及其与肥胖症的联系,曾以第一作者身份在 Nature Communications, Current Biology 等顶尖学术杂志上发表多篇论著,并受到 BBC 新闻、CBC、洛杉矶时报、果壳网等知名媒体的关注和报道。他还曾任耶鲁大学 StatLab 数据咨询师(Data Consultant),为耶鲁师生提供实验设计、数据分析及统计学软件的咨询服务。2016 年 8 月至今在伯克利加州大学(UC Berkeley)哈斯商学院市场营销系担任博士后研究学者(Postdoctoral Scholar),致力于运用神经科学、经济学模型、自然语言处理及大数据方法研究消费者行为与决策。
作者简介田菊
2010 年本科毕业于清华大学工程物理系,获工学学士学位。2016 年 5 月在哈佛大学医学院神经科学项目获得哲学博士学位。她在攻读博士期间研究基于奖赏的学习行为的神经回路及其计算模型,曾以第一作者或共同作者身份在 Nature,Cell, Neuron,Nature Neuroscience,Trends in Cognitive Science 等顶尖学术杂志上发表多篇论著。2016 年 6 月至今在 Facebook 担任数据科学家( Data Scientist ),运用大数据和人工智能解决网络诈骗、虚假新闻和不良广告等信息安全相关问题。