只问方向,无问远近,定序回归的执念你懂吗? | 协和八
❉说人话的统计学❉
相信大家还记得,有多个类别的分类变量可以分为两种:名义变量和定序变量。两者的区别,就在于各个类别之间是否有顺序——要是没有顺序,就叫做名义变量;要是有顺序,就叫做定序变量。
在前两集文章里,我们和大家一起讨论的多项逻辑回归(multinomial logistic regression),是当我们感兴趣的因变量为名义变量时,分析它与各种自变量的相关关系的方法(回顾《逻辑回归能摆平二分类因变量,那……不止二分类呢?》和《让人眼花缭乱的多项逻辑回归,原来是这么用的》)。名义变量说过了,定序变量又该如何摆平?今天我们要讲的回归模型,正是针对因变量为定序变量的情形,这称为「定序回归」(ordinal regression)。
前方预警:今天讲的定序回归模型,思路会有些绕,还请读者诸君打起精神!当然,可别因为这样就打退堂鼓了,我们「说人话的统计学」的使命,不就是要把难懂的事儿说清说透嘛!
说起来,定序变量也许是若干种变量类型里,最有「人味儿」的一个了,因为它最常出现的场合,便是人的主观判断或态度。我们上次提到过,定序变量最经典的例子,便是消费者满意度调查问卷上的回答,从「非常不满意」「不满意」,到「一般」,再到「满意」「非常满意」。除了市场营销以外,在临床医学中,由于在许多场合都涉及到人的判断或评估,如某种症状的严重程度、某精神病学或临床心理学量表的回答等,因此定序变量也有着重要的地位。
定序变量最突出的特点,就是类别之间有顺序。比如说,上面列出的满意程度的五个类别,有着严格的顺序和方向,一旦打乱就会失去意义。因此,如果我们要建立一个统计学模型,来研究满意程度(因变量)和其他一些变量(自变量)——比如说排队时间——之间的关系,这个模型要能对满意程度的变化方向做出推断和预测:例如,排队时间越长,满意程度越低。
咦?这怎么听起来有点儿耳熟?想当初我们在学习应用于连续变量的线性回归的时候,就经常会这样讨论模型的意义。在这一点上来说,定序变量的确与我们最熟悉、最常见的连续变量是相似的。然而,定序变量的不同类别之间的距离是不明确的,这正是定序变量与连续变量的根本差别。比方说,对满意度而言,「不满意」和「非常不满意」之间的差别,并不一定就与「满意」「一般」两者之间的差别相同。从「一般」到「非常满意」,满意程度的增加也不一定是从「不满意」到「一般」的满意程度增加量的两倍。
正因为如此,「只讲顺序、不讲距离」的定序变量,其类别不能直接对应于数轴上的数字,因此也就不能用线性回归来建模了。那么,我们该怎么办?
首先,我们不要忘了,定序变量归根结底是一种分类变量。从二分类逻辑回归,再到多项逻辑回归,我们一直在对付分类变量作为因变量的情况。现在让我来问你,因变量是分类变量时,回归模型要预测的是什么?
希望「说人话的统计学」栏目的读者都能脱口而出:概率!不错,当因变量是分类变量时,我们其实是在对一个数据点属于各个可能的类别的概率进行统计建模,这一点适用于二分类逻辑回归、多项逻辑回归,当然也少不了今天的定序回归。接着上面的例子说,如果我们想用排队时间来预测顾客满意程度的话,那么通过一个模型,当我们知道某个顾客的排队时间(比如说35分钟),我们希望能像下面的表格一样,预测出她的满意度处于不同类别的概率:
换言之,对于任一个给定的排队时间x,模型要给出P非常不满意,P不满意,P一般,P满意,P非常满意这五个概率中的四个(因为五个之和一定是1,所以只需要知道任意四个就能算出剩下那一个)。我们从逻辑回归里知道,因为概率一定是个0到1之间的数,而线性模型中自变量的线性组合β0+β1x1+β2x2+…+βkxk的范围可以从负无穷到正无穷,覆盖了整个实数域,为了使两者对应起来,我们要对概率取个「分对数变换」,从P变成
我们已经熟悉的二分类逻辑回归模型,正是把变换后的概率与自变量的线性组合联系起来:
(其中P为因变量y取1的概率P(y=1))
我们可以把这个模型理解为因变量y在取1和取0两种情况下「此消彼长」的关系。具体说来,如果x1的回归系数β1为正,那么在其他自变量不变的情况下,x1增加,等式左边的
而用于名义变量的多项逻辑回归模型,其本质也与这个式子相同,只不过名义变量的多个类别(除了参考类别以外)各有自己的一套回归系数罢了(可戳此处回顾《逻辑回归能摆平二分类因变量,那……不止二分类呢?》)。
现在,先让我们把这样的模型套用在我们要解决的问题上,看看会怎么样。让我们从满意程度最低的类别「非常不满意」来讨论起,并且和之前一样只考虑排队时间一个自变量(记为x),直接仿照上面的模型,可以得到
一般情况下,排队时间越短,满意程度越高。如果β1为正,那么随着排队时间x的增加,P非常不满意会变大,而1-P非常不满意会变小。注意到1-P非常不满意其实就是剩下4个类别的概率总和P不满意+P一般+P满意+P非常满意,而这4个类别满意程度都比「非常不满意」要高。因此,这个式子的确给出了「排队时间越短,满意程度越高」这样具有方向性的预测,这不正是我们想要的吗?
可别高兴太早!我们依样画葫芦,把上面的模型再套在第二个类别「不满意」上面,问题就出现了:
顺着刚才的思路,如果β1为正,那么随着排队时间x的增加,P不满意会变大,而1-P不满意会变小。但是,这时1-P不满意=P非常不满意+P一般+P满意+P非常满意,里头包含的四个变量里,既有比「不满意」的满意程度更低的「非常不满意」,也有比「不满意」的满意程度更高的「一般」「满意」和「非常满意」(没错儿,我们正是要让你来念个绕口令提提神)。我们并不能知道,到底是P非常不满意变小了,还是P一般+P满意+P非常满意变小了。这样一来,排队时间与满意程度的关系就说不清道不明了!
如果再试试第三、第四个类别「一般」和「满意」,我们也会发现同样的问题。之所以会这样,是因为上面的模型中,并没有能体现出不同类别本身的顺序和方向,自然在做预测的时候也就无能为力了(事实上,上面的建模方式更接近于用在名义变量上的多项逻辑回归模型)。
为什么第一个类别「非常不满意」没有问题,而第二个类别「不满意」(以及第三、四个类别)则不行呢?问题还是出在概率P上。我们在前面说过,当我们对建立
有什么解决方案呢?其实,我们可以从上面的讨论里得到启发。我们可以使一个小招数,把概率P和1-P统统都变成满意程度高低分明的。这时,我们不再直接考虑满意程度取某个特定类别的概率,而是考虑满意程度小于等于某个特定类别的概率,比方说P(满意程度≤「不满意」),这称为「累积概率」(cumulative probability)。这样一来,由于分子上的概率包括了所有满意程度不高于某个水平的类别,分母上的就只会包括满意程度更高的那些类别,因而自变量的变化就能和因变量类别的顺序完美挂钩了。
也许你要说,改成累积概率,那我还能知道取单个类别的概率吗?别担心,累积概率和单个类别的概率其实是等价的,可以相互转换。要知道某个特定类别的概率,只需用该类别的累积概率减去下一级别的累计概率,例如:
P(满意程度=「满意」)=P(满意程度≤「满意」)-P(满意程度≤「一般」)
大家不妨把用累积概率表示的下表,和上面用单个类别概率表示的表格做个对照。
根据上面的讨论,我们可以对这个问题写出完整的定序回归模型:
看到这个模型,大家可能会问这样几个问题:
1.明明有五个类别,为什么只有四条式子?
和多项逻辑回归里要设立参考类别一样,当类别有n个时,我们只需对其中的n-1个建模。事实上,满意程度最高的类别「非常满意」的累计概率总是为1,分母上的1-P是0,不能被建模。
2. 为什么每个类别各自有不同的截距(β非常不满意等)?
回想一下,逻辑回归模型里截距的意义,是当所有自变量为0时
3. 为什么自变量的回归系数β1前面改成了负号?
这其实是累积概率带来的结果。在习惯上,如果自变量与因变量呈正相关关系,我们喜欢让回归系数为正。在这种写法里,如果β1为正,当x增加时β0-β1x会减少,各个类别的累积概率也会减少,这时取得更高满意程度的概率1-P反而会增加。也就是说,这样能够保持回归系数符号与相关关系方向的一致性。(不妨比较一下本文的前面部分,回归系数β1前面仍然用的正号,因此β1为正时,排队时间和满意程度为负相关关系。)
和以前一样,掌握了模型,我们就可以付诸实践了。在下一集,我们将用一个例子,为大家进一步展示定序回归模型的应用。
作者:张之昊
编辑:鹅不食草
质控:粉条儿菜
* 点击下方标题,或回复关键词「说人话的统计学」可阅读本系列任意文章!
干货
第 1 章 高屋建瓴看统计
第 2 章 算术平均数与正态分布
第 3 章 t 检验:两组平均数的比较
第 4 章 方差分析(ANOVA):多组平均数的比较
多因素 ANOVA=好几个单因素 ANOVA?可没这么简单!
第 5 章 线性回归:统计建模初步
线性模型生病了,你懂得怎样诊断吗?
「脱离群众」的数据点,是「春风化雨」还是「秋风扫落叶」
第 6 章 广义线性模型:统计建模进阶
(未完,更新中)
你在 或者不在 需要逻辑回归来算
逻辑回归的袅娜曲线,你是否会过目难忘?
自检
番外篇
张之昊
2010 年本科毕业于清华大学生命科学学院,获理学学士学位。2016 年 5 月在耶鲁大学跨院系神经科学项目获得哲学博士学位。在耶鲁期间,他利用功能核磁共振成像(fMRI)技术与计算建模研究人类经济决策的脑科学基础及其与肥胖症的联系,曾以第一作者身份在 Nature Communications, Current Biology 等顶尖学术杂志上发表多篇论著,并受到 BBC 新闻、CBC、洛杉矶时报、果壳网等知名媒体的关注和报道。他还曾任耶鲁大学 StatLab 数据咨询师(Data Consultant),为耶鲁师生提供实验设计、数据分析及统计学软件的咨询服务。2016 年 8 月至今在伯克利加州大学(UC Berkeley)哈斯商学院市场营销系担任博士后研究学者(Postdoctoral Scholar),致力于运用神经科学、经济学模型、自然语言处理及大数据方法研究消费者行为与决策。
作者简介田菊
2010 年本科毕业于清华大学工程物理系,获工学学士学位。2016 年 5 月在哈佛大学医学院神经科学项目获得哲学博士学位。她在攻读博士期间研究基于奖赏的学习行为的神经回路及其计算模型,曾以第一作者或共同作者身份在 Nature,Cell, Neuron,Nature Neuroscience,Trends in Cognitive Science 等顶尖学术杂志上发表多篇论著。2016 年 6 月至今在 Facebook 担任数据科学家( Data Scientist ),运用大数据和人工智能解决网络诈骗、虚假新闻和不良广告等信息安全相关问题。