其他
❉说人话的统计学❉咱们《说人话的统计学》专栏从开始介绍统计建模以来,已经依次介绍了线性回归、二分类逻辑回归、多项逻辑回归、定序回归等几种回归模型。正如我们已经着重指出过的,这几种回归模型在本质上是相通的——它们都是用一些自变量的线性组合来预测因变量的取值。而因变量的类型和性质,则决定了我们要在自变量的线性组合这个内核基础上,再搭配怎样的变换,以打通自变量和因变量之间的联系,这正是上面这几种回归模型的差异所在。现在就让我们来复习一下,遇到什么样的因变量,应该召唤哪种回归模型。因变量是连续变量?「基本款」线性回归可以搞定。因变量是二分类变量?二分类逻辑回归为您效劳。要是多分类变量呢?那我们还得看看这些分类是无序(名义变量)还是有序(定序变量)的,前者要用多项逻辑回归,而后者则要用到前两集介绍的定序回归模型。读到这里,你可能要问这样一个问题:上面这几种情况是否已经覆盖了所有可能的因变量类型?粗略一想,答案似乎是肯定的。许久以前,我们在《数据到手了,第一件事先干啥?》里讲过的变量分类方法里,就是大体按这几种情况区分的。然而,看过下面这个例子以后你会发现,有个灰色地带并没有被以上的几种情况覆盖到。计数变量如果大家几周以前读过《让人眼花缭乱的多项逻辑回归,原来是这么用的》,也许还记得,格格巫在蓝精灵村落推出了自动售货机。在那集文章里,我们用多项逻辑回归模型分析了如下问题:时间和天气这两种因素对蓝精灵顾客们对商品(蓝莓、披萨、蘑菇、面包)的选择有什么影响?最近,格格巫再次走访了遍布村落各处的自动售货机,发现放置在不同地点的机器的顾客数量有很大差异,有的售货机货物周转很快,有的售货机则是门庭冷落。于是,他想研究一下,不同售货机的客流量与什么因素有关——这个问题对格格巫的生意显然十分重要,如果能对客流量的影响因素有了准确认识,不仅可以更好地安排货物的补给和更新,以避免客流繁忙的售货机出现断货,而且还能对未来增加的自动售货机的选址提供指导意见。根据以往的经验,格格巫知道,周末晚上是自动售货机的重点销售时段。因此,他让助手整理出了旗下所有