查看原文
其他

商务统计学基础 | 第四章 线性回归模型

王汉生 王菲菲 狗熊会 2024-04-22


点击上方"狗熊会"关注我们吧!

本书在4.2节给大家介绍了回归五式,对这五种回归模型进行全面系统的介绍超出了本书的范畴,这应该是一个独立的回归分析教材探讨的内容。本书作为一本入门级教材,将结合实际案例,对其中两种可能最重要的模型进行简要介绍。具体而言,本节将首先讨论线性回归模型。如前所述,线性回归模型是实际工作中用得最多最广泛的统计模型之一。它不仅仅为我们提供了一套系统而有效的分析预测方法,而且为我们提供了一套完整的方法论。我们已经在上一节中介绍过,普通线性回归模型的主要特征是:因变量必须是连续型数据,比如股票收益率、商品销售额等。接下来,我们将以一个实际案例为例,详细讲解线性回归模型的各个方面。

案例介绍

火锅在中国餐饮市场上备受消费者青睐。有数据显示,我国有27.9%的消费者每周吃火锅不少于两次。近年来,我国火锅餐饮市场增长迅速。相关研究表明,2016至2019年中国火锅行业市场规模持续增长,2019年已达到5188亿元。虽然2020年受疫情影响有所下降,但仍有4380亿元的市场规模。火锅市场规模的变化趋势如图4.3.1所示,火锅的受欢迎程度可见一斑。

图4.3.1:中国火锅行业市场规模变化趋势图

现有某火锅品牌,对于火锅在西安的前景非常看好,想要进军西安市场。在正式进军之前,它希望可以先对西安市场进行调研,了解什么样的火锅菜品销量更高,这样可以更好地将自己的品牌特色与西安当地的大众口味相融合,从而顺利打开西安市场。这个案例关注的核心业务指标就是火锅销量,这也是回归分析中的因变量Y。最理想的Y应该是在不同类型火锅店的真实销售量,包含线上和线下的销量。但是这样的数据显然是无法获取的,试想有几个火锅店的老板能把这样的数据公开给自己的潜在竞争对手呢?因此,我们只能采取一个退而求其次的替代品,那就是团购网站上公开的团购销量。这样的一个指标显然不尽完美,但实际数据分析又哪有完美可言,永远是在不完美中寻找希望。团购销量其实并不是严格的连续型数据。但是4.2节曾给出一个用于判断数据是否近似连续的简单而且不严格的标准:把所有可能取值从小到大排序,看相邻两个数的差距相对于整个取值范围而言是否足够小。团购销量相邻两个数的差距可能只有1,而整个取值范围最小可以是零,最大可以是以千计,因此实际工作中可以将团购销量近似地看作连续型数据。为了排除店铺在团购平台上线时长的影响,本案例使用的是年化销量而非累计销量。定义:年化销量=累计销量/上线时长,单位为份/年,这就是最终的因变量Y。确定了因变量Y,接下来需要寻找一些与Y相关的解释性变量X。本案例提供的解释性变量有6个,包括团购信息和店铺信息两类,具体见表4.3.1的变量说明表。本案例共收集了330条火锅团购项目的数据。下一步要做的,就是通过回归分析,建立X与Y之间的关系。

表4.3.1:变量说明表


描述分析

在正式分析前,需要进行必要的描述统计分析,它能帮助我们发现很多问题。具体而言,首先可以计算各个数值型变量的一些汇总统计量,比如均值、中位数、最小值、最大值和标准差,从而对数据有一个整体印象。计算结果如表4.3.2所示,从中可以对各个变量予以简单描述。例如:从团购销量的描述性统计量可以知道,在330个样本中,年化团购销量处于0.33份/年到3788.56份/年之间,可见不同店铺之间的销量差异较大。年化团购销量的平均水平约为216.32份/年(平均值)、35.21份/年(中位数),其标准差为470.26份/年。平均值远远大于中位数,说明年化团购销量呈现极端右偏的分布,即大部分的火锅销量较小,而销量高的店铺很少。又例如:从店铺评分的描述性统计量可以知道,在330个样本中,店铺评分的范围为0分到5分之间,可见不同店铺的口碑差异很大。店铺评分的平均水平为4.3(均值)和4.5(中位数),这说明店铺评分平均水平较高。 

表4.3.2:各数值型变量的汇总统计量

进一步考虑因变量Y的分布形态。为此对其作了直方图,可以看到它呈现一个极度右偏的分布。这是因为绝大多数火锅店的年化团购销量很少,而销量高的爆款很少。这样的分布形态不利于产生稳定的回归分析结果。因为从理论上讲,如此右偏的分布有可能是不存在有限阶矩(Finite Moment)的,而后面要讲的回归分析估计量需要这个条件。因此,尝试对原始销量作一个对数变换,再作直方图,如图4.3.2所示。可以看到,取对数之后,整个分布形态好了很多。因此在接下来的分析中,我们将以对数变换后的销量为因变量。

图4.3.2:团购销量和对数团购销量的直方图

接下来考察X变量的分布情况。首先考察店铺评分,这是一个离散型变量,每0.1为一级,取值范围为0~5,所有可能的取值为0、0.1、…、4.9、5.0。其中0代表店铺的口碑最差,而5代表店铺的口碑最好。以每0.5分为一组将样本分为十组,每组样本量的柱状图呈现在图4.3.3的左图中。请问你看到了什么?可以看到,店铺在十个不同水平上的分布非常不均衡。绝大多数样本都在0~0.5和4~5之间,而在0.5~4之间的样本非常少。因此,也许没有太大的必要细致地考虑评分,而是可以做一个粗糙的数据简化。为此,可以定义一个新的X变量为:店铺口碑。如果评分大于或等于4,那就是“好”,变量取值为1。否则,就是“不好”,变量取值为0。这样就将原来的离散型店铺评分简化成了二分类变量,这两个类别的占比分别为92.12%(好)和7.82%(不好)。然后根据该二分类变量对因变量作分组箱线图,如图4.3.3右图所示,从中看到好口碑店铺的对数团购销量的平均水平(中位数计)明显高于口碑不好的店铺。这也符合经验常识,一般来说,口碑好的店铺更受消费者的青睐。

图4.3.3:店铺评分各组样本的数量(左)和店铺口碑-对数团购销量分组箱线图(右)

接下来考察连锁店数量。这是一个离散型变量,取值范围为1~6。计算发现76.67%的样本都只有一家门店,也就是这些店铺其实都不是连锁店。而剩下的有两家或以上连锁店的店铺仅占23.33%。因此也许没有太大必要细致考虑连锁店数量,可以将其进行粗糙的离散化,定义一个新的X变量为:是否是连锁店。如果连锁店数量为1,则不是连锁店,变量取值为0。反之如果连锁店数量大于等于2,则是连锁店,变量取值为1。根据是否是连锁店对因变量对数团购销量作分组箱线图,如图4.3.4左图所示。可见连锁店的团购销量平均水平(中位数计)明显高于非连锁店。再考察另一个定性变量有无停车场与因变量之间的关系。可以定义一个新的X变量为:有无停车场。如果有则取值为1,否则取值为0。根据有无停车场对因变量对数团购销量作分组箱线图,如图4.3.4右图所示。可以看出有停车场店铺的团购销量平均水平(中位数计)高于没有停车场的店铺。一般来说,有停车场对消费者而言更便利,也会更受消费者的欢迎。

图4.3.4:是否连锁店和有无停车场与对数团购销量的分组箱线图

目前已经考虑了店铺评分、连锁店数量和有无停车场这三个与店铺信息有关的X变量,接下来再考虑团购信息相关的X变量。首先是团购评分。这个变量与前面的店铺评分听起来有些类似,但二者仍然存在较大区别。店铺评分衡量的是消费者对店铺整体的评价,而团购评分是消费者对店铺中特定团购项目(比如:火锅双人套餐)的评价。接下来考察团购评分的分布情况。团购评分也是以0.1为一级的离散型变量,取值范围为0~5。仍然以每0.5分为一组将样本分为十组,每组样本量的柱状图呈现在图4.3.5的左图中。可以看到出现了与店铺评分相似的现象,团购评分在十个不同水平上的分布也很不均衡,也是绝大多数样本都在0~0.5和4~5之间,而在0.5~4之间的样本非常少。因此同样将团购评分进行离散化,定义一个新的X变量为:团购项目口碑。如果评分大于或等于4,则为“好”,变量取值为1。否则,就是“不好”,变量取值为0。这样就将原来的离散型店铺评分简化成了二分类变量,这两个类别的占比分别为67.58%(好)和32.42%(不好)。然后根据该分类变量对因变量作分组箱线图,呈现在图4.3.5的右图中,从中看到好口碑店铺的对数团购销量的平均水平(中位数计)明显高于口碑不好的店铺。

图4.3.5:团购评分各组样本的数量(左)和团购项目口碑-对数团购销量分组箱线图(右)

最后考虑团购价。这是一个连续型X变量,因此可以先用直方图获得一些直观感受。如图4.3.6左图所示,从中可以看到团购价有一个非常右偏的数据分布。这说明市场上仍以低价位产品为主,高价位产品较少,但也确实存在少量价格特别高的产品。因此可以考虑对团购价作一个对数变换,再作直方图,如图4.3.6的中图所示,可见其分布形态改善了很多。进一步作团购价关于因变量Y的散点图,如图4.3.6右图所示。遗憾的是,似乎无法看出特别明显的趋势。阶段性总结一下,至此我们确定了因变量Y为对数团购销量,并且确定了5个解释性变量分别为:店铺口碑、是否是连锁店、有无停车场、团购项目口碑和对数团购价。

图4.3.6:团购价直方图、对数团购价直方图和对数团购价-对数团购销量散点图

理论模型

前一节已经为后面的分析作好了数据准备,接下来需要为此建立相关的理论模型。简单起见,先从简单模型出发,只考虑一个解释性变量,那就是X=对数团购价。接下来探讨一下这个X是如何影响Y的,假设它能影响的话。为此必须依赖必要的数学工具,而什么样的数学工具允许一个X去影响另一个Y呢?答案其实很简单,那就是函数。如果能找到一个神奇的函数,使得,那就完美了。如果该函数关系成立,那X作为函数输入,就可以精确地确定Y的取值了,这样X对Y的影响力就够大了。如果我们能接受“函数”这个基本想法,那么下一个问题来了:该选用哪一个函数形式呢?

翻开一本数学书,你会发现,数学家为我们提供了太多选择。有常函数、线性函数、二次函数、多项式函数、幂函数、指数函数等等函数,以及由这些函数的各种进一步组合而产生的新的函数,不计其数。请问到底用哪一个呢?你可能会说:“用最合适的那一个”。可以相当负责任地说,对真实数据而言,没有任何一个函数可以被称作“最合适”,“最合适”这个状态根本不存在。虽然“最合适”的函数不存在,但是“最简单”的函数也许是值得考虑的。毕竟万事开头难,为什么不从最简单的函数出发呢?请问什么函数最简单?答:常函数,即,而C是一个常数。这个函数怎么样?足够简单吗?足够简单,简单到了极致。但是它有用吗?显然没有。因为这个函数不具备表达X的影响力的能力,毕竟C是一个常数,与X无关。所谓影响力是指的取值会随着X的变化而有所变化,而常函数的取值并不随着X的变化而变化,因此常函数不符合要求。那能否再考虑下一个函数呢?一个比常函数稍微复杂一点,但仍然很简单的函数?答:可以,那就是线性函数。你看这个函数足够简单,而且允许X充分表达它的意见。因此获得了一个模型:。请问这是我们苦苦寻找的线性回归模型吗?当然不是!如果该模型成立,那么对于本案例而言,只要团购价给定,那么团购销量就是确定的。有这么好的事吗?我定一个看似合理的价格,然后做品质很差的火锅,也能获得和大家一样的销售业绩吗?显然不可能。销量Y受太多因素影响了,价格仅仅是其中的一个。除此以外还有品质、服务、竞争、天气等等因素。而且大量的因素本身就带有强烈的不确定性(例如竞争对手的行为)。因此,即使团购价X给定,团购销量Y仍然具有一定的不确定性,这才合理。那么关键问题来了:如何引入不确定性?

为此前辈学者提出了极具智慧的解决方案!基本思想如下。影响Y的因素数不胜数,而X仅仅是其中的一个,除此之外还有无穷多,恐怕在理论上也无法罗列完全。既然世界如此复杂,无法面面俱到,那么面对无比复杂的实际问题时不如追求大道至简。具体而言,用一个随机变量ε来表示所有那些影响Y,而又与X独立的相关因素。再用线性函数把ε整合到前面的模型上,因此模型就变成了:

对,这才是大名鼎鼎的线性回归模型。在该模型中,称作截距项,称作回归系数。根据该模型,影响Y的因素由两部分构成:一部分是由可观测到的解释性变量X以的形式构成,另一部分则由与前一部分完全独立的随机变量构成。表示的是随机噪音,它包含了所有独立于X但是却对Y有影响的因素。的创造发明是统计学的大智慧。接下来根据该模型有


其中假设。这说明关于Y的不确定性可以同样拆成两部分,一部分由X产生,而另一部分由产生。其中X产生的部分占比越大越好,因为这是被X捕捉并且可以被准确预测的一部分。而产生的部分占比越小越好,因为这是由随机噪音产生的,无法预测。这说明,的相对贡献占比决定了这个模型的预测精度的理论上限。我们定义它为理论判决系数(Theoretical R-Squared):

显然越大,X与Y的相关性就越强。反之越小,X与Y的相关性就越弱。的定义保证了它是一个介于0与1之间的实数,再小也不能是负数,再大也不会超过1=100%。如果,此时模型的,因此X与Y完全线性无关,如图4.3.7中的左图所示。如果,那么。此时X与Y可能完全正相关(),如图4.3.7的中图所示。X与Y也有可能完全负相关(),如图4.3.7的右图所示。

图4.3.7:理论和理论的示意图

关于残差的讨论

虽然(4.3.1)中给出了线性回归的理论模型,但是关于残差的讨论似乎并不充分。例如你可能产生一个疑问:当把残差添加到上的时候,为什么不对先作一个线性变换呢?如果可以,那么相应的线性回归模型应该是:

其中是另外一组参数。这样的思考是有道理的。如果(4.3.2)成立,那么有此时,需要重新定义为新的,而为新的,你会发现原模型(4.3.1)仍然成立。这说明对ε的线性变换是不必要的。另外一个关于的问题是,应该是多少?假设是,那么原模型可以重新表述为。此时如果重新定义为新的,而为新的,你会发现原模型仍然成立。这说明的均值不是一个可识别(Identifiable)的参数,具体取多少值都无所谓。因此可以不失一般性地将它定义成。请注意的方差是一个可识别参数,是可以准确估计的。

还有一个关于的问题,那就是到底假设服从什么分布好呢?答案是无所谓,只要满足方差有界,并且与X变量互相独立,那么神奇的大数定律与中心极限定理将保证后面所介绍的参数估计与假设检验方法都会有效。当然,如果想要理论结果看起来最漂亮,那最好假设服从正态分布。但是这里提醒一下,这仅仅是一个优美的理论假设,实际中从不被严格满足。最后一个问题,残差ε与解释性变量X之间应该是什么关系?答:至少是线性不相关,最好是相互独立。否则ε还包含着一部分与X相关的信息。直观上不严谨地讲,这等同于假设ε可以表达为:,其中也是参数,而e是与X线性不相关的随机变量。将其代入原模型有:此时如果重新定义为新的为新的,e为新的,你会发现原模型仍然成立,而此时新的与X是线性无关的,甚至是独立的。因此普通线性回归模型永远假设与X线性无关。为方便起见,大部分教材(含本书)直接假设与X独立。

请注意,普通线性回归中研究的都是相关关系,不是因果关系。在相关关系的前提下,任何与X相关的都可以进一步被拆分成两个部分。其中第一部分与X线性相关,而第二部分与X线性无关(但不一定独立)。但是在很多实际工作中,人们常常关心更加严格的因果关系,那么此时X完全有可能与相关。此时如何准确地估计模型参数,需要一套更加复杂深入的方法。此部分内容属于因果推断的内容,超出了本书的范畴,因此不予讨论,但这部分内容极具智慧!

参数估计

确定了线性回归模型的表达式后,我们希望能够求解出模型(4.3.1)中回归系数的取值,从而才能确定每个自变量对因变量的影响方向和大小。但是,由于随机误差项的存在,我们永远都无法知道的确切取值。但我们可以对的取值予以合理“猜测”,也就是参数估计。通常采用的估计方法是最小二乘法(Ordinary Least Squares),接下来将介绍其核心思想。为了方便讨论,这里暂时随机模拟生成10个数据,如图4.3.8中星形的点所示。为方便讨论,我们还对每个样本进行了编号。

图4.3.8:模拟生成的10个数据及两条不同的回归直线

对线性回归而言,所谓参数估计,其核心就是要找一条回归直线,使得这条直线能够尽可能地把样本数据拟合好。那么如何定义“拟合好”,就成了一个非常关键的问题。事实上,在统计学的方法论中,确实存在不同的定义方式,因此也会产生不同的参数估计方法。而本节将要介绍的是最经典常用的最小二乘估计,其构造思想如下。请看图4.3.8,在该图中提供了两条不同的回归直线,对应两个不同的参数估计。请问哪一个好?是红线好,还是蓝线好?相信你一定会说蓝线好。但是为什么?你看红线不是挺好的吗?它从样本①与③中穿了过去,这说明它对这两个样本的拟合优度是绝对完美的呀!你为什么不喜欢红线?聪明的你一定会说,红线虽然是对①和③拟合得特别好,但是对其他样本而言,就一塌糊涂了。例如它对⑩号样本就毫无拟合优度可言。而蓝线恰好相反,虽然没有对任何样本提供完美拟合,但是它对每一个样本都照顾得不错。突然,我们恍然大悟,我们要追求的“好”,不是一个、两个样本的“好”,而是大家“好”,才是真的“好”。

由此可见,参数估计的核心思想是:大家“好”才是真的“好”。为此需要从数学上回答两个问题。第一,如何评价“好”?第二,如何定义“大家”?先思考第一个问题。对于一个特定样本,例如⑧,如何评价蓝线对它的拟合优度是“好”还是“不好”?答案似乎很简单:看看点到线的距离。如果是这样,似乎应该考虑的是⑧号样本点到蓝色回归直线的垂直距离。这样做有没有道理?当然有道理。但是这样产生的损失函数稍显复杂,因此并不是最常用的关于拟合优度好坏的测量。事实上,用得最多的是竖直距离。如果蓝线正好是真实的回归直线,那么给定,它在蓝线上的取值应该是,因此真实观察值y_8和该点的竖直距离应该是,它刚好代表的是随机噪音项。因此数学上可以用测量该竖直距离的大小。请注意,这里为什么要平方?原因是是一个可正可负的量,而平方有助于我们去掉正负号。你也许还会问,那为什么不用绝对值呢?答:当然可以了!只是计算稍显麻烦。使用绝对值得到的估计量叫作最小一乘估计,也是一个很优秀的估计量。言归正传,我们决定用来评价回归直线对⑧号样本的拟合优度。同样的操作显然也可以用到其他样本上。也就是说,对任意样本,可以用来评价拟合优度。至此我们解决了如何评价“好”的问题。

请记住我们的原则是:大家“好”才是真的“好”。接下来要讨论的就是如何从数学上表达“大家”。换句话说,如何把来自各个样本的拟合优度评价综合在一起呢?想法也很简单,求和加在一起就可以了。这就产生了下面的最小二乘目标函数:

其中表示成正比例关系。由此可见本质上是对 求了一个算术平均值。通过算术平均值,整合了来自每一个样本的信息。聪明的你也许会问:可以考虑其他的“均值”吗?例如:中位数。答案是肯定的,但是因为理论复杂,用得很少。如果有多个X变量,那么可以把X表达成X=,这是一个p维向量。同理,可以定义 为回归系数(含截距项),为随机噪音向量。此时,模型(4.3.1)变为,其中。这是一个更一般化的线性回归模型。而对应的最小二乘目标函数就变为:


然后最小二乘估计就可以被定义为那个能把最小化的β,即。请注意这里的含截距项,很幸运的是,β ̂存在一个优美的显式解。

以上是关于最小二乘估计思想的详细介绍。接下来再与大家分享一个有趣的结果,那就是最小二乘估计在一定条件下也是极大似然估计。请注意,前面关于最小二乘估计量的讨论都没有假设ε的概率分布。这是一个优点,这说明最小二乘估计的很多优良性质并不依赖于具体的概率分布。但这也是一个缺点,这说明在绝大多数情况下最小二乘估计都不是极大似然估计,因此不太可能是最优估计。但对于绝大多数实际数据分析问题而言,什么是最优估计也无从得知。接下来严格证明,当服从正态分布时,最小二乘估计也是极大似然估计,这时候它是理论上最优的估计量。详细过程如下。假设服从均值为0、方差为的正态分布。根据可得也服从正态分布,均值为,方差为。利用这一点,可以写出如下似然函数:



然后可以得极大似然估计如下:



如何求解?可以先固定,对求解。如此可得:



其中第二个等号后的式子中的优化只与(4.3.3)中的最小二乘目标函数相关,而正是的最小二乘估计。由此可见,在是正态分布的条件下,的极大似然估计等于它的最小二乘估计。在给定的情况下,再求解得:



理论上可以验证,其中约等于号的成立需要样本量n足够大而参数个数p相对足够小。这对于大多数传统数据分析而言不是个大问题。但如果希望得到一个无偏估计,那么可以定义,可以证明:是绝大多数统计软件中汇报的数字。设,其中是因变量Y的样本均值。显然是一个关于的相合估计。那么可以对理论判决系数估计如下:

这是对理论的一个相合估计。可以预期,当样本量n足够大时,有。样本量越大,近似的精度越好。

前面提到的最小二乘估计有一个优美的显式解,下面探讨一下的求解公式。为此需要求解(p+1)个线性方程组:,其中q=0,1,…,p。计算该方程组可得:


如果定义一个n×(p+1)的矩阵,其中是一个增加了截距项的向量,而是对应的设计矩阵。定义因变量向量为。那么方程组(4.3.4)就可以用矩阵形式优美地表达为:,因此有。这就是的显式解。由此我们获得了所有的参数估计。

假设检验

求出了,便可以用去估计了。是一个由样本决定的估计量,因此是具有不确定性的。当我们求出后,如果发现其中某个回归系数,那是否意味着也不为零?也就是,是否意味着第j个自变量对于Y一定是有影响的?不一定。那要怎么才能确定呢?必须作假设检验。这是一个双边假设检验问题,数学上表达为:

H0:  v.s.  H1:

请问如何解决这个假设检验问题?首先需要知道的分布性质。这里并不需要假设是服从正态分布的。在中心极限定理的作用下,在一定合理假设条件的加持下,近似服从一个正态分布,均值为,方差为。对于的任意一个分量,它近似服从一个正态分布,均值为,方差为,其中表示矩阵的第j个对角元素。那么的标准差 就刻画了的估计误差,因此也称作它的标准误差(Standard Error)。请注意本身也是一个参数,需要估计,相应的估计量为。那么对于上述假设检验问题,就可以定义一个统计量为:。在中心极限定理的作用下,随着样本量n的增大渐近服从正态分布。而且在原假设H0:成立的条件下,还渐近服从标准正态分布。因此假设检验规则应该是:对于给定的显著性水平,当时接受原假设H0:。反之在时拒绝原假设H0:,而接受对立假设H1:。除此之外,也可以通过p值来判断是接受还是拒绝原假设。p值是在原假设成立的前提下,得到比当前样本更极端的结果的概率。p值越小,说明原假设成立的条件下当前结果发生的可能性越小,因此越倾向于拒绝原假设。这里p值的具体计算公式为。对于给定的显著性水平,当时接受原假设H0:. 。反之在时拒绝原假设H0:,而接受对立假设H1:。以上介绍的这个检验叫作Z检验。接下来就对本案例中的各个回归系数进行Z检验,结果如表4.3.3所示。

表4.3.3:回归模型估计结果

接下来对每一个X变量的回归估计结果进行解读。首先以店铺口碑为例。根据表4.3.3所示,店铺口碑回归系数的最小二乘估计为,对应的标准误差估计量为。因此Z统计量为而对应的p值为0.204。若选定显著性水平,由于. ,因此在10%的显著性水平下接受原假设H0:。也就是说,在控制了其他X因素的前提下,基于现有数据,无法确定店铺口碑与对数团购销量之间的显著线性相关关系。接下来对是否是连锁店作详细解读。请注意该X变量是一个0-1型变量,其中X=1表示连锁店,而X=0表示非连锁店。它对应的回归系数最小二乘估计为,标准误差估计量为。因此Z统计量为,对应的p值为。这说明该X变量确实与对数团购销量显著相关,即使是在控制了其他因素(店铺口碑、有无停车场、团购项目口碑和团购价)之后。更具体地说,该X变量每增加一个单位(即从X=0不是连锁店,变为X=1是连锁店),预期对数团购销量增加1.117个单位,因此也可以认为,在控制其他因素不变时,连锁店相比于非连锁店的对数团购销量会增加1.117个单位。

再考虑下一个X变量:有无停车场。这也是一个0-1型变量,其中X=1表示有停车场而X=0表示没有停车场。它对应的回归系数最小二乘估计为,标准误差估计量为。因此Z统计量为,对应的p值为。这说明即使在控制其他因素之后,该X变量仍然与对数团购销量显著相关。更具体地说,该X变量每增加一个单位(即从X=0没有停车场,变为X=1停车场),预期对数团购销量增加0.665个单位,即有停车场的店铺相比于没有停车场的店铺而言,预期对数团购销量会增加0.665个单位。对于团购项目口碑也可作类似的解读。团购项目口碑仍然是一个0-1型变量,其中X=1表示口碑好而X=0表示口碑不好。它对应的回归系数最小二乘估计为,标准误差估计量为。因此Z统计量为。对应的p值非常小,小于0.001。这说明即使在控制其他因素之后,该X变量仍然与对数团购销量显著相关。更具体地说,该X变量每增加一个单位(即从X=0团购项目口碑不好,变为X=1团购项目口碑好),预期对数团购销量增加1.986个单位。最后对对数团购价进行解读。这是一个连续型变量。它对应的回归系数最小二乘估计为,标准误差估计量为。因此Z统计量为,对应的p值为。这说明该X变量确实与对数团购销量显著相关,即使是在控制了其他因素之后。更具体地说,对数团购价每增加一个单位,预期对数团购销量减少0.410个单位。

本节对线性回归的理论模型、参数估计和假设检验等都进行了详细的介绍,并且将线性回归模型运用在火锅团购销量的实际案例中,展示了线性回归的应用。相信结束本节的学习后,你已经对线性回归有了初步的掌握。需要注意的是,线性回归处理的是横截面数据,简单来说就是所有数据基本发生在一个时点上。但是生活中我们也常常碰到随时间变化的数据,简称时间序列数据。如何对时间序列数据进行建模分析呢?请看下一节。





往期推荐

引言:从不确定性出发

第1章:不确定性的数学表达:连续型数据

第1章:不确定性的数学表达:正态概率密度

第1章:不确定性的数学表达:t-分布

第1章:不确定性的数学表达:指数分布

第1章:不确定性的数学表达:0-1分布

第1章:不确定性的数学表达:泊松分布

第2章:参数估计:矩估计

第2章:参数估计:极大似然估计

第2章:参数估计:正态分布均值的区间估计

第2章:参数估计:正态分布方差的区间估计

第2章:参数估计:其他分布参数的区间估计

第2章:参数估计:样本量计算

第3章:假设检验:不确定性与决策

第3章:假设检验:两种不同类型的错误

第3章:假设检验:为什么推翻原假设

第3章:假设检验:关于均值的假设检验问题

第3章:假设检验:假设检验的各种推广

第三章 假设检验:假设检验中的p.Value

第三章 假设检验:假设检验中的样本量计算

第四章 回归分析是什么

第四章 数据类型与回归模型

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存