如果只能学习一种统计方法,我选择线性回归 | 协和八
说人话的统计学
在上一集里面我们把 t 检验和 ANOVA 都放到了统计学模型来看,这些检验方法不再是一个个孤立的方法,而是线性模型的框架底下的一些特殊情况。
在线性模型的框架底下,分组信息是线性模型的输入, 测量值是线性模型的输出,需要比较的组的平均值就是线性模型的参数,假设检验两组的平均值是否相等变成是检验线性模型的特定参数是否不等于 0 。
引入线性模型不仅能把前面学的各种检验方法放到一个统一的框架底下,还能解决 t 检验和 ANOVA 不能解决的一大类问题:输入包含连续变量的情形。如果到这里没有看懂,不用担心,下面我们就请出我们的蓝精灵老朋友,从一个例子看起:
蓝精灵们开学的第一天,学校要体检,蓝精灵厌厌最讨厌的环节就是量身高了,因为他总是班里面最矮的。厌厌想弄明白自己矮是不是因为跟父母身高矮有关系,他就做了一个调查问卷,采集了班上每一只蓝精灵的身高以及它们父母的身高。
现在有了数据,厌厌怎样做数据分析才能知道父母身高是否影响子女身高呢?
直觉告诉我们爸爸妈妈的身高会共同影响子女的身高,为了同时考虑到父母双方的身高的影响,可以取其两者的平均值作为因素进行研究。
如果生搬硬套 t 检验来研究父母身高平均值是如何影响子女身高的,我们可以把班上蓝精灵按照父母的平均身高分为高和矮两组,如果父母身高真的能影响子女身高,父母高的组蓝精灵身高应该显著地高于父母矮的那组蓝精灵(如图1)。
图 1 通过将父母平均身高这一连续变量切分成高和矮两组来判断父母身高是否影响子女身高
这样分析有一个明显的问题,那就是是将父母身高分为高矮两组的分界线设置有无数种可能,设想有可能我们以一米五为分界线,发现有显著性,而以一米二为分界线,又没有显著性,那该最终结论到底以哪个为准呢?
线性回归模型就是用来解决这个问题的。
在这个例子里面,父母的身高是线性回归模型中的预测变量(predictor),也称为自变量(independent variable) ,蓝精灵的身高是预测值(predictive value),也称为因变量(dependent variable)。我们在下面讲回归模型的时候都用预测变量来代表线性模型的输入,预测值来代表线性模型的输出。
线性回归模型假设预测变量和预测值之间存在着线性关系。为了直观地理解线性关系,我们把预测变量(即例子中的爸爸妈妈的平均身高)作为 x 轴,预测值(子女的身高)作为 y 轴,将每一对预测变量和预测值数据都用一个点标出来,这叫做散点图。如果这些点大概在一条直线上面,说明两者之间近似满足线性关系 (如图 2),这条反映预测值与预测变量之间关系的直线被称为回归线。
图 2 用散点图展现数据,蓝线代表回归线,数据与图 1 中一样
由于测量出的数据总存在误差, 预测值和预测变量不可能完全落在回归线上,预测值会在回归线的上下波动,在线性回归模型中用误差项来表示。
上一集我们用线性模型来表示的 t 检验也遇到了误差项,它和线性回归模型中的误差项一样,反映的是模型无法解释的个体差异。
总结上面的讨论,我们可以看到,线性回归模型就是用回归线加上误差项来描述预测值和预测变量之间的关系:
其中 β0 和 β1 是决定回归线的参数,β0 是截距,β1 是斜率,斜率越大,回归线就越陡。回归线是用来表示了预测值和预测变量之间的关系,如果这个关系被已有的数据证明非常可信,那么在遇到新的 x0 值,我们即使不知道其对应的真实值 y0,我们也可以用线性回归模型估计出一个合理的
往往我们实际得到的数据中,即使两个数据点的预测变量 x 完全一样,测量到的预测值 y 也不一定一样。比如两个孩子父母的身高完全一样时,两个孩子之间身高不一定相同,也就是说同样的 x 可能对于多个 y 值。
如果我们知道父母平均身高为 169cm,通过回归模型计算出的子女身高的预测值 y0 = β0 + β1 = 165cm,它其实说的是所有「父母平均身高为 169cm 的人」的平均身高为 165cm,也可以理解为父母平均身高为 169cm 的人最有可能是 165cm,具体到个人的时候会在 165cm 上下波动。
线性回归模型中的系数 β1 也被称为回归系数,它直接反映了预测变量 x 与预测值 y 的关联程度,往往是我们关心的重点 。如果 β1 的值等于 0,y = β0 + 0 * x,从 y 的表达式可以看出,它与 x 没有半毛钱关系,回归系数是一条水平的直线(图 3 )。
图 3 当回归线接近水平直线的时候,说明预测值几乎不受预测变量的影响
如果 β1 不等于 0,当 x 的值改变了 1 个单位,在线性模型的假设下,y 的值的改变为 β1,这可以从下面的推导得出:
也就是说,在其它条件都不变的情况下,x 值每增加1个单位,y 值平均而言会增加 β1,这是对回归系数最直观的解释。
这样解释的含义,往往会暗示一种因果关系:因为将 x 值增加了 1 个单位,导致了 y 值平均而言会增加了。
这样的解释在很多情况下是不成立的。
我们可以把 x 代表的变量和 y 代表的变量在线性回归中进行对调,将父母身高当成 y,子女身高当成 x,虽然两者之间依然有相关性,我们当然得不出「因为子女高导致父母高」的荒谬结论。
可见线性回归分析只能揭示要研究的两个变量之间是否有相关性,即一个变量的变化是否伴随着另一个变量值的变化,而并不能解释两个变量之间的变化是否有因果关联。
在线性回归模型里面,系数 β0,β1 决定了回归线的走向,也就是 y 与 x 之间的定量关系,代表误差项大小的 σ 代表了模型有多准确。通常情况下,线性回归模型假设误差项 ε 服从平均值为 0,方差为 σ2 的正态分布,而且方差的大小不随着预测变量 x 值改变,也叫做同方差性(Homoscedasticity)。换句话说,同方差性就是指误差项的方差是一个常数,与实验条件无关。
在通过父母平均身高预测子女身高的例子里面,同方差性意味着无论父母平均身高是两米还是一米六,线性模型预测的子女身高和真实身高之间的绝对差距是近似的。如果随着父母身高增加,子女的预测身高与真实身高的差距也有变大的趋势,同方差性就不再满足了,以后我们会讲到如何在同方差性不能满足的情况下做回归模型。
说完了线性回归模型里面每一个参数的含义,下一集我们会给大家介绍在同方差性的假设底下,如何用最大似然估计来获得关于 β0 和 β1 值的最佳估计。
回复「统计学」可查看「说人话的统计学」系列合辑,
或点击下方标题可阅读本系列任意文章
>>> 干货 <<<
>>> 自检 <<<
>>> 番外篇 <<<
作者:田菊
编辑:黑草乌叶