三千回归线里选中了你,你有多靠谱?| 协和八
说人话的统计学
上一集我们讲了如何通过最大似然法计算出最符合数据的回归线,从而建立自变量与因变量之间的线性模型。说到底,线性模型是对实际数据中自变量与因变量关系的一种近似。这个近似到底合不合理,有没有实际意义,我们该如何判断呢?
由于自变量的选择有很多,即使我们把八杆子打不着的两个因素放在一块,我们也能建立两者之间的线性模型。比如,我们用学校到家里的距离,或者家里宠物狗的体重来建立小朋友的身高的线性模型,这样的模型往往并不会具有统计学上的显著性。
需要警惕的是,如果我们尝试在大量毫无关系的变量之间做线性模型的相关分析,总会因为巧合导致其中一些看似有统计学意义上面的显著性。比如说,有人竟然发现每年美国人均吃芝士的量与被床单缠死的人的数量有相关性。这显然在道理上是说不通的。这其实就是我们在前面 t 检验和 ANOVA 检验里面提到过的假阳性问题,也就是实际上明明没关系,而统计上有鼻子有眼地找出了显著的关系。
基于上面的原因,我们在建立线性模型(其实也包括其它任何统计模型)的时候,首先会根据特定领域的专业知识选择与因变量有可能有相关性的自变量来建模。比如在前面讲的子女身高的例子里面,我们的模型是子女的身高与用母的身高有线性关系,因为从生物学的角度,身高可能会具有一定的遗传性,这是模型具有合理性的前提。这样建立的起来的模型才具有实际应用的价值。
我们根据一个看上去合情合理的猜想建立了父母身高和子女身高之间的线性模型,在这个模型里面,父母身高是自变量 x,子女身高是因变量 Y。它们的关系用线性模型表示为:
当然,这个看似很有道理的假设也许只是我们的一厢情愿——或许父母和子女的身高没有关系。换句话说,不同身高的父母对应的子女身高并没有什么不同。用数学语言来描述就是 xi 取不同的值,yi 并不随之改变,为了满足这种情形,β1 只能等于零。在这种情况下,子女身高与父母身高的模型更应该是:
这就是说,要验证线性模型中自变量与因变量是不是有显著的线性相关性,其实就是检验 β1(即回归线的斜率)是否不等于零。
在上一集《回归线三千,我只取这一条》里面我们引入了极大似然估计来找出对斜率 β1 的最佳估计:
这里
如果这 100 个样本里面
上面只是直观的判断,我们还需要用更定量的方法描述斜率的估计值
在 εi 满足方差为 σ 的正态分布时,重复抽取很多样本,对每个样本都用极大似然估计找出一个
观察
上面
知道了
与之前 t 检验时学到的 p 值的定义类似,线性假设显著性检验的 p 值指的是:当原假设成立,即真实的 β1 等于 0 时,根据实际数据计算出的斜率大于
知道了
由于估计值
这并不是说真实的斜率会服从这样一个概率分布,在频率派的框架底下,真实的斜率是一个确切的值,只是由于数据本身的随机性,我们测量到的斜率
用线性模型分析数据时,找出斜率的置信区间往往比知道 p 值更有用。95% 置信区间不包含 0 等价于 p 值小于 0.05 。因为线性模型的一大功能就是做预测,有了斜率的置信区间,我们就能知道父母的身高增加 1 厘米,子女的身高增加的多少以及其误差范围。
当然,实际应用中,统计软件会帮我们算出斜率的 p 值和置信区间,所以和之前我们讲过的其他原理一样,上面这些式子都用不着去背。但是,知道它们的含义和怎么来的,可以让我用起来心中更有数。
如果我们能减少 β1 估计值
那有没有什么方法能够减小
前面讲到
在建立父母身高和子女身高的线性模型的例子里面,在最极端的情况下,如果样本中所有父母的身高都一样,我们便无法知道父母身高变化时子女身高是否会随着变化。具体到单个数据点上,假如父母的平均身高是170cm,某一个样本对应的父母身高也是170cm,那么这个样本对
事实上,x 离均值越远的样本对减少
最后,我们再来看看如何解读假设检验的结果。
即使 β1 等于 0,也不能完全说明自变量和因变量之间没有关系,只能说明线性模型不能很好的描述两者之间的关系,有可能它们具有非线性的关系,如下图例子。以后我们会更详细地讲如何用线性模型来处理非线性关系。
图中 y 与 x 的关系是抛物线而不是直线,数学表达式是 y=(x-10)2 。如果直接用线性模型拟合,得到的结果是斜率为零,但是并不能说明 y 与 x 之间没有关系。
如果我们在计算出来斜率的 p 值和置信区间后,发现斜率并不显著,在检查其它可能性之前,首先,我们应该考虑是否有足够的统计功效,如果是统计功效不足,想办法多收集一些数据,尤其是离平均值比较远的数据说不定可以解决问题。
而导致斜率不显著的另外一个可能的原因,是影响 Y 取值的除了 x 还有其它因素,这种情况下,自变量与因变量之间确实具有线性关系,但是由于没有考虑到其它因素的影响,使得模型认为的误差项比实际的误差项大很多,所以导致结果不显著。
回复「统计学」可查看「说人话的统计学」系列合辑,
或点击下方标题可阅读本系列任意文章
干货
第1章 高屋建瓴看统计
第2章 算术平均数与正态分布
第3章 t检验:两组平均数的比较
第4章 方差分析(ANOVA):多组平均数的比较
第5章 线性回归:统计建模初步
(未完,更新中)
自检
番外篇
精选每日一题
更多精选题可回顾历史推送文末
题目来源:临床执业医师资格考试往届真题
本期主播:波棱瓜子🍉
作者:田菊
编辑:黑草乌叶