查看原文
其他

车模航模你玩过,统计学模型你会玩吗?| 协和八

2017-02-23 张之昊 协和八

 说人话的统计学 

我们「说人话的统计学」栏目在过去的一段时间里,给大家连篇累牍地介绍了两门最常见的统计学基本功——t 检验和 ANOVA(方差分析)从原理到使用方方面面的问题。有了这些知识作后盾,加上如今各种方便的统计学软件,想来大家对于 t 检验和 ANOVA 的一招一式已然成竹在胸了吧?

话虽如此,如果我们来回顾和对比一下 t 检验和 ANOVA,也许还会有个别让人困惑的地方:

第一我们总会强调,在使用 t 检验和 ANOVA 之前,要检查相应的假设是否成立(比如是否服从正态分布、各组方差是否相等之类)。诚然,我们之前都讨论过为什么我们需要这些假设,可是也许你还是想问,真的非它们不可吗?要是有些假设不成立,我们能不能不在乎它们呢?

第二,t 检验管的是一两个组的平均值,ANOVA 管的是三个或者以上组的平均值,说起来都是一样的问题,为什么它们的原理看起来这么不一样?它们到底是一回事还是两回事?

而且,把这两个问题结合起来看,你也许还会觉得,统计学似乎有些琐碎和死板——对于同一个问题(对算术平均值进行比较和推断)的不同情况,就得用上很不一样的两种招式,还得有那么多条条框框。有没有更灵活多变的方法,能够事半功倍地解决不同的问题呢?

为了解答上面这些疑问,并且引出未来将要学习的新话题,今天我们一起来尝试用一个新的角度来看 t 检验和 ANOVA。

1

不管是 t 检验,ANOVA,还是以后会讨论的其它什么统计学的方法,归根结底它们都是各种各样的统计学模型。所谓模型,就是对现实世界的某种抽象化。我们小时候把玩过的汽车飞机模型,看房子时琢磨过的微缩小区或房型展示,外出旅游时查阅过的地图,中学物理考试里算过的牛顿力学,都是各式各样的模型,为我们总结了客观世界中某些方面的规律或信息

那么,t 检验和 ANOVA 分别为我们构建了什么样的统计学模型?

我们首先从最简单的一种情形看起——只有一个分组,而我们想要考察该分组的某个变量的算术平均值。这其实就是单样本 t 检验的情况。这时,我们最基本的想法是,该分组内的不同个体由于具有一些共同的性质,使得不同个体该变量的取值应当服从某种规律,具有一定的共性。例如,同一种类的成年猫头鹰有大体相似的体重,工作日同一时间段从东单到阜成门的行车时间基本类似,等等。

如果我们接受这个出发点,回到我们感兴趣的变量,那么一个自然的推断便是,该分组内各个个体的这个变量应当大体接近于它们的「共性」所决定的某个值。之所以说是「大体接近」,而不是完全等于,那是因为不同个体之间总会有些随机误差,使得变量的具体取值相对于它们的共性所决定的值会有所偏离。

如果用 y 表示变量的取值,用 μ 表示个体在这一方面的共性,那么就有

这已经可以说是一个模型了。

我们上面说过,构建模型的意义在于总结客观世界中的某些规律。在这个例子里,如果我们能把一堆数据套到这个模型上,找出对的合理估计,我们就得到了对世界的一点新认识。

然而,这个模型很难让我们找到一个确切的——由于那个约等号的存在,我们顶多只能找到的一个模糊的范围,这个范围的界限在哪里都不好说,更别说找出一个最佳的了。

所以,我们还需要对这个模型做些改进,使它更精确一些。要把这个约等号去掉,我们就得把每个 y 和之间的差别具体化

如果我们引进 ε作为第 i 个数据点与 μ 之差,那么就有

去掉了约等号,看起来要精确多了。

但是,光有这条等式还不够,因为我们仍然可以随意认定一个,然后剩下的差别作为就行了。要锁定 μ,我们还需要对 ε的性质做个规定,这样它们才不能随便乱跑。

这时,我们就需要用到在《算术平均数:简单背后有乾坤》和《正态分布到底是怎么来的?》两集中的知识——一种合理的假设,是认为误差 εi 应该服从均值为 0 的正态分布,也就是说

 这样一来,我们的模型中就有两个参数,一是 μ,代表个体间共同的性质,一是 σ(标准差),代表误差的发散程度

有了这两条,我们就可以选定某些客观标准(比如《算术平均数:简单背后有乾坤》中简单介绍过的极大似然估计;不了解或者已经忘记了也没有关系,我们在未来几集里还会再详细介绍该方法在线性模型中的应用),找出最符合我们手上数据的、对 μ 和 σ 的估计值(一般写作)了。

在单样本 t 检验中,我们用到的统计学模型其实就是这一个(在样本量较小的时候,也可以认为误差服从 t 分布,参看《想玩转t检验?你得从这一篇看起》)。有了,我们就可以进一步回答诸如「与某个常数(比如 0 )之间是否有显著的差别」这样的问题了。

2

单样本如此,有两组的时候又怎么样呢?

我们把两组分别记为组 1 和组 2 ,组 1、组 2 中的数据点记作 y1m,y2n

参照上面只有一个组时的模型,则有

其中 μ1、μ2 分别是两组各自的某种共性决定的理论均值,而 σ1、σ2 分别是两组各自随机误差的标准差

还记得两组独立样本的 t 检验要先检验方差是否相等吗?那时我们关心的其实就是上面的 σ1、σ2 是否相等。如果我们有理由认为两者相等(记作 σ),那么我们还可以进一步把上面的模型换个样子。

这时,我们先把两组数据合并在一起,不再分成 y1m,y2n,而是统一按照原来的办法,记成 yi。但是这样的话,我们还怎么知道哪个属于组 1、哪个属于组 2 呢?为了解决这个问题,我们引进一个新的变量。如果第 i 个数据点来自组 1,那么 si=0;如果来自组 2,则 si=1(其实只要两个组各取一个不一样的数值即可,不一定非要 0 和 1,但是我们后面会看到,这样做有它的优越性)。这样一来,上面的模型就可以变成

我们不妨验证一下,这种写法是不是和前面两个组分开的模型是一样的。如果是第一组,那么 si=0,代入到上面的式子里我们可以得到

如果是第二组,则有si=1,同样代入到前面的模型,会有

对照一下一开始两组分开描述的模型(4)和(5),确实是一样的吧?

确认了这一点,我们还可以把模型(6)写得简洁一些。令 β01,β12 - μ1,我们可以得到

利用实际数据和极大似然估计,我们可以估计出 β0、β1 和 σ。注意到 β0 就是 μ1,也就是组 1 的理论均值,而 β1 是 μ2 - μ1,也就是组 1、组 2 理论均值的差别。因此,在独立样本的 t 检验中,我们针对两组均值之差进行统计推断,关心的其实就是 β1

我们再回到模型(7),观察这个式子以及 β0、β1 的含义,我们可以发现,它可以这样理解:当 si=0 时,yi 的平均值就是 β0,也就是说,这个模型把第一组作为一个「基准」。而当 si=1 时,这个模型要对 yi 进行「修正」,而修正的量是多少呢?就是 β1,即两组均值之差 μ2 - μ1 了。

3

顺着这样的思路,我们也可以把这样的模型拓展到 ANOVA 中涉及多组比较的情形。和上面一样,不论有多少个因素,多少个分组,我们都可以像模型(4)(5)那样,为每个组建立一个有自己的均值、自己的标准差的独立的模型。然后,如果每个组的标准差都相等(这就是 ANOVA 中各组方差相等的要求的来源!),我们就可以按照上面的方法,把模型归并到一起,选定某个组作为「基准」,然后根据组别,在「基准」的基础上进行「修正」。如果是多因素的情形,还要考虑主效应交互效应的叠加。

上面提到的这些模型,都属于一类最常见、最好用的统计学模型——线性模型(linear models)。

明白了这一点,我们就可以知道,t 检验和 ANOVA 只是线性模型中的一些特殊情形,而它们的具体计算方法(如 ANOVA 中的各种平方和与 F 分布的应用)只不过是统计学家们根据这些特殊情形的理论性质,找出的一些便捷规范的方法而已。打个比方,如果把数据分析比做烹饪,t 检验和 ANOVA 及其计算方法就好像是电压力锅上「煮饭」、「炖肉」之类的预设程序一样。

而这些预设程序在带来莫大方便的同时,也给我们制造了不少束缚,t 检验和 ANOVA 亦是如此。

分布不正态怎么办?各组方差不相等怎么办?球面性假设不符合怎么办?这些要求一来让人死记硬背不求甚解,二来在实际问题中并不总能得以满足。虽然有时能有数据变换、非参数检验一类的解决方法,但是许多时候难免有些削足适履。要把纷繁复杂的数据做出真正的好菜,还是得在炉子上像个真正的大厨一样才行(当然,在条件合适的时候,我们也不排斥压力锅)。

在接下来的几集里,我们将为大家重点介绍线性模型的建立和相关统计推断。掌握了统计学建模的方法,我们就可以大大丰富数据分析技能,发掘更多统计学的魅力与精彩啦!

五年执医 三年模拟

精选每日一题

更多精选题可回顾历史推送文末

男,45岁。上腹部剧烈疼痛3小时,随机蔓延到全腹,呈持续性。查体:板状腹,全腹压痛及反跳痛,肠鸣音消失。

题目来源:临床执业医师资格考试往届真题

本期主播:波棱瓜子🍉

回复「统计学」可查看「说人话的统计学」系列合辑,

或点击下方标题可阅读本系列任意文章


>>> 干货 <<<

你真的懂p值吗?

做统计,多少数据才算够?(上)

做统计,多少数据才算够?(下)

提升统计功效,让评审心服口服!

你的科研成果都是真的吗?

见识数据分析的「独孤九剑」

贝叶斯vs频率派:武功到底哪家强?

数据到手了,第一件事先干啥?

算术平均数:简单背后有乾坤

正态分布到底是怎么来的?

想玩转t检验?你得从这一篇看起

就是要实用!t 检验的七十二变

不是正态分布,t 检验还能用吗?

只有15个标本,也能指望 t 检验吗?

样本分布不正态?数据变换来救场!

数据变换的万能钥匙:Box-Cox变换

t 检验用不了?别慌,还有神奇的非参数检验

只讲 p 值,不讲效应大小,都是耍流氓!

找出 t 检验的效应大小,对耍流氓 say no!

用置信区间,就是这么(不)自信!

如何确定 t 检验的置信区间

优雅秀出你的 t 检验,提升Paper逼格!

要做 t 检验,这两口毒奶可喝不得!

要比较三组数据,t 检验还能用吗?

ANOVA在手,多组比较不犯愁

ANOVA的基本招式你掌握了吗?

ANOVA做出了显著性?事儿还没完呢!

听说,成对t检验还有ANOVA进阶版?

重复测量ANOVA:你要知道的事儿都在这里啦

没听说过多因素 ANOVA ?那你就可就 OUT 了!

多因素ANOVA=好几个单因素ANOVA?可没这么简单!

两个因素相互影响,ANOVA结果该如何判读?

要做ANOVA,样本量多大才够用

ANOVA还能搞三四五因素?等等,我头有点儿晕

>>> 自检 <<<

妈妈说答对的童鞋才能中奖

统计学的十个误区,你答对了吗?

>>> 番外篇 <<<

说人话的统计学:一份迟来的邀请

作者:张之昊

编辑:黑草乌叶

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存