StatQuest学习笔记09——Fisher精确检验
StatQuest学习笔记09——Fisher精确检验
前言
以前我也写过有关统计学的笔记,本来是想结合StatQuest把原来的笔记整理一下,后来一想,还是算了,直接把StatQuest的系列教程做成笔记,这样比较系统,也会避免笔记冗余。这篇笔记是StatQuest视频教程的第31个,主要内容是Fisher精确检验与超几何分布,Fisher精确检验我以前的笔记中也有,就是《卡方检验》这篇笔记。
Fisher精确检验
我们还以MM豆(MM豆是M&M巧克力豆的缩写,美国的一个品牌)为例进行说明。
此时我从MM豆的盒子里抓了一把MM豆,这批MM豆有8个,其中有7个蓝豆,1个红豆。此时问题来:
如何描述袋子中的MM豆颜色的分布?
我这个盒子里的蓝豆的比例是不是比正常的要高一些(正常MM豆中的蓝豆比例为21%)?
我能否计算这个MM豆样本的p值?
如下所示:
MM豆的盒子里有40个MM豆,它的各种MM豆的颜色比例如下图所示:
此时,我用直方图来研究一下我的这盒MM豆是否是一个特例(就是说跟平常所见的MM豆的颜色比例不同),下面我们就以我手中的这8个MM豆(7个蓝豆,1个红豆)为基础,来计算一下这个概率,如下所示:
首先我事先说明一下,我们在计算这批MM豆的概率时,不用考虑它们的顺序,也就是说,当我拿出7个蓝豆与1个红豆的时候,不用在意这8个MM豆是如何排序的,就像是下面的这个样子:
现在让我们计算一下这7个蓝豆和1个红豆的概率,如下所示:
第1步:第1个MM豆是蓝色,此时它的概率为8/40,如何计算呢?就是因为一盒MM豆中按照正常的比例(这个比例是作者从MM豆的官网上查的),它有40个MM豆,有8个蓝豆,此时蓝豆的概率就是8/40,如下所示:
第2步:还是1个蓝豆,它的概率是7/39,如何计算呢?因为此时已经拿出了一个蓝豆了,这盒MM豆剩下的就只有39个了,蓝豆还有7个,那么蓝豆的概率就是7/39,如下所示:
按照这种方法计算下去,第3个蓝豆的概率就是6/38,第4个蓝豆的概率就是5/37,最后,第8个MM豆是红色的概率就是5/33,计算结束。
现在把这8个概率相乘,就是我们手中有7个蓝豆和1个红豆的概率,最终的结果为0.000000065,如下所示:
这个概率是非常小的,不过我们需要记住的是,我们此时没有考虑MM豆的顺序,如果我们考虑了MM豆的顺序的话,我们还可以再计算一次,方法跟前面的是一样的,考虑了顺序之后,就是下面的这个样子:
最终的计算结果是0.00000053,如下所示:
此时我们计算出了出现这个事件的概率(也就是说7个蓝豆和1个红豆)了,那么,我们如何计算p值呢?首选我们要知道,p值是一系列小概率事件的总和,还包括下面的这些情况,例如8个蓝豆,还有7个橘黄豆和1个蓝豆,如下所示:
后来经过计算,这个p值为0.01,那么我们就可以说,我的这盒MM豆是特例。
Fisher精确检验与超几何分布
另外在这个视频教程的题目中提到了超几何分布,Fisher精确检验可以视为超几何分布的一种变形,超几何分布在GO分析方面有着重要的作用,先留个坑,等视频学完了再填上。