统计学-卡方检验 | 生物统计学基础系列课
什么是生物统计学
生物统计学是一种很有用的工具,正确使用这一工具可以使科学研究更加有效,使科学研究可以更加高效的开展。因此,它是每位生物科学工作者必须掌握的基础知识。联川生物近日对生物统计学进行了系统式的学习,所用的教材——《生物统计学基础(原书第5版)》是一本非常有特色的书,与其他同类书比较,其有以下几类优点:
①教材内容通俗易懂但又非常严谨、细致、深入而又全面。书中的多数公式都有证明,且多用初等数学方法证明,对于不能用初等方法证明的也都给出了出处。
②本书核心是医学应用,作者通过大量的医学实例,引入及介绍统计方法,从如何构思到分析结果的解释,几乎都有全过程。由于一切从实用出发,所以对实用极为重要的知识,比如功效(power) 及样本量的估计,都是实际工作者极为关心的。
③学术上的先进性。作者将每个版本中的当时国际上最流行的统计方法及统计软件及时吸收在了本书内。
得“秘籍”如此,专业知识及科研水平定会有质升的提高!故此,小编为大家推出“生物统计学基础”相关知识系列课,和大家一起探索这本书里的珍贵知识,今日推送第七课:统计学-卡方检验!
往期精彩回顾
卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。
2. 基本思想
卡方检验是以χ2分布(若k 个随机变量Z1、……、Zk 相互独立,且数学期望为0、方差为 1(即服从标准正态分布),则随机变量X被称为服从自由度为 k 的卡方分布)为基础的一种常用假设检验方法,它的无效假设H0是:观察频数与期望频数没有差别。
该检验的基本思想是:首先假设H0成立,基于此前提计算出χ2值,它表示观察值与理论值之间的偏离程度。根据χ2分布及自由度可以确定在H0假设成立的情况下获得当前统计量及更极端情况的概率P。如果P值很小,说明观察值与理论值偏离程度太大,应当拒绝无效假设,表示比较资料之间有显著差异;否则就不能拒绝无效假设,尚不能认为样本所代表的实际情况和理论假设有差别。
3. 卡方值的计算与意义
χ2值表示观察值与理论值之问的偏离程度。
其中,Ai为i水平的观察频数,Ei为i水平的期望频数,n为总频数,pi为i水平的期望频率。i水平的期望频数Ei等于总频数n×i水平的期望概率pi,k为单元格数。当n比较大时,χ2统计量近似服从k-1(计算Ei时用到的参数个数)个自由度的卡方分布。
由卡方的计算公式可知,当观察频数与期望频数完全一致时,χ2值为0;观察频数与期望频数越接近,两者之间的差异越小,χ2值越小;反之,观察频数与期望频数差别越大,两者之间的差异越大,χ2值越大。换言之,大的χ2值表明观察频数远离期望频数,即表明远离假设。小的χ2值表明观察频数接近期望频数,接近假设。因此,χ2是观察频数与期望频数之间距离的一种度量指标,也是假设成立与否的度量指标。如果χ2值“小”,研究者就倾向于不拒绝H0;如果χ2值大,就倾向于拒绝H0。至于χ2在每个具体研究中究竟要大到什么程度才能拒绝H0,则要借助于卡方分布求出所对应的P值来确定。
卡方检验最常见的用途就是考察某无序分类变量各水平在两组或多组间的分布是否一致,其他一些用途如下:
(1)检验某个连续变量的分布是否与某种理论分布相一致。如是否符合正态分布、是否服从均匀分布、是否服从Poisson分布等。
(2)检验某个分类变量各类的出现概率是否等于指定概率。如在36选7的彩票抽奖中,每个数字出现的概率是否各为1/36;掷硬币时,正反两面出现的概率是否均为0.5。
(3)检验某两个分类变量是否相互独立。如吸烟(二分类变量:是、否)是否与呼吸道疾病(二分类变量:是、否)有关;产品原料种类(多分类变量)是否与产品合格(二分类变量)有关。
(4)检验控制某种或某几种分类因素的作用以后,另两个分类变量是否相互独立。如在上例中,控制性别、年龄因素影响以后,吸烟是否和呼吸道疾病有关;控制产品加工工艺的影响后,产品原料类别是否与产品合格有关。
(5)检验某两种方法的结果是否一致。如采用两种诊断方法对同一批人进行诊断,其诊断结果是否一致;采用两种方法对客户进行价值类别预测,预测结果是否一致。
(一)卡方检验实例-掷骰子(适合度检验)
1、假设掷骰子120次,各点数出现的次数详见上表;
2、零假设:观察分布等于期望分布
3、计算卡方值(统计量)
(18-20)2/20+(19-20)2/20+(23-20)2/20+(20-20)2/20+(20-16)2/20+(24-20)2/20=2.3
4、确定自由度=(行数-1)x(列数-1)=(2-1)x(6-1)=5,选择显著性α=0.05
5、查找卡方检验临界值表,找到对应自由度5,α=0.05时临界值为11.070
结论:统计量(2.3)<临界值(11.070),故差异不显著,接受原假设
(二)卡方检验实例-独立性检验
卡方独立性检验是用来检验两个属性间是否独立。一个变量作为行,另一个变量作为列。
某机构欲了解现在性别与收入是否有关,他们随机抽样500人,询问对此的看法,结果分为“有关、无关、不好说,三种答案,下图中为调查得到的数据。
1)零假设:性别与收入无关;
2)确定自由度为(3-1)*(2-1)=2,选择显著水平α=0.05
3)计算卡方值(统计量)-右下图:14.32483
4)查找卡方检验临界值表,找到对应自由度2,α=0.05时临界值为5.991
5)结论:统计量>临界值,故拒绝原假设
期望值计算方法(以男性有关为例):
220*230/500=101.2,即所有有关*所有男性/总体量
(三)卡方检验实例-统一性检验
检验两个或两个以上总体的某一特性分布,也就是各“类别”的比例是否统一或相近,一般称为卡方统一性检验或者卡方同质性检验。
例:想了解南京和北京的市民对最低生活保障的满意程度是否相同。他们从南京抽出600居民,北京抽取600居民,每个居民对满意程度(非常满意、满意、不满意、非常不满意)任选一种,且只能选一种。
1)零假设:南京和北京居民对最低生活保障满意程度的比例相同。
2)确定自由度为(4-1)×(2-1)=3,选择显著水平α=0.05。
3)计算卡方统计量,1.3875
4)查找卡方检验临界值表,找到对应自由度3,α=0.05时临界值为7.815
5)结论:统计量<临界值,故接受原假设
(四)卡方检验实例-实际项目(R语言)
以菌群门水平结果为例,两样本c01和c02在不同门水平的表达量(count数)如下表:
R语言卡方检验函数:chisq.test
以p__Proteobacteria菌检验为例,将该菌的表达量和去除该菌后其他菌的表达量总和作为检验对象:
检验分析chisq.test(m)
适用于四格表应用条件:
(一)随机样本数据。两个独立样本比较可以分以下3种情况:
(1)所有的理论数T≥5并且总样本量n≥40,用Pearson卡方进行检验。
(2)如果理论数T<5但T≥1,并且n≥40,用连续性校正的卡方进行检验。
(3)如果有理论数T<1或n<40,则用Fisher’s检验。
(二)卡方检验的理论频数不能太小
R×C表卡方检验应用条件:
(1)R×C表中理论数小于5的格子不能超过1/5;
(2)不能有小于1的理论数。如果实验中有不符合R×C表的卡方检验,可以通过增加样本数、列合并来实现。
今天的生物统计学系列课就此结束,下一课会定时在下周四掉落~
下期预告——推断统计之参数估计
米娜桑~下期再会,不见不散哦~