第二十三讲 R-卡方检验之拟合度检验
在“R与生物统计专题”中,我们会从介绍R的基本知识展开到生物统计原理及其在R中的实现。以从浅入深,层层递进的形式在投必得医学公众号更新。
在前面的两讲中,我们介绍了离散数据的统计学检验时,单个频数的比值/比例与期望值进行比较,可以使用单比例的Z检验(第二十一讲 单比例的Z检验),两组中两频数的比值/比例间的比较,可以使用两比例Z检验(第二十二讲 两比例Z检验)。
那么,当出现多组频数与期望值进行比较,或者多组间的频数比较时,该用什么方法,又如何可以R实现呢?在之后的两讲中,我们会一起学习。
卡方拟合度检验
卡方拟合度检验用于在有两个或多个类别的离散数据的情况下,将观察到的分布与期望分布进行比较。换句话说,卡方拟合度检验用于判断不同类型结果的比例分布相对于一个期望分布的拟合程度。
卡方拟合度检验适用于变量为类别型变量的情况。例如:变量为有罪或无罪。
例如,我们收集了野生郁金香,发现81朵红色,50朵黄色和27朵白色。
问题1:
这些颜色是否一样普遍?
如果这些颜色均匀分布,则每种颜色的预期比例将是1/3。
问题2:
假设在收集到数据的总体中,红色,黄色和白色郁金香的比率为3:2:1(3 + 2 + 1 = 6)。也就是说,预期比例为:
红色:3/6(= 1/2)
黄色:2/6(= 1/3)
白色:1/6
研究问题,观察到的比例与预期比例之间是否存在显着差异。
原假设(H0):观测值与预期值之间没有显着差异。
备择假设(H1):观测值与预期值之间存在显着差异。
R函数chisq.test()可以按以下方式使用:
chisq.test(x, p)
x:数值向量
p:与x相同长度的概率向量。
3.1 对问题1的回答:
颜色是否一样普遍?
tulip <- c(81, 50, 27)
res <- chisq.test(tulip, p = c(1/3, 1/3, 1/3))
res
输出结果
Chi-squared test for given probabilities
data: tulip
X-squared = 27.886, df = 2, p-value = 8.803e-07
函数返回值:卡方检验统计量的值(“ X-squared”)和p值。
检验的p值为 8.80e-7,小于显着性水平alpha = 0.05。我们可以得出结论,三种颜色的普遍性不完全相同。
当每个类别中观察到的或预期的频率太小时,此检验无效。要求样本含量应大于40且每个格子中的理论频数不应小于5。
# 期望值计算方法
res$expected
[1] 52.66667 52.66667 52.66667
3.2 比较观察到的比例与预期比例之间是否存在显着差异
tulip <- c(81, 50, 27)
res <- chisq.test(tulip, p = c(1/2, 1/3, 1/6))
res
输出结果
Chi-squared test for given probabilities
data: tulip
X-squared = 0.20253, df = 2, p-value = 0.9037
检验的p值为 0.9037,大于显着性水平alpha = 0.05。我们可以得出结论,观察到的比例与预期比例没有显着差异。
3.3 访问由chisq.test()函数返回的值
chisq.test()函数的结果是一个包含以下组件的列表:
statistic:卡方检验统计量的值
parameter:自由度
p.value:测试的p值
observed:观察到的计数
expected:预期数量
用于获取这些值的R代码的格式如下:
res$p.value
[1] 0.9036928
res$estimate
NULL
好了,本期讲解就先到这里。小伙伴们赶紧试起来吧。
当然啦,R语言的掌握是在长期训练中慢慢积累的。一个人学习太累,不妨加入“R与统计交流群”,和数百位硕博一起学习。
快扫二维码撩客服,
带你进入投必得医学交流群,
让我们共同进步!
↓↓
- END -
长按二维码关注「投必得医学」,更多科研干货在等你!