查看原文
其他

第二十三讲 R-卡方检验之拟合度检验

跟我学 投必得医学 2022-05-07

在“R与生物统计专题”中,我们会从介绍R的基本知识展开到生物统计原理及其在R中的实现。以从浅入深,层层递进的形式在投必得医学公众号更新。


在前面的两讲中,我们介绍了离散数据的统计学检验时,单个频数的比值/比例与期望值进行比较,可以使用单比例的Z检验(第二十一讲 单比例的Z检验),两组中两频数的比值/比例间的比较,可以使用两比例Z检验(第二十二讲 两比例Z检验)。

那么,当出现多组频数与期望值进行比较,或者多组间的频数比较时,该用什么方法,又如何可以R实现呢?在之后的两讲中,我们会一起学习。


卡方拟合度检验

卡方拟合度检验用于在有两个或多个类别的离散数据的情况下,将观察到的分布与期望分布进行比较。换句话说,卡方拟合度检验用于判断不同类型结果的比例分布相对于一个期望分布的拟合程度。

卡方拟合度检验适用于变量为类别型变量的情况。例如:变量为有罪或无罪。


1. 示例数据和问题

例如,我们收集了野生郁金香,发现81朵红色,50朵黄色和27朵白色。

  • 问题1:

这些颜色是否一样普遍?

如果这些颜色均匀分布,则每种颜色的预期比例将是1/3。

  1. 问题2:

假设在收集到数据的总体中,红色,黄色和白色郁金香的比率为3:2:1(3 + 2 + 1 = 6)。也就是说,预期比例为:

  • 红色:3/6(= 1/2)

  • 黄色:2/6(= 1/3)

  • 白色:1/6

研究问题,观察到的比例与预期比例之间是否存在显着差异。


2. 统计假设
  • 原假设(H0):观测值与预期值之间没有显着差异。

  • 备择假设(H1):观测值与预期值之间存在显着差异。


3. R函数:chisq.test()

R函数chisq.test()可以按以下方式使用:

chisq.test(x, p)
  • x:数值向量

  • p:与x相同长度的概率向量。


3.1 对问题1的回答:

      颜色是否一样普遍?

tulip <- c(81, 50, 27)res <- chisq.test(tulip, p = c(1/3, 1/3, 1/3))res

输出结果

Chi-squared test for given probabilitiesdata: tulipX-squared = 27.886, df = 2, p-value = 8.803e-07

函数返回值:卡方检验统计量的值(“ X-squared”)和p值。

检验的p值为 8.80e-7,小于显着性水平alpha = 0.05。我们可以得出结论,三种颜色的普遍性不完全相同。


请注意

当每个类别中观察到的或预期的频率太小时,此检验无效。要求样本含量应大于40且每个格子中的理论频数不应小于5。


# 期望值计算方法res$expected

[1] 52.66667 52.66667 52.66667


3.2 比较观察到的比例与预期比例之间是否存在显着差异

tulip <- c(81, 50, 27)res <- chisq.test(tulip, p = c(1/2, 1/3, 1/6))res

输出结果

Chi-squared test for given probabilitiesdata: tulipX-squared = 0.20253, df = 2, p-value = 0.9037

检验的p值为 0.9037,大于显着性水平alpha = 0.05。我们可以得出结论,观察到的比例与预期比例没有显着差异。


3.3 访问由chisq.test()函数返回的值

chisq.test()函数的结果是一个包含以下组件的列表:

  • statistic:卡方检验统计量的值

  • parameter:自由度

  • p.value:测试的p值

  • observed:观察到的计数

  • expected:预期数量

用于获取这些值的R代码的格式如下:

res$p.value

[1] 0.9036928

res$estimate

NULL


好了,本期讲解就先到这里。小伙伴们赶紧试起来吧。

在之后的更新中,我们会进一步为您介绍R的入门,以及常用生物统计方法和R实现。欢迎关注,投必得医学手把手带您走入R和生物统计的世界。
提前打个预告,下一期我们将介绍“卡方独立性检验”

第一讲 R-基本介绍及安装

第二讲 R-编程基础-运算、数据类型和向量等基本介绍

第三讲 R编程基础-矩阵和数据框

第四讲 R-描述性统计分析

第五讲 R-数据描述性统计分析作图

第六讲 R-数据正态分布检验

第七讲 R-相关性分析及作图

第八讲 R-单样本T检验

第九讲 R-单样本Wilcoxon检验

第十讲 R-两独立样本t检验

第十一讲 R-两独立样本Wilcoxon检验

第十二讲 R-配对样本t检验

第十三讲 R-配对样本Wilcoxon检验

第十四讲 R-单因素方差分析1

第十五讲 R-单因素方差分析2

第十六讲 R-双向方差分析1

第十七讲 R-双向方差分析2

第十八讲 R-多元方差分析

第十九讲 F检验:两样本方差比较

第二十讲 多样本间的方差比较

第二十一讲 单比例的Z检验

第二十二讲 两比例Z检验



当然啦,R语言的掌握是在长期训练中慢慢积累的。一个人学习太累,不妨加入“R与统计交流群”,和数百位硕博一起学习。


快扫二维码撩客服,

带你进入投必得医学交流群,

让我们共同进步!

↓↓


- END -


长按二维码关注「投必得医学」,更多科研干货在等你!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存