查看原文
其他

商务统计学基础 | 第三章 假设检验:假设检验中的p.Value

王汉生 王菲菲 狗熊会 2023-10-28
点击上方"狗熊会"关注我们吧!

假如在你面前有一个苹果、一个香蕉,还有一个大鸭梨。我希望你告诉我:哪个水果更“好”?请问你如何回答?你看,这是一个让人感到非常困惑的问题,没法回答。困惑产生的根本原因在于,苹果不是香蕉,香蕉不是大鸭梨,大鸭梨也不是苹果。如何相互对比谁更“好”?所以一个可能的简单答案是:不知道,我不知道是苹果更好,还是香蕉更好,还是大鸭梨更好。这个答案令人满意吗?不满意,因为这个答案回避了面对苹果、香蕉和大鸭梨时你必须做出的选择问题。现实生活中,很多时候苹果、香蕉和大鸭梨并不互为竞争关系,完全可以同时拥有,因此不用操心谁更好的问题。但是,也有很多时候,兜里只有1元钱,只能购买其中一种,没办法同时拥有,因此必须做出取舍。在这种情况下你会发现一个神奇的现象:人们最终是做出了选择的!这说明,在人们的潜意识里,其实苹果、香蕉和大鸭梨在某些指标上是可比的,而这些指标决定了谁更“好”。有哪些指标呢?也许是重量?也许是甜度?也许是卡路里?也许是香气?也许是颜值?总之,现实生活中的人们在面对相似但是并不完全相同的取舍问题时,需要一个“测量”来把看似不同的事物投影到一个统一的尺度空间,进而方便比较。同样的问题在统计学假设检验中也存在,而且大量存在。这里的苹果、香蕉和大鸭梨就是三个不同的假设检验结果。为什么会有不同的假设检验结果?产生的原因太多了,请看以下情形。

情形1:同一个数据、同一个假设检验问题(例如:检验均值是否为0),可以有很多种不同的检验方法。图3.6.1总结了一些常见的用于均值(或者更严格地说是某种位置参数)假设检验的方法,包括我们学习过的Z检验,以及未学习过的Wilcoxon符号秩检验和似然比检验。这时不同的假设检验方法可能会产生不同的假设检验结果。假设两个不同的假设检验结果都能提供关于支持对立假设的证据,请问:哪一个证据更强?如果所采用的检验统计量都是Z类型的统计量(即:点估计/标准误差),那么这个问题比较好回答。哪个分析结果所对应的Z统计量的绝对值更大,哪个检验结果就更加支持对立假设一些,这似乎非常顺理成章。但是,如果一个假设检验的统计量是Z统计量,另一个是某种更加复杂的不可直接对比的统计量(例如:图3.6.1中的秩和统计量、似然比统计量),请问如何对比?请注意,这不是一个虚构的需求。假设你是一个生物制药公司,你投入巨大资源开发一款新的降压药,并完成了临床试验。你一定会竭尽全力证明这个药品是有效的。此时,对于检验均值,统计学老师告诉你有10种不同的检验方法,你会如何选择?你一定会说:都做一遍,看看哪个对自己最有利。因此,你面对一个很现实的问题,你需要把不同的假设检验结果(苹果、香蕉、大鸭梨)做一个对比,在合理合法的前提下,从中挑出对自己最有利的结果。此时你应该如何对比?也许你需要一个工具,能够把来自不同假设检验方法的假设检验结果(苹果、香蕉、大鸭梨),投影到同一个尺度空间上去,然后进行对比。请问具体应该怎么办?

图3.6.1:均值的各种假设检验方法

情形2:同一个数据集合、不同的数据字段,不同的假设检验问题。这怎么会发生?现实中确实会大量发生。实际工作中碰到的数据,基本上都是多指标数据。例如,表3.6.1是一个字段列表,展示了一个来自狗熊会精品案例库的北京市二手房的价格数据。其中涉及到单位面积房价等指标。这些指标中最重要的是二手房单位面积价格,研究的一个核心问题是:什么因素影响了房价,在多大程度上会影响?例如,是否有客厅(是 vs. 否),会影响对数变换后的房价均值吗?有比如,不同的楼层(低楼层 vs. 高楼层)、不同的城区(朝阳区 vs. 海淀区)、是否邻近地铁(是 vs. 否)、是否是学区房(是 vs. 否)等是否会影响对数变换后的房价均值?你看,所有这些假设检验都围绕一个核心问题:是否对对数变换后的房价均值有实质性影响,但是它们又可以被表达成非常丰富且不同的假设检验问题。面对不同的目标参数,不同的参数估计结果,不同的假设检验统计量,如何评价它们在统计学上的显著性程度?为此,也许你需要一个工具,能够把来自不同假设检验方法的假设检验结果(苹果、香蕉、大鸭梨),投影到同一个尺度空间上去,然后进行对比。请问具体应该怎么办?

表3.6.1:北京市二手房的价格数据字段说明

情形3:不同数据集合,但是面对相同的研究问题,因此有可能也需要相同的假设检验问题。这种情况在实际中也非常常见。比如面对同一个均值(例如失业率)的假设检验问题,在抽取样本时有许多不同的抽样方法可供选择。图3.6.2展示了部分常见的抽样方法。不同的抽样方法会造成所抽取的样本数据不同,进而造成假设检验的结果不同。例如,我们想检验北京市高校大学生的平均恋爱次数是否大于或等于某个给定值(例如1),请问如何抽样呢?可能有多种选择。可以采用简单随机抽样的方法,从全部的北京高校大学生中随机抽取样本进行调查。或者可以进行分层抽样,即在每个高校内按照一定的比例随机挑选学生进行调查。也可以进行整群抽样,就是随机抽取某个学校,然后对其中的全部学生进行调查。还可以进行系统抽样,将所有北京高校大学生按一定的顺序编号,根据样本容量计算抽选间隔,然后随机地抽取第一个学生,此后按照指定间隔抽取剩下的学生。也可以进行多阶段抽样,先抽取部分高校,再在抽取到的高校中抽取部分学院,再在抽取到的学院中随机地抽取学生。你看,为了研究一个相同的假设检验问题,会有这么多种不同的抽样方式。不同的抽样方式又会形成不同的数据集。当数据集改变的时候,你的假设检验问题的结果可能也会改变。为此,也许你需要一个工具,能够把来自不同假设检验方法的假设检验结果(苹果、香蕉、大鸭梨),投影到同一个尺度空间上去,然后进行对比。请问具体应该怎么办?

图3.6.2:常见的抽样方法

由此可见,在实际工作中,人们有非常强的需求,需要把不同的假设检验结果,投影到一个统一的尺度空间去对比它们的统计学显著性,进而实现苹果、香蕉和大鸭梨可以对比的目的。对这个问题作一个全面的讨论,显然超出了本书的范畴。但是,这不妨碍我们用最典型的Z统计量做演示讨论,并分享其中的核心思想。下面以均值的假设检验问题为例进行陈述。考虑如下单边假设检验问题。假设想要判断一款降压药是否有效。原假设H0认为该降压药无效,对立假设H1则认为该降压药有效。假设某病人在吃药前的血压是mmHg,吃药后的血压是mmHg,那么服药前后血压的差异为:。显然,是一个随机变量,带有一定的不确定性。为了衡量药物的有效性,我们关注服药后降压差异的平均水平。因此可以设置原假设为H0:,也就是服药后血压并没有降低;而对立假设就是:H1:,即服药后血压确实降低了。这样我们就把衡量降压药是否有效的问题规范成了一个标准的单边(One-Sided)假设检验问题:
为了研究该假设检验问题,需要展开试验。假设可以观察到n名病人服药前后的血压差异,从而得到一批独立同分布的样本:。根据样本决定是否要推翻原假设H0。为了研究这一假设检验问题,可以构造一个类型的检验统计量,即
其中,表示样本均值,此处,而是关于的矩估计。根据3.4节的知识,当给定犯第一类错误的概率(例如:=5%)后,可以得到假设检验的判断规则如下。具体而言,如果,则接受原假设H0:;反之如果,则接受对立假设H1:。考虑这样一种情况,假设在两次不同的实验中获得了两个不同的检验统计量取值,且,如图3.6.3的左图所示。由于都比要小,因此两次不同的实验中作出的决策都是拒绝原假设而接受对立假设。但是请思考一个问题:本身的取值不同,这是不是代表了不同的统计显著性强度?想象一下,如果不断减小显著性水平,使得逐渐向左移动,如图3.6.3的右图所示。当移动到之间时,就会变为接受原假设,而仍然拒绝原假设;当继续移动到的左边时,也会变为接受原假设。由此可见,因为的绝对值更大,所以比更不容易接受原假设。这说明同相比,提供了更强的有利于对立假设的证据。简单来说,那就是的绝对值越大,就越不容易接受原假设,也就是对立假设H1有更多的机会被接受。这说明的取值本身就表达了某种态度,那就是对对立假设的支持力度,也可以简单理解为统计学显著性的强度。

图3.6.3:关系的示意图

上面的讨论说明了一个问题,那就是对于任意一个给定的值,都有一个独特的值和它对应。对于目前正在讨论的单边检验而言,就是一个标准正态分布随机变量小于的概率大小,具体公式为。请见图3.6.4的左图。进一步分析会发现,是一个非常重要的临界值。如果我们对第一类错误水平要求特别严格,要求低于,那么基于该统计量,就无法拒绝原假设,如图3.6.4的中图所示。换一个角度,如果我们对第一类错误水平要求比较宽松,允许高于时,那么基于该值就可以拒绝原假设,如图3.6.4的右图所示。这说明,对于一个给定的值,以及一个用户设定的第一类错误水平要求,只需要对比的大小关系,就可以决定是否应该拒绝原假设,而不用再去关心值的具体大小,这在实际应用中非常方便。而这个神奇的值,就是本节要隆重介绍的p值。

图3.6.4:关系示意图

聪明的你也许会问:为什么要多此一举?直接对比值不就可以了吗?你说的非常正确。如果关注的统计学假设检验只有一种(例如:单边检验),那么值就足够方便了,不需要再发展出一套关于p值的方法论。但是如前所述,哪怕是面对同样的数据、同样的假设检验问题,可能也有不同的假设检验方法。而目前探讨的检验仅仅是众多检验方法中的一种。如果同时还做了Wilcoxon符号秩检验还有似然比检验,那就会产生不同的假设检验结果,它们之于对立假设提供了不同强度的证据,也就是不同的统计学显著性强度,因此产生了苹果、香蕉、大鸭梨的问题。请问:如何对比?请注意,不同的统计检验方法,采用了不同的统计量,因此不存在一个简单而统一的值对比。例如,从均值为-0.2,方差为1的正态分布中随机生成200个随机数,然后检验这组数据的均值是否为0。表3.6.2给出了三种不同假设检验对应的检验统计量的取值和p值。不同的统计量就是苹果、香蕉、大鸭梨。此时应该怎么办?你看,这就是现实中一个典型的困难。但是如果有了p值,那就不一样了。无论什么假设检验方法,都存在一个方法论,将该方法的检验统计量映射到一个统一的p值空间上。上面已经演示了这个方法论在单边检验上的应用。在接下来的讨论中,会进一步拓展到双边的检验和方差检验。关于更复杂的其他检验统计量(例如Wilcoxon符号秩检验),本书不做详细讨论了。毕竟作为一本入门级教材中的一个小节,我们无法做到面面俱到。但是希望通过这样的拓展过程能够跟你分享一个事实:所有的统计方法都有科学合理的p值可以定义。还是以表3.6.2中的三个不同统计假设检验方法为例,它们的统计量各不相同,统计量的取值量纲都不一样,无法对比。但是它们所对应的p值天生是一个定义在0-1之间的概率,天生与该统计量犯第一类错误的概率直接相关,因此具有非常好的可比性。对同一个数据的不同统计量都计算一下p值,就很容易得到一个结论:对于这个数据而言,Wilcoxon符号秩检验提供的支持对立假设的证据最为强烈,因为它的p值最小。

表3.6.2:三种检验方法的结果

以上介绍的是p值在单边假设检验中是如何被合理定义出来的,接下来讨论在双边假设检验问题中如何合理地定义一个类似的p值。以双边的检验为例。如图3.6.5所示,同样每个z值有一个对应的p值,具体而言,此时p值的定义为。可以很容易验证,如此定义的p值也满足一个很好的性质。那就是p<完全等价!因此是否拒绝原假设与p值是否小于,以及值是否大于完全等价。因此,只要发现p值小于,那么就可以拒绝原假设。举一个实际例子,假设设定显著性水平=5%,对应的。收集数据后计算出z值为-2,对应的p值为0.046。如果按照3.4节中介绍过的基于z值的假设检验决策规则,由于,拒绝原假设。如果基于本节介绍的p值进行决策,由于p值为0.046<0.05,同样应该拒绝原假设,两个假设检验决策规则的结果是完全一致的。

图3.6.5:双边Z检验中p和α关系示意图

接下来讨论p值在面向方差的卡方检验中是如何被合理定义的。回顾3.5节,我们曾讨论过一个单边的方差假设检验问题:。相应的检验统计量为,它服从自由度为n-1的卡方分布。相应的假设检验决策规则为:如果,接受原假设H0:;反之接受对立假设H1:。这里是自由度为n-1的卡方分布的分位数。同样地,这个决策规则可以被转化为基于p值的决策规则。如图3.6.6所示,每个也可以有一个对应的p值,其具体定义为,其中表示一个服从自由度为n-1的卡方分布的随机变量。可以验证一下,这样定义的p值是否小于与相应的卡方统计量是否小于完全等价。因此,只要有p值小于就可以拒绝原假设。

图3.6.6:方差检验中p和α关系示意图

统计学的假设检验理论博大精深,涉及太多的假设检验方法。这些假设检验方法数量繁多,本书无法全面覆盖。但是可以负责任地说,任何合理定义的假设检验方法,都有对应的p值定义。因此从用户的角度看,无论面对什么假设检验方法,只要能熟练应用p值,那么都会非常方便!最后需要特别一提的是,p值就像一台电子秤,它能够测量苹果、香蕉和大鸭梨的重量。统计学家用尽他们的智慧证明了这台秤是精准可靠的。但是具体到决策中,到底应该设置为多大?5%或是4.99%还是5.01%?这是谁的责任?是这台电子秤的责任吗?答:不是。是用户自己的责任。当一个用户纠结于应该将显著性水平设定为4.99%还是5%或是5.01%的烦恼时,他不应该去指责这台秤,而是应反省自己对显著性水平的执念。他最应该做的是好好学习基础统计学,学会与不确定性和谐相处,学会在不确定性下作决策。可以放心地说,p值这台秤不是完美的,但是没有大问题,而且是非常棒的,因此很长时间内无可替代。



往期推荐

引言:从不确定性出发

第1章:不确定性的数学表达:连续型数据

第1章:不确定性的数学表达:正态概率密度

第1章:不确定性的数学表达:t-分布

第1章:不确定性的数学表达:指数分布

第1章:不确定性的数学表达:0-1分布

第1章:不确定性的数学表达:泊松分布

第2章:参数估计:矩估计

第2章:参数估计:极大似然估计

第2章:参数估计:正态分布均值的区间估计

第2章:参数估计:正态分布方差的区间估计

第2章:参数估计:其他分布参数的区间估计

第2章:参数估计:样本量计算

第3章:假设检验:不确定性与决策

第3章:假设检验:两种不同类型的错误

第3章:假设检验:为什么推翻原假设

第3章:假设检验:关于均值的假设检验问题

第3章:假设检验:假设检验的各种推广

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存