商务统计学基础 | 第三章 假设检验:假设检验的各种推广
前面几节已经对假设检验的基本思想、典型的均值单边(One-Sided)和双边(Two-Sided)假设检验问题的技术细节做了探讨。今天,我们尝试将类似的思想做一些推广,探讨其他一些假设检验问题,包括:(1)双样本检验(Two-Sample Test),(2)方差检验(Variance Test),以及(3)双单边检验(Two One-Sided Test)。这些检验都能够应用在什么场景?数学表达是什么样的?具体的技术细节又是什么?学习本节后,相信你会有充分的了解。
双样本检验
本章3.4节对单个总体的均值假设检验问题进行了讨论。但生活中,有时我们关心的不是单个总体,而是希望对两个总体的参数进行对比分析。以均值为例,记随机变量X和随机变量Y服从的总体均值分别为和,且两个总体相互独立。如果希望知道是否显著大于,这就产生了一个新的假设检验问题H0: v.s. H1:,这仍然是一个单边假设检验问题,但是涉及两个总体。如果关心两个总体的均值是否存在显著差异,这就产生了一个新的假设检验问题H0: v.s. H1:,这仍然是一个双边假设检验问题,但是也涉及两个总体。日常生活中像这样的问题比比皆是,请看以下案例。案例1:临床试验。假设某药企研发了一款降压药物,准备向药监局提出上市申请。申请之前,药企一定要用该药物进行多期的临床试验,以证明药物有效。药物有效意味着什么呢?意味着服用该药物的病人的平均血压比服用安慰剂的病人的平均血压要低。如何证明药物有效呢?需要将病人分为两组,一组是对照组,一组是治疗组,然后进行对照试验。给对照组的病人使用安慰剂,给治疗组的病人使用该新款降压药物,然后控制服药频率等其他因素都相同。病人的血压是一个随机变量,因为它因人而异,与个人体质、生活方式等都有关系,具有很大的不确定性。记治疗组病人的血压为X,且X服从均值为的某未知分布。记对照组病人的血压为Y,且Y服从均值为的某未知分布。药物是否有效的问题就转换成了一个单边假设检验问题,即 H0: v.s. H1: ,为了解决这个问题,需要从治疗组总体和对照组总体各自收集一些样本,构成两个独立样本,然后在两个独立样本的帮助下对两个总体的均值差异作假设检验。
以上案例表明生活中经常需要对两总体的均值差异作假设检验,其中既包括单边假设检验问题,也包括双边假设检验问题。这需要从两总体中各自收集一些样本,构成两个独立样本,然后进行假设检验。具体怎么实现呢?接下来将做详细讨论。首先考虑单边假设检验的情况。两样本的单边假设检验问题包含两种形式,第一种是H0: v.s. H1:,第二种是H0: v.s. H1:。其实这两种形式在数学上是等价的。例如假设我们关心的假设检验问题是H0: v.s. H1:,其中,。此时可以重新定义两个新的随机变量,,而,。那么原来的假设检验问题就可以被完全等价地表达为:H0: v.s. H1:。因此两种单边假设检验问题在数学上完全等价。为了简单呈现,在接下来的问题中,我们将集中精力讨论其中一种。具体而言,将以第一种形式H0: v.s. H1:为例作详细讨论。在这个问题下,决策者先默认原假设H0:成立,然后从均值为的总体中抽取一批样本,从均值为的总体中抽取一批样本。由此可见,来自两个总体的样本量分别是n和m。样本均值和分别是和的良好的点估计,那么也是的一个良好的点估计。请注意,从理论上讲,是的一个相合估计(Consistent Estimator)。当样本量足够大时,与的差距不会非常大。此时,如果原假设H0:真的成立,那么也会有较大的可能性成立,或者至少来说,不会比0小很多。反之,如果比0小很多,那么就有理由怀疑原假设不成立,从而推翻原假设,接受对立假设H1。因此人们很容易形成一种决策规则,那就是:当时,接受原假设H0;否则接受对立假设H1。3.4节中已经介绍过,的取值是可以人为操控的,因为它受到单位也就是的估计精度的影响。因此不应该绝对地看的取值,而应该相对地看,与的估计精度对比着看。更科学的一种表示方式是找到一个能够消除的估计精度影响的检验统计量。如何消除估计精度的影响呢?可以计算的标准误差SE。在两个总体相互独立的假设下,可以计算SE如下:注意由于两样本相互独立,所以与相互独立。因此很自然地,一个衡量的相对大小的统计量被构造出来了,那就是:其中案例2:精准广告。 想要实现精准广告,广告平台需要做的不仅仅是根据用户的兴趣分类投放广告,还需要在广告的具体内容上花心思。例如广告的文案、标题、图片等等都有可能影响广告的点击率。以今日头条为例,假设在某个广告正式投放前,工作人员设计了两个不同版本的标题和文案。在正式投放之前,需要进行A/B测试。简单地说就是将一大组用户样本随机地分成两组(A组和B组),然后对A、B两组用户投放不同的广告,观察两组用户的点击行为是否存在显著差异。用户是否点击广告是一个0-1型的随机变量,因为这是因人而异的,所有具有很强的不确定性。广告平台更关心的应该是随机变量的均值,也就是用户的点击率。记A组用户是否点击广告为X,而X服从均值为的某未知分布。记B组用户是否点击广告为Y,而Y服从均值为的某未知分布。两组用户的点击率是否存在显著差异的问题,就转换成了一个双边假设检验问题,即H0: v.s. H1:。为了解决这个问题,需要从两组用户的总体各自收集一些样本,构成两个独立样本,然后在两个独立样本的帮助下对两个总体的均值差异作假设检验。
如何确定c的值呢?仍然应该优先控制犯第一类错误的概率,例如不要大于某一个预设的值
方差检验
前面一直都在讨论关于均值的假设检验问题,而接下来我们将研究一下方差。值得一提的是,方差也是一个非常重要的参数,在现实中有很多重要应用。两个简单的案例如下:
案例1:金融风险。 在投资时,超额收益必然伴随着风险。一个优秀的投资人应该对投资标的物的风险做出合理评估。以股票投资为例,对于如何量化股票的风险,许多学者已经提出了各种方法。在所有这些方法中,诺贝尔奖获得者马科维茨的均值方差理论应该是最重要的方法之一。在该理论中,投资股票的风险是用收益率的方差来度量的。假设投资人正在考虑是否要投资贵州茅台股票,并且选择了用日度收益率的方差来度量风险,那么他可能希望知道:该股票的日度收益率方差是否小于某个值(比如: ),如果小于这个值,他才会选择投资。假设贵州茅台的日度收益率为X,而X是一个随机变量,因为它每天都会波动,具有不确定性。用 表示X的总体方差。这就产生了一个新的假设检验问题:H0: v.s. H1: 。投资人无法知道的真值 是多少,所以需要收集一段时间的贵州茅台日度收益率的样本,计算出样本方差 ,然后通过严格的假设检验来进行推断。
以上案例表明生活中有时需要对总体方差作假设检验。简单起见,这里先考虑单边假设检验的情况。方差的单边假设检验问题有两种形式。第一种形式是H0:案例2:质量控制。 工业生产中,对产品进行质量控制是一个重要的环节。考虑某生产线生产某种产品(例如罐装牛奶),该产品的标准重量应该是200g。但是实际生产过程中不可能毫无误差。事实上,一定的误差是完全可以接受的,但是需要将误差控制在一定范围内。如果产品重量的方差很大,就说明产品重量的误差较大,生产线工艺技术需要提高。假设某个生产线上的产品的重量为X,而X是一个随机变量,因为每个产品的质量可能存在一定随机误差,具有不确定性。用 表示X的总体方差。显然 越小,说明生产线的稳定性越好。假设质检员希望知道 是不是小于某个值(比如: ),如果小于这个值,生产线才算是安全可靠的;否则就需要进行检修。这就产生了一个新的假设检验问题:H0: v.s. H1: 。质检员无法知道的真值是多少,所以需要收集部分产品样本,计算出样本产品重量的方差 ,然后通过严格的假设检验来进行推断。
案例1:金融风险。 接着前面股票风险的案例,再考虑另一种情况:投资人手中持有五粮液的股票,正在考虑是否要抛售,改投贵州茅台的股票。因为在过去一段时间里,他发现两只股票的均值相似,但是方差似乎不同。但观察到的方差上的不同是不是一个偶然现象?不得而知。因此他想做一个严格的统计学检验,以判断贵州茅台股票的风险是否比五粮液股票的风险要小。仍然假设贵州茅台的日度收益率为X,用 表示X的总体方差。另外再假设五粮液的日度收益率为Y,用 表示Y的总体方差。这又产生了一个新的假设检验问题:H0: v.s. H1: 。投资人无法知道和的真值 和 分别是多少,因此需要收集一段时间内两只股票的日度收益率样本,计算出样本方差 和 ,然后通过严格的假设检验来进行推断。
以上案例表明,生活中有时会出现需要对两总体的方差作假设检验的问题。这需要从两总体中各自收集一些样本,构成两个独立样本,然后进行假设检验。具体怎么实现呢?接下来将做详细讨论。为简单起见,仍然只考虑单边假设检验的情况。这包含两种形式,一种是H0:案例2:质量控制。 接着前面产品质量控制的例子,再考虑另一种情况:除了前面提到的生产线,工厂中另外还有一条改良后的生产线。质检员希望知道改良后的生产线是否比原先的生产线所生产的产品重量更稳定。仍然假设原先生产线上的产品的重量为X,用表示X的总体方差。假设改良后的生产线上的产品重量为Y,Y也是一个随机变量,用表示Y的总体方差。这又产生了一个新的假设检验问题:H0: v.s. H1: 。质检员无法知道和的真值 和 分别是多少,因此需要收集一段时间内两条生产线上的产品样本,计算出它们重量的样本方差 和 ,然后通过严格的假设检验来进行推断。
双单边检验
不知道你是否注意到了,前面谈到的各种假设检验问题,等号都出现在原假设中。这有可能给大家造成一个错觉,认为等号必须出现在原假设中,甚至原假设就是等号假设,等号假设就是原假设。这里希望通过一个基于真实应用的重要的假设检验问题告诉大家,这是错误的。等号与原假设没有必然联系。这里的核心要点是:原假设应该是那个相对保守的假设。前面的案例中只是恰好等号假设都是最保守的假设。但是,这绝不代表着等号假设永远是那个更加保守的原假设。为此,这里特意跟大家分享一个非常有趣而且重要的案例。在这个案例里,等号不出现在原假设中,而是出现在对立假设中。这个案例就是:生物等效性试验(Bioequivalence Study)。
生物等效性检验通常在仿制药(Generic Drug)申请上市时被应用。提到仿制药,你可能会想起2018年大火的国产电影《我不是药神》。在这部根据真实案例改编的电影中,男主角程勇偶然发现了到印度购买白血病仿制药的途径,于是开始为吃不起品牌药(Brand-Name Drug)的白血病患者代购仿制药,拯救了许多买不起品牌药的患者。但这种行为是违法的,程勇最终因此入狱。仿制药并不是假药,而是与品牌药的有效成分、剂量以及制造工艺都完全相同的药。尽管病人服用时的疗效几乎没有区别,但品牌药与仿制药的价格却是天壤之别。电影中的品牌药四万元一瓶,仿制药却只需要五百元一瓶。品牌药之所以昂贵,是因为药企在研发药物的阶段投入了大量的时间和金钱,因此只能通过提高价格来收回前期研发成本,这样药企才有继续研发新药的动力。仿制药则是其他药厂直接使用品牌药的专利,省去了从零开始的大量的研发流程,因此成本较低,价格也相对低廉。当然,合法的仿制药生产必须发生在品牌药专利保护期结束后。
电影中程勇之所以违法,是因为印度仿制药并未在我国合法上市。但仿制药有没有可能合法上市呢?是有可能的。当品牌药的专利过期后,仿制药公司可以提交上市申请。申请通过后,仿制药便可以作为品牌药的替代品投入生产和销售。在美国,FDA(美国食品药品监督管理局)要求仿制药进行生物利用度和生物等效性试验(Bioavailability and Bioequivalence Study),试验结果达标后可以批准仿制药上市。我国药监局也同样规定仿制药需要进行生物等效性试验备案。生物等效性试验的目的是证明仿制药与品牌药是等效的。通常生物等效性试验采用交叉设计(Crossover Design)的方法,受试者会随机地按照一定顺序,先后接受对照治疗(品牌药)和试验治疗(仿制药)。两次治疗中会有一段时间的缓冲期(Washout Period),以排除前一种药物残留的影响。交叉设计试验能够在同一受试者身上使用两种不同的药物,可以减小受试者本身个体差异的影响。试验中会根据药物种类的不同而关注一些不同的指标。体内药物的试验指标是一些常用的药代动力学(Pharmacokinetic)参数,例如药物-时间曲线下的面积(AUC)、峰值浓度(Cmax)等。而对于体外药物,例如鼻腔喷雾等,则采用体外溶出度测定法,检测药物活性成分在作用部位有效的速率和程度。试验需要对比对照治疗和试验治疗在指标上的差异,如果二者完全相等,或是差异控制在可接受的范围内,就可以说明仿制药能够代替品牌药。
假设电影中白血病的仿制药要在我国上市,展开了生物等效性试验。试验中,受试对象按随机顺序先后地使用仿制药和品牌药——可能是先使用仿制药再使用品牌药,也有可能是先使用品牌药再使用仿制药。假设Y是受试对象使用仿制药后血液中的药物动力学指标,Z是受试对象使用品牌药后得到的指标。Y和Z都是随机变量,因为它们因受试对象而异,在同一受试对象上做重复试验得到的结果也可能不同,具有很大的不确定性。需要关注的是Y的均值本节主要介绍了假设检验的三种推广——双样本检验、方差检验以及双单边检验。你应该已经对各种各样的假设检验问题的数学推导和检验规则都有了更好的理解。我们可以看到一个现象,那就是所有的假设检验过程都只关注第一类错误的概率。这并不是说人们不关心第二类错误概率。以新药上市为例,原假设是新药无效,对立假设是新药有效。第二类错误对应的现实后果就是错失良药,这显然也不是一个令人开心的结果。现实工作中人们之所以优先关注第一类错误,是因为第一类错误(假药上市)的现实后果太恶劣了。而且很遗憾的是,在给定样本量的情况下是无法同时控制两类错误的概率的。如果要同时控制两类错误的概率,就需要增加样本量,这可能是唯一的途径。那么满足同时控制两类错误概率的最小样本量是多少呢?这也是一个很重要的问题,我们将在下节讨论。
往期推荐