商务统计学基础｜第二章参数估计：样本量计算

Original 王汉生，王菲菲狗熊会 2023-09-03

点击上方"狗熊会"关注我们吧！

在前面几节的讨论中，我们都是在固定样本量的情形下研究如何进行参数估计和区间估计。我们获得一个结论：样本量越大，估计量就越准确，这会表现在置信区间的长度上。具体而言，在一定的置信水平下，置信区间的长度会随着样本量的增加而减小。这说明，样本量影响着参数估计的准确性。从准确估计的角度出发，当然是样本量越大越好。但是，样本量的增大也意味着成本的提升。学习到现在，你有没有发现一个神奇的规律？也就是说，绝大多数（不是所有）合理定义的估计量，它的方差都是以1/n的速度收敛到零。这说明，它的标准误差（Standard Error）是以的速度收敛到0。在很多情况下，标准误差决定了置信区间的长度，也就是用户事实上能够感受到的精度。请问：从节省预算的角度看，规律是一个好消息还是一个坏消息？答：是一个很糟糕的坏消息。为什么？给定一个样本量n，会产生一个估计量的标准误差。现在，如果要把精度提高一个量级，将标准误差变为原来的十分之一，请问：样本量应该增加到多少？答：原来的100倍，而不是10倍。这意味着，至少财务成本大概也要变成原来的100倍，这不是一个小数字。以上的讨论说明：统计量的估计精度是一个不折不扣的奢侈品，越到后面，越昂贵，越奢侈。因此，虽然精度是一个好东西，但是在资源有限的情况下，不能无限奢求。相反，只能设定一个合理的精度诉求（例如：1%的估计误差），然后努力寻找能够满足该诉求的最小样本量。而这就是本节要讨论的重要内容。为此，先看几个案例。
案例一：临床实验中的样本量计算。 以临床实验为例，每获得一个样本所需要付出的代价非常昂贵，其中所涉及到的成本包括但不限于：医院空间（例如：床位）成本、医护专业人员（例如：医生护士）成本，医疗器械耗材（例如：心脏支架）成本，还有病人和家人付出的各种成本，非常昂贵。在不考虑固定成本的情况下，总成本与样本量的关系基本是一个线性关系。需要多大的样本量，就要承担多大的财务压力。但是，随着样本量的增加，统计量的估计精度却不会随样本量线性提升，而是以的速度提升。比如，想把估计精度提升为原来的10倍，那么样本量要提升为原来的100倍，相应的成本大概要提升100倍；如果想把估计精度提升100倍，那么样本量就要变成原来的10000倍，成本大概也会增加10000倍。由此可见，越到后期，估计精度的提升需要付出的成本就越高昂。为了保证一定的估计精度，就必须付出相对应的样本量。这也是为什么无论国内的药监局还是国外的FDA都希望临床实验的样本量越大越好，因为只有保证一定的样本量，药品的疗效才能得到可靠的评估。但是过高的样本量意味着沉重的时间与财务成本，是企业和社会都难以承受的。因此，两方面妥协的结果是：在保证估计精度的前提下，样本量越小越好。因此，什么样的估计误差是最大可被接受的误差就成了关键。以高血压为例，临床上认为一片降压药应该能使收缩压下降10~20mmHg，舒张压下降5~10mmHg，这样才可能具有医学意义。面对这样的实际需求，多大的估计误差是可以接受的呢？10mmHg的估计误差能接受吗？显然不能，这与目标疗效都可比了，太大了。那么0.1mmHg的估计误差能接受吗？显然可以，这非常小，但可能太奢侈了，实在没有必要。综合分析下，也许1mmHg的估计误差是一个可被接受的误差，这是一个主观与客观相结合的判断。案例二：产品市场占有率调研。产品的市场占有率通常指企业中某一产品的销售量（或销售额）在市场同类产品中所占比重。产品的市场占有率反映了企业在市场上的地位，通常市场占有率越高，目标企业对市场的影响力越强。一般情况下企业会对自己产品的市场占有率有大概的了解和判断，但并不完全准确，因为市场瞬息万变，市场占有率也在不停变化。但是如果想知道更准确的市场占有率，怎么办？这就需要进行市场调研。找到产品的目标客户，然后调查目标客户对自家产品的使用情况，从而测算出自己产品的市场占有率。显然，被调研的目标客户越多，估计误差就越小。但是过高而不必要的大样本会产生可观的时间和财务成本。具体而言，调研所需的费用会受到调研目的、目标客户接触的难易程度，问题的难易程度等因素的影响。因此企业将面临一个两难的问题。一方面想要更好的精度，希望样本量越大越好。另一方面，想节省时间，节省费用，希望样本量越小越好。两方面妥协的结果是：在保证估计误差可接受的前提下，样本量越少越好。因此，什么是最大可被接受的估计误差就成了关键。假设一个企业的市场占有率大概为20%，但是不知道准确数字。此时如果一个估计量的估计误差为10%，能接受吗？显然不能，太大了，一个单位的估计误差能让市场占有率产生10%/20%=50%的相对变化。那么如果估计误差为0.1%可以接受吗？当然可以，但是太浪费了，不知要耗费多少时间与资源，实在没必要。毕竟对一个市场占有率大概为20%的企业而言，0.1%的市场占有率变化是没有太大实际意义的。因此，综合考虑后，一个可接受的估计误差可能为1%左右，这也是一个主观与客观相结合的结果。案例三：肿瘤图片标注。随着科技的进步，互联网和数字化已在众多行业带来颠覆性变革，医疗健康领域也不例外。以肺部肿瘤筛查为例，早期肺癌多以肺小结节的形式出现，医生主要通过 CT 图像去检查是否存在肺结节，而每次检查都会有多达数百张断层扫描图像，医生仅用肉眼进行判断，费时费力，而且阅读精度因医生的不同而不同。为了缓解医生的诊断压力，提高诊断精度，智能 CT 辅助筛查系统发展的越来越成熟。这些智能筛查系统可以大大地提升肺结节筛查的效率。但是要训练一个智能诊断系统，前期需要大量的标注数据。而由于医学的特殊性，CT图像的标注通常只能由经过专业培训的医生才能完成。在标注的过程中，通常需要医生手动确定疾病类型，筛查病变区域，勾画病灶区域等，这一过程需要投入医生大量的时间和精力，因此每一个样本的标注成本都非常昂贵。以相关研究中某个公开的肺部结节CT扫描数据集为例，该数据由美国国家癌症研究所（NCI）发起，FDA等多个机构协作，从7家学术机构的影像归档和通信系统中获取并进一步标注而来。其中共包含一千多位患者的CT扫描的图片数据，而每份CT照片数据包含200至400张相等分辨率为512×512的灰度图片。所有样本中，98.1%的样本被至少一个医生认为存在肺部结节，每一个样本中结节的位置和直径都被标注了出来。为了保证结节标注正确，每一个病人的CT数据都邀请了四位放射科医生读图，标注成本巨大，但却只有一千多个病人的数据。从医学研究的角度看，当然希望样本量越大越好。样本量越大，参数估计越准确，预测精度也越高。但是从前面的讨论可见，过大的样本量意味着过大的时间和财力投入，是不现实的。因此，两方面妥协的结果是：在保证误差可接受的前提下，样本量越小越好。而什么样的误差是医学实践能被接受的最大误差就成了关键。

通过上面几个案例可以看到，计算合适的样本量在很多实际研究问题中非常重要，因为只要进行数据收集，就一定需要考虑两个问题：（1）参数估计（或预测）要达到的精度（或可被接受的最大误差）；以及（2）数据获取的时间和财务成本。而我们的目的就是在保证估计误差可被接受的前提下最小化数据获取的成本，即样本量。为了研究这个问题，需要明确参数的估计精度和样本量之间的关系。

首先以正态分布的均值估计为例进行阐述。通过前面几节的学习，知道正态分布均值参数在置信水平下的区间估计为：。这是一个以点估计量为中心的对称区间，它的长度为。这个置信区间越宽，对真实参数的估计误差越大。相反，置信区间越窄，对真实参数的估计误差越小。置信区间的长度和什么有关系呢？第一，置信水平。当越小，置信水平越高，对应的的取值就会越大，所以置信区间的长度就会越长，当然覆盖真实参数的概率也就更高。第二，正态分布的标准差。标准差越大，置信区间的长度越大。这说明，如果数据的离散程度很大，波动性很大，那么对参数进行推断的可靠性就会变小，进而造成置信区间的长度变大。第三，样本量n。显然n越大置信区间的长度越小。这说明，样本量越多，对真实参数估计的误差就越小。由此可见，一个置信区间的长度受三个因素影响，它们分别是：置信水平，总体方差，以及样本量n。请问其中哪些是用户可以更改的？第一，置信水平不容易随意更改，它往往有约定俗成的规范(例如)。在医学研究中，甚至相关监管机构（例如FDA）对此有严格的规定，因此不好随意更改。第二，总体方差不能随意更改，因为这是由数据自身的不确定性决定的，用户无法更改。因此，用户能够更改的只有样本量n。为了简单起见，人们常用置信区间的半区间长度来反映置信区间估计误差的大小。之所以这样考虑是因为决定了置信区间的长度。为了方便起见，简称为边际误差。而样本量计算的目标就是找到最小的样本量，使得边际误差小于一个提前设定的最大可被接受误差。简单计算如下：

从中可以看到，最小样本量受三个因素影响。第一，置信水平，前面提到该水平受约定俗成或法律法规影响，不能随意更改。第二，受数据方差影响，这是由数据固有的不确定性决定的，也不能随意更改。唯一可以探讨的是最大可被接受误差。显然，最大可被接受误差越大，所需要的样本量就越小，反之亦然。为了对此有一个更直观的感受，我们在假设的前提下，绘制了反映最大可被接受误差和最小样本量之间关系的折线图（置信水平为95%）；见图2.6.1。

图2.6.1 最大可被接受误差和最小样本量关系折线图

从中可以看出，随着最大可被接受误差的降低，所需样本量以非常快的速度增加。根据理论公式（2.6.1）可知，如果降低一个量级（即变为原来的十分之一），所需要的样本量将提高两个量级（即变为原来的一百倍）。一些典型的样本量计算结果如表2.6.1所示。

表2.6.1 正态分布典型样本量计算结果

值得一提的是，样本量计算公式（2.6.1）中牵扯到一个尴尬的鸡生蛋蛋生鸡的问题。什么意思呢？请注意公式（2.6.1）中的是一个关于总体的未知参数，需要估计。但是在计算样本量的时候，科研工作者还没有大规模采集数据，那如何应对这个问题呢？分几种情况。第一种情况，人们对于该科学实验真的一无所知，那么对于也一定一无所知。此时无法作任何形式的样本量计算。因此，能决定样本量大小的因素只能由资源的丰富程度以及科研工作者的决心来主观确定。第二种情况，有一定的先验知识，例如文献中其它学者做过的类似研究。那么可以根据先验知识作一个主观判断，这显然不太精确，但是聊胜于无。第三种情况就是可以执行一个小规模的先驱研究（Pilot Study）。例如在抽样调查中，可以先开展一个小规模的预调查作为先驱研究；在多期临床实验中，可以将一期与二期的实验结果作为三期临床的先驱研究。用先驱研究的数据对做一个估计，然后将代入理论公式（2.6.1）中，就可以得到最小样本量的估计结果，即：，其中对一个任意正实数而言，[t]表示不小于的最小整数。显然，这时得到的样本量也是有不确定性的，也是有误差的，因为来自先驱研究的估计量本身就是一个带有不确定性与估计误差的统计量。一般情况下，先驱研究的样本量不可能太大，通常会小于正式实验的样本量。因此，实际工作中有时以为中心，做一个关于的置信区间。从而大概了解一下真实最有可能的取值范围，进而知道所需样本量的范围。这叫做敏感度分析（Sensitivity Analysis）。再换一个角度看，和正式实验相同，先驱研究同样面临一个实际的问题：如何确定样本量？正式实验中可以使用前面给出的最小样本量的估计公式，使得边际误差小于最大可被接受误差。但先驱研究应该怎么办呢？是不是也得使用同样的估计公式？如果是这样，那就又出现了上面提到的估计总体方差的问题。为了解决该问题，难不成还要设置先驱研究的先驱研究？如此无穷无尽，不是一个可取的解决方案。因此在实际工作中，先驱试验的样本量更多地只能主观确定。但是，这绝不意味着先驱样本量对最后正式样本量的估算没有影响。事实上，先驱样本量大小影响着正式样本量估算的精度，并最终反映在置信区间的长度上。可以预见，先驱研究样本量越大，对总体方差的估计就越准确，计算得到的最小样本量估计值也就越准确，但具体产生什么影响并不是非常清晰。因此下面进行一个随机模拟实验来探究一下。首先假设总体的真实分布为标准正态分布，即方差。本次实验的目标是得到总体均值的置信区间。对于最终置信区间的要求是：置信水平为95%，而最大可被接受误差为0.2。此时根据公式（2.6.1）计算可得需要的最小正式样本量为。然后设置一个先驱研究样本量为，并尝试6个不同的取值：10, 20, 40, 80, 160以及320。对于每一个先驱研究样本量，随机生成个标准正态分布样本，然后根据公式，计算得到最小样本量估计值。再取个随机生成的标准正态分布样本计算总体均值的置信区间，并计算边际误差，最后计算。对于每一个先驱研究样本量，将上述过程重复1000次，由此形成1000个和计算值。将随机模拟实验的数据结果绘制于下图（2.6.2）中。

图2.6.2 正态分布先驱研究样本量和（左图）以及（右图）的箱线图

在图2.6.2中，左图绘制的是先驱研究样本量和的箱线图，而右图绘制的是的箱线图。图中红色虚线分别代表的是和。高于该虚线表示大于，即高估了所需的最小样本量。而高于该虚线表示大于，这意味着此次模拟的边际误差超过了最大可被接受误差。图中的结果表明：随着先驱研究样本量的增加，和的中位数都越来越接近1，并且多次模拟结果的集中程度越来越高。这意味着先驱研究样本量越高，正式样本量的估算结果会越来越准确。下面再考虑一个实际数据案例。该数据是一个关于某抑郁症治疗的临床实验。数据集共包含1500位患者的性别、住院时长、分组等信息，其中982条数据被归为了实验组，下面的分析均使用这部分实验组的结果。本研究关心的核心指标（Primary End Point）是患者的住院时长（单位为天），因为患者住院时长的信息可以从一个侧面反映出其接受的治疗效果如何。基于这982个样本计算得≈0.46，假设=95%，而最大可被接受误差=0.05，可得所需的最小样本量为。因为的计算用到的样本量很大（n=982），因此可以将=707看作是理论正确样本量，并用符号表示。现假设先驱样本量远远小于=707，请问最终估计结果会怎样？为此可以尝试不同的。对于一个给定的，从982个全样本中无放回地随机抽取个样本，这就构成了先驱样本。基于先驱样本可以重新计算样本量，并与形成对比得到。根据新估计的样本量进一步生成住院时长均值的置信区间，计算估计误差，并与对比形成。重复实验1000次，将结果以箱线图的形式绘制于图2.6.3中。

图2.6.3 抑郁症案例先驱研究样本量和（左图）以及（右图）的箱线图

图2.6.3中，左图绘制的是先驱研究样本量和的箱线图，而右图绘制的是的箱线图。图中红色虚线分别代表的是=1和=1。高于该虚线表示大于，即高估了所需的最小样本量；高于该虚线表示大于，这意味着此次模拟的边际误差超过了最大可被接受误差。图中的结果和前面模拟数据的结果一致，随着先驱研究样本量的增加，\hat{\mathrm{n}}/{\mathrm{n}}^{*}$的中位数都越来越接近1，并且越来越集中。说明“先驱研究样本量越大，正式实验中样本量的估算结果会越来越准确”的结论在该案例数据中仍然成立。前面详细探讨了在正态分布的情形下，满足一定最大可被接受误差时最小样本量的估计公式，并且理解了其中的原理。对于其它数据分布的情形也可以作类似处理。下面对指数分布、泊松分布、0-1分布和一般分布的情形进行简要介绍。指数分布。根据前一节的讨论可知，对于参数为的指数分布，一种关于的近似置信区间为。边际误差为，可以近似为。给定最大可被接受误差，进而求解不等式可得：

其中是来自先驱研究的估计量。指数分布中一些典型的样本量计算结果如表2.6.2所示。

表2.6.2 指数分布典型样本量计算结果

先驱样本量会如何影响计算结果呢？这里考虑一个实际数据案例。该数据是关于932位皮肤癌患者的诊断情况，数据维度包含病人的性别、癌症分型和存活时间等信息。下面关注病人的存活时间数据（单位为天），将其直方图展示在图2.6.4中。

图2.6.4 皮肤癌病人存活时间的频数直方图

从图中可以看出，皮肤癌患者存活时间递增，对应频数近似呈现递减趋势，因此可认为皮肤癌患者的存活时间近似服从指数分布（显然并不完美）。基于该指数分布数据的932份样本可以计算样本均值为：，假设=95%，而最大可被接受误差=30，根据样本量计算公式，可计算得到：。这里将看作是理论上的正确样本量，并用符号表示。假设先驱样本量远远小于=510，可以尝试不同的，观察其对结果的影响。对于一个给定的，从932个全样本中无放回地随机抽取个样本，构成先驱样本。基于先驱样本，重新计算标准差的估计值，并得到新的样本量估计值，将其与形成对比形成。根据新估计的样本量，进一步计算生成病人肺结节数量均值的置信区间，计算估计误差，并与对比形成。同样重复实验1000次，将结果以箱线图的形式绘制于图2.6.5中。其中，左图绘制的是先驱研究样本量和的箱线图，右图绘制的是的箱线图。图中结果同样表明，先驱研究中的样本量越高，正式样本量的估算结果会越来越准确，这与之前的实验结果保持一致。

图2.6.5 皮肤癌案例先驱研究样本量和（左图）以及（右图）的箱线图

泊松分布。 根据前一节的讨论，对于参数为的泊松分布，一种关于的近似置信区间为。边际误差为，可以近似为。给定最大可被接受误差，进而求解不等式可得：

其中是根据先驱研究得到的参数估计量。基于上述公式，泊松分布中一些典型的样本量计算结果如表2.6.3所示。

表2.6.3 泊松分布典型样本量计算结果

先驱样本量会如何影响泊松分布中的计算结果呢？考虑一个实际数据案例如下。我国是一个肺病大国，相关统计数据显示，肺癌已成为我国发病率和病死率最高的一类癌症。而作为肺部疾病早筛的一环，病人肺部CT中显示出的肺部结节数量常常受到关注，并成为一个重要的临床指标。因此，对于国家卫生部门而言，一种评估国民总体肺部健康状况的方式可能是估计国民总体的肺部结节数量均值。假设目前希望从国民总体中抽取样本，进而构造出国民总体的肺部结节数量均值。为此，使用LIDC/IDRI数据集，这是一个由1018份样本构成的肺部结节CT扫描数据集，每份CT扫描数据都标注了对应的结节数量。将这些样本的肺结节数量（单位：个）展示于图2.6.6的频数直方图中。

图2.6.6 病人肺结节数量的频数直方图

从图中可看出，肺结节数量的分布近似服从泊松分布（显然并不完美），因此可以使用泊松分布的样本量估计公式来计算。计算上述1018份样本的均值可以得到≈7.24，假设=95%，而最大可被接受误差=0.2，根据泊松分布中的样本量估计公式，可以计算得。和前面的讨论相似，同样将=696看作是理论上的正确样本量，并用符号来替代表示。假设先驱样本量远远小于=696，可以尝试不同的，观察其对结果的影响。对于一个给定的，从1018个全样本中无放回地随机抽取个样本，构成先驱样本。基于先驱样本重新计算得到样本量，并与形成对比。根据这一样本量进一步生成病人肺结节数量均值的置信区间，计算估计误差，并与对比形成。同样重复实验1000次，将结果以箱线图的形式绘制于图2.6.7中。其中，左图绘制的是先驱研究样本量和的箱线图，而右图绘制的是的箱线图。图中结果同样表明先驱研究样本量越高，正式样本量的估算结果会越来越准确，这与之前的实验结果保持了一致。

图2.6.7 肺结节案例先驱研究样本量和（左图）以及（右图）的箱线图

0-1分布。 根据上一节的讨论知道，对于参数为的0-1分布，其参数在置信水平下的一种近似置信区间为:。边际误差为，可以近似为。给定最大可被接受误差，进而求解不等式可得：

其中是根据先驱研究得到的参数估计量。0-1分布中一些典型的样本量计算结果如表2.6.4所示。

表2.6.4 0-1分布典型样本量计算结果

0-1分布中的先驱样本量会如何影响计算结果呢？考虑一个实际数据案例。该数据是关于旧金山国际机场进行的一次旅客满意度调查，共包含3536份调查问卷。数据维度包含顾客对机场的食物、标识和购物等方面的评级，这里主要关注顾客对机场的食物评级数据。原始数据中食物评级包括从0到6共7个评价级别，这里为了简化，将评价级别4、5和6压缩为一个等级“好评”，评价级别0到3压缩为“差评”。于是顾客对机场评级的数据就变成了0-1型数据，服从0-1分布，其中1代表好评，0代表差评。对机场而言，顾客评价是机场服务水平的风向标，对机场优化服务设施和流程有着关键的作用。因此就需要从顾客总体中进行抽样，构造0-1分布中参数p值的置信区间，从而估计顾客的好评率。对于0-1分布数据，可以使用对应的样本量估计公式。基于这3536份样本计算得≈0.62，假设=95%，而最大可被接受误差=0.02，因此可以计算得。和前面的讨论相似，可以将=2263看作是理论上的正确样本量，并用符号代替表示。假设先驱样本量远远小于=2263，对于一个给定的，从3536个全样本中无放回地随机抽取个样本，构成先驱样本。基于先驱样本重新计算一个样本量，并与形成对比。根据这一样本量进一步生成顾客好评概率的置信区间，计算估计误差，并与对比形成。同样重复实验1000次，将结果以箱线图的形式绘制于图2.6.8中。其中，左图绘制的是先驱研究样本量和的箱线图，而右图绘制的是的箱线图。图中结果同样表明先驱研究样本量越高，正式样本量的估算结果会越来越准确，这与之前的实验结果保持了一致。

图2.6.8 0-1分布先驱研究样本量和（左图）以及（右图）的箱线图

一般分布。 根据前一节的讨论可知，对于一般分布，其均值的一种近似置信区间为。边际误差为，可以近似为。给定最大可被接受误差，进而求解不等式可得：

其中是来自先驱研究的标准差估计量。一些典型的样本量计算结果和表2.6.1相同。我们同样关心先驱样本量对于一般分布中样本量计算结果的影响。为此可以考虑前面分析过的指数分布、泊松分布和0-1分布的案例。对于这些实际数据案例，都能够使用一般分布的样本量估计公式。以指数分布的实际数据案例为例，基于932份皮肤癌患者存活时间数据样本可以计算方差为，假设=95%，而最大可被接受误差=30，可计算得。可以发现，此时得到的=485和前面计算得到的样本量510略有不同，这是由于前面计算公式中对于标准差的估计用的实际上是指数分布中的均值估计量。和前面的讨论相似，将计算得到的=485看成理论上的正确样本量，并用符号替代表示。假设先驱样本量远小于=485，可以尝试不同的。对于一个给定的，从932个全样本中无放回地随机抽取个样本，构成先驱样本。基于先驱样本可以重新计算一个新的样本量，并与形成对比。根据这一样本量进一步生成病人肺结节数量均值的置信区间，计算估计误差，并与对比形成，同样重复实验1000次。对于泊松分布和0-1分布的实际数据案例进行相同处理，并将结果绘制在图2.6.9中。左列绘制的是先驱研究样本量和的箱线图，而右列绘制的是的箱线图，三排箱线图从上到下分别来自指数分布、泊松分布和0-1分布对应的实际数据案例。图中结果同样表明，先驱研究样本量越高，正式样本量的估算结果会越来越准确，这与之前的实验结果保持了一致。

图2.6.9 三种分布先驱研究样本量和（左列）以及（右列）的箱线图

总结讨论： 本节首先介绍了在满足最大可被接受误差的前提下，所需最小样本量的计算公式。接着引入了先驱研究的概念，通过先驱研究确定数据分布中的未知参数，由此形成最小样本量的估计公式。另外，本节还讨论了先驱研究样本量对最终参数估计结果的影响，对于每一类分布都在实际数据案例中进行了计算和验证。至此，我们对参数估计的讨论就告一段落。下一章我们将开启一个新的课题：假设检验。这又是一个包含着统计学智慧的重要内容，敬请期待。

- END -

京东购书

当当购书

往期推荐