统计学(5)|AB测试—方差分析与卡方检验
在工作中,除了同时进行 AB 两组实验之外,也会存在多组实验同时进行的情况。这种情况下就不能使用之前的实验结果分析方法了,而需要采用方差分析与 检验。
1方差分析
方差分析用于主要用于检验多个总体均值是否相等,故适用于均值类指标,比如 DAU,人均使用时长等。
多个总体情况下,要比较均值是否相等,两两之间的 检验或 检验需要进行多次,十分繁琐,而且会增加犯第一类错误的概率。
而方差分析提高了检验的效率,也增加了分析的可靠性。由于进行 AB 测试,通常遵循单一变量原则,所以相对应我们只介绍单因素方差分析。
1.1 基本思想和原理
方差分析的基本原理是误差分解:
总误差就是数据的全部误差; 组内误差就是每个样本内部的数据误差; 组间误差就是不同样本之间的误差,组间误差包括随机误差和系统误差。
在方差分析中,数据的误差使用平方和来表示的:
误差分析:如果不同总体之间没有差别,那么组间误差中只包含随机误差,而没有系统误差,则组间误差与组内误差经过平均后的数据就会很接近,他们的比值就会接近 1,反之比值就会大于 1。当比值达到一定程度,我们就认为不同样本之间存在显著差异。
1.2 方差分析步骤
1.2.1 提出假设
如果拒绝原假设,则认为不同样本之间是存在显著差异的。
1.2.2 计算各平方和
(1)总平方和,是全部观测值 与总体均值 的误差平方和。
(2)组间平方和,是各组均值与总体均值的误差平方和。
(3)组内平方和,是每组的各个数据与该组均值的误差平方和。
其中, 为总均值, 为第 个总体的样本均值, 是第 个样本的样本量, 是第 个总体的第个观测值。
1.2.3 构造统计量
由于各误差平方和的大小与样本量的多少有关,所以需要将其平均,也就是用平方和除以对应的自由度,这一结果称为方差。自由度分别为:
SST :n-1, n 为全部样本个数 SSA :k-1 , k 总体的个数 SSE :n-k
故统计量 为,当 为真时,服从分子自由度 ,分母自由度 的 分布。
1.2.4 显著性检验
根据给定的显著性水平 ,在 F 分布表中查找与分子自由度 ,分母自由度 的对应的临界值 。
若,拒绝原假设,即各个样本总体之间存在差异。 若,不拒绝原假设,即各个总体之间没有显著性差异。
2卡方检验
2.1 基本原理
检验通过观测频数与期望频数的差异程度来判断,各总体之间的比例是否相等。
对于比例类指标的 AB 实验(比如次日留存率),其显著性检验可以等价为2*2双向列联表独立性检验。即一个维度为实验方案(分别为 A、B),另一个为维度为次日是否访问。在这种情况下,两种检验方式在数学上是等价的。
因此计算多个样本的比例类指标显著性时我们可以使用卡方检验。
2.1 提出假设
假设我们的样本数据如下所示:
当原假设为真时,我们可以通过样本数据确定期望频数,然后就可以利用检验统计量来确定观测频数与期望频数之前是否存在显著差异。如果差异显著,则将被拒绝,就可以得到总体比例不全相等的证据。
2.2 计算期望值频数
通过观察上面观测频数的样本数据,我们可以看到,全部 500 个用户中,有 312 个用户次日会访问客户端,因此 312/500 = 0.624 是次日可能访问客户端的用户的总样本比例。
如果我们假定原假设为真,即所有总体的比例相等 ,那么就是每一组用户次日可能访问客户端比例的最佳估计值。因此如果为真,我们将期望方案 1 的 125 个用户会有0.624*125 = 78个用户次日会访问客户端,78 则是策略 1 的期望频数。
同理,我们可计算出各组的期望频数如下:
2.3 计算卡方统计量
式中,表示第行第列单元格的观测频数,表示第行第列单元格的期望频数。在涉及个总体比例相等性的检验中,检验统计量服从自由度为的分布,其中每个单元格的期望频数都。
根据以上公式,计算的值如下:
最终统计量值为 7.89.
根据给定的显著性水平,在分布表中查找对应自由度的临界值。的自由度为,和分别为行和列变量的个数,本例中分别为 2 和 3,故自由度为 2。
若,拒绝原假设,即各个样本总体之间存在差异。 若,不拒绝原假设,即各个总体之间没有显著性差异。
至此,AB 测试所有相关的知识都已经全部介绍完毕了,如果觉得有帮助的,可以来个三连奥。
同系列文章: