其他
未来实验A/B测的统计学原理
引言
什么是A/B测
A/B 测试以数据驱动为导向,可以实现灵活的流量切分,使得同一产品的不同版本能同时在线,通过记录和分析用户对不同版本产生的行为数据,得到效果对比,最大程度地保证结果的科学性和准确性,从而帮助人们进行科学的产品决策。
AB测的核心在于:实验人群的相似性、均匀性;单一变量原则;科学的效果评估。
A/B测的应用场景
“头条发布一个新APP,其名字都必须打N个包放到各大应用市场进行多次A/B测试而决定,张一鸣告诉同事:哪怕你有99.9%的把握那是最好的一个名字,测一下又有神马关系呢?” --张一鸣
统计学在A/B测中的作用
A/B 测试是一种对比实验,而实验就是从总体中抽取一些样本进行数据统计,进而得出对总体参数的一个评估。可以看出,做实验并从实验数据中得出有效结论的科学基础是统计学。
01
AB测的统计学知识
总体:是客观存在的、具有某一共同性质的许多个体组成的整体;总体是我们的研究对象,在对比实验中,总体就是网站/App的所有用户。样本:所谓样本就是按照一定的概率从总体中抽取并作为总体代表的一部分总体单位的集合体;样本是我们的实验对象,在对比实验中缺省的对照版本和测试版本的用户都是样本。参数:用来描述总体特征的概括性数字度量,称为参数,如总体平均数(μ);在对比实验中总体参数就是所有用户的某个优化指标的平均值。统计量:用来描述样本特征的概括性数字度量,称为统计量,如样本平均数(x);在对比实验中统计量就是测试版本用户的某个优化指标的统计平均值。均值:变量值的算数平均数。方差:各变量值与其算术平均数离差平方的算术平均数。标准差是方差的平方根。正态分布:是一种应用非常广泛的概率分布,它是下面介绍的假设检验等统计推断方法的数学理论基础。
原假设 (Null Hypothesis) 表示为 H0。是我们反对的假设。 备择假设 (Alternative Hypothesis) 表示为 H1,是我们要收集证据去支持的假设。
对于开启APP的用户,我们想测试弹屏A和弹屏B,哪一种带来的用户点击率和转化率更高
那么这个实验里,原假设是A和B的点击率没有差别,备择假设是点击率不同。
当 H0 为假,没有拒绝 H0 – 这类错误为第二类错误,发生的概率是𝜷
与此对应的,判断正确的概率分别为𝟏−𝜶 和 𝟏−𝜷,如下图所示
02
A/B测的统计学应用
目前已经有1500+实验上线,540+指标,累计为业务完成了6400次指标和显著性水平计算。
如果实验E是一个伯努利实验,将E独立重复地进行n次,则称这一串重复的独立实验为n重伯努利实验。 进行一次伯努利实验,成功(X=1)概率为p(0<=p<=1),失败(X=0)概率为1-p,则称随机变量X服从伯努利分布。
03
总结
我知道你“在看”哟~