查看原文
其他

未来实验A/B测的统计学原理

程辉老师 好未来技术 2023-03-15

引言

  • 什么是A/B测

A/B 测试以数据驱动为导向,可以实现灵活的流量切分,使得同一产品的不同版本能同时在线,通过记录和分析用户对不同版本产生的行为数据,得到效果对比,最大程度地保证结果的科学性和准确性,从而帮助人们进行科学的产品决策。

AB测的核心在于:实验人群的相似性、均匀性;单一变量原则;科学的效果评估。

  • A/B测的应用场景

“头条发布一个新APP,其名字都必须打N个包放到各大应用市场进行多次A/B测试而决定,张一鸣告诉同事:哪怕你有99.9%的把握那是最好的一个名字,测一下又有神马关系呢?” --张一鸣

  • 统计学在A/B测中的作用

A/B 测试是一种对比实验,而实验就是从总体中抽取一些样本进行数据统计,进而得出对总体参数的一个评估。可以看出,做实验并从实验数据中得出有效结论的科学基础是统计学。

01

AB测的统计学知识

统计学的基本概念
总体:是客观存在的、具有某一共同性质的许多个体组成的整体;总体是我们的研究对象,在对比实验中,总体就是网站/App的所有用户。样本:所谓样本就是按照一定的概率从总体中抽取并作为总体代表的一部分总体单位的集合体;样本是我们的实验对象,在对比实验中缺省的对照版本和测试版本的用户都是样本。参数:用来描述总体特征的概括性数字度量,称为参数,如总体平均数(μ);在对比实验中总体参数就是所有用户的某个优化指标的平均值。统计量:用来描述样本特征的概括性数字度量,称为统计量,如样本平均数(x);在对比实验中统计量就是测试版本用户的某个优化指标的统计平均值。均值:变量值的算数平均数。方差:各变量值与其算术平均数离差平方的算术平均数。标准差是方差的平方根。正态分布:是一种应用非常广泛的概率分布,它是下面介绍的假设检验等统计推断方法的数学理论基础。
抽样:是指按照随机原则,以一定概率从总体中抽取一定容量的单位作为样本进行调查,根据样本统计量对总体参数作出具有一定可靠程度的估计与推断。抽样最重要的问题是抽取的样本是否能够代表总体。如果样本没有代表性,那么以样本的统计量数据来对总体参数进行估计就没有逻辑基础。用户分流算法根据用户特征对用户进行聚类,把用户分为具有相同代表性的多个小组,然后通过随机抽样的方式得到测试版本的用户群(样本),保证了样本的代表性。参数估计:是一种统计推断方法,用样本统计量去估计总体参数。总体的统计指标在一定范围内以一定的概率取各种数值,从而形成一个概率分布,但是这个概率分布可能是未知的。当总体分布类型已知(通常是正态分布),仅需对分布的未知参数进行估计的问题称为参数估计。用来估计总体参数的统计量的名称称为估计量,如样本均值;估计量的具体数值称为估计值。参数估计方法有点估计与区间估计两种方法。用样本估计量的值直接作为总体参数的估计值称为点估计。例如在对比实验中,缺省对照版本的优化指标均值就是对缺省版本总体的优化指标均值的一个点估计。我们必须认识到,点估计是有误差的,样本均值不能完全代表总体均值。在一些比较粗糙的 A/B 测试方式中,实验者得到对照版本和测试版本的均值之后,直接比较它们的大小,由此得出哪个版本更优的结论,这样的做法误差是非常大的,结论的可靠性没有保障。点估计只能给出总体参数的一个大概值,但不能给出估计的精度。区间估计就是在点估计的基础上,给出总体参数的一个概率范围。区间估计的几个要素是点估计值、方差、样本大小以及估计的置信水平。专业的 A/B 调试工具会通过结合这些要素的统计学公式来对结果进行科学地评估,而不是简单粗糙地比较点估计值的大小。假设检验从 A/B 测试的实验原理来看,它是统计学上假设检验(显著性检验)的一种形式:假设检验中的参数检验是先对总体的参数提出某种假设,然后利用样本数据判断假设是否成立的过程。。假设检验是首先对总体参数提出某种假设,然后利用样 本信息去判断这个假设是否成立的过程。假设检验中一般要提出两种假设:
  • 原假设 (Null Hypothesis) 表示为 H0。是我们反对的假设。
  • 备择假设 (Alternative Hypothesis) 表示为 H1,是我们要收集证据去支持的假设。
举个例子
对于开启APP的用户,我们想测试弹屏A和弹屏B,哪一种带来的用户点击率和转化率更高
那么这个实验里,原假设是A和B的点击率没有差别,备择假设是点击率不同。
当 H0 为真,拒绝 H0 – 这类错误为第一类错误,发生的概率是𝜶
当 H0 为假,没有拒绝 H0 – 这类错误为第二类错误,发生的概率是𝜷
与此对应的,判断正确的概率分别为𝟏−𝜶 和 𝟏−𝜷,如下图所示
实验设计的两个principle如果实验没有效果,不要误报效果(错误的拒绝H0),误报效果的概率是第一类错误概率𝜶,一般设置为0.05如果实验有效果,能不能把效果找到(有能力识别H1),第二类错误概率𝜷,一般设置为0.2𝜶 和 𝜷 的关系是此消彼长。一般来说,当其他条件一定的情况下,𝜶 和 𝜷 不可能同时减 小,只能在发生两类错误中找一个平衡。而统计学家认为发生第一类错误的严重程度更高,所以假设 检验中一般先控制第一类错误𝜶。𝜶的取值是人为给定的,也就是说我们事先要确定发生第一类错误 发生的概率。𝜶 的取值常用的是 0.05, 它对应的置信水平𝟏 − 𝜶 就为95%。显著性水平p(p-value)显著性水平是指在原假设为真时而被拒绝的概率或者风险,也就是发生类型一错误的概率 α。统计学上依据小概率思想:小概率思想是指小概率事件(显著性水平 p < 0.05)在一次实验中基本上不会发生。通常在 AB 测试中,我们设置显著性水平为 0.05,当求得的 p-value 即 p<=0.05,那么拒绝原假设;p>0.05,那么不能拒绝原假设。
统计显著性在假设检验中,如果样本数据拒绝原假设,我们说检验的结果是显著的;反之,我们则说结果是不显著的。一项检验在统计上是“显著的”,意思是指这样的样本数据不是偶然得到的,即不是抽样的随机波动造成的,而是由内在的影响因素导致。t 检验常用的假设检验方法有 z 检验、t 检验和卡方检验等,不同的方法有不同的适用条件和检验目标。t 检验(Student’s t test)是用 t 分布理论来推断两个平均数差异的显著性水平。我们的对比实验是用对照版本和测试版本两个样本的数据来对这两个总体是否存在差异进行检验,所以适合使用 t 检验方法中的独立双样本检验。为了简化,对比实验忽略了样本大小在 30 以下的小样本情况(视为结果不显著),按大样本检验公式进行 p-value 的计算。首先通过 t 检验公式计算出检验统计量 Z 的值:
x1:样本 1 均值;x2:样本 2 均值;S1:样本 1 标准差;S2:样本 2 标准差;n1:样本 1 大小;n2:样本 2 大小;然后通过 t 分布(大样本情况下近似正态分布)的公式计算得出和 Z 值对应的 p 值。
p 值算出来之后,我们就可以根据 p 值按照前面介绍的假设检验决策规则来判断这两个样本均值的差异是否显著了。

02

A/B测的统计学应用

目前已经有1500+实验上线,540+指标,累计为业务完成了6400次指标和显著性水平计算。

目前网校的A/B测平台定义了一套指标体系,覆盖了现有在用的所有指标。从计算方式上,分为率指标和均值指标;从实现方式上,分为基础指标和复合指标。率指标:针对每一个样本,实验的取值只能是两种。比如我们观测用户在投放页面是否注册,只有两个情况:注册,没注册。这样的分布特征遵循伯努利分布。如注册人数,注册转化率等。均值指标:针对每一个样本,实验的取值可以是随机自然数。样本足够大的情况下,样本会符合高斯分布。如购课量,人均购课量,都属于均值指标。基础指标:指标体系中不可分割的最小指标单元,如注册用户数、订单量、PV、UV等。复合指标:由基础指标组合而成的,典型的如转化率、注册约课率、人均购课数等。伯努利分布:又名两点分布或0-1分布。伯努利实验是只有两种可能结果的单次随机实验,即对于一个随机变量X而言:伯努利实验都可以表达为“是或否”的问题。例如,抛一次硬币是正面向上吗?
  • 如果实验E是一个伯努利实验,将E独立重复地进行n次,则称这一串重复的独立实验为n重伯努利实验。
  • 进行一次伯努利实验,成功(X=1)概率为p(0<=p<=1),失败(X=0)概率为1-p,则称随机变量X服从伯努利分布。
高斯指标:又名正态分布,是一个连续概率分布。以标准化后的样本均值举例。当抽样次数足够大的时候,标准化后的样本均值服从均值为 0,标准差为 1 的正态分布。率指标的P值计算率值指标(注册购课率)-伯努利分布
均值指标的P值计算均值指标(出勤购买科目数))-高斯分布
指标评估方法对于不同的指标类型,总结出以下指标评估方法:
复合指标P值计算复合指标如转化率等,在p值计算的时候需要注意,计算的基准(即公式中的N)不一定是实验样本量,应该以复合指标的分母为基准。适用场景:1 投放类的实验,如果观测投放注册转化率,分母的值就是样本量。2 投放类的实验,如果观测指标:出勤7日购课转化率,分母的值不是样本量,而是出勤人数。平台计算的时候,会以分母重新构造样本量。实例以站内高中优惠券的弹屏广告为例,以登录APP的高一高二新人进行实验,实验策略为:
对照组:30%的用户展示优惠券实验组:70%的用户展示精品课业务方选择了样本量计算式和评估指标为:
APP弹窗点击率是一个复合率指标,由两个基础指标计算生成。
根据上文中复合率指标的计算公式,APP弹窗点击率的计算如下:n(样本量):基于基础指标63计算曝光UVp(点击率(64)/(63)):以曝光的用户为基准,计算点击弹窗的用户占比代入公式,计算即可求得P值。
P值的变化曲线为:
随着样本量的累积,在2019-12-21时,P值计算结果为:0.0329153335 < 0.05(显著性水平),我们认为实验结果显著,展示精品课要比展示优惠券带来的用户点击效果更好。

03

总结

AB测本质上是站在用户的角度,帮助业务方进行产品决策。相对于经验决策来讲,它具有贴近用户真实需求、科学性等优点,可以提升方案决策的效率,降低不合理方案对用户的影响。AB测已经在各大互联网公司得到了广泛的推广应用,网校、智康、小猴等事业部已经把AB测应用到产品改版、UI样式、搜索推荐、广告系统等场景中,业务方主要为增长团队,后续我们会逐步推广到教学场景,数据全方位赋能业务。


扫描下方二维码添加「好未来技术」微信官方账号
进入好未来技术官方交流群与作者实时互动~
(若扫码无效,可通过微信号TAL-111111直接添加)
- 也许你还想看 -
从epoll入门到redis中的epoll
【未来云-业务监控】实时大屏技术解决方案
直播消息服务架构最佳实践分享

我知道你“在看”哟~



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存