一个大厂案例带你玩转AB Test实验与分析
最近很多用户画像同学面试被问到AB实验相关的内容,尤其是我们用户画像同学,如何验证标签的准确性,圈定客群效果如何?我们需要通过其中手段就是AB Test进行验证?
那么比如AB实验怎么做的,AB实验报告怎么出。首先说明当AB实验是一门道行很深的学科,包括的内容也比较广泛,不是本篇文章所能够覆盖的,有兴趣的同学可以自己查阅相关资料学习,本文更多的是从数据分析的角度出发,如何从券AB实验产出一份实验分析报告,这是数据开发同学必须掌握的一项工作职责。
众所周知,现在A/B Test是互联网中大厂产品功能迭代过程必做的事情,AB实验反馈告诉我们我们做得好不好,哪里有问题,以及衡量可以带来多少确定性的增长。A/B 测试是一种产品优化方法;为同一个优化目标制定两个方案,让同一部分用户中的一部分用户命中 A 方案,同时另一部分用户命中 B 方案,统计并比较不同方案的点击率、转化率等数据指标,通过不同方案的数据表现,在确定数据表现通过假设检验后,决定最终方案的实验方法。
在电商行业,无论在大促期间还是在日常活动,都会做一些针对券的AB实验,不同券的效果其实并不完全相同,比如新人券,品类券,邮费券,为公平的评判不同券类型的投放效果,在某次大促期间针对品类券进行了一次AB实验,本人负责整个券AB实验效果分析,给大家一个抛砖引玉的作用。
任何实验在出结论之前都要弄清楚实验设置。1.实验目的(做AB实验的目的是什么?比如品类券就是forgmv 提升);2.实验人群;3.实验细节(AB实验流量比例,实验流程,圈选类目);
实验目的:
在大促期间,对品类券进行AB,因此品类券实验目的核心证明的投放对GMV有提升作用,当然还有其他目的,这是和PD沟通得到,比如对类目新人也最好能够有提升(类目新人:过去90天没有购买该类目,今天购买该类目的买家)。
实验人群:
主要是品类券的投放人群特征是什么?通过下面几个特征就知道是针对高活且最近无下单的人群投放
人群特征1:大促期间有登录但没有到checkout页面的人群;
人群特征2:没有领取LPI且活跃等级较高(活跃等级A2-A5)的人群;
人群特征3:最后一次活跃时间在大促预热期间(8月31号之后)且最后一次下单时间是在99大促之前;
实验细节:
实验流量比例:实验组和对照组流量比例,在分析实验前进行分流均质性检验,很重要,举个实际的例子,就在大促之前,就是看分流均质性发现了实验流程的问题,和营销工程侧一起讨论技术方案,紧急修复实验流程,保证了后续实验的正常。
实验流程:
如果不去和研发对清楚实验流程以及实验下发方式,就容易出现问题,比如预热之前发现实验流量不均匀,发现实验流程是在算法之后再进行AB,导致人群不均质,labab 分流不均匀的问题,这样做AB就导致圈选的实验人群有问题,后续实验效果就没有办法评估。
圈选类目:
这个就是品类券本身的特性,圈选了部分一级类目进行投放,因此要把没有圈选的类目排除出去。
在分析之前必须对实验期间的数据做检验,因为大促的特殊性,只有三天时间,一般情况下,实验数据必须观察至少要在一周以上(周末效应,新奇效应),才能得到有效稳定的实验结论。
在做分析之前,会做分流均质性检验和人群同质检验,分流均质性检验主要是针对流量分配,人群同质检验根据实验目的不同会有不同指标的检验,以上检验通过后数据才能拿来分析。
建立实验分析指标矩阵,大盘北极星指标(GMV),期待提升的业务核心指标(人均GMV&ΔGMV,类目新人转化),观测指标(ΔPR等)。大盘北极星指标负向的实验不能上线。当前业务的实验,不能影响其他业务的核心指标,如果有影响,需不同业务之间权衡(修改首页flashsale的UI),观测指标用来辅助评估实验效果。
实验结论分两部分:1.针对大促期间的整体表现做一个评估;2. 针对每天的实验结果给一个评估;
特别说明所有的核心指标都要经过显著性校验。
而且针对不同的对象,他们要求的实验报告指标和细节程度都不同,比如该实验中算法同学也进行了AB实验,一个是发随机券,一个是根据算法发特定券,那分析报告就要具体某张券的表现。
下面是品类券实验报告,对品类券做整体评估,下面的数字已经做了处理,实验结论不反映业务真实情况。
实验目的:
实验通过券AB实验,有无品类券的透出,来分析品类券实验效果,目的参见文档XXXX
实验人群:
人群特征1:大促期间有登录但没有到checkout页面的人群;
人群特征2:没有领取LPI且活跃等级较高(活跃等级A2-A5)的人群;
人群特征3:最后一次活跃时间在大促预热期间(8月31号之后)且最后一次订单日期是在99大促之前;
实验下发:
实验组:流量95%,品类券透出场景是PDP,MCP,店铺直塞,经算法决定给实验人群透券;
对照组:流量5%,无品类券;
实验覆盖一级类目:
覆盖类目: 具体见《品类券一级类目投放》
实验选取数据:日期 20210909-20210911,国家:PH
实验分流有效性检验: 分流均质性通过
主要结论:
大促对GMV提升显著,对DAB提升不具备正向作用,类目新人占比无提升,没有显著差异;可能原因是这次品类券的发放人群是针对提升GMV,没有专门针对新人或buyer,所以实验效果看到GMV有显著提升,对于DAB和类目拉新无显著提升;
1. 品类券对全部类目ΔDAB Uplift:
实验组PR:xxx%,对照组PR:xxx%,ΔPR:xxx% ,对DAB提升不具备正向作用;
2. 品类券对全部类目GMV Uplift
全部类目实验组人均GMV:$xxx,相对对照组:$xxx Uplift: xxx% ,提升显著 其中(人均GMV=GMV/进桶UV);
实验流量平均带来ΔGMV Uplift:$xxx 提升显著 ΔSpend=$xxx,ΔROI=xxx; 其中 ΔGMV= 实验组UV*(实验组人均GMV -对照组人均GMV)
3.品类券对全部类目新人占比Uplift:(类目新人:过去90天没有购买该类目,今天购买该类目的买家)。
实验组新人占比:xxx%,对照组新人占比:xxx%,对类目新人占比无提升,没有显著差异。
日期数据:(9月12号分流不均,且大促已经结束,不考虑该天数据)
日期 | 国家 | ΔPR | 人均GMV&ΔGMV | 新人占比Uplift |
20210909 | PH 实验组中领券(UV):xxx% | 实验组PR:xxx% 对照组PR:xxx% ΔPR:xxx% 不具备正向作用 | 实验组人均GMV:xxx 对照组人均GMV:xxx 人均GMV Uplift:xxx% 提升显著 ΔGMV:xxx ΔSpend:xxx ΔROI:xxx
| 实验组新人占比:xxx% 对照组新人占比:xxx% 结论:无提升,没有显著差异
|
20210910 | PH 实验组中领券(UV):xxx% | 实验组PR:xxx% 对照组PR:xxx% ΔPR:xxx% 不具备正向作用
| 实验组人均GMV:xxx 对照组人均GMV:xxx 人均GMV Uplift:xxx% 提升显著 ΔGMV:xxx ΔSpend:xxx ΔROI:xxx
| 实验组新人占比:xxx% 对照组新人占比:xxx% 结论:无提升,没有显著差异
|
20210911 | PH 实验组中领券(UV):xxx% | 实验组PR:xxx% 对照组PR:xxx% ΔPR:xxx% 不具备正向作用 | 实验组人均GMV:xxx 对照组人均GMV:xxx 人均GMV Uplift:xxx% 提升显著 ΔGMV:xxx ΔSpend:xxx ΔROI:xxx | 实验组新人占比:xxx% 对照组新人占比:xxx% 结论:无提升,没有显著差异
|
PS:**显著均指通过统计学显著性检验**
涤生大数据往期精彩推荐
8.SQL之优化篇:一文搞懂如何优化线上任务性能,增效降本!
10.基于FlinkSQL +Hbase在O2O场景营销域实时数仓的实践
12.涤生大数据实战:基于Flink+ODPS历史累计计算项目分析与优化(一)
13.涤生大数据实战:基于Flink+ODPS历史累计计算项目分析与优化(二)
14.5分钟了解实时车联网,车联网(IoV)OLAP 解决方案是怎样的?
15.企业级Apache Kafka集群策略:Kakfa最佳实践总结
20.大数据实战:基于Flink+ODPS进行最近N天实时标签构建