查看原文
其他

一个大厂案例带你玩转AB Test实验与分析

涤生-默哥 涤生大数据
2024-12-05
0.背景

最近很多用户画像同学面试被问到AB实验相关的内容,尤其是我们用户画像同学,如何验证标签的准确性,圈定客群效果如何?我们需要通过其中手段就是AB Test进行验证?
那么比如AB实验怎么做的,AB实验报告怎么出。首先说明当AB实验是一门道行很深的学科,包括的内容也比较广泛,不是本篇文章所能够覆盖的,有兴趣的同学可以自己查阅相关资料学习,本文更多的是从数据分析的角度出发,如何从券AB实验产出一份实验分析报告,这是数据开发同学必须掌握的一项工作职责。

众所周知,现在A/B Test是互联网中大厂产品功能迭代过程必做的事情,AB实验反馈告诉我们我们做得好不好,哪里有问题,以及衡量可以带来多少确定性的增长。A/B 测试是一种产品优化方法;为同一个优化目标制定两个方案,让同一部分用户中的一部分用户命中 A 方案,同时另一部分用户命中 B 方案,统计并比较不同方案的点击率、转化率等数据指标,通过不同方案的数据表现,在确定数据表现通过假设检验后,决定最终方案的实验方法。

在电商行业,无论在大促期间还是在日常活动,都会做一些针对券的AB实验,不同券的效果其实并不完全相同,比如新人券,品类券,邮费券,为公平的评判不同券类型的投放效果,在某次大促期间针对品类券进行了一次AB实验,本人负责整个券AB实验效果分析,给大家一个抛砖引玉的作用。

1.实验设置

任何实验在出结论之前都要弄清楚实验设置。1.实验目的(做AB实验的目的是什么?比如品类券就是forgmv 提升);2.实验人群;3.实验细节(AB实验流量比例,实验流程,圈选类目);

实验目的:

在大促期间,对品类券进行AB,因此品类券实验目的核心证明的投放对GMV有提升作用,当然还有其他目的,这是和PD沟通得到,比如对类目新人也最好能够有提升(类目新人:过去90天没有购买该类目,今天购买该类目的买家)。

实验人群:

主要是品类券的投放人群特征是什么?通过下面几个特征就知道是针对高活且最近无下单的人群投放

人群特征1:大促期间有登录但没有到checkout页面的人群;

人群特征2:没有领取LPI且活跃等级较高(活跃等级A2-A5)的人群;

人群特征3:最后一次活跃时间在大促预热期间(8月31号之后)且最后一次下单时间是在99大促之前;

实验细节:

实验流量比例:实验组和对照组流量比例,在分析实验前进行分流均质性检验,很重要,举个实际的例子,就在大促之前,就是看分流均质性发现了实验流程的问题,和营销工程侧一起讨论技术方案,紧急修复实验流程,保证了后续实验的正常。

实验流程:

如果不去和研发对清楚实验流程以及实验下发方式,就容易出现问题,比如预热之前发现实验流量不均匀,发现实验流程是在算法之后再进行AB,导致人群不均质,labab 分流不均匀的问题,这样做AB就导致圈选的实验人群有问题,后续实验效果就没有办法评估。

圈选类目

这个就是品类券本身的特性,圈选了部分一级类目进行投放,因此要把没有圈选的类目排除出去。

2.实验检验

在分析之前必须对实验期间的数据做检验,因为大促的特殊性,只有三天时间,一般情况下,实验数据必须观察至少要在一周以上(周末效应,新奇效应),才能得到有效稳定的实验结论。

在做分析之前,会做分流均质性检验和人群同质检验,分流均质性检验主要是针对流量分配,人群同质检验根据实验目的不同会有不同指标的检验,以上检验通过后数据才能拿来分析。

3.实验结果分析

建立实验分析指标矩阵,大盘北极星指标(GMV),期待提升的业务核心指标(人均GMV&ΔGMV,类目新人转化),观测指标(ΔPR等)。大盘北极星指标负向的实验不能上线。当前业务的实验,不能影响其他业务的核心指标,如果有影响,需不同业务之间权衡(修改首页flashsale的UI),观测指标用来辅助评估实验效果。

实验结论分两部分:1.针对大促期间的整体表现做一个评估;2. 针对每天的实验结果给一个评估;

特别说明所有的核心指标都要经过显著性校验

而且针对不同的对象,他们要求的实验报告指标和细节程度都不同,比如该实验中算法同学也进行了AB实验,一个是发随机券,一个是根据算法发特定券,那分析报告就要具体某张券的表现。

下面是品类券实验报告,对品类券做整体评估,下面的数字已经做了处理,实验结论不反映业务真实情况。 

4.实验报告模板
4.1 实验设置

实验目的:

实验通过券AB实验,有无品类券的透出,来分析品类券实验效果,目的参见文档XXXX

实验人群:

人群特征1:大促期间有登录但没有到checkout页面的人群;

人群特征2:没有领取LPI且活跃等级较高(活跃等级A2-A5)的人群;

人群特征3:最后一次活跃时间在大促预热期间(8月31号之后)且最后一次订单日期是在99大促之前;

实验下发:

实验组:流量95%,品类券透出场景是PDP,MCP,店铺直塞,经算法决定给实验人群透券;

对照组:流量5%,无品类券;

实验覆盖一级类目:

覆盖类目: 具体见《品类券一级类目投放》

4.2 实验结论

实验选取数据:日期 20210909-20210911,国家:PH

实验分流有效性检验: 分流均质性通过

主要结论:

大促对GMV提升显著,对DAB提升不具备正向作用,类目新人占比无提升,没有显著差异;可能原因是这次品类券的发放人群是针对提升GMV,没有专门针对新人或buyer,所以实验效果看到GMV有显著提升,对于DAB和类目拉新无显著提升;

1. 品类券对全部类目ΔDAB Uplift:

实验组PR:xxx%,对照组PR:xxx%,ΔPR:xxx%  ,对DAB提升不具备正向作用;

2. 品类券对全部类目GMV Uplift

全部类目实验组人均GMV:$xxx,相对对照组:$xxx Uplift: xxx% ,提升显著 其中(人均GMV=GMV/进桶UV);

实验流量平均带来ΔGMV Uplift:$xxx 提升显著 ΔSpend=$xxx,ΔROI=xxx; 其中 ΔGMV= 实验组UV*(实验组人均GMV -对照组人均GMV)

3.品类券对全部类目新人占比Uplift:(类目新人:过去90天没有购买该类目,今天购买该类目的买家)。

实验组新人占比:xxx%,对照组新人占比:xxx%,对类目新人占比无提升,没有显著差异。

4.3 数据明细

日期数据:(9月12号分流不均,且大促已经结束,不考虑该天数据)

日期

国家

ΔPR

人均GMV&ΔGMV

新人占比Uplift

20210909

PH

实验组中领券(UV):xxx%

实验组PR:xxx%

对照组PR:xxx%

ΔPR:xxx%  不具备正向作用

实验组人均GMV:xxx

对照组人均GMV:xxx

人均GMV Uplift:xxx% 提升显著

ΔGMV:xxx

ΔSpend:xxx

ΔROI:xxx

 

实验组新人占比:xxx%

对照组新人占比:xxx%

结论:无提升,没有显著差异

 

20210910

PH

实验组中领券(UV):xxx%

实验组PR:xxx%

对照组PR:xxx%

ΔPR:xxx%  不具备正向作用

 

实验组人均GMV:xxx

对照组人均GMV:xxx

人均GMV Uplift:xxx% 提升显著

ΔGMV:xxx

ΔSpend:xxx

ΔROI:xxx

 

 

实验组新人占比:xxx%

对照组新人占比:xxx%

结论:无提升,没有显著差异

 

 

20210911

PH

实验组中领券(UV):xxx%

实验组PR:xxx%

对照组PR:xxx%

ΔPR:xxx%  不具备正向作用

实验组人均GMV:xxx

对照组人均GMV:xxx

人均GMV Uplift:xxx% 提升显著

ΔGMV:xxx

ΔSpend:xxx

ΔROI:xxx

实验组新人占比:xxx%

对照组新人占比:xxx%

结论:无提升,没有显著差异

 

PS:**显著均指通过统计学显著性检验**

涤生大数据往期精彩推荐

1.企业数仓DQC数据质量管理实践篇

2.企业数据治理实战总结--数仓面试必备

3.OneData理论案例实战—企业级数仓业务过程

4.中大厂数仓模型规范与度量指标有哪些?

5.手把手教你搭建用户画像系统(入门篇上)

6.手把手教你搭建用户画像系统(入门篇下)

7.SQL优化之诊断篇:快速定位生产性能问题实践

8.SQL之优化篇:一文搞懂如何优化线上任务性能,增效降本!

9.新能源趋势下一个简单的数仓项目,助力理解数仓模型

10.基于FlinkSQL +Hbase在O2O场景营销域实时数仓的实践

11.开发实战角度:distinct实现原理及具体优化总结

12.涤生大数据实战:基于Flink+ODPS历史累计计算项目分析与优化(一)

13.涤生大数据实战:基于Flink+ODPS历史累计计算项目分析与优化(二)

14.5分钟了解实时车联网,车联网(IoV)OLAP 解决方案是怎样的?

15.企业级Apache Kafka集群策略:Kakfa最佳实践总结

16.玩转Spark小文件合并与文件读写提交机制

17.一文详解Spark内存模型原理,面试轻松搞定

18.大厂8年老司机漫谈数仓架构

19.一文带你深入吃透Spark的窗口函数

20.大数据实战:基于Flink+ODPS进行最近N天实时标签构建

21.数仓面试还不懂什么是基线管理?



个人观点,仅供参考
继续滑动看下一个
涤生大数据
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存