查看原文
其他

一文带你掌握AB实验最佳流程 ! ! !

刘玉凤 DataFunSummit
2024-09-11

导读 本文将介绍 AB 实验解读。

主要内容包括以下几个部分:

1. AB 实验的技术演进

2. 企业面临的挑战

3. 技术挑战详解

分享嘉宾|刘玉凤 高级数据科学家 

编辑整理|程思琪

内容校对|李瑶

出品社区|DataFun


01
AB 实验的技术演进

从 21 世纪初谷歌开始运用线上 AB 实验帮助企业改善产品开始,到今天线上 AB 实验技术已经发展近 20 年。在这 20 年间,AB 实验在互联网和其他领域的应用逐渐普及,并且在数据驱动决策的兴起中发挥了重要作用。今天,AB 实验已然成为企业和组织优化产品和服务的重要工具。

02

企业面临的挑战

在企业大规模使用 AB 实验技术的过程中,面临的主要挑战可以分为两个层面。一是 AB 实验在业务全流程的各个环节中如何高效应用,在这个层面主要考虑的是实验带来的业务风险、实验的综合成本、策略带来的业务收益和团队协作效率等问题;二是 AB 实验在不同业务场景中需要解决的技术挑战,主要包括实验效果准确性、实验分析解读科学性和实验效率提升等问题,具体而言,需要解答不同的业务场景下需要适配的实验平台和实验技术能力,在这一层面主要关注实验的准确性、精度、实验效率等问题。本次分享主要聚焦于技术层面的挑战。

03

技术挑战详解

实验技术层面,包括实验效果准确性、实验分析解读科学性和实验效率提升这三个核心问题,其中前两个问题是业务最为关注的。

1. 挑战一:实验准确性

实验准确性方面,包括四个重点方向。

一是优化流量随机分组,这一问题不仅在大型实验系统的高并发的场景中重要,在小流量场景中也同样重要,因为小流量更容易有偏差,实践中往往从减少多层之间相互干扰和保证单层之间分桶均匀两个角度进行优化。

二是提升实验精度,主要通过优化方差估计、方差缩小、实验流量增加等手段达成,降低实验决策的错误率。

三是消除各种隐藏效应对实验最终结果的影响,其中最常见的有社交网络效应、延滞效应、新奇效应、首因效应和溢出效应等,需要及时发现、量化并消除这些效应对实验结果的干扰。

四是可靠的实验估计,包括对短期实验效果的估计和长期效果的估计。短期主要涉及对显著性的判断,在技术方面,包括从 t 检验、U 检验到非参数的检验方法,以及从频率学派到贝叶斯学派,技术一直在不停地探索、研究和演进的过程中;此外,业务上最容易发生的问题还有多重对比(典型场景是实验的偷窥问题)和多指标场景下正负向不一致时业务如何决策的问题。

可靠的实验估计的第二个方面是实验的长期效果估计问题。一般来说,实验都是短期实验,如何在短期的实践中通过各种手段来量化计算出长期效果一直是一个难题,因为业务侧真正想要的是长期效果,而不是短期效果。各研究团队往往通过拉长时间周期、估计学习效应、寻找代理指标建模,以及观察固定群组等方法来观察长期效果。

2. 挑战二:实验分析与解读

第二个挑战是实验分析与解读,包括两个重点方向,一是通过结合实验流程和实验数据检验过程是否正常,二是结合实业务的实验假设,通过实验数据看是否符合业务预期,以及策略是如何在业务中发挥作用的,在这个环节中有一个重点的方向就是实验的 HTE 分析。因为在实践中,AB 实验策略有非常显著效果的概率较低,如何找到实验策略究竟对哪些人起了作用对于后续的策略优化来说十分关键。为了解决这样的问题,业界往往采用分层分群、回归分析、机器学习、倾向性分析和贝叶斯方法等分析手段,基于 uplift curve、AUUC 等评估方法进行评估。

3. 挑战三:实验效率

最后一部分是实验效率的提升。要提升实验效率需要从多个方面着手,常见的比如提升数据质量、全面监控实验链路以及发现实验异常。这有助于提升实验效率,与此同时加速实验结论的得出,特别是对于那些实验参数巨大、实验收敛需要较长时间的场景,也可以大大提升实验效率。此外,实验流量使用的优化,比如更多可用的实验流量可以帮助缩短实验时间,提升流量筛选的效率。更加高效地使用流量技术,最终都可以直接或者间接地提升实验效率。

以上就是本次分享的内容,谢谢大家。


分享嘉宾

INTRODUCTION


刘玉凤

高级数据科学家

清华大学计算机硕士研究生,机器学习和数据挖掘专业。专注数据领域,近 10 年大数据领域工作经验,在多个公司担任过数据负责人。

数据领域资深专家,擅长数字化转型实践、数据体系建设、数据科学、数据增长方向。

往期推荐


免费下载:《数据湖应用架构与MySQL数据库电子书领取》

洞察海外 AB 实验的地区差异效果

借鉴 ChatGPT 思想,小布助手在 AIGC 上的探索

数据波动归因分析与指标治理

当推荐遇见大模型,会碰撞出什么样的火花

集团类企业数据治理实践

网易云音乐用户行为归因数据体系建设

因果推断在解决推荐系统偏置问题的研究和产品应用

资料下载:知识图谱与AIGC在京东的实战案例

复杂图上的知识迁移学习

点个在看你最好看

SPRING HAS ARRIVED

继续滑动看下一个
DataFunSummit
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存