基于深度学习多实验叠加效果因果推断

Original 张任宇 DataFunSummit

2024-09-10

导读本文将分享最新的结合深度学习和双重机器学习方法在多实验因果推断上进行探索的一项工作。

主要分为以下三部分内容：

1. 问题定义：Problem, Solution and Contributions

2. 理论框架：Debiased Deep Learning and Asymptotic

3. 实证：Validations with Field Experiment Data

分享嘉宾｜张任宇香港中文大学商学院副教授

编辑整理｜王雨润

内容校对｜李瑶

出品社区｜DataFun

问题定义：Problem, Solution and Contributions

过去几年中，以实验驱动的决策框架在互联网行业得到了越来越广泛的应用，在线实验数量呈现指数级增长。由下图中可以看到，2013 年初，由于微软在 Bing 上成功实现了单用户多实验的实验平台，在线实验数量出现了明显猛增。该突破使得同一用户可以同时被多个实验命中，从而让实验流量不再受限。

以下图中的具体情境为例，在线短视频平台试图通过两个产品功能迭代以增加用户观看时间，包括获取奖励按钮和送礼物按钮。对于以上两个功能，可衍生出四种实验场景，包括对照组（两个按钮都没有）、仅有奖励按钮、仅有礼物按钮，以及奖励和礼物按钮都有，需要从以上四种实验场景中识别效果最佳的场景。

其中的核心问题为：估计和推断多实验场景中多种策略组合的因果效应。估计一般是点估计，用于评估因果效应的大小；而推断则量化因果效应估计的随机性。

以下列举三个常见方案。第一个方案基于线性可加假设，该假设一般暗含于业界所有 AB 实验平台的多实验场景。该假设认为多实验的因果效应等于耽搁实验因果效应之和。因为其简洁性，该假设在实践中被广泛应用。但现实中大量证据显示，多实验因果效应呈现出高度非线性，存在边际效应递增或递减现象，并针对不同用户存在高度异质性。

第二个方案为全析因设计（Full Factorial Design），即对所有可能的实验组合分别进行实验与估计。这种方法的实验组数与计算开销随着需要测试的策略个数呈指数式增长，因此面对现实中每日多达数百个实验需求，该方案不具有现实可行性。

第三个方案使用机器学习，尤其是深度学习端到端预测个体行为指标变化（例如 uplift modeling 和 meta learning）。一般而言，该类方法神经网络的收敛速度无法达到因果推断所需的收敛速度要求，因此无法进行有效统计推断。同时，黑盒化模型可解释性较弱，难以对因果推断结果提供有效的解释。本次分享的工作基于这一方案，并针对上述问题进行改进。

我们的研究问题可定义为：在无法观测到所有实验组合效果的情况下，如何实现任何实验组合因果效应（ATE）的评估和推断？如何识别最佳实验组合？同时，考虑到企业内现有数据与实验平台的复杂架构，我们希望开发的方法对现有实验平台的影响尽可能低。

该方法结合了深度学习和双重机器学习。充分利用深度学习方法强大的泛化性能，通过用户的历史行为与实验数据，预测所有用户在所有实验组合下的反事实行为。我们使用双重机器学习的纠偏功能解决端到端机器学习收敛速度较慢的问题。我们的工作采用大规模实验数据严格证明了双重机器学习方法进行多实验因果效应估计是行之有效的。

理论框架：Debiased Deep Learning and Asymptotics

假设有 m 个 AB 二分实验，考虑单个结果变量 Y，X 定义为用户历史行为特征与画像特征。假设所有观测数据由一个半参数模型生成，在给定用户特征与实验场景下，由连接函数 G 将 θ^* (x) 与实验处理变量 t 映射到结果变量 Y 上。连接函数 G 已知并给定，θ^* (x) 未知，通过深度学习模型学习得到，表征高维的用户特征。

连接函数 G 已知，并存在一定程度的灵活性，可采用线性或非线性的形式。G 函数越复杂，ATE 的预测精度越高，参数识别要求与计算开支也越高，因此需要选择合适的 G 函数。

在本工作中，选取广义 sigmoid 函数作为 G 函数。

sigmoid 函数同时具有凸函数和凹函数的特性，在 x<0 时是一个凸函数，边际效应递增；而 x>0 时则是一个凹函数，边际效应递减。因此采用 sigmoid 作为连接函数可以同时刻画边际效应递增与递减的两种情境。

连接函数刻画了每个用户对 treatment 的反应，可以以任意小的误差近似任意实验组合的因果效应。同时，该连接函数不假设线性可加性，符合真实情况。本质上讲，我们需要利用数据测试连接函数的有效性。

在我们模型视角下，研究问题可改写为：在无法观测到所有实验组合的情况下，实现 ATE 估计与最佳实验组合识别。具体做法为：第一步，使用深度学习方法实现对 θ^* (·) 的表征估计；第二步，寻找估计量实现因果效应的估计和推断。

在第一步中，使用深度学习（MSE 为损失函数）实现对 θ^* (·) 的估计。

对结果进行理论分析，表明该方法可以估计出真实的 θ^* (·)，且收敛速度足够快，可以达到 o(n^{-1/4} )。这里需要指出的一点是，o(n^{-1/4} )是非常重要的一个量，我们需要达到这样的收敛速度，才能保证后续对ATE 的推断是有效的。

该方法对可观测的实验组合要求较低，仅需要 m+2 个实验组合即可实现。实验组合要求可观测到 m 个单个实验，并要求 2 个重叠的组合实验（overlapping condition），要求 2 个组合实验中有 1 个 treatment 是相同的。在该条件下，即可实现模型中 m+2 个参数的估计。随着 G 函数复杂性的增加，对实验组合可观测性的要求也随之提高。

在第二步中，在获取 θ^* (·) 估计之后，若使用 naïve plug-in 方法直接代入，会导致 ATE 估计有偏的问题。

通过模拟可发现，利用 plug-in 方法估计 ATE 无法得到标准正态分布，因此无法进行有效推断。该问题来源于深度学习和优化带来的误差，本质上是由于神经网络收敛到 θ^* (x) 的速度不够快。但我们可以使用双重机器学习进行纠偏。

双重机器学习纠偏的核心逻辑在于，当估计器的收敛速度达到 o(n^{-1/2} )，直接使用 plug-in 方法就可达到中心极限定理的要求。但深度学习模型的收敛速度一般只能达到 o(n^{-1/4} )，plug-in 估计量会存在较大的偏差，需使用Neyman 正交化纠偏以适用中心极限定理。

Plug-in 仅关注零阶矩条件，即 ATE 估计值与真实效果一致。Neyman 正交化在此基础上要求 score function 关于神经网络参数 θ^* (·) 的一阶导为零，以控制偏误。

该方法采用两份数据做训练、一份数据做推断的 cross-fitting 策略，以解决过拟合问题。

由此，该 DeDL（Debiased Deep Learning）方法采用 Neyman Orthogonality 纠偏的策略，可进一步构造置信区间并进行点估计和区间估计。

实证：Validations with Field Experiment Data

最后一部分将通过实验数据证明上述方法是有效的。

DeDL 方法具有两个本质假设：一是假设数据由连接函数 G 生成，二是 θ^* (·)估计量的收敛速度达到 o(n^{-1/4}。以上两个假设均需要实证数据进行验证。

这里采用 m=3 的 AB 实验场景，即三个同时发生的页面优化 combo 实验，实验时间为两周，我们可以观测到 8 种实验组合的结所有果。采用分层抽样的方法提升数据质量，最终实验用户量约 200 万人。结果变量为视频观看时长，协变量为用户历史行为特征与画像特征，treatment 为三维 0-1 向量。

该数据集可观测到所有（8 个）实验场景，通过 mask 部分场景后可用于测试 DeDL 方法的有效性，用 5 个实验场景进行训练，3 个实验场景进行验证。

以下展示了三个研究人员可见但算法不可见的两个实验组合的效果，可以看到，（1,0,1）组的实验效果最优。

将 DeDL 方法和 SDL 方法（DeDL without debias）与已有方法（包括线性可加模型、线性回归方法、纯深度学习方法）进行比较。

我们的网络结构如下图所示：

结果显示，DeDL 模型在 MAPE 指标和 MAE 指标上均显示出较好的优越性。

半参数模型会降低预测准确性，导致结构化的深度学习方法在 MAPE 指标上较纯深度学习方法具有一定量的上升。使用纠偏方法后可在结构化深度学习方法的基础上大幅度提升 MAPE 表现，其带来的收益可超过限制神经网络结构带来的损失。

在神经网络没有训练好的情况下，纠偏带来的效果增益并不显著；当神经网络训练充分后，更能凸显纠偏优势。这也说明在方法选择以及 G 函数选择合理性判断中，第一阶段神经网络的训练效果成为一个重要的先验指标，若训练偏误较大，可考虑更简单的线性回归或线性可加方法。

当实验数量 m 增大，DeDL 方法在模拟数据的表现会更好。同时，在神经网络训练效果不是特别理想的情况下，选择真实 G 函数，DeDL 方法同样具有优越性。

但在神经网络训练效果不理想的情况下，选择了错误的连接函数 G，DeDL 方法会放大偏误，因此我们不建议使用。需要对不同的 G 函数进行测试，或使用更复杂的非参数方法进行纠偏。

DeDL 方法在理论上和实践上均被证明可用于大规模实验的因果推断，代码已开源。

以上就是本次分享的内容，谢谢大家。

分享嘉宾

INTRODUCTION

张任宇

香港中文大学

商学院副教授

张任宇，香港中文大学商学院副教授（with tenure），快手经济学家&Tech Lead，主要研究数据科学（包括机器学习、因果推断和数据驱动优化）及其在大规模在线平台业务决策的评估与优化中的应用。研究成果在 MS，OR，MSOM，EC 等顶刊顶会发表并获得 INFORMS, POM 等多个学术共同体研究奖励。研究项目获得 NSFC, SMEC, STCSM 和 HK RGC 资助。担任学术期刊 POM 的 SE 和 NRL的AE。在香港中文大学、纽约大学和快手内部讲授数据科学、运筹学和经济学课程。为快手平台开发经济学/数据科学方法框架，主要用于评估并优化平台增长策略以及宏观流量与营收生态。

个人网站：https://rphilipzhang.github.io/rphilipzhang/。

往期推荐

GraphGPT: 大语言模型的图结构指令微调

锁定营销敏感人群：因果推断在智能营销中的关键作用

B 站的数据治理运营框架实践「内有案例分享」

云器Lakehouse：Multi-Cluster弹性架构如何实现湖上高并发低延迟分析

大模型百度数据科学领域典型应用

ClickHouse 在 58 同城画像系统的应用

华为实时入湖 Hudi 应用解决方案

京东物流面向一线业务的敏捷 BI 实践

当大模型遇见因果推断！

大模型时代下，基于湖仓一体的数据智能新范式

点个在看你最好看

SPRING HAS ARRIVED

继续滑动看下一个

DataFunSummit

向上滑动看下一个

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

半年狂赚63亿了，微众银行董事长，还要卷员工

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

基于深度学习多实验叠加效果因果推断

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

半年狂赚63亿了，微众银行董事长，还要卷员工

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

生成图片，分享到微信朋友圈

基于深度学习多实验叠加效果因果推断

您可能也对以下帖子感兴趣