其他
快手关于因果科学及其工业界应用落地
导读 本次分享主要结合增长场景,介绍因果推断工具在工业界的落地。
主要围绕以下几方面展开:1. 为什么使用因果工具?
2. 因果推断中的数据流规范
3. 模型选择
4. 模型评估与在线仿真
5. 有限资源下的优化问题
分享嘉宾|秦旋 快手 增长算法工程师
编辑整理|卢于欣
内容校对|李瑶
出品社区|DataFun
为什么使用因果工具?
1. 什么是相关性?
2. 相关性模型存在的问题
3. 因果工具如何帮助我们?
4. 因果推断的应用
因果推断中的数据流规范
1. RCT(随机对照试验 )的优缺点
2. 如何设计 RCT
确保线上代码中 RCT 的最高优先级。使用正交流量时,可能存在被其它正交实验切走部分流量,如果RCT不在最高优先级,被切走的流量就可能会走策略,而不是随机,最终导致数据不一致。 另一方面是好的日志记录。每个样本要有唯一且单独的标识。
shuffle 实验是重要且容易忽视的一步,主要是为了确保数据的一致性。 RCT 实验本身是一种策略,有着一致的分布。如果在刚结束的实验上,再开始一个随机实验,会导致样本分布和目标人群分布不一致。
用户维度,即给同一用户同一策略,直到实验结束。用户特征只需要收集第一次请求前的特征。 请求维度,即每次请求随机采用策略。需要每次请求前的特征。样本量远远多于用户维度。
用户维度,适用于观测累计因果效应。 请求维度,适用于单次因果效应。
每天都可以得到和 Whole population 同分布的随机样本; 改变策略更灵活,避免浪费; 让模型更适配于目前的商业环境。如季节性因素会影响因果模型预估,导致模型效果变差。
模型选择
1. 常用的因果推断模型
2. 因果森林
3. CBIV
4. 其它 De-confounding 方法
模型评估与仿真
1. 效果评估指标
有限资源下的优化问题
分享嘉宾
INTRODUCTION
秦旋
快手
增长算法工程师
毕业于美国波士顿大学,清华大学计算机系研究员。曾在滴滴出行任职高级算法工程师,研究方向为因果推断。曾自主开发了一套适用于工业界的 RCT&观测数据融合算法。参与开发基于 SPARK 的分布式因果森林,并进行改造与升级。该工作在网约车智能定价业务上多次取得 ROI 收益。加入快手后,负责过补贴,裂变等业务,并参与开发因果机器学习平台。
往期优质文章推荐
往期推荐
峰会推荐
点个在看你最好看