因果推断在解决推荐系统偏置问题的研究和产品应用

Original 戴全宇博士 DataFunSummit

2024-09-11

导读本文将分享推荐系统偏置问题的因果解决方案和产品应用实践，聚焦于近两年在因果推断和推荐系统结合方面的工作。

主要包括以下几大部分：

1. 推荐系统&因果推断

2. 推荐问题如何转化为因果问题

3. 选择偏置问题

4. 音乐推荐的注意力偏置问题

5. 总结

分享嘉宾｜戴全宇博士华为技术有限公司主任工程师

编辑整理｜王雨润

内容校对｜李瑶

出品社区｜DataFun

推荐系统&因果推断

工业界中的推荐系统属于多阶段级联系统，包含召回、粗排、精排、重排等多个阶段。在 item 库具有巨大容量的情况下，召回和粗排可以实现在海量数据库中高效筛选出少量物品集，精排可充分利用数据特征挖掘用户对物品偏好的排序。在传统推荐系统模型中，召回和粗排过程通常使用例如 SimpleX 的双塔表征学习建模架构，精排过程通常使用如 FINAL 的深度 CTR 建模特征和特征之间的建模关系。推荐系统依然面临如偏置问题、噪声问题、分布漂移等挑战，以上方法均基于相关性建模，仅拟合观测数据，无法解决推荐系统面临的诸多问题。

相关性建模主要建模条件概率，使用代表子群体的观测数据，因果方法则通过干预和反事实学习强调对观测整体空间进行想象。基于相关性建模的方法依赖于数据本身特性，若数据有偏则结果有偏。因果方法通过干预和反事实学习可做到无偏，解决仅基于相关性建模会存在的问题。例如，在送优惠券是否促进消费的电商场景中，观测数据中优惠券营销群体和非优惠券营销群体在营销策略营销下非随机划分，具有不同特性，不可直接比较，直接基于相关性建模将导致有偏估计。因果估计量关注策略在整个群体的效果，可使用如部分流量随机发放优惠券的干预手段打破原有闭环，或使用如调整样本权重、构造反事实样本的反事实方法。

推荐问题如何转化为因果问题

基于 Rubin 的潜在结果框架，提出面向推荐的因果分析框架（IJCAI 2022）。基于该框架回答推荐问题主要包含三个步骤：

基于推荐任务关心的问题定义因果估计量；
基于观测数据分析因果估计量的可识别性；
设计模型获得关于因果估计量的相容估计器（无偏损失）。

以点击量预估的具体推荐场景为例，关注的问题为如果曝光物品给用户，点击率是多少。在该问题设定下，研究单元为用户-物品对，干预手段为曝光，潜在结果为假设把物品曝光给所有用户，用户的期望行为响应，观测结果为把物品曝光给用户后用户的实际反应。推荐系统偏置问题的因果本质是违反因果假设，影响因果估计量的可识别性。例如，推荐系统中的位置偏置表现为曝光位置靠前的物品，更容易被点击；则在同一干预下的同一物品在不同位置潜在结果不同，即有不同版本的干预，违反了 SUTVA 假设。

选择偏置问题

1. 推荐纠偏：双稳健学习方法

选择偏置问题广泛存在于各种应用场景以及推荐系统各个阶段（包括召回、粗排和精排），严重影响推荐系统性能，是核心问题之一。例如用户会有选择地对电影进行评论、信息流场景中推荐系统个性化展示新闻资讯/短视频、电商场景中在点击事件空间上训练模型，在整个空间做推断。选择偏置问题将影响准确性、均衡性、公平性。

在转化率预估问题中，现有方法多基于相关性建模，在点击事件空间上训练，在整个空间做推断，而用户不会随机点击，由此带来样本选择偏置问题，这是 CVR 预估问题最大的挑战之一。

基于一个基础的因果分析框架对 CVR 预估的选择偏置问题进行分析，广告推荐中关注的问题是用户点击物品后的转化概率。因此该问题中因果估计量为如果（反事实）物品被用户点击了（定义在全空间），转化的概率是多少。干扰因子的存在导致选择偏置问题，即用户和物品的特性同时影响点击和转化，使得物品被用户点击后的潜在结果非随机缺失。要实现无偏估计，解决选择偏置问题的关键是解决干扰因子的影响，即消除 X→O 的因果作用。

已有解决方案关注 CTR 和 CVR 联合建模，以及 CVR 的纠偏。ESMM 方法可以缓解数据稀疏的问题，但是不能解决选择偏置问题。使用 IPW 方法对 CVR 进行纠偏，使用 CTR 结果作为样本的倾向性得分，但 CTR 很难估计准确，且 CTR 预估数值偏小导致 high variance 问题。双稳健学习方法使用 CTR 估计作为倾向性得分对样本进行逆概率加权，同时使用误差归纠模型对未观测样本进行填补。

其中，双稳健学习方法是解决选择偏置问题的有效方法，基于 propensity 和 error imputation 设计损失函数，具有双稳健特性，只要其中之一估计准确，模型就可以在有偏的数据上得到无偏估计。根据理论分析，双稳健学习方法泛化上界可分为三个部分，分别为误差项、偏差项和方差项。ESMM 只部分控制了误差项，DR-JL 和 Multi_IPW 只控制了误差项，MRDR 只控制了误差项和方差项。

基于希望同时控制误差项、偏差项和方差项以提高模型的泛化能力和稳定性的想法，提出一个泛化性增强的双稳健学习方法。使用 prediction 模型中的损失控制泛化上界的误差项，使用 imputation 模型的损失控制偏差项和方差项。该方法是通用的纠偏方法，已有的双稳健学习方法可以统一到所提方法的模型框架下。

该方法在多种数据集进行实验验证，并能够有效控制偏差和方差的均衡。

2. 推荐纠偏：多稳健学习方法

逆倾向性得分加权方法 IPW 和误差归咎方法 EIB 只能实现单稳健，双稳健学习方法可以实现双稳健，以上方法仍面临 model specification 的问题和模型学习问题。由此，是否可能利用集成学习思路，利用多个倾向性得分模型和多个误差归咎模型，实现多稳健学习？

提出利用 J 个倾向性得分模型和 K 个误差归咎模型的多稳健学习方法。只要存在关于 J 个倾向性得分模型的线性组合可以准确估计真实倾向性得分，则模型无偏；只要存在关于 K 个误差归咎模型的线性组合可以准确估计真实模型误差，则模型无偏。通过类比集成学习的思路更好地解决模型设定和模型学习带来的挑战。

对模型中的倾向性得分模型和误差归咎模型的数量和种类进行分析，模型纠偏效果得到进一步提升，且模型多样性较为重要。

3. ITE 估计：基于表征学习的方法

智能营销的本质是识别无券不购买，发券才购买的营销策略敏感人群，识别敏感人群的本质是个体因果效应估计。通过发放优惠券等营销方式，使本来不会购买/使用的用户发生了转化，从而提高总效用。个体因果效应的定义针对给定具有特征 x 的研究对象，表示在干预 t1 和控制 t0 下潜在结果的差值。

个体因果效应估计存在两个核心问题，包括反事实数据缺失和干预选择偏置。个体因果效应估计的 SOTA 方法是基于表征学习的方法，将 ITE 估计任务分解成factual outcome 估计问题，最小化不同策略组的分布距离解决干预选择偏置问题。

已有方法存在尚未解决的问题：

采用什么距离度量？理论性质如何？（部分分布对齐的距离度量有缺陷）；
SDG 训练中的小批量采样效应（已有方法不考虑，因而受到采样不均衡和异常点的影响）；
不可观测干扰（已有方法直接忽略，因而有偏）。

本方法使用最优传输（推土机距离）作为距离度量。常用的 KL 散度、JS 距离无法处理两个分布的支撑集不相交的情况，不满足对称性，只能独立逐点计算距离。最优传输可以考虑分布内的结构信息，且相比于对抗训练的方法，最优传输更容易优化。

基于随机最优传输的个体因果效应估计方法 ESCFR 提出 RMPR 正则化和 PFOR 正则化分别解决小批量采样问题和不可观测干扰问题。

在小批次采样下，异常点/outcome 不同的点会被 KP 问题的保质量约束强行匹配正常个体，从而导致匹配有偏；通过放松 KP 问题中的保质量约束，即在RMPR 正则下避免异常个体、不同 outcome 的个体的匹配。

使用 PFOR 正则化缓解不可观测问题。增加先验知识，认为相似的表示应当有相似的潜在结果分布。对两个表示相似的个体，预估的潜在结果差异较大，则认为其隐藏混淆效应较显著。对该类个体，其个体间距离应该被补偿，以避免传输算法将其匹配并拉进。

该方法在多个场景下得到广泛应用，如华为浏览器消息 push 场景，通过评估消息 push 对用户的增益因果效应，可实现智能营销策略规划。

音乐推荐的注意力偏置问题

每日歌单推荐和私人 FM 是音乐播放器中非常重要的推荐业务。音乐推荐中存在严重的样本噪声，是影响业务效果的一大痛点。训练数据主要根据用户反馈定义，这些反馈包括主动行为（“喜欢”、“收藏”、“下载”、“切歌”等）和被动行为（自动播放、曝光未播放等）。但用户听歌过程中，注意力会不断变化，用户注意力不一定在歌曲上；绝大部分的用户反馈属于被动反馈，被动反馈数据用户注意力未知且不可靠，导致了大量噪声样本。

提供两条解决该噪声问题的思路。思路一：对噪声数据进行自适应的标签修正，从而将带噪样本转化为干净样本。思路二：用户注意力学习成为音乐推荐的关键问题，注意力可以作为衡量数据样本置信程度，并通过加权的方式降低噪声影响。

基于思路一，提出一个基于自适应标签修正的去噪方法。深度模型可以拟合所有样本，但是会先学习简单干净的样本，再学习复杂带噪样本的特性。利用深度学习模型的记忆效应，基于样本在训练过程中的损失设计自适应标签修正方法，修正的标签是模型预测值和带噪标签的动态加权。

实践过程中，先使用原先定义的样本学习模型，当模型收敛后使用标签自动修正方式进一步对模型进行微调。在经历数轮迭代后可发现模型训练 AUC 和验证 AUC 均达到突增的过程。

总结

因果推断可解决当前推荐算法面临的一些挑战问题，包括可基于 Rubin 的潜在结果框架对推荐问题进行因果分析，设计双稳健/多稳健/表征学习方法解决选择偏置问题。在推荐系统领域中，因果推断在鲁棒性、可解释性、智能营销等方面存在广泛的研究和应用机会。

以上就是本次分享的内容，谢谢大家。

分享嘉宾

INTRODUCTION

戴全宇博士

华为技术有限公司

主任工程师

戴全宇目前是华为诺亚方舟实验室的高级研究员。他本科毕业于上海交通大学，博士毕业于香港理工大学。他主要的研究兴趣是推荐系统、因果推断和图表征学习。他在 KDD、WWW、SIGIR、AAAI、TKDE、TNNLS 等顶级学术会议和期刊发表了多篇论文，并常年担任这些会议和期刊的审稿人。

往期推荐

复杂图上的知识迁移学习

开源delta lake 3.0 优势和发展

多模态大模型在文本和视频分析中的应用

流式数据湖 Paimon 0.7 的研发进展

多模内容理解在百度商业广告中的探索实践

直播预告| 智能运维，如何让中小企业数据库管理更高效？

哔哩哔哩基于 Iceberg 的智能数据组织优化实践

图技术在金融反欺诈中的应用

CloudCamel：OPPO 云上大数据极致优化之路

ClickHouse企业版商业化精要解读

点个在看你最好看

SPRING HAS ARRIVED

继续滑动看下一个

DataFunSummit

向上滑动看下一个

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“上海王”柯庆施之死的真相

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！

缺人：60r/次，立结~

因果推断在解决推荐系统偏置问题的研究和产品应用

您可能也对以下帖子感兴趣

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“上海王”柯庆施之死的真相

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！

缺人：60r/次，立结~

生成图片，分享到微信朋友圈

因果推断在解决推荐系统偏置问题的研究和产品应用

您可能也对以下帖子感兴趣