查看原文
其他

EXTR:面向外部性的工业级广告点击率预估框架

落横 阿里妈妈技术 2022-10-31
目录:
· 摘要
· 背景
· 模型设计
·  实验
· 结论
· 参考文献

1. 摘要

点击率预估用于衡量用户对商品的点击概率,在电商平台中扮演了十分重要的角色。电商平台通常以混合展现的方式为广大消费者提供自然结果和广告。事实上,围绕在目标广告周围的其他商品会影响用户对目标广告的点击率。本文将“除目标广告的其他展现商品”统称为外部商品(External Items),外部商品既包括自然结果,也包括其他被展示的广告,外部商品对目标广告的影响称为外部性影响(External Effects / Externalities)。大多数点击率预估模型假设用户的点击率仅依赖于商品本身,而忽略了外部商品对目标商品的影响,本文主要关注广告系统中点击率预估的外部性。
在广告预估阶段,自然结果列表已经由自然引擎返回,广告槽位的展示结果还未确定,由此引出两个重要挑战:1)正在被预测的目标广告可能在任意广告位胜出,环绕在不同广告位周围的外部商品可能完全不同,从而形成多样化的外部性(Diversity Externalities);2)所有候选广告同时进行点击率预估,环绕在目标广告周围的外部广告未知,导致不完整的外部性(Incomplete Externalities)。面临以上挑战,受 Transformer 高并行性的启发,我们提出了 EXternality TRansformer(EXTR)。EXTR 将目标广告所有可能的展示情形当作 Query,对应的外部商品作为 Key/Value 以同时建模多样化的外部性。进一步地,我们提出了 PAG 模块学习潜在的外部广告排列以克服不完整外部性的问题。线上实验结果表明,EXTR 模型能够有效的建模外部性影响,提升广告平台收益。相关工作论文已发表在KDD 2022,欢迎阅读交流。

论 文:EXTR: Click-Through Rate Prediction with Externalities in E-Commerce Sponsored Search

下 载(点击↓阅读原文):https://dl.acm.org/doi/abs/10.1145/3534678.3539053

2. 背景

一般来说,广告点击率除了跟商品本身质量有关,也跟与它同时展示的商品有关。随着商品的品类、数目增加,在客户端展示列表中更加突出的商品更可能获得用户的青睐。本文主要研究其他展示商品对目标广告点击率的影响。区别于目标商品本身,我们将目标商品以外的其他商品称为外部商品(External Items),外部商品对目标商品的点击率影响统称为外部性影响(External Effects / Externalities)。推荐系统往往将自然结果和广告以混合的方式展示给广大消费者,因此,目标广告的外部商品不仅包括自然结果,还包括其他被展示的广告。由于自然结果和广告的优化目标不同,这两类展示结果一般由不同的引擎提供,本文主要关注广告侧引擎的点击率预估。
广告引擎的三个阶段
广告引擎流程一般分为三个阶段:召回阶段(Matching Stage),预估阶段(Prediction Stage) 和拍卖阶段(Auction Stage)。广告位最终的展示结果在拍卖阶段才会被确定。在预估阶段,广告的具体展示位置未知,每支广告都有可能被放置在任意广告位。不同的广告位置对应着不同的外部性。面临多样化的外部性(Diversity Externalities), 一种最直接的方法是分别对每支广告的每个可能的曝光位置分别预估其点击率。显然,在广告位较多的情况下,这种方法会大大增加广告系统的响应时长。考虑到Transformer高并行的优势,我们提出面向外部性点击率预估的Transformer模型——EXternality TRansformer(以下简称EXTR)。另一方面,在预估阶段,成千上万的候选广告会同时并行地访问预估模型。虽然在该阶段,自然结果展现已由自然引擎返回,但是与目标广告同时展示的外部广告却依然处在预估阶段,导致不完整的外部性(Incomplete Externalities) 。面临这一挑战,我们在EXTR的基础上进一步提出潜在展示生成器(Potential Allocation Generator,PAG)。

3.模型设计

3.1 EXTR

EXTR网络结构
EXTR模型主要分为两个模块:上下文交互模块(Context Interaction Module)外部性抽取模块(Externality Extraction Module)
上下文交互模块专注于学习广告位周围的外部商品间的相互影响,由经典的self-attention Transformer层堆叠而成,输入包括外部商品的编码和其对应的排序编码。self-attention Transformer可以写成:

表示第层self-attention Transformer的 hidden vector。

外部性抽取模块的主要任务是一次性、并行地抽取目标广告在不同曝光位情境下的多样化外部性。不同于self-attention机制,该模块由heterogeneous attention Transformer组成。在heterogeneous attention Transformer,我们将目标广告编码和广告槽位编码视作query,将经过交互的上下文编码视作key/value。这样,就可以同时查询目标广告放在所有广告位的外部性,并输出对应的广告点击率。具体地,query可以形式化成,key/value使用表示。特别地,,表示外部性抽取模块第一层的key/value是上下文交互模块的输出向量。heterogeneous attention是外部性抽取模块的核心,接下来展开介绍它的内部结构:
分别指attention机制中Query, Key 和Value。具体地,,表示查询目标广告被放置在任意槽位和外部环境下的外部性。刻画了外部商品对目标广告曝光在位置时的影响强度,可以建模成:
上面公式仅考虑了目标广告和外部商品间的相互影响,忽略了用户的个性化。在实际情况中,外部影响因人而异,不同用户对商品属性的敏感度不同 [1]。比如学生党可能对价格差更加敏感,白领人群对商品质量的差距较敏感。因此,这里我们进一步提出个性化的外部性建模:
是用户的编码表示,是点乘算子。综上所述,heterogeneous attention Transformer可以形式化地表示为:
表示第层heterogeneous Transformer的 hidden vector。

3.2 PAG

PAG网络结构
PAG的核心是:将个自然结果的排序编码作为基,加权构造外部广告的排序编码,具体构造方法如下:
表示个自然结果的特征编码。表示自然结果的编码在外部广告编码的权重。为了加速收敛,我们使用外部广告真实展示的广告位作为监督信号,使用辅助KL散度loss优化分布:

4. 实验

考虑到缺乏上下文推荐的公开数据集,我们在淘宝数据集上收集为期一周的真实搜索数据。该数据集覆盖了服饰、电子产品、生鲜等上千种商品类型,包括广告商品和自然商品。模型涉及到的主要特征如下表所示,其中广告商品在通用商品特征的基础上,扩展了创意等独有特征。
为了对比外部商品的重要性,我们选择点击率SOTA模型CAN [2] 作为无外部商品信息引入的baseline。进一步地,使用MLP,PNN [3],Wide&Deep [4],DCN [5],xDeepFM [6] 和Transformer [7] 等网络结构以Embedding&Pooling方式抽取外部性,并预测广告点击率。考虑到自然结果和广告两类外部商品,我们分别实验只考虑自然结果的EXTR(EXTR_org),以及既有自然结果,又有其他外部广告的EXTR。同时,使用AUC、COPC和Logloss评价模型好坏。下表展示了以上方法在各评价指标上的效果:
由上表可知,不含任何外部商品信息的SOTA模型表现明显不如其他模型,表明了外部商品对用户点击率预测确实有帮助。相较于MLP等外部性抽取网络结构,EXTR具有较高的预测准确度。带有外部广告的EXTR比仅仅使用自然结果的EXTR有一定程度的提升,反映了外部广告对目标广告点击率具有一定影响。为了进一步剖析EXTR的效果点,我们对个性化外部性、外部广告引入和PAG辅助loss这三个方面进行消融实验(见下表)。消融实验结果表明:这三个模块都能够为外部性抽取带来提升,其中,外部广告的引入对模型效果的提升尤为明显。为了进一步研究个性化外部性影响,我们分别挑选具有代表性的高消费者和低消费者,然后绘制相同展示列表下的attention map图(见下图):横轴表示自然结果,纵轴表示价值1599元的目标广告展示位置,图中的颜色越深表示对应的系数越大,意味着自然结果对目标广告点击率的影响越大。由图所示,低消费者对价格比较敏感,价格偏低的外部商品对目标商品的影响偏高;具有相似偏高价格的商品,暗示着高质量,更加影响高消费者对目标商品的点击率。
消融实验
接下来,我们尝试从attention map中理解外部性影响。下图展示了一次真实搜索请求“男士冬季外套”的attention map,颜色越深表示外部影响越大。前四个商品由于都是厚外套、和目标广告及搜索关键词息息相关,因此具有明显较高的外部影响权重。外部广告由于也是厚外套,当目标广告在其附近被展示也会产生较高的外部影响力。当目标广告被放置在页尾,所有的后外套都和目标广告相距甚远,形成了均等外部影响力。可见,外部影响大小不仅取决于商品本身属性的差异,还和商品的曝光间距有关。

5. 结论

本文提出了支持实际工业应用的高效网络框架EXTR以挖掘个性化的外部性。面对多样化的外部性,设计了一种全新的基于Transformer的模型结构;面对不完整的外部性,提出了PAG预测外部广告的潜在展示位置。我们在实际工业级数据集上验证了模型的有效性和高效性,并部署在了阿里妈妈广告系统。尽管本文提出的方法已经在实验中被论证取得了不错的预测效果,但在外部性点击率预估领域存在更多可能得研究方向,比如数据偏差问题、新客冷启动问题、网络可解释性问题等。

6. 参考文献

[1] Pedro Bordalo, Nicola Gennaioli, and Andrei Shleifer. 2013. Salience and consumer choice. Journal of Political Economy121, 5 (2013), 803–843.

[2] Guorui Zhou, Weijie Bian, Kailun Wu, Lejian Ren, Qi Pi, Yujing Zhang, Can Xiao, Xiang-Rong Sheng, Na Mou, Xinchen Luo, et al. 2020. CAN: Revisiting Feature Co-Action for Click-Through Rate Prediction. arXiv preprint arXiv:2011.05625 (2020).

[3] Ying Shan, T Ryan Hoens, Jian Jiao, Haijing Wang, Dong Yu, and JC Mao. 2016. Deep crossing: Web-scale modeling without manually crafted combinatorial features. In Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. 255–262.

[4] Heng-Tze Cheng, Levent Koc, Jeremiah Harmsen, Tal Shaked, Tushar Chandra, Hrishi Aradhye, Glen Anderson, Greg Corrado, Wei Chai, Mustafa Ispir, et al. 2016. Wide & deep learning for recommender systems. In Proceedings of the 1st workshop on deep learning for recommender systems. 7–10.

[5] RuoxiWang, Bin Fu, Gang Fu, and MingliangWang. 2017. Deep & cross network for ad click predictions. In Proceedings of the ADKDD’17. 1–7.

[6] Jianxun Lian, Xiaohuan Zhou, Fuzheng Zhang, Zhongxia Chen, Xing Xie, and Guangzhong Sun. 2018. xdeepfm: Combining explicit and implicit feature interactions for recommender systems. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 1754–1763.

[7] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. In Advances in neural information processing systems. 5998–6008.

END

也许你还想看

基于对抗梯度的探索模型及其在点击预估中的应用

SIGIR 2022 | AdaCalib: 后验引导的特征自适应预估校准

阿里妈妈搜索广告预估模型2021思考与实践

阿里妈妈展示广告预估校准技术演进之路

喜欢要“分享”,好看要“点赞”哦ღ~


↓欢迎留言参与讨论↓

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存