实时广告竞价(Real-Time Bidding, RTB)是互联网在线广告中的核心问题之一,也是实现流量高效分配和广告定向投放的重要机制之一。为了在RTB中获得期望的广告投放效果,商家广告主通常需要采用竞价策略来满足多样化的需求。其中投入产出比(Return-on-Investment,ROI)约束是效果类广告主非常关注的一类诉求。我们发现,由于 ROI 非单调下降的特点,以及 ROI 约束与优化目标间常出现的跷跷板效应,约束竞价问题中 ROI 约束常难以满足。这一点在市场环境多变且存在外部博弈的投放场景上尤为显著和棘手。过去的工作由于通常假设市场环境相对稳定不变,其所设计的竞价策略难以在非稳态和部分观测下的广告市场中平衡好约束和目标最大化之间的权衡。本文探讨了非稳态市场下的 ROI 约束广告竞价问题。我们提出了部分可观测约束的 MDP 建模方式,利用了示性函数不引入额外参数地处理约束条件,开发了一个由课程引导的贝叶斯强化学习(Curriculum-Guided Bayesian Reinforcement Learning,以下简称CBRL)框架来数据驱动地学习竞价策略,该方法能够在非稳态的广告市场中,自适应地调节约束条件和目标之间的权衡。大量的实验结果验证了该方法在稳定性、学习效率、分布内和分布外泛化能力上的优越表现。基于该项工作整理的论文已经发表在 KDD 2022,欢迎感兴趣的同学阅读交流。论文:ROI-Constrained Bidding via Curriculum-Guided Bayesian Reinforcement Learning下载(点击↓阅读原文):https://dl.acm.org/doi/abs/10.1145/3534678.3539211
2. 背景
实时广告竞价(RTB[1])已经成为互联网流量商业化的重要渠道之一,它服务于大量效果类广告主,其每日吞吐流量可以超过万亿级。在 RTB 中,每一条流量均会触发一次用户的广告展现机会,不同的商家通过程序化出价代理(programmatic buying agents)参与到广告展现触发的在线拍卖中。在这样实时在线的序列化广告竞价过程中,广告主的诉求通常是最大化目标投放效果并且满足预算等金融性约束。在各种需求中,效果类广告主关注的一类诉求通常是投入产出比(ROI)约束。ROI 计算了单位成本的(各种类型的)回报,例如单位成本的点击数(Click per Cost, CPC)等,可以直观地反映金融资源的使用效率。ROI 约束下的竞价问题具有一些独特的挑战。一方面,ROI 分子上的效用和分母上的成本可以以不同的速率变化,因此 ROI 是非单调的,而过去针对预算约束竞价问题设计的方法(详见[2]的调研)基于预算单调性导出的pacing策略往往不适合直接用于处理 ROI 约束。另一方面,由于效用与成本随出价提高而增长的速率不同,ROI 约束与最大化目标之间通常存在跷跷板效应,而这一现象在市场环境多变且存在外部博弈的站外投放场景尤为显著和棘手。尽管近期有一些工作[3]提出通过引入额外超参数来显式地控制约束目标权衡,但是它们通常假设静态或者相对稳定的市场环境,所设计的算法无法适用于更加动态变化的市场环境。更为严峻地是,广告主仅能通过扣费来感知市场的变化(例如对手策略的变化、媒体拍卖机制的变化),使得竞价策略难以针对性地调整。针对这样非稳态市场下的 ROI 约束竞价问题,我们提出了一个部分观测约束的 MDP 建模,并且介绍了一种采用硬间隔来处理非单调约束的方法。该方法利用示性函数来处理约束条件,并开发了一个课程引导的贝叶斯强化学习(Curriculum-Guided Bayesian Reinforcement Learning,简称CBRL)框架来进行高效的策略学习以及约束目标权衡的自适应控制。我们在工业场景真实数据的不同问题设定上验证了 CBRL 在稳定性、学习效率、分布内和分布外泛化能力的优越表现。
3. 问题定义与MDP建模
3.1 ROI-Constrained Bidding
本文研究的 ROI 约束竞价问题(ROI-Constrained Bidding, RCB)具体指,在确定的时间周期内(通常考虑一天),竞价策略需要在满足指定ROI约束时最大化总收入。本文假设采用二价拍卖机制[8],即竞得者按其他参竞者最高出价扣费。问题的形式化定义如下,一名参竞者获得请求 (和用户、广告、上下文有关的特征),基于效用预估 返回出价 。在胜出时,广告主从系统获得反馈包括:实际的收入 ,实际的支出 ,以及支出所反映的市场价格(二价)。如果没有竞得,则不参与目标或约束的计算。ROI约束下竞价的目标是最大化收入总和,并且投产比 ROI 大于L,预算为B:其中我们定义 为t次广告展现的拍卖信息序列。在下文,不引起歧义的前提下,我们采用缩写 。最优出价定理二价拍卖机制下,如果所有拍卖都事先知道,即 都已知,可以推导出它的最优出价公式 (定理1)。证明请参考论文附录。
为了验证贝叶斯学习在动态调节约束与目标价值之间权衡上的作用,我们对比了基于强化学习的方法(详情参考论文图6),特别在分布外的测试场景上发现了贝叶斯学习的显著优势。具体而言,在存在系统变化和外部博弈的投放场景上,CBR在不同的随机试验中仍然保持基本满足 ROI 约束,同时保持一定的收入水平,其中位数约束满足率接近75%。对比之下,由于没有考虑环境的非稳态变化,过去的工作通常难以在分布外的测试场景权衡好约束与目标价值。
[1] Shuai Yuan, Jun Wang, and Xiaoxue Zhao. 2013. Real-time bidding for online advertising: measurement and analysis. In Proceedings of the seventh international workshop on data mining for online advertising. 1–8.
[2] S. Balseiro, A. Kim, M. Mahdian, and V. Mirrokni. 2021. Budget-Management Strategies in Repeated Auctions. Operations Research 69, 3 (2021).
[3] Yue He, Xiujun Chen, Di Wu, Junwei Pan, Qing Tan, Chuan Yu, Jian Xu, and Xiaoqiang Zhu. 2021. A Unified Solution to Constrained Bidding in Online Display Advertising. Association for Computing Machinery, New York, NY, USA, 2993–3001. https://doi.org/10.1145/3447548.3467199
[4] T. Wang, H. Yang, H. Yu, W. Zhou, and H. Song. 2019. A Revenue-Maximizing Bidding Strategy for Demand-Side Platforms. IEEE Access PP, 99 (2019), 1–1.
[5] Xun Yang, Yasong Li, Hao Wang, Di Wu, Qing Tan, Jian Xu, and Kun Gai. 2019. Bid optimization by multivariable control in display advertising. In Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 1966–1974.
[6] Antoine Jamin and Anne Humeau-Heurtier. 2019. (Multiscale) Cross-Entropy Methods: A Review. Entropy 22 (12 2019). https://doi.org/10.3390/e22010045
[7] Chen Tessler, Daniel J Mankowitz, and Shie Mannor. 2018. Reward constrained policy optimization. arXiv preprint arXiv:1805.11074 (2018).
[8] Benjamin Edelman, Michael Ostrovsky, and Michael Schwarz. 2007. Internet advertising and the generalized second-price auction: Selling billions of dollars worth of keywords. American economic review (2007).