我们定义电商广告场景下,多利益方(广告主、用户、平台)博弈背景下的多诉求指标优化问题(Multiple Stakeholders' Ad Performance Objectives Optimization in the Competitive E-commerce Advertising):其中表示要优化的机制(即分配和扣费规则);代表各利益方的诉求指标集合,如:平台收入、点击、转化、收藏加购、成交量等等,所有诉求指标通过预先给定的重要性权重求得聚合目标函数。同时,在优化过程中需要满足两个关于机制属性的约束:
博弈均衡约束(Game Equilibriium Contraints):所有广告主(竞价者)在当前机制下能够达到博弈均衡状态,在当前状态下广告主对分配结果感到满意(即分配结果的改变不能使广告主的收益变多)。在算法博弈论(Algorithmic Game Theory)领域,有一些和拍卖机制相关的博弈均衡概念。例如经典的Myerson定理证明了:如果一个机制在单坑拍卖场景中是单调分配(Monotone Allocation),且扣费为保持当前分配下的最小出价(critical bid based pricing),那么这个机制是激励兼容(Incentive-Compatible, IC)[1] 的:
THEOREM 1 (Single Slot Incencentive-Compatible)[1]. A single slot auction mechanism is incentive-compatible if and only if the allocation scheme is monotone, i.e., the winning bidder would still win the auction if she reports a higher bid, and the pricing rule is based on the critical bid, which is the minimum bid that the winning bidder needs to report to maintain the winning state:
THEOREM 2 (Multi-Slot Symmetric Nash Equilibrium)[2] An auction mechanism satisfies symmetric Nash equilibrium (SNE) if and only if each bidder in this equilibrium prefer her current allocated slot to any other slot :
where is the inherent click-through rate of the slot .
Deep GSP能够根据真实的多目标反馈信号进行端到端的优化,克服诉求指标难以建模预估的不足,而且对真实在线广告系统的动态波动具有较好的鲁棒性。
▐ 实验
多目标优化能力&机制性质保证
为了能够充分验证Deep GSP在优化多目标上的表现,以及机制内在机理,我们在离线设计实验对这些进行充分的分析。首先在离线侧我们基于XRL强化学习平台搭建了一个模拟器,并利用点击率、转化率、收藏加购率等指标的分场景校准值来模拟真实反馈。下图分别展示了四项实验的优化指标对比:RPM/CTR、RPM/ACR、RPM/CVR、RPM/GPM。我们发现相比于GSP和uGSP,Deep GSP能在各个指标上优化的更充分,尤其是在其他指标持平的情况下能够显著提升收入,体现出了深度模型的优化能力。下表展示了在不同优化诉求场景下的有关博弈均衡设计的指标。其中单调性指标(表示rank score排序与其对应的bid在排序上的一致性,使用spearman相关系数计算来实现)、扣费时引入的逆计算误差指标(表示近似扣费与离线通过二分搜索计算出的真实扣费之间的比值)均与理想值1较为接近,证明了PML和AIO的误差较小。Table 2中最后一列IC表示通过拍卖日志数据离线计算出的激励兼容指标(Data-driven IC [3]),其值越接近于1表示机制越趋近于激励兼容。最后我们验证了机制的“平滑切换”功能。下图展示了当机制目标从“CTR”切换至“RPM”时,广告主Utility的变化,可以发现广告主效果会随着参数的提升呈缓慢下降趋势,而非剧烈震荡。
▐ 与现有学术界和工业界类似方案的差异
在学术界已有一些研究工作focus在深度学习和机制设计的结合。例如ICML19中的工作 [4]提出了端到端的分配网络和计费网络RegretNet,并将机制的IC约束融入到网络结构的设计或优化的loss当中。RMD用提出了基于强化学习的拍卖机制来优化收入等。但这其中大部分的研究还是在经典拍卖场景中,其数据来自于模拟的bidder value distribution,和真实广告拍卖场景中的数据分布差异较大。在优化多方利益这个问题上,现在工业界也有一些通过业务经验事先设定排序公式,并通过深度学习(或强化学习)来预测(或优化)每条流量中的参数,得到流量维度的“个性化排序公式”,以实现在不同的流量优化不同的指标,并做到所有流量指标的提升,上述的算法在各自的业务中都取得了显著的效果提升。
Deep GSP是阿里妈妈展示广告机制策略团队将“拍卖机制”与“端到端学习”结合的一次尝试,在后续的工作中,我们也在继续“模型算法优化+机制博弈约束”这种“一体两面”的研究思路,在算法设计方面提高建模能力和优化能力;在理论方面,研究learning-based机制的激励兼容性,探究如何将其更好的融入算法设计中,并进一步尝试在机制的可解释性上有所突破。
▐ 关于我们
我们是阿里妈妈展示广告机制策略算法团队,致力于不断优化阿里展示广告技术体系,驱动业务增长,推动技术持续创新;我们不断升级工程架构以支撑阿里妈妈展示广告业务稳健&高效迭代,深挖商业化价值并优化广告主投放效果,孵化创新产品和创新商业化模式,优化广告生态健壮性;我们驱动机制升级,并已迈入 Deep Learning for Mechanisms 时代,团队创新工作发表于 KDD、WWW、ICML、CIKM、WSDM、AAMAS、AAAI 等领域知名会议。在此真诚欢迎有ML背景的同学加入我们!投递简历邮箱(请注明-展示广告机制策略):alimama_tech@service.alibaba.com
参考文献:
[1] Myerson, R. B. (1981). Optimal auction design. Mathematics of operations research, 6(1), 58-73.[2] Varian, H. R. (2007). Position auctions. international Journal of industrial Organization, 25(6), 1163-1178.[3] Yuan Deng, Sébastien Lahaie, Vahab Mirrokni, and Song Zuo. 2020. A data-driven metric of incentive compatibility. In Proceedings of The Web Conference 2020. 1796–1806.[4] Dütting, P., Feng, Z., Narasimhan, H., Parkes, D., & Ravindranath, S. S. (2019, May). Optimal auctions through deep learning. In International Conference on Machine Learning (pp. 1706-1715). PMLR.[5] Tacchetti, A., Strouse, D. J., Garnelo, M., Graepel, T., & Bachrach, Y. (2019). A neural architecture for designing truthful and efficient auctions. arXiv preprint arXiv:1907.05181.[6] Shen, W., Tang, P., & Zuo, S. (2019, May). Automated mechanism design via neural networks. In Proceedings of the 18th International Conference on Autonomous Agents and Multiagent Systems (pp. 215-223).END 也许你还想看丨KDD2021 | USCB:展示广告约束出价问题的通用解决方案丨KDD 2021 | Neural Auction: 电商广告中的端到端机制优化方法 丨WSDM 2022 | 一种用于在线广告自动竞价的协作竞争多智能体框架