查看原文
其他

WSDM 2022 | 点击率模型特征交叉方向的发展及CAN模型介绍

潄石 阿里妈妈技术 2022-10-31
目录:
· 摘要
· 背景
· 问题和方法
·  Co-Action Network方案
· 方案扩展
· 总结
· References
· 关于我们

 一、摘要

排序模块在广告、推荐和搜索等系统中扮演着非常重要的角色。排序结果会直接影响用户的体验。因此排序技术一直是工业界和学术界的研究热点,其中的点击率预估技术更是重中之重。而特征交叉则是点击率预估模型的重要技术方向,本文介绍了近年来特征交叉的热门技术方案及其挑战,并提出了一种新的特征协同交互模型Co-Action Network(CAN),通过提高非线性特征交互的隐式学习容量来探索特征协同交互的潜力。该模型相关工作论文已发表在WSDM 2022,欢迎阅读交流。
论文下载:https://arxiv.org/abs/2011.05625

 二、背景

我们团队主要负责展示广告场景的排序预估,点击率预估模型的性能除了影响平台营收,也关系到用户体验和广告主的营销效率。在展示广告的业务场景下,点击率预估模型的目标是预估给定广告、场景、用户的情况下该用户会点击该广告的概率,即  。近年来随着深度学习的发展,点击率预估模型也逐渐从传统的LR、FM、MLR等模型过渡到DNN模型,其整体的表达方式可以看做是一种Embedding&MLP的范式,基于这种范式逐渐涌现出了两类优秀的工作,一类是通用范式的特征交叉,例如:xDeepFM, ONN,FiBiNET等,这部分模型充分利用神经网络的学习能力挖掘特征信息的低阶、高阶融合从而提升点击率预估能力。另一类是基于物理意义先验的显式语义特征交互,例如DIN和PCF-GNN等,分别采用用户行为序列和图结构去捕捉用户和目标商品的相关性。在后者我们团队提出了兴趣建模这一技术方向,并持续耕耘产出了DIN/DIEN/MIMN/SIM等工作。因此我们也希望能在通用范式的特征交叉迭代中寻求技术增长,一开始我们的尝试是基于笛卡尔积的特征交叉,但远未达到预期的目标,随后我们打破以往的笛卡尔积组合惯性,尝试直接对序列特征和目标特征进行笛卡尔积组合,取得了不错的离线结果,不过在工业化上线的时候,这种方法在离线都遇到各种问题,且严重威胁到未来的技术迭代。因此我们转而尝试FM等参数化方案,这类方案性能可以,但效果远不如笛卡尔积。于是我们转而思考是否有更优雅的方式能够覆盖并超越笛卡尔积的效果,且不影响未来技术更迭。基于这样的思考路径,我们展开相关研究并最终设计出了Co-Action Network(CAN)。

 三、问题和方法

通用范式的特征交叉指的是通过组合两个(或多个)特征来学习特征间非线性的组合高阶表达,其收益则是来自通过挖掘特征之间的共现组合,拓展了特征输入的表达,从而使得模型能更容易的学习到共现组合提供的信息。例如在真实的业务场景下,我们可以挖掘海量数据中用户特征和商品特征间的共现信息,如下图所示:
上述特征交叉的工业实现方案可以主要分为非参数化方案和参数化方案。
非参数化方案:显式的表达特征交叉ID,例如特征求交,笛卡尔积特征等。
参数化方案:主要通过模型参数隐式拟合的形式去捕捉特征的非线性组合能力,而参数化方案在DNN基础上的创新迭代又主要分为以下两类范式:
  • 范式一:通过模型参数拟合的过程中能够明确特征的交互关系,例如DeepFM,IPNN,ONN,以及本文的CAN。
  • 范式二:无法明确特征具体交互关系,通过设计更复杂的后端网络追求特征的implict组合和高阶融合,例如DCN,xDeepFM,FIBNET。
需要注意的是,两种范式并不冲突,如果我们将范式一定义丰富输入X,则范式二则是在复杂化F表达式,那么两者结合的F(X)可能会带来进一步收益,本文会在最后介绍CAN和范式二的结合升级。下面依次介绍一下各方法的实现和认识:笛卡尔积,IPNN,ONN,xDeepFM,FiBiNET,这些方法主要选取华为CTR Survey工作《Open Benchmarking for Click-Through Rate》里效果显著的模型。

1. 笛卡尔积

传统的笛卡尔积一般是将样本输入的任意两个特征进行组合拼成一个新的特征作为输入,我们在多种组合尝试后将其扩展到序列特征的组合中,具体操作是将待预估的商品信息(如item id)和用户行为序列信息(如item id sequence)做笛卡尔积,形成一个新的id sequence,对其直接做embedding后pooling,将该信息输入到后续DNN网络,在我们现有的主模型SIM上有比较明显的提升。但这种序列笛卡尔积在训练端和在线服务端成本很大,训练需要采用各种优化手段防止模型无限膨胀,且大小骤增的模型严重影响OL更新。在线服务因为每一次预估需要生成的ID(特征量级扩展参竞规模倍),和查询embedding的ID会急剧膨胀,RT和QPS都明显遭遇性能瓶颈,一言以蔽之则是给在离线都带来巨大挑战。

2. IPNN

IPNN,全称为Inner Product-based Neural Network,认为在embedding输入到MLP之后学习的交叉特征表达并不充分,提出了一种product layer的思想,即基于乘法的运算来体现体征交叉的DNN网络结构。

3. ONN

ONN可以看成是在IPNN基础上的基于Feature组合参数独立性的扩展,即可以理解成ONN=IPNN+FFM,ONN认为相同特征在交互过程中执行不同的操作应当使用不同嵌入向量,例如一共有n个特征,每个特征与其他特征做Inner Product会执行(n-1)次操作,加上不交互的嵌入向量,即一个特征需要有n个对应的嵌入向量。

4. xDeepFM

xDeepFM虽然命名看起来是DeepFM的延续,但其核心模块CIN实际是DCN的一种升级。对比DCN,CIN则从bit-wise改进为vector-wise,不同Feature Group的向量逐层与融合信息进行交互,特性同样是有限高阶、自动叉乘、参数共享。xDeepFM的模型架构图如下。
其中CIN才是该模型核心,其具体前馈流程如下图:
是Embedding的维度,是Feature Group的数量,是第层转移矩阵数量,转移矩阵的shape为,该转移矩阵也可以看成是一个卷积核,是原始Embedding,是第层的输出,具体执行逻辑是:
  • 的每一列进行外积后拼接得到的矩阵P,对于来说,这里的 = m;
  • 将矩阵P经过个转移矩阵Conv1D后得到
  • 将k层Layer的沿列SUM后送入DNN网络。

5. FiBiNET

文章指出当前的许多通过特征组合进行CTR预估的工作主要使用特征向量的内积或哈达玛积来计算交叉特征,这种方法忽略了特征本身的重要程度。提出通过使用Squeeze-Excitation network (SENET) 结构动态学习特征的重要性以及使用一个双线性函数来更好的建模交叉特征。
SENET有效性在论文中的解释是获取不同特征的重要性,但其实也可以看做是一种XF(X)的特征交叉,其中F是SENET计算权重的非线性拟合函数,权重可以看做vector-size特征交叉的相对向量,独特之处在于确保了特征交叉的时候不做Embedding向量内部的差异化,这种形式可以降低学习难度。

6. 挑战

如背景中所述,我们在迭代的过程中希望寻找一种参数化的方案能够超越笛卡尔积效果,但又能屏蔽掉笛卡尔积带来的在离线问题,但在尝试现有参数化方案后发现均有一定差距,分析原因主要是存在coupled-gradient和信息容量的问题,因此我们分析了笛卡尔积独立空间学习特征共现记忆的原理,基于此我们通过参数化的方式 将表征神经元化(micro net)设计了Co-Action Network,无需显式构建id即可逼近大规模序列端笛卡尔积效果,同时性能更友好。下文我们将详细展开,与此同时CAN模型主要针对的是范式一的优化升级,因此也存在和范式二的合并优化,后文会介绍合并后的模型设计与效果。

▐ 四、Co-Action Network方案

1. 方案概述

点击率预估模型的核心目标是给定用户、场景、商品等信息,预估用户的点击率。以DNN为基础的主流预估模型,均采用交叉熵损失函数进行监督训练,即商品特征、场景特征以及用户特征取完Embedding后送入全连接层中。其形式化描述是:
其中分别表示用户特征和广告特征,表示将原始的离散ID映射为d维可学习的嵌入向量(embedding),作为整个模型的输入。将特征间交互建模考虑进来后,可进一步描述为:
其中表示之间的交互建模。由于特征共现的存在,模型可以受益于特征交互。因此如何有效地对特征交互进行建模是提高模型表达能力的关键。仔细回顾以往的方法可以发现,它们要么以特征交互作为权重,要么同时隐式学习与其他目标的相关性,可能会产生不理想的结果。学习特征交互最直接的方法是将特征组合视为新的特征,直接学习每个特征组合的嵌入向量,如笛卡尔积。笛卡尔积提供了独立的参数空间,具有足够的灵活性来学习协同作用信息,从而提高预测能力。
然而,笛卡尔积式的建模也有一些严重的缺陷。首先是参数爆炸问题。大小为的两个特征进行笛卡尔积操作后的参数空间将从扩展到,其中D为嵌入维度,这将给在线系统带来巨大的负担。此外,由于笛卡尔积将<A, B>和<A, C>视为完全不同的特征,组合之间不存在信息共享,这也限制了组合的表示能力。
考虑到笛卡尔积的优点和计算的服务效率,我们提出了一种新的特征交互建模方法CAN。将笛卡尔积的表达变得可学习、可扩展并具备更高的自由度,演进过程如下:
对于每个特征对,其笛卡尔积产生一个新的特征和相应的嵌入。由于不同的特征对可能具有相同的特征,因此任意两个特征对之间存在隐含的相似度,而笛卡尔积忽略了这一点。如果能够有效地处理隐式相似度,则可以用比笛卡尔积更小的参数尺度更有效地建模这些特征对之间的相互作用。CAN模型受笛卡尔积独立编码的启发,首先对嵌入参数和特征交互进行区分,避免了特征间的相互干扰。考虑到DNN具有强大的拟合能力,进而设计了一个以micro net形式参数化特征嵌入的协同单元。由于不同的特征对可以共享同一个micro net,因此在该micro net中可以自然地学习和存储相似度信息。

2. 模型设计

该模型主要包括特征抽取模块、兴趣抽取模块、序列建模模块、特征交互模块等,整体框架如下图所示。其中左侧的Co-Action Unit具体刻画了隐式特征交互的过程。
CAN的主要改进是,在原有结构基础上将不同特征送入新设计的算子得到特征交互的表达向量,再额外送入全连接层中作为信息补充。其形式化表达如下,其中表示模型的参数:

CAN的实现细节主要有三部分,首先引入了一个动态可插拔的特征交互学习单元Co-Action Unit,该单元实现特征组合信息的表达。此外,为了在模型中加入高阶信息,引入了多阶增强的逻辑,它显式地为特征交互学习单元构造了一个多项式输入。为了防止不同特征组合的信息学习的数据穿越相互干扰,针对性地在多个方面合理的开辟新的参数空间,在有限的参数扩增下,有效的提高了自由度。

一般来说,特征交互学习单元是每个特征对的一个独立的MLP,即micro net,由特征对提供MLP的权值、偏置和输入。对于一个特定的用户特征ID ,使用参数查询获得可学习的参数,相应的目标商品ID 其参数为。然后,对进行重构,将其分割为micro net的权重矩阵和偏置向量。这一过程可以公式化为:
其中表示micro net第i层的权重和偏置表示拼接运算,𝐿表示micro net的网络层数,表示变量的长度。此过程的可形式化为下图。
然后将输入到micro net中,最后将micro net各层的输出拼接,得到最终特征的特征交互:
其中表示矩阵点乘,表示激活函数,表示特征交互学习单元,其输入是。对于序列类的特征,例如用户的历史点击行为序列, 特征交互学习单元会作用于每个点击行为上,并求和:
在上面的描述中,分别是通过商品和用户的特征得到的。不过,同样可以作为micro net的参数,作为micro net的输入。根据经验,在广告系统中,广告对应的商品库远小于用户行为中的商品库规模。因此,此处选择广告ID作为提供micro net参数,以减少参数总量,使学习过程更简单、更稳定。
需要注意,micro net的网络深度取决于学习的难度。根据经验,当ID个数较多时通常需要更深的网络层数,但最后一层一般不带偏置项效果会更稳定。事实上,deepFM也可以看作是CAN的一种特殊情况,即micro net是一层1×𝐷矩阵,没有偏置项和激活函数。
与其他方法相比,CAN模型所提出的Co-Action Unit至少具有三个优点。首先,不同于以往在不同类型的特征域学习中使用相同嵌入向量的研究,Co-Action Unit利用了神经网络强大的计算能力,并将两个分量特征动态耦合,而不是固定模型,为保证两者的解耦更新提供了更大的能力。其次,需要学习的参数规模较小。例如,考虑两个特征都有N个ID,它们的笛卡尔积的参数量级应该是,其中𝐷是Embedding维度。但若以CAN模型的Co-Action Unit进行建模,则该参数规模降至,其中的维度,显著的减轻在线系统负担。同时与笛卡尔积全盘从0学起相比,在给定一个新的特征组合时,CAN可以复用特征组合对应的well-trained embedding,仅需要训练Co-action Net中的少量参数即可,所以Co-Action Unit对新特征组合具有更好的泛化能力。
上述特征交互方式是在一阶特征的基础上形成的,然而特征交互可以认为存在高阶表达,尽管此单元可以通过多层全连接隐式学习高阶特征交互,并且进一步增大参数量和算子复杂度达到学习到的可能,但受限与生产化过程中的参数规模以及稀疏学习无法使得参数对于高阶表达学习充分,因而需要显式输入高阶信息。为此,CAN明确地在Co-Action Unit中引入多阶信息以获得多项式输入:
学习独立性是隐式特征交互建模的一个防止学习影响、增加拟合空间,加强表达能力的关键方法。由于特征交互计算单元以外还有其他计算单元,这些单元之间可能涉及到相同的特征,但由于拟合逻辑不同如果同空间映射则可能造成表达能力冲突无法收敛,因此区分了表征学习和联合行动建模的参数。
因此为了保证Co-Action Unit的学习独立性,CAN从不同的角度提出了三层次的学习策略。
第一层,参数独立性。即表示学习和CAN特征交互建模的更新,参数独立性是特征交互学习的基础。
第二层,组合独立性。特征交互随着特征组合数量的增加而线性增长。根据经验,像“item_id”和“category_id”这样的目标特征被选择为,而用户特征被选择为。由于可以与相结合,因此CAN可以方便地以指数形式扩大模型的表达能力。形式上,如果分别有𝑄和𝑆组,特征交互组合应满足:
其中表示第q个micro net的输入维度。在前向传播过程中,将分成若干部分并输入进不同的micro net。
第三层,阶数独立性。为了进一步提高特征交互建模在多阶输入下的灵活性,CAN模型可以对不同阶次的特征进行了不同的向量嵌入。当然,这些嵌入向量的维度也会相应增加。
多层次的独立性有助于特征交互建模,但同时也带来了额外的内存访问和计算。在独立性级别和部署成本之间存在权衡。根据经验,模型使用的独立级别越高,它需要的训练数据就越多。因为不同的特征的表达语义不同,所以当某个特征在和不同特征组合时应尽量避免用相同的参数,参数使用量会随着所做组合的特征个数成倍增加。下图具体阐释了特征组合的独立性:

3. 生产化上线

公开数据集实验和消融实验大家可以参看论文,这里不再赘述,下面介绍下CAN生产化上线的具体设置和算力优化。正如前面所讨论的,笛卡尔积是特性交互建模中最直接的方法。然而,笛卡尔积通常会导致大量的资源消耗。一方面,模型的尺寸将以极快的速度扩大。模型过大给存储和网络传输带来了巨大的挑战,进一步影响了模型的实时更新。另一方面,随着在输入阶段特性的增加,它增加了应用程序请求中嵌入的查找操作,这导致了系统响应的延迟。现有的方法在工业部署方面更加友好。但是,也需要注意到,在数十亿数据的规模下,与笛卡尔积相比,提升非常有限。同时,单纯地增加参数空间,如增加Embedding维度,并不能带来额外的改进。在实际广告系统中,选择了21种特征,其中包括6种广告特征(如ad_id、item_id、shop_id等)和15种用户特征(如item_history、shop_history等)来构建特征交互。CAN与笛卡尔积相比,只有十分之一的模型大小就可以实现相当的性能。由于用户特性大多是长度超过100的行为序列,因此需要额外的内存访问,这导致了很大的响应延迟。此外,特征交互的计算代价随着特征组合数量的增加而线性增长,这也给系统带来了相当大的响应延迟。为了发挥CAN的所有能量,许多工作都致力于减少响应延迟。在算力优化方面,我们主要从三个方面进行了优化:
  • 序列截断:用户特征的长度从50到200不等。为了减少内存访问成本,简单地对用户特性应用序列截断,例如,所有长度为200的用户行为序列被减少到50,从而保留用户最新的行为。序列截止使QPS(每秒查询次数)提高了20%。

  • 减少组合:6个商品特征和15个用户特征可以得到多达90个特征组合,这是一个很重的负担。从经验上看,同类型的广告特征和用户特征的组合可以更好地模拟特征的共现性。根据先验知识,保留相关的组合,并删除一些不相关的组合。这样组合数量从90个减少到48个,QPS提高了30%。

  • 计算内核优化:特征交互单元的计算是一个相当耗时的大规模矩阵运算, 基本线性代数子程序不能很好地优化这种矩阵乘法。为解决这一问题,重写了内部计算逻辑,提高了60%的QPS,并进一步将矩阵乘法和求和运算进行了内核融合。这样做,可以避免矩阵乘法中间的GPU内存写入,这带来了另外47%的QPS提升。

经过以上优化,我们今天成功在展示广告几乎所有场景上线了CAN模型,并取得巨大的提升,下表是在主要场景的具体提升结果:

▐ 五、方案扩展

如第三节中所讲,通用特征交叉的两类范式并不矛盾,效果存在互补,因此我们在CAN的基础上尝试把所有算子和特征拼接后输入DNN之前经过一个FiBiNET中所采用的SENET结构。

在离线实验过程中GAUC+0.2%但我们分析认为SENET最初设计用于图像领域,而图像的feature map的相邻维度由于Receptive Field设计的Local Share特性存在一定的相关性,所以可以共用权重,但在搜推广的ID化特征的Embedding中这种相关性大大减弱,因此没有必要Embedding向量内共享一个权重。于是我们将SENET学习的Feature Group权重对应每个Embedding Dim学习,但实验结果并没有提升,且计算复杂度显著上升,分析原因怀疑学习自由度过大,难以训练充分,因此我们Trade Off了学习规模, 并综合各种算法技巧在特征向量输入DNN之前设计了一个Feature Attribute Unit,将以Feature Group的最大公约数8 dim为粒度学习权重,将学到的权重乘到对应的特征表达向量上,并在最后一层权重激活选择sigmoid函数,为保证特征变换后的Scale不变,我们乘2保证期望为1。最终取得 0.36% GAUC 提升。由于我们原始feature group的embedding dim各不相同,在实现senet时需要遍历,因此我们的新方法在算力上也得到了优化。最终上线取得了CTR+2.3%,RPM+2.5%的效果。具体实现结构如下所示:

▐ 六、总结

对于通用范式的特征交叉表达优化,我们相信还有不少可挖掘的优化空间,Co-Action Network只是一个抛转引玉的工作,证明了微观表达可以更复杂,其本身还有些许不足,比如如何差异化不同稠密度特征节点的信息容量以及如何将特征交叉的输入组合扩展到更多阶,因而未来在这个方向一定还能出现更优秀的工作。

References

  • Bian W, Wu K, Ren L, et al. CAN: Feature Co-Action Network for Click-Through Rate Prediction[C]//Proceedings of the Fifteenth ACM International Conference on Web Search and Data Mining. 2022: 57-65.
  • Zhu J, Liu J, Yang S, et al. Open Benchmarking for Click-Through Rate Prediction[C]//Proceedings of the 30th ACM International Conference on Information & Knowledge Management. 2021: 2759-2769.
  • Qu Y, Cai H, Ren K, et al. Product-based neural networks for user response prediction[C]//2016 IEEE 16th International Conference on Data Mining (ICDM). IEEE, 2016: 1149-1154.
  • Yang Y, Xu B, Shen S, et al. Operation-aware neural networks for user response prediction[J]. Neural Networks, 2020, 121: 161-168.
  • Huang T, Zhang Z, Zhang J. FiBiNET: combining feature importance and bilinear feature interaction for click-through rate prediction[C]//Proceedings of the 13th ACM Conference on Recommender Systems. 2019: 169-177.
  • Lian J, Zhou X, Zhang F, et al. xdeepfm: Combining explicit and implicit feature interactions for recommender systems[C]//Proceedings of the 24th ACM SIGKDD international conference on knowledge discovery & data mining. 2018: 1754-1763.

▐ 关于我们

阿里妈妈展示广告核心算法团队负责广告系统的核心召回及排序算法迭代和创新研发,致力于利用人工智能前沿技术打造超大规模体量下的工业级深度学习框架和创新解决方案及相应的基础设施。团队在用户兴趣建模、深度树匹配范式等技术持续深耕,并在工业级领域的深度学习框架上有着深厚的积累。近年在SIGKDD、SIGIR、NIPS、WSDM、CIKM、AAAI等学术会议上发表多篇论文。欢迎感兴趣同学加入我们~

投递简历邮箱:

alimama_tech@service.alibaba.com


END

也许你还想看

阿里妈妈技术团队4篇论文入选WSDM 2022

WSDM 2022 | 合约广告自适应统一分配框架

WSDM 2022 | 基于元学习的多场景多任务商家建模


欢迎关注「阿里妈妈技术」,了解更多~

疯狂暗示↓↓↓↓↓↓↓


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存