浅谈 CTR 预估模型发展史

Original Zhang PaperWeekly 2022-03-17

©PaperWeekly 原创 · 作者｜Zhang

学校｜上海交通大学硕士生

研究方向｜深度学习、自然语言处理

背景介绍

Click Through Rate (CTR) Prediction 是一项非常重要的工业任务，例如计算广告中、推荐系统中的应用。计算广告中需要根据 CTR 的预估来进行竞价，有的推荐系统则基于 CTR 进行排序。

CTR 预测即给定一个用户/物品（广告）对，预测用户点击该物品的概率。其中输入的特征往往包括连续特征（年龄）和枚举特征（性别、地区），即 continuous field 和 categorical field。其中枚举特征还分为单一取值的特征（如性别）和多取值的特征（如购买记录）。

一般先用 one-hot 或 multi-hot encoding 的方式编码枚举特征，之后在很多模型中都会通过 embedding layer 再将它映射成 dense feature。最后根据这些处理过的 feature 来预测用户点击该物品的概率。

模型发展史

传统的模型有：LR [1]、FM [2]、FTRL [3]、GBDT+LR [4]、FFM [5]、PL-LSM [6] 等。

2.1 2016年

最简单的基于 deep learning 的模型设计，例如 Deep Learning over Multi-field Categorical Data (DNN) 直接将 dense feature的concatenation 作为输入，在其上叠加多层的神经网络直接预测 CTR。

该文提出 FM supported 和 sampling based NN 两种具体实现方式，分别通过 FM、基于负采样的 DAE/RBM 预训练得到 embedding 的初始化值，以及通过使用 RBM contrastive divergence 预训练来初始化上层的神经网络参数；最后通过 fine-tune 的方式训练最终模型。

不同于上述模型完全依赖神经网络（如果不考虑预训练的作用）来学习不同 feature 之间的交互关系，另一类模型既显式地建模 feature 之间的低阶交互关系，又同时借助神经网络来建模高阶交互关系。

比如 Product-based Neural Networks for User Response Prediction (PNN) 中在不同的 feature 之间通过内积、外积的方式计算二阶交互特征，最后将原始的一阶和交互的二阶特征相加输入神经网络。

Wide & Deep Learning for Recommender Systems (Wide&Deep) 中的 wide model 使用一阶 feature 和通过手动设计 cross product transformation 得到的二阶 feature，通过 linear model 进行预测。

deep model 则直接从一阶 feature 出发叠加神经网络；最终将 Wide&Deep 两个模型 joint learning 训练。

2.2 2017年

DeepFM: A Factorization-Machine based Neural Network for CTR Prediction (DeepFM) 中结合使用了 FM 和 DNN，其中 DNN 的输入共享使用了 FM 中的 latent vector，最终结合两部分的 feature 进行最终预测。

Deep & Cross Network for Ad Click Predictions (Deep&Cross)中从 embedding layer 出发并行地搭建一个 cross network、一个 DNN，最终合并两个分支的 feature 进行最终预测。

其中 cross network 显式地建模了高阶（对应 cross network 的层数，不同于其他模型设计中只有二阶的显式交互设计）的 feature 交互。

Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks (AFM) 在 FM 的基础上，通过 attention 的机制给不同的二阶交互项加上权重、以及对 latent vector 的 Hadamard product 的不同 bit 进行加权求和：

其中 attention score 根据的 Hadamard product 来计算。

Neural Factorization Machines for Sparse Predictive Analytics (NFM) 中首次完全融合了 FM 和 DNN，将 FM 中原有的 latent vector 内积项：

替换为通过 Bi-Interaction Layer（如下图）+NN 建模的 feature 交互特征。

2.3 2018年

FwFM: Field-weighted Factorization Machines for Click-Through Rate Prediction in Display Advertising (FwFM) 中同样考虑了不同二阶交互特征对于最终预测的贡献度不同，因此在 FM 的二阶交互项中加入了权重系数，相比 FFM 减少了大量参数：

xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems (xDeepFM) 中同样显式地建模了高阶的 feature 交互，进一步改进了 Cross Network，提出 Compressed Interaction Network，模型表达能力更强。

并且将 Cross Network 中 bit-wise 的交互方式（意味着同一个 feature embedding 的不同 bit 之间也会进行交互）改为 vector-wise 的交互方式。模型整体结构和 DeepFM 相同，将 FM 的部分替换为 CIN。

Deep Interest Network for Click-Through Rate Prediction (DIN) 在对 user behavior 的 feature（用户历史行为）处理中，区别于传统的 average pooling 或 concatenation 的方式，考虑到了每个 behavior 的参考价值与具体的待预测目标有关。

因此通过 attention 的方式进行了加权求和来建模 user interest：

Deep Interest Evolution Network for Click-Through Rate Prediction (DIEN) 进一步关注了 user interest 随时间变化的特点。模型主要包括一个 interest extractor layer、一个 interest evolving layer，都是基于 GRU 的结构，在 user behavior 的时间序列上学习。

其中 interest evolving layer 的输入为 interest extractor layer 中对应时间步的隐藏层，并且由和待预测物体的特征计算得出 attention 来作为 update gate 的权重。

2.4 2019年

Deep Session Interest Network for Click-Through Rate Prediction (DSIN) 中则关注到用户的历史行为、用户兴趣的时间序列可分为不同的 session，session 内的行为比较 homogeneous，而不同 session 间则更heterogeneous。

因此对 user behavior 的建模包括了 session division、session interest extractor (multi-head self-attention)、session interest interaction (Bi-LSTM)、session interest activation (attention)。

FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction (FiBiNET) 中提出了基于 Squeeze-and-Excitation 的 feature importance 计算方法以及 bilinear 的 feature 交互方法。

其中关于 bilinear interaction，新提出了杂交 Hadamard product 和 inner Product 的表达方式，例如：

最终得出的二阶交互特征替换 FM 模型中的二阶交互项。

AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks (AutoInt) 中用 multi-head self attention network with residual connection 来建模 feature 交互。

2.5 2020年

FLEN: Leveraging Field for Scalable CTR Prediction (FLEN) 中提出了一种参数少、计算量小、适合工业化应用的模型，其中 feature 交互的部分结合了 intra/inter feature 的交互。最终用 field-wise bi-interaction module 得到的二阶特征 +DNN 学到的特征进行预测。

A Sparse Deep Factorization Machine for Efficient CTR prediction (Sparse DeepFwFM) 在 DeepFwFM 的基础上进行了 structural pruning，大大减少模型参数以符合线上运行的需求，并且使模型的 ensemble 成为可能。

研究方向

feature interaction 的方式

只包含低阶（二阶）的特征交互，比如 FM、AFM、FFM、FwFM。
完全依赖深度学习来建模高阶的交互特征，比如 DNN、AutoInt。
结合显式的低阶特征交互建模和基于深度学习的高阶特征建模，比如 PNN、Wide&Deep、DeepFM、Deep&Cross、NFM、xDeepFM、FiBiNET、FLEN。其中 Deep&Cross 和 xDeepFM 显式建模了高于二阶的交互特征。

依据用户的历史行为以及待估计的对象研究用户的兴趣，比如 DIN、DIEN、DSIN。

简化模型、工业应用，比如 FwFM、FLEN、Sparse DeepFwFM。

其他还有推荐系统中基于 CTR 的模型，例如 RippleNet [7]，利用了用户和物品由点击历史构成的 graph 以及 knowledge graph，将用户兴趣在合并的 graph 上“传播”，类似于基于物体的协同过滤方法。

效果比较

主要根据 AUC 和 logloss 来比较。在 Criteo 数据集上测试的模型较多，根据 paper 各自汇报的结果，在 Criteo 上表现最好的是 Sparse DeepFwFM，其次是 xDeepFM、DeepFM。根据 FLEN 自己在 Avazu 数据集上汇报的结果，FLEN 的优于 xDeepFM。

参考文献

[1] Richardson, Matthew ; Dominowska, Ewa ; Ragno, Robert. Predicting clicks: estimating the click-through rate for new ads.

[2] Rendle, Steffen ; Gantner, Zeno ; Freudenthaler, Christoph ; Schmidt-Thieme, Lars. Fast context-aware recommendations with factorization machines.

[3] Mcmahan, H ; Holt, Gary ; Sculley, D ; Young, Michael ; Ebner, Dietmar ; Grady, Julian ; Nie, Lan ; Phillips, Todd ; Davydov, Eugene ; Golovin, Daniel ; Chikkerur, Sharat ; Liu, Dan ; Wattenberg, Martin ; Hrafnkelsson, Arnar ; Boulos, Tom ; Kubica, Jeremy. Ad click prediction: a view from the trenches.

[4] He, Xinran ; Pan, Junfeng ; Jin, Ou ; Xu, Tianbing ; Liu, Bo ; Xu, Tao ; Shi, Yanxin ; Atallah, Antoine ; Herbrich, Ralf ; Bowers, Stuart ; Candela, Joaquin. Practical Lessons from Predicting Clicks on Ads at Facebook.

[5] Juan, Yuchin ; Zhuang, Yong ; Chin, Wei-Sheng ; Lin, Chih-Jen. Field-aware Factorization Machines for CTR Prediction.

[6] Gai, Kun ; Zhu, Xiaoqiang ; Li, Han ; Liu, Kai ; Wang, Zhe. Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction.

[7] Wang, Hongwei ; Zhang, Fuzheng ; Wang, Jialin ; Zhao, Miao ; Li, Wenjie ;Xie, Xing ; Guo, Minyi. RippleNet: Propagating User Preferences on the Knowledge Graph for Recommender Systems.

点击以下标题查看更多往期内容：

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

📝 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

📬 投稿邮箱：

• 投稿邮箱：hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

当“上帝”变为“老天爷”

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

呼吁四川大学澄清：1998年1月，川大有多少个“姜涛与爱人程月玲”？

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

浅谈 CTR 预估模型发展史

您可能也对以下帖子感兴趣

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

当“上帝”变为“老天爷”

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

呼吁四川大学澄清：1998年1月，川大有多少个“姜涛与爱人程月玲”？

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

生成图片，分享到微信朋友圈

浅谈 CTR 预估模型发展史

您可能也对以下帖子感兴趣