“并联”双塔模型 | 你还不知道怎么玩吗!
双塔模型广泛应用于推荐、搜索、广告等多个领域的召回和排序阶段,模型结构可分为user、item 两个塔,先在塔内构建网络结构生成 user、item 两个向量表示,然后通过两个向量的内积或者 cosine 来拟合 label 进行训练。在线 serving 阶段由于 item 向量可以预先计算好,所以每次请求只需计算一次 user 向量,多次内积或者 cosine 即可,从而性能非常强,但由于存在某些缺点,双塔模型的效果也受到限制:1、特征受限,无法使用交叉特征;2、模型结构受限,user 和 item 分开构建,最后只通过一次内积来交互,不利于 user-item 交互的学习。 在 QQ 浏览器小说推荐场景中,我们在召回和粗排阶段都使用了双塔模型,并在双塔模型结构上进行了探索和创新来提升模型的效果,主要创新思路在于:1、尝试通过"并联"多个双塔结构(MLP、DCN、FM、FFM、CIN)增加双塔模型的"宽度"来缓解双塔内积的瓶颈从而提升效果;2、对"并联"的多个双塔引入 LR 进行带权融合,LR 权重最终融入到 userembedding 中,使得最终的模型仍然保持的内积形式。这些尝试在小说推荐场景都取得了不错的收益。
一. 并联双塔模型架构
输入层:将 user 和 item 特征映射成 feature embedding,方便在表示层进行网络构建,小说场景下的 user 特征包括用户 id、用户画像(年龄、性别、城市)、行为序列(点击、阅读、收藏)、外部行为(浏览器资讯、腾讯视频等)。item 特征包括小说内容特征(小说 id、分类、标签等)、统计类特征等。所有特征都经过离散化后再映射成embedding。
表示层:并联各种深度神经网络模块(MLP、DCN、FM、CIN 等)从多个角度学习输入层 feature 的融合和交互,生成并联的 user、item 向量用于匹配层计算。这里user-user 和 item-item 的特征交互直接在塔内的网络结构可以做到,而 user-item的特征交互只能通过顶层的内积操作实现,所以这里网络结构的设计重点是提升双塔结构的 user-item 的特征交互能力。
匹配层:将表示层得到的并联 user 和 item 向量进行 hadamard 积(相当于多个双塔拼接),再经过一个 LR 进行结果融合,在线 serving 阶段 LR 的每一维的权重可预先融合到 user embedding 里,从而保持在线打分仍然是内积操作。
二. 双塔的MLP/DCN结构
将 W 由向量变成矩阵,参数量增加、提升了表达能力(W 矩阵也可以进行矩阵分解、还可以利用 MOE 多专家的思想在多个子空间分解)
特征交互方式由外积变成了 hadamard 积
三. FM/FFM/CIN的显式特征交互
四. 训练效果
FM/FFM/CIN 等结构由于计算性能的原因,都只在精选特征子集上面训练,选取维度更高的 category 特征为主,比如用户 id、行为历史 id、小说 id、标签 id 等,还有少量统计特征,user 侧、item 侧大概各选了不到 20 个特征 field
并联的各双塔结构都不共享底层 feature embedding,各自训练自己的 embedding
feature embedding 维度选择,MLP/DCN 对 category 特征维度为 16,非 category特征维度是
FM/FFM/CIN 的 feature embedding 维度统一为 32
五. 实验效果
六. 总结
双塔模型由于性能和效果都不错,广泛应用在各场景,业界也有很多在这基础上进行优化的实践,本文调研了多种双塔方案的效果(MLP/DCN/FM/FFM/CIN),在尝试 CIN 转换为双塔的方法上有自己的理解和想法,最终提出将多个双塔进行并联的方案,在离线训练 AUC 和在线A/B Test 实验效果上都验证了方法的有效性,相信在这个优化方向上继续努力还会有进一步的提升。
[1] Huang, Po-Sen, et al. "Learning deep structured semantic models for web search using clickthrough data." Proceedings of the 22nd ACM international conference on Information & Knowledge Management. 2013.[2] S. Rendle, “Factorization machines,” in Proceedings of IEEE International Conference on Data Mining (ICDM), pp. 995–1000, 2010. [3] Yuchin Juan, et al. "Field-aware Factorization Machines for CTR Prediction." Proceedings of the 10th ACM Conference on Recommender SystemsSeptember 2016 Pages 43–[4] Jianxun Lian, et al. "xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems" Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data MiningJuly 2018 Pages 1754–1763[5] Ruoxi Wang, et al. "Deep & Cross Network for Ad Click Predictions" Proceedings of the ADKDD'17August 2017 Article No.: 12Pages 1–[6] Wang, Ruoxi, et al. "DCN V2: Improved Deep & Cross Network and Practical Lessons for Webscale Learning to Rank Systems" In Proceedings of the Web Conference 2021 (WWW '21); doi:10.1145/3442381.3450078