现阶段,工业界粗排模型常用的有双塔模型,比如腾讯[3]和爱奇艺[4];交互式 NN 模型,比如阿里巴巴[1,2]。下文主要介绍美团搜索在粗排升级为 NN 模型过程中的相关优化工作,主要包括粗排效果优化、效果&性能联合优化两个部分。
3. 粗排优化实践
随着大量的效果优化工作[5,6]在美团搜索精排 NN 模型落地,我们也开始探索粗排 NN 模型的优化。考虑到粗排有严格的性能约束,直接将精排优化的工作复用到粗排是不适用的。下面会介绍关于将精排的排序能力迁移到粗排的精排联动效果优化工作,以及基于神经网络结构自动搜索的效果和性能 trade-off 优化工作。
前面使用排序结果蒸馏是一种比较粗糙使用精排信息的方式,我们在这个基础上进一步添加预测分数蒸馏[8],希望粗排模型输出的分数与精排模型输出的分数分布尽量对齐,如下图 5 所示:在具体实现上,我们采用两阶段蒸馏范式,基于预先训练好的精排模型来蒸馏粗排模型,蒸馏 Loss 采用的是粗排模型输出和精排模型输出的最小平方误差,并且添加一个参数 Lambda 来控制蒸馏 Loss 对最终 Loss 的影响,如公式(1)所示。使用精排分数蒸馏的方法,离线效果 Recall@150 +5PP,线上效果 CTR +0.05%。
该公式的物理含义即为衡量粗排排序前 K 个和精排排序前 K 的重合度,该指标更加符合粗排集合选择的本质。
6. 作者简介
晓江、所贵、李想、曹越、培浩、肖垚、达遥、陈胜、云森、利前等,均来自美团平台/搜索推荐算法部。
7. 参考文献
[1] Wang Z, Zhao L, Jiang B, et al. Cold: Towards the next generation of pre-ranking system[J]. arXiv preprint arXiv:2007.16122, 2020.[2] Ma X, Wang P, Zhao H, et al. Towards a Better Tradeoff between Effectiveness and Efficiency in Pre-Ranking: A Learnable Feature Selection based Approach[C]//Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2021: 2036-2040.[3] 腾讯音乐:全民K歌推荐系统架构及粗排设计[4] 爱奇艺短视频推荐:粗排篇[5] Transformer 在美团搜索排序中的实践[6] 多业务建模在美团搜索排序中的实践[7] Tang, Jiaxi, and Ke Wang. "Ranking distillation: Learning compact ranking models with high performance for recommender system." Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018.[8] Hinton, Geoffrey, Oriol Vinyals, and Jeff Dean. "Distilling the knowledge in a neural network." arXiv preprint arXiv:1503.02531 (2015).[9] Chen L, Wang D, Gan Z, et al. Wasserstein contrastive representation distillation[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021: 16296-16305.[10] Yue Cao, Xiaojiang Zhou, Peihao Huang, Yao Xiao, Dayao Chen, Sheng Chen: Contrastive Information Transfer for Pre-Ranking Systems. CoRR abs/2207.03073 (2022)[11] Liu Y, Jia X, Tan M, et al. Search to distill: Pearls are everywhere but not the eyes[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 7539-7548.[12] Cai H, Zhu L, Han S. Proxylessnas: Direct neural architecture search on target task and hardware[J]. arXiv preprint arXiv:1812.00332, 2018.[13] Xiang Li, Xiaojiang Zhou, Yao Xiao, Peihao Huang, Dayao Chen, Sheng Chen, Yunsen Xian:AutoFAS: Automatic Feature and Architecture Selection for Pre-Ranking System. CoRR abs/2205.09394 (2022)