上述方法将头部特征的存储规模做了显著压缩,剩下的特征中是否在效果上也存在着“滥竽充数”的角色呢?我们习惯的特征迭代方式,一般在对某一类特征做效果显著性分析之后,就进行举一反三的设计并批量引入模型训练,其中必然会夹杂边际收益极其微弱的特征设计。大规模离散稀疏模型,特征的 Embedding 不仅占据很大的存储规模,在线 serving 阶段除了模型的 inference,特征处理也占据了很大一部分的计算。所以,特征选择非常重要。传统特征选择方法是偏启发式,需要结合其他系统指标,进行模型优化和特征选择的独立迭代,并且是多轮反复优化,效率较低。我们借鉴 Dropout Feature Ranking[8] 方法,将特征的重要性融入到模型的学习过程中,使得特征选择和模型优化同步进行,不仅效率高还能使两者优化目标保持一致,特征选择更加有效。我们不仅将该方法成功落地,作为日常特征迭代的常规评估手段,还基于该方法创新性提出 FSCD(Feature Selection method based on feature Complexity and variational Dropout)技术,引入先验的系统算力因子,使得性能权衡、模型优化和特征选择三者可以同步优化,成功推广到新一代粗排模型 Pre-Ranking 中。该方法[10]具体细节可详见:SIGIR 2021 | FSCD-PreRank:面向效率和效果更加均衡的交互式粗排模型,欢迎关注。
▐ 3. 总结与展望
直通车 CTR 模型通过生产环境的系统性实践充分论证了“小而美”模型优雅演进的可能性,模型的瘦身是为了适配当下的业务阶段和资源环境,算法未来的迭代依然会继续考虑资源有效利用率这一不容忽视的系统问题。我们相信,没有标准答案的迭代范式,只有适合自身业务发展的模型演进之路。 参考文献 [1] Deep & Cross Network for Ad Click Predictions [2] AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks [3] End-to-end neural ad-hoc ranking with kernel pooling [4] A Deep Relevance Matching Model for Ad-hoc Retrieval [5] Compositional Embedding Using Complementary Partitions For Memory-Efficient Recommendation Systems [6] Hash Embeddings for Efficient Word Representations [7] Model Size Reduction Using Frequency Based Double Hashing for Recommender Systems [8] Dropout Feature Ranking for Deep Learning Models [9] Explicit Semantic Cross Feature Learning via Pre-trained Graph Neural Networks for CTR Prediction [10] Towards a Better Tradeoff between Effectiveness and Efficiency in Pre-Ranking: A Learnable Feature Selection based Approach