其他
Airbnb 搜索:Embedding 表示学习
The following article is from 深度学习排序艺术 Author 谷育龙Eric
(点击上方公众号,可快速关注)
转自:深度学习排序艺术
如何构造正样本?包括如何切分序列,如何选取生成正样本,如何对不同重要程度的正样本做特殊处理。
如何选取负样本?负样本的构造选取方法,对后续搜索推荐应用的效果至关重要。
如何解决冷启动问题?冷启动问题,指互联网应用中,存在大量user和item,相关的行为数据很少,无法有效学习到embedding。
如何将学习的embedding应用到搜索或推荐中?
1.正样本构造
对于每个用户,作者将该用户在Airbnb的点击行为按照时间从小到大排序成一个长序列。 去除掉在页面停留时间少于30秒的listing,来减少噪声行为。如果两个行为间时间差超过30分钟,说明相关性比较少,分割成两个序列。对于每个用户,就生成了多个session序列。 汇总所有用户的序列,作为训练数据。
2. 负样本构造
3. 基于预定序列学习embedding
预订session序列数据远少于点击序列,因为预定是少量行为
大量user, item的历史预定次数非常少,无法有效学习embedding
长时间后,用户特点可能发生变化
对于每个用户,把过去的预定序列按时间排序, 把(user type, item type)对拆分成两个id,放到序列中
多个用户的这些序列,就构成了长期预定序列数据
对于预定失败的数据,作为额外的负样本。
4.Embedding在搜索推荐中的应用
后记
Real-time Personalization using Embeddings for Search Ranking at Airbnb,KDD 2018 Embedding-based Retrieval in Facebook Search, KDD 2020 Graph Convolutional Neural Networks for Web-Scale Recommender Systems, KDD 2018 Decoupled Graph Convolution Network for Inferring Substitutable and Complementary Items, CIKM 2020. Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba, KDD 18
- EOF -
看完本文有收获?请转发分享给更多人
关注「大数据与机器学习文摘」,成为Top 1%
点赞和在看就是最大的支持❤️