其他
推荐系统 embedding 技术实践总结
本文分享嘉宾:minwxwang,腾讯 PCG 应用研究员家
什么是 embedding
embedding 发展大事记
embedding 表示,把自然语言转化为一串数字,从此自然语言可以计算;
embedding 替代 oneHot 极大的降低了特征的维度(天下人苦 oneHot 久矣);
embedding 替代协同矩阵,极大地降低了计算复杂度。
item embedding
img embedding
user embeding
基于 embedding 的召回
增量聚类
利用聚类算法预聚类,以 Kmeans 为例
保存预聚类的聚类中心 C 和类标签 L
对于新增数据点 Xnew,计算其到各个聚类中心 Ci 的距离
把新增数据点 Xnew 分到距离其最近的聚类中心 Ci,所属的类别 Li
在业务低峰期全量更新每个类的聚类中心,以消除增量聚类可能引入的局部偏差,以提高系统的准确性
动态规则聚类
处理用户画像数据,得到每个用户最感兴趣的 K 个兴趣点
把这 K 个兴趣点按照权重大小,组合成一个兴趣标签
如果存在相应的聚类标签则直接加入该类,否则创建一个新的聚类标签
全部数据遍历完成后,统计各个聚类标签下的用户数
如果该类别下的用户数大于阈值,则该聚类标签可以保留,否则该聚类标签需要和其他聚类标签合并
对于需要合并的聚类标签,首先把属于该类别的用户标签回退一步,即得到该聚类标签下用户的 k-1 个兴趣点组成的兴趣标签,然后重复 3-5 的过程,最好得到一个类大小相对均衡的聚类结果
——END——
文章不错?点个【在看】吧! 👇