其他
淘宝推荐场景的利器:融合复杂目标且支持实时调控的重排模型
主要内容包括以下几大部分:
1. 信息流场景面临的挑战与重排模型的独特优势
2. 重排模型的建模范式总结
3. 有机融入多目标的重排模型
4. 基于超网络的实时可控重排模型
5. 结语
6. 问答环节
分享嘉宾|王原博士 阿里巴巴 算法专家
编辑整理|王露露
内容校对|李瑶
出品社区|DataFun
信息流场景面临的挑战与重排模型的独特优势
第一点是要打散,要求满屏的内容,店铺不能扎堆,类目品类不能扎堆,不能满屏都是连衣裙,展现样式也不能扎堆,不能满屏都是直播; 第二点是会有流量控制,举例来说,为了撬动商家的供给,或者保持商家生产内容的积极性,通常都会有冷启助推计划,比如商家主动发布了新内容,在三天之内会确保有 100 个曝光,这部分内容就叫做冷启内容,通常会确保里边有一定冷启内容的占比; 第三点是多种形态的混合,如直播、商品、图文以及视频,这种混合流的困难一方面体现在每一种供给背后的表征是对不齐的,或者说直播跟商品拿到的特征对不齐,当特征维度不一样的时候,如何做一个混合流是一个难点。不同内容的曝光带给用户的价值也是不一样的,如何做统一的价值衡量又是另外一个难点; 第四点挑战是多路供给融合,供给的概念是指这一部分有不同的生产链路,或者独立的召回打分链路,跟内容形态不一定强耦合。比如说都是直播,可能是达人直播,也可能是店铺直播,背后有不同的生产链路; 第五点挑战是多目标,同店商品的推荐只会有一个目标就是成交,而关注信息流里我们每天紧盯着的指标就有几十个,展开可能上百个,大体可以分为用户的体验指标、效率类指标、商家生态指标以及子业务的目标。比如直播和商品背后可能是两个业务团队,他们的业务目标之间有重合的部分,也有不同的部分,需要通过推荐分发做到共赢。
一是基于重排模型强大的 context 感知与控制能力,可以兼顾到前文提到的全部挑战; 二是它本身是一个深度神经模型,可以在大数据的驱动下给出 end to end 的联合最优解。
一是它无需 label。生成一个序列后,evaluator 只要能对当前这个序列做评估就可以了,至于最优序列和其 reward 是什么无需要知道。 二是它无需可导。在信息检索领域,通常用 NDCG 来评估推荐的结果,但训练时绝大部分工作不会直接优化 NDCG 指标,一个重要原因就是 NDCG 不可导没有办法计算梯度,没法做深度模型训练。但 reward 不需要可导,从而可以在 reward 里边非常灵活地加入各种各样的计算。比如店铺打散,结果序列中店铺的个数就是一个很好的 reward,虽然它显然不可导。
有机融入多目标的重排模型
基于超网络的实时可控重排模型
结语
问答环节
Q13:重排模型的离线指标看什么?
分享嘉宾
INTRODUCTION
王原 博士
阿里巴巴
算法专家
往期优质文章推荐
往期推荐