WWW 2023 | 如何设置温度系数?用于推荐的自适应调节表征模长的方法
论文题目:
Adap-𝜏: Adaptively Modulating Embedding Magnitude for Recommendation
https://arxiv.org/pdf/2302.04775.pdf
https://github.com/junkangwu/Adap_tau
https://junkangwu.github.io/
摘要
研究背景
2.1 损失函数
用于训练推荐模型的损失函数有多种选择,包括 pointwise loss(例如 BCE,MSE),pairwise loss(例如 BPR)和 Softmax 损失。最近的工作 [1] 发现,Softmax 损失可以减轻流行偏见,实现良好的训练稳定性,并与衡量指标(ndcg)有一致性关联。此外,Softmax 损失可以被认为是常用 BPR 损失的扩展。因此,我们将 Softmax 作为分析的代表性损失,可以公式化为:
2.2 表征模长
本项工作研究了在推荐中表征模长的性质。在内积的基础上,我们使用表征归一化作为预测目标:
我们注意到,我们没有直接引入约束表征模长的的惩罚项,而是在对比学习中借用了类似的想法,并利用了传统的温度。这种比对可以使我们的发现更好地推广到其他领域。
表征模长理论分析
3.1 理论分析
引理一:通过采用内积的方式作为用户和物品之间相似度计算方式,我们可以得到物品表征模长在迭代过程中满足:
3.2 实验分析
3.2.1 实验设置
为了显示表征模长自由变化的影响,我们进行了四个实验:1)我们首先在训练过程中可视化不同物品流行度的物品表征模长变化趋势(图左上)。在这里,我们遵循[1],并根据物品受欢迎程度将物品分为十组。组 ID 越大,表示该组包含的热门物品越多;2)我们还报告了不同流行度物品组的性能(图右上)。同时针对是否进行归一化(是否控制表征模长),我们展示了正样本训练过程中打分变化趋势(图左下);以及两者模型训练过程中收敛情况对比(图右下)。
3.2.2 实验分析
如果我们把注意力放在训练的早期阶段(图左上),流行物品的表征模长会迅速上升,这与理论证明是一致的。因此,流行物品容易获得更高的分数,因为表征模长直接有助于模型预测。此外,不同的表征模长也损害了用户表征的训练。用户表征的梯度可以写为:
流行物品的信号将影响其他物品的贡献,导致模型将陷入有偏见的预测结果。(如图右上)。可以看出,具有归一化的模型比没有归一化的模型产生更公平的结果。
如果我们关注预测分数变化情况(图左下),我们观察到,即使在训练后期(例如 500),基于内积的 MF 预测分数和表征模长仍然处于上升而非收敛的状态,而与此同时性能持续下降(如图右下)。有趣的是,一旦利用归一化时,我们观察到了模型极快收敛,并且后续一直表现稳定。
为了进一步验证归一化的优势,我们测试推荐性能,变量为是否对用户或物品表征进行归一化(下表)。可以看出,具有双侧归一化(即对用户和物品的表征都进行归一化操作,记做 Y-Y)的模型显著优于具有单侧归一化(即 Y-N 或 N-Y)的模型;并且它们都超过了没有归一化的模型(N-N)。
3.3 归一化的缺陷
3.4 温度系数的意义
自适应原则:温度系数应该是自适应的,以避免梯度消失; 细粒度原则:温度系数应当是用户个性化的,即用户的样本越难区分,其应该使用更大的温度系数。
根据原则一,我们深入研究了使梯度值最大化的温度系数计算方式:
当下列条件成立时,梯度目标达到上限的最优值:
有了引理二的上界约束,我们进一步有:
4.2 Adap-𝜏:实现自适应细粒度温度
根据 SuperLoss 特性,我们可以求解出其闭式解为:
与其他策略相比,Adap-的表现如何? 我们的 Adap-是否适应不同的数据集和用户? 与最先进的模型相比,表征归一化和自适应的模型在准确性和效率方面表现如何?
5.1 模型性能对比
实验可见,我们的模型策略可以在多种基准模型上取得性能提升,并且对于流行度偏差问题也能得到很好的缓解。
5.2 模型自适应性能
在本节中,我们利用我们的模型对不同“噪声数据”的适应性。采用了两种策略来向数据集添加噪声:1)根据每个用户的历史交互频率,我们以相同的比例添加了假正样本;2) 将用户随机分为四组,给予各组依次添加假正样本(分别为 10%,20%,30%,40%)。
策略 1 专注于面对相同比例的噪声数据时的自适应性能(即全局适应性),而策略 2 专注于针对不同“噪声比”下,各个用户性能差异(即局部适应性)。
针对全局自适应,我们提出的 Adap-𝜏 可以在各种噪音比例下超过超参 grid search 的结果。
同时对于局部自适应,我们记录各个组别下 𝜏 的分布情况,由图可知我们的策略确实可以在用户间实现细粒度的调整,即噪音比例越小,温度系数值越小;反之亦然。
5.3 与SOTA对比
在复杂的计算(用户-物品相互影响),因此我们采用一个估计的方式进行近似计算。首先我们提出一个此目标满足的上界:
最后,我们将模型与近两年 SOTA 模型进行时间与性能的统筹考量,由图可知,本模型均可实现较优的平衡,在时间复杂度不增加的情况下,效果达到最佳。
在这项工作中,我们重点研究了推荐系统中表征模长。通过理论和实证分析,我们强调了表征归一化的重要性。我们还指出了仅仅做归一化存在的弊端。因此,我们提出了两个原则来指导的自适应学习。实验验证了我们的简单方法对于大量数据集都是有效的。最重要的是,我们的模型获得了一个自适应的、用户个性化的,而无需在不同的数据集之间重复搜索。
我们认为,全面理解归一化表征对于推荐系统社区的发展中是极其有益的。在未来,我们预计的进一步应用将解决 CF 的实际问题。我们希望将其推广到更多领域,而不仅仅是推荐。
参考文献
[1] Jiancan Wu, Xiang Wang, Xingyu Gao, Jiawei Chen, Hongcheng Fu, Tianyu Qiu, and Xiangnan He. 2022. On the Effectiveness of Sampled Softmax Loss for Item Recommendation. arXiv preprint arXiv:2201.02327 (2022).
[2] HenryWBlock and Zhaoben Fang. 1988. A multivariate extension of Hoeffding’s lemma. The Annals of Probability (1988), 1803–1820.
[3] Thibault Castells, Philippe Weinzaepfel, and Jerome Revaud. 2020. SuperLoss: A Generic Loss for Robust Curriculum Learning. In NeurIPS.
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧