机器学习与推荐算法

其他

NeurlPS2022推荐系统论文集锦

嘿,记得给“机器学习与推荐算法”添加星标第36届神经信息处理系统会议NeurlPS2022将于11月28日至12月9日举行。大会将持续举行两周,第一周将在美国新奥尔良举行现场会议,第二周改为线上会议。根据官网邮件中给出的数据,本届会议共有10411篇论文投稿,接收率为25.6%。官网链接:https://nips.cc/Conferences/2022/Schedule?type=Poster本文从上述官网链接接收列表中筛选出与推荐系统、数据偏差以及图相关的论文供大家学习,其中与推荐系统有关的论文16篇。本次论文整理涉及到众多推荐系统领域的子方向,比如推荐系统中的嵌入表存放问题、算法选择问题、推荐系统中具有点击后信息的广义延迟反馈模型、用于训练推荐模型的缓存增强batch内重要性重采样问题、基于图卷积网络的推荐系统、推荐系统中的注入攻击分析、多样性推荐、基于自监督学习的推荐系统、大规模多用途的推荐系统数据集等。其中部分论文已上传到Arxiv,大家可以自行下载进行阅读,也可以前往每周的论文周报进行查看。DreamShard:
其他

CIKM2022推荐系统论文集锦

嘿,记得给“机器学习与推荐算法”添加星标第31届信息和知识管理国际会议CIKM2022将于2022年10月17日-21日以混合会议的方式在美国亚特兰大举行。CIKM会议是数据库/数据挖掘/内容检索领域顶级国际会议,也是中国计算机学会规定的CCF
其他

RecSys2022 | 当推荐系统遇到量子计算

嘿,记得给“机器学习与推荐算法”添加星标经过几十年来的理论研究,量子计算现在正成为解决现实问题的有用工具。文本介绍的工作旨在通过实验探索目前可用的量子计算机的可行性,期望基于量子退火范式,建立一个利用社区检测的推荐系统,目前该工作已发表于2022年的推荐系统年会RecSys上。社区检测,通过将用户和物品划分为密集连接的集群,可以通过假设每个社区内的用户有相似的品味来提高非个性化推荐的准确性。然而,社区检测是一个计算上很昂贵的过程。最近作为云端设备的量子退火器的出现,构成了探索社区检测的一个新兴方向,尽管有效利用这种新技术是一条长期的道路,仍然需要在硬件和算法方面取得进展。这项工作旨在通过评估社区检测的质量来进行研究,该检测过程被建模为真实推荐场景下的二次无约束二元优化问题。通过在多个数据集上的实验结果显示,量子求解器能够检测到与经典求解器质量相当的社团,且速度更快,而且建立在这些社区之上的非个性化的推荐模型表现出更好的推荐质量。我们得出的结论是,量子计算虽然处于成熟和适用的早期阶段,但随着技术的发展,它在支持新的推荐模型和带来更好的可扩展性方面显示出非常广阔的前景。原文:
其他

因果推荐系统前沿进展: 形式化与去偏

嘿,记得给“机器学习与推荐算法”添加星标导语推荐系统是应用极其广泛的技术,基于因果方法的推荐系统正在成为趋势,并取得良好效果。北京大学周晓华团队针对各类因果启发式推荐方法,提出了一套统一的因果分析框架,并应用于多种推荐场景,本文是对相关新工作的介绍。研究领域:因果推断,因果科学李昊轩(北京大学周晓华教授团队)|
其他

论文周报 | 推荐系统领域最新研究进展

嘿,记得给“机器学习与推荐算法”添加星标本文精选了上周(0912-0918)最新发布的10篇推荐系统相关论文。本次论文集合的方向主要包括序列推荐[1]、点击率预估模型中的过拟合现象理解[3]、针对于大规模CTR的增量学习[4]、学习最优嵌入方法[5]、针对长序列数据的稀疏注意力网络[6]、针对全空间多任务学习的多尺度用户行为网络[7]、因果推荐系统[8]、针对CTR任务的层次意图嵌入网络[9]、基于图学习的推荐系统研究综述[10]等。以下整理了论文标题以及摘要,如感兴趣可移步原文精读。1.
其他

论文周报 | 推荐系统领域最新研究进展

嘿,记得给“机器学习与推荐算法”添加星标本文精选了上周(0905-0912)最新发布的25篇推荐系统相关论文。本次论文集合的方向主要包括基于Transformer的引用推荐评估[1]、推荐系统中语言解释的公平性[2]、工业级广告推荐的机器学习工程[3]、基于强化学习的推荐与推理[4]、多行为推荐中的因果干预公平性[5]、可信医疗诊断推荐系统[8]、基于循环神经切线核的序列推荐[9]、极简图对比学习推荐算法[13]、在线小说推荐中的可重复购买建模[14]、基于解耦图对比学习的评论推荐[19]、可解释指导的对比学习序列推荐[20]、推荐系统模型发展简史[25]等。以下整理了论文标题以及摘要,如感兴趣可移步原文精读。1.
其他

推荐系统模型发展简史

嘿,记得给“机器学习与推荐算法”添加星标互联网出现不久,推荐系统就诞生了,相关技术在学术界和工业界得到了广泛的研究和应用。目前,推荐系统已经成为最成功的网络应用之一,通过推荐不同种类的内容来为数十亿人服务,包括新闻资讯、视频、电子商务产品、音乐、电影、书籍、游戏、朋友、工作等。这些成功的案例证明,推荐系统可以将大数据转移成高价值。本文从两个方面简要回顾了推荐系统的发展历程:(1)推荐模型,(2)典型推荐系统的架构。之前我们整理了近30年关于推荐模型的发展历史可参考一文尽览推荐系统模型演变史(文末可下载),另外关于中国推荐系统发展历史可参考那些用推荐引擎改变世界的人。我们希望这个简短的回顾能够帮助了解网络推荐系统的进展,并且这些点在未来会以某种方式连接起来,从而激励建立更先进的推荐服务进而改变世界。1992年,Belkin等人分析和比较了信息过滤和信息检索,其中信息检索是搜索引擎的基石,而信息过滤则是推荐系统主要利用的技术。同年,Goldberg等人提出了Tapestry系统,这是第一个通过人的评价来实现的基于协同过滤的信息过滤系统。受此启发,麻省理工学院(MIT)和明尼苏达大学(UMN)的一些研究人员开发了新闻推荐服务,命名为GroupLens,其关键部分是基于用户的协同过滤模型。John
其他

深度总结 | 推荐算法中的特征工程

Ratio,可以用来度量用户对某一类目商品的偏好程度相对于其他类目是什么样的水平。如上图所示,Alice对Bag类别的偏好程度相当于对其他类别偏好程度的0.7906。Weight
其他

论文周报 | 推荐系统领域最新研究进展

嘿,记得给“机器学习与推荐算法”添加星标本文精选了上周(0829-0904)最新发布的16篇推荐系统相关论文。本次论文集合的方向主要POI推荐算法[1]、基于对比变分自编码器的序列推荐算法[2]、书籍推荐算法[3]、序列推荐数据集[4]、对话推荐[6]、单类推荐算法[7]、序列推荐中的多样性建模[9]、实时推荐算法[10]、基于多层级对比学习的序列推荐算法[11]、一种用于推荐系统的简化图卷积范式[12]、推荐系统场景中时间感知的自注意力机制邂逅逻辑推理[13]、推荐算法中的因果推理综述[14]--最新综述
其他

最新综述 | 基于因果推断的推荐系统

嘿,记得给“机器学习与推荐算法”添加星标目前,推荐系统在信息过滤中起着至关重要的作用。现有主流的推荐系统主要是通过学习数据中的相关性进而提取用户的行为偏好,例如协同过滤中的行为相关性,点击率预测中的特征-特征或特征-行为相关性。然而,遗憾的是,现实世界是由因果关系而不是相关关系驱动的,相关关系并不意味着因果关系。例如,推荐系统可以在用户购买手机后向其推荐电池充电器,其中后者可以作为前者的原因,而这种因果关系是无法反过来的。最近,为了解决这个问题呢,推荐系统的研究人员开始利用因果推理来提取因果关系,进而增强推荐系统的性能。在本文综述中,全面回顾了近年来基于因果推理的推荐算法的研究。具体的,首先介绍了推荐算法和因果推理的基本概念。然后提出了非因果性推荐算法所面临的问题。之后,根据因果推理所解决的问题进行分类,全面回顾了基于因果推理的推荐算法的现有工作(即针对数据偏差的因果推理推荐算法、针对数据缺失和噪声的因果推理推荐算法以及基于因果推理的其他非准确性的推荐算法)。最后,本文讨论了这个领域的开放性问题以及未来工作。https://arxiv.org/abs/2208.12397本文将主流的基于相关性建模的推荐算法分为了协同过滤算法和基于内容的推荐算法(也称为点击率预估算法)。协同过滤算法主要用来建模交互行为,比如点击、购买等操作。经典的算法包括MF、NCF、基于图的推荐算法、一些序列化推荐算法、社交推荐算法等;点击率预估算法主要用来利用丰富的属性信息、上下文信息以及用户和物品的特征信息来增强推荐系统。主流的方法包括FM、DeepFM、AFM等。然而,现实世界是由因果关系而非相关关系驱动的。在推荐系统中广泛存在两种因果关系,用户层面和交互层面。用户层面的因果关系指的是用户的决策过程被因果关系所驱动。例如,用户在购买手机后可能会购买电池充电器,在这种情况下,后者可以作为前者的原因,而且这种因果关系不能被逆转。交互层面的因果关系是指推荐策略在很大程度上影响了用户与系统的互动。例如,未观察到的用户与物品的交互并不意味着用户不喜欢该物品,这可能只是因为简单的没看到所造成的。从形式上来讲,因果关系可以定义为原因和结果,其中原因对结果有部分责任。因果推理被定义为根据实验数据或观察数据确定并进一步利用因果关系的过程。两个流行和广泛使用的因果推断框架是潜在的结果框架(Rubin因果模型),以及结构性因果模型(SCM)。Rubin因果模型的目的是计算某些对策的效果。结构性因果模型构建了一个因果图和相应的结构方程,其中有一组变量和结构方程描述了变量之间的因果关系。由于遵循相关性驱动的范式,现有的推荐系统仍然受到关键瓶颈的困扰。具体来说,三个主要的挑战限制了当前范式的有效性(即数据偏差、数据缺失与噪声以及超越精度的推荐目的难以实现),因果推理可以作为一个有希望的解决方案。首先,具有因果关系的推荐方法可以构建因果图,在这种情况下,偏差可以被视为大多数情况下的混杂因素(Confounder),这一点可以通过因果推理技术进一步解决。第二,对于数据缺失,因果关系增强的模型可以帮助构建一个反事实(Counterfactual)的世界,从而可以通过反事实推理来收集缺失的数据。第三,因果推理自然可以帮助建立可解释和可控制的模型,在此基础上可以实现模型本身和推荐结果的可解释性。此外,由于模型变得可控,其他超越精度的目标,包括多样性、公平性等也可以实现。具体来说,目前推荐中的因果推理工作可以分为以下三类,即针对数据偏差的因果推理推荐算法、针对数据缺失和噪声的因果推理推荐算法以及超越推荐精度的因果推理推荐算法。基于因果推理的数据去偏对于流行偏差(popularity
其他

联邦图机器学习最新综述

中,客户端之间存在结构信息,形成客户端图。可以利用客户端图设计更有效的联合优化方法。论文地址:https://arxiv.org/pdf/2207.11812.pdf虽然
其他

论文周报 | 推荐系统领域最新研究进展

嘿,记得给“机器学习与推荐算法”添加星标本文精选了上周(0822-0828)最新发布的17篇推荐系统相关论文。本次论文集合的方向主要包括跨域推荐算法[1]、基于自监督学习的推荐算法[2,6]、基于联邦学习的推荐算法[3,10]、基于置信度校准的推荐算法[4]、基于知识抽取的在线推荐训练框架[5]、实时端侧的短视频推荐算法[8]、推荐系统中的偏差与去偏技术[9]、基于隐式会话上下文的推荐算法[11]、动态因果协同过滤[12]、基于用户侧的公平性推荐算法[16]、对话推荐系统[14,17]等。以下整理了论文标题以及摘要,如感兴趣可移步原文精读。1.
其他

深度点击率预估模型趋势总结

Encoding的方式可以将数据转化为高维稀疏向量,标签为0(不点击)或1(点击),使用最简单的逻辑回归模型即可实现最基本的CTR建模,通过随机梯度下降进行参数的更新实现模型的学习。①
自由知乎 自由微博
其他

字节跳动推荐算法工程师招聘

嘿,记得给“机器学习与推荐算法”添加星标字节跳动Data-电商团队,我们立志于构建业内顶尖的电商算法,依托于字节跳动各大流量场景,帮助用户发现并获得好物,享受美好生活。在这个团队,
其他

论文周报 | 推荐系统领域最新研究进展

嘿,记得给“机器学习与推荐算法”添加星标本文精选了上周(0815-0821)最新发布的16篇推荐系统相关论文。本次论文集合的方向主要包括社交推荐算法[1]、序列推荐数据集[2]、推荐系统中的偏差与去偏技术[2,7,12]、推荐模型规模发展规律[3]、对话推荐的解释生成[4]、短视频推荐[5]、基于对比学习的推荐算法[5,6,8]、基于图的推荐问题[12]、推荐模型的快速遗忘[14]、分布式推荐系统嵌入表的分片问题[15]、可信推荐算法[13,16]等。以下整理了论文标题以及摘要,如感兴趣可移步原文精读。1.
其他

ICML2022丨时间序列论文汇总

2022关于时间序列相关的论文,围绕时间序列预测、分类、异常检测、表示学习以及在医疗、生物、交通、音乐、金融等方向的应用。论文标题:FEDformer:
其他

KDD2022 | 基于图表示的推荐算法教程

嘿,记得给“机器学习与推荐算法”添加星标第28届国际知识发现与数据挖掘大会SIGKDD会议将于8月14日至18日在华盛顿举行,该会议为数据挖掘领域顶级会议,CCF
其他

论文周报 | 推荐系统领域最新研究进展

嘿,记得给“机器学习与推荐算法”添加星标本文精选了上周(0808-0814)最新发布的19篇推荐系统相关论文。本次论文集合的方向主要包括基于元学习的冷启动推荐算法[1]、基于强化学习的推荐算法[2,6,15]、推荐系统中的偏差问题[4,5,13,18]、序列化推荐问题[7,8,10,12]、短视频推荐[4,5,13]、基于图的推荐问题[9]、对话推荐[11,17]、推荐系统中检索模型的可定制损失函数[19]等。以下整理了论文标题以及摘要,如感兴趣可移步原文精读。1.
其他

SIGIR2022 | 基于领域交互的点击率预估模型

视频对,为了能够扩展对用户点击偏好的描述,我们在这一异构图上采样一个和相关的一个邻域节点集合以及对应的子图,并且将点击率预测这一问题转化为对这一邻域分类问题。具体的定义如下:有一组
其他

CIKM2022 | CROLoss: 一种推荐系统中检索模型的可定制损失函数

嘿,记得给“机器学习与推荐算法”添加星标本文分享一篇发表在CIKM2022的关于一种推荐系统中检索模型的可定制损失函数,其将召回模型与Recall指标进行统一建模,并可以根据不同的检索规模进行自适应的优化。另外,其给出了所提出损失函数与其他经典损失函数(如交叉熵、成对损失以及三元组损失)的关系。链接:https://arxiv.org/abs/2208.02971在大规模推荐场景中,针对资源有限的情况下准确地检索出前N个相关的候选者是至关重要的。为了评估这类检索模型的性能,Recall@N,即在前N个排名中检索到的正样本的频率,其已被广泛使用。然而,大多数应用在传统检索模型的损失函数,如softmax交叉熵、triplet
其他

ICDE2022推荐系统论文集锦

分解方法,它学习原始特征的潜在向量,并通过分解函数对特征交互进行隐式建模。研究表明,由于不同特征交互的独特特性,仅通过其中一种方法对特征交互进行建模是次优的。为了解决这个问题,我们首先提出了一个名为
其他

论文周报 | 推荐系统领域最新研究进展

嘿,记得给“机器学习与推荐算法”添加星标本文精选了上周(0801-0807)最新发布的14篇推荐系统相关论文。本次论文集合的方向主要包括基于图扩散的专家推荐算法[1]、多视图API推荐算法[2]、多行为推荐算法[3]、自适应成对训练推荐算法[4]、文化内容推荐中的共性测度[5]、一种深度学习基因推荐引擎[6]、时尚推荐[7]、长短期偏好建模的序列推荐[8]、睡眠行为推荐[9]、新闻推荐[10,11]、几何交互增强图协同过滤[12]、基于Bert的POI推荐[13]、自监督超图推荐算法[14]等。以下整理了论文标题以及摘要,如感兴趣可移步原文精读。1.
其他

2022深度点击率预估模型优化挑战赛

推荐系统领域最新研究进展由于公众号试行乱序推送,您可能不再准时收到机器学习与推荐算法的推送。为了第一时间收到本号的干货内容,
其他

KDD2022 | 快手提出基于因果消偏的短视频推荐算法

模型给出每个时长分桶下的分位数预估值,为了让预估值在桶间可比,论文通过观看时长信号的累积概率分布得到预估值对应的观看时长原始值。模型下图四(a)展示了论文的模型,特征选择上,photo
其他

WWW2021 | 基于图卷积神经网络的多样化推荐系统

推荐系统领域最新研究进展350篇文献总结可信推荐系统前沿进展基于对抗学习的隐私保护推荐算法由于公众号试行乱序推送,您可能不再准时收到机器学习与推荐算法的推送。为了第一时间收到本号的干货内容,
其他

WSDM2022 | 基于双曲几何无标度图建模的知识感知推荐算法

实体在双曲空间中的嵌入。本文在洛伦兹流形上提出了一种知识感知的注意机制来区分图节点的信息量贡献,然后通过多层聚集来实现高阶信息传播。在三个基准数据集上的实验结果不仅验证了
其他

论文周报 | 推荐系统领域最新研究进展

嘿,记得给“机器学习与推荐算法”添加星标本文精选了上周(0725-0731)最新发布的17篇推荐系统相关论文。本次论文集合的方向主要包括基于内容的推荐算法[2,5]、序列推荐算法[3]、基于图神经网络的推荐算法[3,8,15]、捆绑推荐算法[4]、基于对比学习的推荐算法[2,6]、交互式推荐[4,6]、考虑时序偏差的推荐算法[7]、鲁棒推荐算法[9]、基于提示学习的协同过滤增强算法[11]、联邦推荐算法[12]、可信推荐算法综述[14]--350篇文献总结可信推荐系统前沿进展、序列推荐中的安全问题[16]等。以下整理了论文标题以及摘要,如感兴趣可移步原文精读。1.
其他

350篇文献总结可信推荐系统前沿进展

嘿,记得给“机器学习与推荐算法”添加星标推荐系统作为以人为本的人工智能技术的最前沿应用,被广泛部署在网络世界的每个角落,其大大提高了人类的决策效率。然而,尽管推荐系统具有巨大的作用和潜力,但也可能导致对用户、物品、生产者、平台甚至整个社会的不良影响,例如由于不透明的过程而损害用户的信任,对不同的消费者或生产者的不公平待遇,由于大量使用用户的私人敏感数据进行个性化推荐而导致的隐私泄露问题,由于缺乏对用户自身数据的控制而导致推荐重复的内容的回音室效应等等。所有这些都造成了对可信推荐系统的迫切需求,以减轻或避免这种不利影响和风险。在本文综述中,将介绍与可信和负责任的推荐系统有关的技术,包括但不限于可解释推荐算法、公平性推荐算法、隐私保护的推荐算法、鲁棒推荐算法、用户可控的推荐算法,以及从不同角度讨论了可信和负责任的推荐算法的关系。通过本文综述,希望为读者提供一个对可信推荐系统研究领域的全貌,并引起社会对可信推荐系统的重要性、现有研究成果和未来研究方向的关注。论文:https://arxiv.org/abs/2207.12515推荐系统基础本文首先对推荐算法的基础概念进行了总结,首先概述了推荐算法的输入和输出,然后介绍了推荐系统的代表性算法。推荐系统的输入基本围绕这个三元组来进行扩展。其中,用户可以是标量的ID号,也可以是具体的用户属性信息,比如性别、年龄等;物品在这里可以有更广的含义,比如购物平台中的商品、音乐平台的歌曲、社交平台上的朋友等;交互在推荐系统场景中大致分为了显式和隐式的数据。推荐系统的输出通常包括为用户量身定制的个性化推荐列表,以及伴随推荐的解释理由。具体来说,推荐系统的输出一般包含三个阶段,即预测、排序以及解释。其中,预测可以看做是召回阶段,排序就是对上一步的预测结果进行精排,最后对推荐结果给出合理的解释。本文对推荐系统的代表性方法大致分为了三大类,即浅层模型、深度模型以及大模型。其中,浅层模型侧重于传统的经典方法,比如协同过滤方法和基于内容的方法。深度模型主要分为了基于深度学习的协同过滤方法和基于深度学习的协同推理方法。其中,深度协同过滤方法又可进一步分为表示学习方法和相似性学习方法,其分别对应如何更好的学习用户和物品的特征表示以及如何学习两者之间的相似程度的问题;而基于深度学习的协同推理则将推荐视为认知推理问题,采用逻辑推理或因果推理进行用户行为预测和推荐,在这里主要是将用户的历史行为建模为序列信息进行推荐。关于本部分更加详细的内容可阅读原论文。近年来,大型语言模型等基础模型在许多人工智能子领域取得了令人惊讶的表现,其优势在于从模型规模中学习突出的预测能力,基于自我监督学习提取有用信息,基于预训练、微调和提示学习统一下游各种任务,以及推广到zero-shot或者few-shot问题中。像GPT-3,T5这样的大模型已经在语言生成等任务产生了不俗的效果。推荐系统的研究也呈现出类似的趋势,而个性化是推荐系统研究最独特、最重要的特征之一,因此推荐系统社区一直主导着个性化基础模型的研究。一个前沿的例子是P5--NLP模型一统推荐系统?谈新型推荐系统建模范式,它是一种用于推荐系统的预训练、个性化提示和预测范式,其将推荐重新定义为一种基于个性化提示的语言理解和生成任务,并将评分预测、序列推荐、解释生成等多种推荐任务统一起来。介绍完推荐系统的基本输入输出以及代表方法外,下文将对可信推荐系统的具体内涵,即可解释性、公平性、隐私性、鲁棒性以及可控性进行一一介绍。可解释性可解释推荐算法一直是业界和学术界的一个重要领域,它旨在提高推荐系统的透明度、用户满意度和可信度。具体来说,其目标是提供可理解的理由以及推荐的项目,以帮助利益相关者做出更好和可靠的决策,同时提高推荐系统的透明度和可信度。作为智能决策系统的重要类型,现代推荐系统有望提供高质量的推荐结果,以及个性化、直观的解释和更好的用户粘性,这对电商、社交媒体平台等许多实际应用都具有重要意义。此外,推荐系统对可解释性的要求在以下几个方面表现出特殊的特点,即个性化的解释生成、互动反馈以及主观反应。考虑到可解释推荐的特殊性和重要性,许多方法被提出和研究。目前对可解释推荐的研究通常考虑按照以下角度进行划分,即解释方法、解释范围、解释形式以及受益的用户等。在本文中,将根据输入数据类型对现有的可解释推荐进行分类,因为它直接决定了不同类型的方法和继承的输出解释形式。同时,对于方法的每个子集,本文还对它们进行了解释方法和解释范围的标记,以便读者更容易理解分类法的不同维度。具体对基于实体的解释方法、基于文本的解释方法、基于多媒体的解释方法、基于逻辑与神经符号规则的解释方法基于图的解释方法、基于反事实的解释方法以及多轮交互的解释方法进行了详细介绍。针对于如何评估解释的有效性,根据以往的论文可以根据服务对象分为四类:用户、系统开发者、内容提供商以及监管部门;根据评价解释的方法大致分为三类,即离线评估、用户调研和在线评估。最后,本部分讨论了可解释性与其他可信维度的关系,比如因果可解释性、可控解释性、无偏可解释性等前沿问题。公平性长期以来,推荐系统一直被认为是“仁慈”的智能系统,它可以帮助用户找到相关的物品,并为企业创造价值。然而,近年来,学术界和产业界都对推荐算法的公平性问题产生了相当大的关注。一些研究认为,推荐系统可能在以下几个方面容易受到不公平的影响,比如在电商领域来促进某些生产者的利润最大化,比如在求职领域可能过多地向某些用户群体推荐低薪工作,进而导致种族或性别歧视等不公平现象。因此,为了提高推荐系统中不同利益相关者的满意度,研究推荐中的公平性,建立可信负责的制度是很重要的。推荐中的不公平主要来源于偏差和歧视。并且对于偏差的分类主要包括数据中的偏差和算法中的偏差。数据中的偏差可能是在数据生成过程、数据收集阶段、数据存储阶段所产生的偏差。随后本文又介绍了推荐中的公平性的定义,具体包含了公平性的级别(组公平性以及个体公平性)、公平性的对象(生产者与消费者)公平性的关系(因果与关系)以及公平性的状态(动态和静态)等详细内容。关于图数据的公平性总结可参考本文--最新综述
其他

基于对抗学习的隐私保护推荐算法

嘿,记得给“机器学习与推荐算法”添加星标协同过滤算法除了捕捉用户潜在的消费模式外,还会学习用户特定的人口统计学特征或受保护信息等特征,如性别、种族和地理位置位置。这些偏见(Bias)信息会进一步影响推荐系统(RS)的决策,使得推荐算法会提供给不同用户子群的内容进一步分离,这将引起对用户受保护属性泄露的隐私问题。通过观察下图,可以发现基本的推荐算法(MultVAE)存在性别上的偏差,使得攻击者可以很容易的识别这种模式并进行敏感属性的推测。在这项工作中,本文研究了在保持推荐算法有效性的同时,将用户的特定保护信息从学习的交互表征中移除的可能性和挑战。具体来说,本文将对抗训练纳入到变分自编码器MultVAE架构中,从而形成了一个新的模型——基于对抗训练的多项式自编码器模型(Adv-MultVAE),其目的是去除受保护属性的隐性信息,同时保持推荐性能。通过在两个数据集上进行实验来评估偏见缓解方法的有效性。结果表明,Adv-MultVAE虽然在性能上略有下降(在NDCG和召回率方面),但在很大程度上缓解了模型的内在偏差。更多关于对抗学习在推荐系统中的应用可以阅读我之前总结的文章:推荐系统中的对抗机器学习技术总结。论文:https://arxiv.org/pdf/2206.04500.pdf代码:https://github.com/CPJKU/adv-multvae本文发表在SIGIR2022会议上,其基本算法框架如下图所示,包含一个具体的推荐算法和一个敏感属性预测器。其中,推荐算法在本文中为多项式似然的变分自编码器MultVAE,而敏感属性预测器则为一个对抗网络,旨在从潜在向量中预测用户的受保护属性。本文的训练过程旨在从中间特征中删除受保护属性的信息,同时并保持推荐性能。为此,模型的损失函数被定义为以下最小-最大博弈问题:其中,对抗网络的损失函数被定义为交叉熵损失,因为其本质是一个分类任务,即预测敏感属性的类别;推荐任务的损失函数则被定义为下式:其中,为输入的重构损失,比如平方损失,为正则项用来保证编码器的分布与先验尽可能的接近。对于本文的损失函数直观的理解是在保证推荐性能的基础上,尽可能的减少中间变量z中所携带的敏感信息。考虑到众所周知的优化min-max损失函数的复杂性,受前人工作的启发,本文在对抗网络和中间变量之间添加了一个梯度反转层。在训练过程中,在前向传播中充当恒等函数,而在反向传播中,它将计算出的梯度缩放为。在推理时对模型没有任何影响。本文把参数𝜆称为梯度反转缩放。通过在模型中采用,模型的整体损失就可以被重新表述为标准的风险最小化的基本设置,因此可以达到快速收敛的目的。该公式就能够通过标准的基于梯度的优化算法来优化模型。关于梯度反转层GRL的Pytorch代码如下,在前向传播过程中保持原值不变,在反向传播的过程中乘上了梯度缩放系数。from
其他

KDD2022推荐系统论文集锦(附pdf下载)

嘿,记得给“机器学习与推荐算法”添加星标第28届SIGKDD会议将于8月14日至18日在华盛顿举行。据统计,今年共有1695篇有效投稿,其中254篇论文被接收,接收率为14.98%,相比KDD2021的接收率15.44%有所下降。其中,涉及到的推荐系统相关的论文共24篇(本次只整理了Research
其他

最新综述 | 图数据挖掘中的算法公平性

嘿,记得给“机器学习与推荐算法”添加星标作者:董钰舜单位:弗吉尼亚大学图数据挖掘算法已经在很多领域得到应用,但大多数图数据挖掘算法都没有考虑到算法的公平性。在本篇综述中,我们首先系统梳理了图数据挖掘领域内常见的算法公平性的定义和对应的量化指标。在此基础上,我们总结出了一个图数据挖掘算法公平性的分类法,并对现有提升公平性的方法进行了讨论。最后,我们整理了可以用于图数据挖掘中算法公平性研究的数据集,也指出了现有的挑战和未来的工作方向。论文链接:https://arxiv.org/abs/2204.09888图数据在现实世界的应用中扮演了重要角色。然而,现今的图数据挖掘算法在结果的公平性上可能存在诸多隐患。比如,现有研究已经证明,真实世界的图数据可能包括不同的偏见,而图神经网络(Graph
其他

SIGIR2022 | 基于行为融合的冷启动推荐算法

嘿,记得给“机器学习与推荐算法”添加星标今天给大家简要分享的是发表在SIGIR2022会议上的一篇关于冷启动推荐算法的短文,其核心思想是通过设计基于上下文的自适应嵌入算法来抵消特征分布的差异,以此将冷启动用户的特征嵌入转化为与现有“热”用户相似的特征状态,进而表示相应的用户偏好。对数据有限的冷启动用户进行有效推荐是一个固有挑战。现有的深度推荐算法利用用户的内容特征和行为数据来产生个性化的推荐列表,但由于存在以下挑战,使得在冷启动用户身上往往面临着显著的性能下降:(1)冷启动用户可能与现有用户存在非常不同的特征分布。(2)
其他

SIGIR2022 | 基于森林的深度推荐算法

嘿,记得给“机器学习与推荐算法”添加星标随着深度学习技术的发展,深度推荐模型在推荐准确性方面也取得了显著的改善。然而,由于在真实场景中候选物品数量众多,并且用户偏好计算成本高,这些原因导致了推荐效率低的结果。最近提出的基于树的深度推荐模型通过在推荐目标的指导下直接学习树的结构和表示来缓解这一问题。然而,这种模型有两个缺点:首先,层次树中的最大堆假设在其二元分类目标中难以满足,即对父节点的偏好应该是其子节点偏好之间的最大值;其次,学到的索引只包括一棵树,这与广泛使用的多树索引不同,因为多树索引可以提高推荐的准确性。为此,本文提出了一种基于深度森林的推荐模型(简称DeFoRec),以实现高效的推荐效果。在DeFoRec中,所有在训练过程中产生的树都被保留下来以形成森林。在学习每棵树的节点表示时,本文必须尽可能地满足最大堆假设,并在训练阶段模仿树上的定向搜索行为。具体的,它将训练任务视为对同一层次的树节点进行多分类任务。然而,树节点的数量随着级别的增加而呈指数级增长,这使得本文不得不在采样-最大限度技术的指导下训练偏好模型。最后,本文在真实世界的数据集上进行了实验,验证了所提出的基于森林的深度推荐算法和树状学习方法的有效性。感兴趣的读者可阅读原论文进行深入阅读。论文地址:https://dl.acm.org/doi/abs/10.1145/3477495.3531980欢迎干货投稿
其他

论文周报 | 推荐系统领域最新研究进展

嘿,记得给“机器学习与推荐算法”添加星标本文精选了上周(0711-0717)最新发布的14篇推荐系统相关论文。本次论文集合的方向主要包括可解释推荐算法[1,14]、基于多兴趣建模的推荐算法[2]、预测下次购买行为的序列推荐算法[3]、基于协作感知图卷积网络的推荐算法[4]、多模态推荐算法[5]、基于图划分的高效推荐算法[6]、面向医生推荐的联邦图注意力推荐算法[7]、多行为超图增强的序列推荐算法[9]、基于可信执行环境的推荐系统[10]、交互式推荐算法[11]、推荐系统的全面评估[13]等。以下整理了论文标题以及摘要,如感兴趣可移步原文精读。1.
其他

TransRec: 基于混合模态反馈的可迁移推荐系统

encoder,论文将一种物品的模态对应一种模态编码器,具体利用经过预训练的ResNet和BERT分别编码视觉物品和文本物品。针对视觉信息,作者采用视频的首页图作为内容,文本则使用新闻的标题。三.
其他

论文周报 | 推荐系统领域最新研究进展

嘿,记得给“机器学习与推荐算法”添加星标本文精选了上周(0704-0710)最新发布的9篇推荐系统相关论文。本次论文集合的方向主要包括对BPR经典方法的改进[1]、基于元控制器的端云协同推荐系统[2]、序列推荐模型的高效训练机制[3]、基于任意分布可靠保证的推荐算法[4]、基于多粒度对比学习的物品推荐算法[5]、多模态可解释推荐算法[6]、可解释与交互式结合的推荐算法[7]、打破反馈循环的因果推理推荐系统[8]、可定制的对话推荐系统[9]等。以下整理了论文标题以及摘要,如感兴趣可移步原文精读。1.
其他

RecSys2022推荐系统论文集锦

India)最后,按照惯例为大家收集整理了该年会的论文列表,等论文正式发布后大家可以对自己感兴趣或者自己研究方向的论文进行更深入的阅读。[1]
其他

图嵌入模型综述: 方法、数据集与应用

转自:Coggle数据科学图分析用于深入挖掘图数据的内在特征,然而图作为非欧几里德数据,传统的数据分析方法普遍存在较高的计算量和空间开销。图嵌入是一种解决图分析问题的有效方法,其将原始图数据转换到低维空间并保留关键信息,从而提升节点分类、链接预测、节点聚类等下游任务的性能。图是复杂系统中常用的信息载体,可以表示现实中许多复杂关系,如社交网络、犯罪网络、交通网络等。图结构作为一种非欧几里德数据,很难直接应用卷积神经网络和循环
其他

推荐系统相关资源介绍(书籍、代码、综述、教程等内容)

嘿,记得给“机器学习与推荐算法”添加星标本文整理了推荐系统相关的经典书籍、相关会议、Github仓库、顶会教程、综述论文、视频介绍以及论文笔记等内容。大家如果有觉得不错的资源也可以一起来完善他们~书籍Recommender
其他

论文周报 | 推荐系统领域最新研究进展

嘿,记得给“机器学习与推荐算法”添加星标本文精选了上周(0627-0703)最新发布的21篇推荐系统相关论文。方向主要包括序列推荐[2,9,10]、对话推荐[3]、基于隐私保护的推荐算法[5]、去偏推荐[18]、社会化推荐[8,19]、强化学习推荐[2]、跨域推荐系统[7]、召回和排序合作推荐[13]、公平性推荐[16]、推荐系统中的指标探究[17]、推荐系统的成员推理攻击[18]。应用涉及VR商店推荐[1]、新闻推荐[2]、内容管理系统推荐[4]、习题推荐[11]等。以下整理了论文标题以及摘要,如感兴趣可移步原文精读。1.
其他

深度剖析 | 推荐系统中的信息茧房问题——因果强化学习在交互式推荐的前沿探索

嘿,记得给“机器学习与推荐算法”添加星标作者:高崇铭单位:中国科学技术大学博士生,快手实习第一次写博客,这篇博客的目的是想分享和探讨一些在交互式推荐或者序列推荐问题中的一些关键痛点,其中最大的一个就是信息茧房问题。“信息茧房”在英文文献中,可对应Filter
其他

快手推荐算法工程师工作感悟

嘿,记得给“机器学习与推荐算法”添加星标作者:艾雷出处:https://zhuanlan.zhihu.com/p/532197011作为推荐算法工程师,在快手的这两年,收获了很多,仅以本文记录我的一些浅薄的感悟,希望下一个两年结束时,我会觉得这里的很多观点都是不全面的,这说明我有了更多更接近本质的见解。职业技能1.
其他

论文周报 | 推荐系统领域最新研究进展

嘿,记得给“机器学习与推荐算法”添加星标本文精选了上周(0620-0626)最新发布的13篇推荐系统相关论文,方向主要包括序列推荐[6,7]、强化学习推荐[6]、基于隐私保护的推荐算法[2,8]、推荐系统基准库[4]、对话推荐系统[13]、跨域推荐系统[5,6]、推荐系统的托攻击[10]。以下整理了论文标题以及摘要,如感兴趣可移步原文精读。1.
其他

个性化广告合规发展研究报告

整理:开放隐私计算2022年6月20日,《财经》商业治理研究院与中国社科院大学互联网法治研究中心联合发布了《个性化广告合规发展研究报告--从个人信息保护角度出发》(以下称《报告》)。《报告》介绍了当前互联网广告行业的发展现状及趋势,个性化广告发展历史及原理,面临的困境与解决思路,以及当前隐私计算技术的发展方向。关注公众号并回复
其他

快手+中科大 | 全曝光推荐数据集KuaiRec 2.0版本

嘿,记得给“机器学习与推荐算法”添加星标作者:高崇铭单位:中国科学技术大学博士生,快手实习在沉淀了一段时间后,我们推出了数据集KuaiRec的2.0版本。这是由我们中科大何向南团队与快手社区科学部门联合推出的,用于推荐系统的一个全曝光数据集。这也是推荐系统学界以及业界首个包含百万量级交互的超密集曝光数据。数据集的详细信息可见官网文档:https://chongminggao.github.io/KuaiRec/关于这个数据的的1.0版本的简介,可参考本文KuaiRec
其他

精排模型-从MLP到行为序列:DIN、DIEN、MIMN、SIM、DSIN

[16][17]。这一系列的变动,从无用户行为输入,到提取多峰兴趣,再到短期行为特征,最后长短期兴趣提取。基本上,模型也能满足业界对兴趣建模的大部分需求。但实际应用中,SIM
其他

论文周报 | 推荐系统领域最新研究进展

嘿,记得给“机器学习与推荐算法”添加星标本文精选了上周(0613-0619)最新发布的15篇推荐系统相关论文,方向主要包括序列推荐[1]、强化学习推荐[1,2]、推荐算法基准库[3]、基于迁移学习的推荐[4]、公平性推荐[5,10,13]、可解释性推荐[7,9]、多样性推荐[8]、基于Transformer的推荐[11]、通用表示[12]、冷启动推荐[14]、多模态推荐[15]。以下整理了论文标题以及摘要,如感兴趣可移步原文精读。1.
其他

GNN最新综述 | 可信图神经网络的维度、方法以及趋势

图数据的不规则性、模型中稀疏与稠密计算的相互交替、模型与应用的多样性等特点使得图神经网络系统需要使用专门设计的框架与加速器来提升其效率。为了解决这一问题,当前的方法主要有软件框架(SW
其他

2022推荐系统序列建模的趋势总结

Prediction论文链接:https://arxiv.org/pdf/2202.02698.pdf序列再长也只是这一个用户的序列,这篇论文直接从别的用户的行为中寻找
其他

SIGIR2022 | 用于序列推荐的多粒度多兴趣神经模型

推理阶段MGNM的最大池化与总和池化总结本研究主要利用图模型建模用户多层级(multi-level)历史行为表征、利用时序增强的胶囊网络提取用户多兴趣(multi-interest)兴趣向量。提出的