信息检索、路径规划、电子商务,KDD 的战场有哪些?
By 超神经
内容提要:数据挖掘领域顶级国际会议 KDD 2020 即将在下周拉开序幕。今年提交的 2035 篇论文中,共 338 篇被接受。其中,国内科技大厂 BAT、滴滴、华为等表现亮眼。
关键词:KDD 2020 上榜论文
一年一度的国际数据挖掘与知识发现大会 ACM SIGKDD 2020(Conference on Knowledge Discovery and Data Mining,简称 KDD),于 8 月 23 日至 27 日在线上举办。
原定于美国圣地亚哥举办,但因疫情改为线上
随着数据库技术的发展、数据的不断积累,数据挖掘领域也得到越来越多的关注。
KDD 近年来的投稿量,也以肉眼可见的速度在增长,从 2016 年的 1115 篇,增长到今年的 2035 篇。在这些论文中,华人的贡献也越来越大,成绩十分亮眼。
KDD 第 26 载,华人科研实力逐年上升
KDD 始于 1995 年,每年一届,由 ACM 的数据挖掘及知识发现专委会(SIGKDD)主办,被 CCF(中国计算机协会)推荐为 A 类国际会议,有着数据挖掘领域「世界杯」之称。
作为世界数据挖掘领域最高级别的国际会议,KDD 的论文接收率出了名的严格,每年的接受率不超过 20%,今年也不例外。
5 月 25 日,KDD 2020 官方发布了接收论文,今年一共有 1279 篇论文提交至 research track(面向研究界的学术论文),共 216 篇被接受,因此接受率为 16.8%。
提交至 Applied Data Science track(应用数据科学方向,即面向工业界的实践赛道)的论文有 756 篇,接受 121 篇,接受率为 16%。
今年已是 KDD 的第 26 届,根据论文发表数、获奖情况等方面的统计数据,华人近年来在 KDD 的参与度逐年上升,表现越来越强劲,入选论文越来越多,而且摘走不少奖项。
过去几年,KDD 领域最有影响力的 21 位代表人物
其中,华人共有 13 位(数据统计于 2017 年)
国内科技大厂近年来在 KDD 上的成就也越来越亮眼。
据统计,2018 年 BAT 三家大厂一共发表了 12 篇文章,而今年,仅阿里巴巴一家就发表了 25 篇论文,腾讯共发表 10 篇,百度发表 9 篇,此外还有滴滴、华为、京东各发表 6 篇。
投稿排名前十的机构排名
阿里、腾讯、百度分别为第一、第七和第八名
KDD 2020:大厂的战场在哪里?
我们将国内大厂被接受的论文,按应用场景分类整理,供大家学习与参考。其中部分论文已经发表至 arXiv,可以先睹为快了。
信息检索 《淘宝推荐的特权特征提炼》
单位:阿里巴巴
摘要:特征在电子商务预测任务中起着重要作用。为了保证离线训练和在线发球的一致性,我们通常利用两者相同的特征。然而,这种一致性又忽略了一些区别性特征。例如,在估算转化率(CVR)(即用户点击该商品后购买该商品的可能性)时,诸如商品详细页面上的停留时间等特性提供了信息。然而,CVR 预测应在点击发生之前进行在线排名。我们将区别性的但只能在训练中使用的特征定义为特权特征。基于连接训练和推理之间差距的精馏技术,本文提出了特征精馏(PFD)算法。我们对淘宝推荐的两个基本预测任务进行了实验,即粗粒度排名的点进率和细粒度排名的 CVR。通过提取 CTR 服务期间被禁止的互动特性和 CVR 的事后特性,我们在它们强大的基线上取得了显著的改进。在联机 A/B 测试期间,点击度量在点击率任务中提高了 + 5.0% 。在 CVR 任务中,转换度量提高了2.3% 。此外,通过解决 PFD 训练的几个问题,我们获得了可比的训练速度作为基线,没有任何蒸馏。
论文地址:
https://arxiv.org/abs/1907.05171
信息检索 《可控多兴趣推荐框架》
单位:阿里巴巴
摘要:近年来,随着深度学习技术的飞速发展,神经网络在电子商务推荐系统中得到了广泛的应用。我们将推荐系统推荐问题形式化为一个顺序推荐问题,旨在预测用户可能与之交互的下一个项目。最近的工作通常从用户的行为序列给出一个整体嵌入。然而,一个统一的用户嵌入不能反映用户在一段时间内的多重兴趣。在本文中,我们提出了一种新的可控多兴趣框架,称为 ComiRec 的顺序推荐。我们的多兴趣模块从用户行为序列中获取多种兴趣,可以用于从大规模的项目池中检索候选项。然后将这些项目输入一个聚合模块,以获得总体推荐信息。聚合模块利用可控因子来平衡推荐的准确性和多样性。我们对亚马逊和淘宝这两个真实世界的数据集进行了序贯推荐实验。实验结果表明,我们的框架比最先进的模型获得了显著的改进。我们的框架也已经成功部署在阿里巴巴的离线分布式云平台上。
论文地址:
https://arxiv.org/abs/2005.09347
信息检索 《一种基于贝叶斯图
卷积神经网络的精确多样推荐框架》
单位:华为
摘要:在推荐系统中,准确学习用户和物品的表达是非常重要的课题。随着图卷积网络的广泛研究和应用,将图卷积网络应用于推荐系统越来越受到关注。现有基于图的推荐模型都将观测到的用户-物品交互图当做用户和物品之间的 ground-truth。但是,在推荐系统场景中,这种设置并不总是合理。例如,这种设置会将交互图中没有连边的交互当做负例,而这种未被观测到的交互可能是未来的潜在交互;另一方面,有一些观测到的连边也可能是不真实的或者是噪声带来的。为了解决这个问题,我们在这个工作里用贝叶斯图卷积网络 BGCN 去建模用户-物品交互图中的不确定性。
我们为训练过程提出了一个详细的 BPR 损失函数,也详细讨论了如何在我们的模型下做预测。我们在四个公开数据上进行验证,我们的 BGCN 模型在各个评价指标上均好于现有基于图的推荐模型。我们在产品数据集上也进行了验证,发现 BGCN 模型精度同样有所提升。此外我们还发现,我们的 BGCN 模型的推荐结果同时兼顾了准确性和多样性,而在「冷启动」用户的推荐效果会更加显著。
链接地址:
https://zhuanlan.zhihu.com/p/142812078
路径规划 《Polestar:一个智能、
高效、全国性的公共交通路径引擎》
单位:百度
摘要:公共交通在人们的日常生活中扮演着重要的角色。事实证明,公共交通比其他任何形式的交通都更环保,更有效率,更经济。然而,由于交通网络日益扩大和出行情况更加复杂,人们很难通过公共交通系统有效地找到从一个地方到另一个地方的最佳路线。为此,在本文中,我们提出了北极星,一个智能和有效的公共交通路线的数据驱动引擎。具体来说,我们首先提出了一种新的公共交通图(PTG)模型的公共交通系统的各种出行费用,如时间或距离。然后,我们引入了一种通用的路由搜索算法和一种有效的站点绑定方法来有效生成候选路由。在此基础上,我们提出了一个双路径候选路径排序模型来捕获动态旅行情境下的用户偏好。最后,在两个实际数据集上的实验证明了北极星在效率和有效性方面的优势。事实上,在2019年初,北极星已经部署在百度地图上,百度地图是世界上最大的地图服务之一。到目前为止,北极星已经为超过330个城市提供服务,每天回答超过1亿个查询,并且实现了用户点击率的显著提高。
论文地址:
https://arxiv.org/abs/2007.07195
路径规划 《混合时空图卷积网络:
利用导航数据改进流量预测》
单位:阿里巴巴
摘要:由于在线导航服务,拼车和智慧城市项目的普及,交通预测最近引起了越来越多的兴趣。由于道路交通的非平稳性,缺乏上下文信息会从根本上限制预测的准确性。为了解决此问题,我们提出了混合时空图卷积网络(H-STGCN),该网络能够通过利用即将到来的交通量数据来“推断”未来的旅行时间。具体来说,我们提出了一种从在线导航引擎获取即将到来的流量的算法。利用分段线性流量-密度关系,一种新颖的变压器结构将即将到来的体积转换为等效的行进时间。我们将此信号与常用的旅行时间信号相结合,然后应用图卷积来捕获空间依赖性。特别是,我们构造了一个复合邻接矩阵,该矩阵反映了先天交通的接近程度。我们对现实世界的数据集进行了广泛的实验。结果表明,H-STGCN在各种指标上均明显优于最新方法,特别是在预测非重复性拥塞方面。
论文地址:
https://arxiv.org/abs/2006.12715
路径规划 《共享单车经济下:
大规模团队竞赛的个体处理效果预测》
单位:滴滴
摘要:为了最大限度地提高顺序推荐中的累积用户参与度(例如,累积点击次数),通常需要权衡两个潜在冲突的目标,即追求更高的即时用户参与度(例如,点击率)并鼓励用户浏览(即,更多项目)。现有的作品经常单独研究这两个任务,因此往往导致次优的结果。在本文中,我们从在线优化角度研究了此问题,并提出了一个灵活实用的框架来明确权衡较长的用户浏览时间和较高的即时用户参与度。具体来说,通过将项目视为行动,将用户的请求视为状态,将用户的离开视为吸收状态,我们将每个用户的行为公式化为个性化的马尔可夫决策过程(MDP),从而将最大化累积用户参与度的问题简化为随机的最短路径(SSP)问题。同时,通过立即的用户参与和退出概率估计,表明可以通过动态编程有效地解决 SSP 问题。在现实世界数据集上的实验证明了该方法的有效性。此外,此方法已部署在大型电子商务平台上,累计点击次数提高了 7% 以上。
论文地址:
https://aiwei.me/files/kdd2020-ye.pdf
消费服务 《连续推荐中最大化
累积用户参与度:在线优化视角》
单位:阿里巴巴
摘要:为了最大化顺序推荐中的累积用户参与度(比如累积点击次数),通常需要权衡两个潜在冲突的目标,即追求更高的即时用户参与度(比如点击率)和鼓励用户浏览(即更多的项目暴露)。现有研究经常将这两项任务分开研究,因此往往会导致次优结果。
在本文中,我们从在线优化角度研究了此问题,并提出了一种灵活实用的框架,来明确权衡较长的用户浏览时间和较高的即时用户参与度。具体来说,通过将项目视为动作,将用户的请求视为状态,将用户的离开视为吸收状态,我们将每个用户的行为公式化为个性化的马尔可夫决策过程(MDP),并且将用户累计参与最大化问题简化为一个随机最短路径(SSP)问题。同时,通过估计即时用户参与和退出概率,证明了动态规划可以有效地解决SSP问题。我们在真实数据集上的实验证明了该方法的有效性。此外,此方法已部署在大型电子商务平台上,累计点击次数提高了 7% 以上。
论文地址:
https://arxiv.org/pdf/2006.04520.pdf
消费服务 《打造面向客户服务的
智能聊天机器人:学会适时响应》
单位:滴滴
摘要:
近年来,智能聊天机器人已广泛应用于客户服务领域。聊天机器人与客户保持流畅对话的主要挑战之一,是如何在适当的时间做出回应。然而,大多数先进的聊天机器人都遵循逐个交互的方案。此类聊天机器人在每次客户发出语音之后都会做出响应,这在某些情况下会导致不适当的响应并误导对话过程。
在本文中,我们提出了一种多轮响应触发模型(MRTM)来解决此问题。MRTM 通过自我监督的学习方案,从客户与代理之间的大规模人机对话中学习。它利用语境与应答之间的语义匹配关系,训练语义匹配模型,通过非对称的自我注意机制获得语境中共现话语的权重。然后使用权重确定是否应响应给定的上下文。
我们对从现实世界的在线客户服务系统收集了两个对话数据集,并在此基础上进行了大量实验。结果表明,MRTM 大大优于基线。此外,我们将 MRTM 整合到滴滴的客户服务聊天机器人中。基于识别适当响应时间的能力,聊天机器人可以跨多轮对话增量地聚合信息,并在适当时间做出更智能的响应。
论文地址:
https://dl.acm.org/doi/10.1145/3394486.3403390
电子商务 《双异构图注意力网络,
提高电子商务中商店搜索的长尾性能》
单位:阿里巴巴
摘要:
《双异构图注意力网络,提高电子商务中商店搜索的长尾性能》
随着淘宝用户和店铺的巨大增长,店铺搜索面临几个特有的挑战:
1)许多商店名称不能完全表达他们所销售的商品,即用户查询和商店名称之间的语义鸿沟;
2)由于缺少用户交互,因此很难为长尾查询提供良好的搜索结果,并且很难检索与查询高度相关的长尾商店。为了解决这两个关键挑战,我们求助于图神经网络(GNN)。具体来说,我们使用商店搜索和产品搜索中的用户交互数据,提出了与两塔体系结构集成的双重异构图注意力网络(DHGAT)。首先,我们通过从用户搜索行为,用户点击行为和用户购买记录中,利用一阶和二阶接近度,在商店搜索的上下文中构建异构图。然后,将 DHGAT 设计为专注于采用查询和商店的异构邻居和同类邻居来增强自身的表示形式,从而有助于缓解长尾现象。此外,DHGAT 通过组合相关项目的标题来减轻语义鸿沟,从而丰富了查询文本和商店名称的语义。
论文地址:
https://dl.acm.org/doi/10.1145/3394486.3403393
电子商务 一种请求级保证交付的广告规划:
预测与分配
单位:腾讯
摘要:现有的广告在线投放研究,通常将服务建模为一个群体级或用户级别的供应分配问题,并假设搜索结果可用且合同已签订,因此将重点放在搜索最佳分配以进行在线服务。而这些技术不足以满足当今行业趋势的需求:
1)广告商追求更精确的定位,这不仅需要用户级属性,还需要请求级属性;
2)用户喜欢更友好的广告服务,这会带来更多的投放限制;
3)发行商收入增长的瓶颈不仅在于广告服务,还在于预测准确性和销售策略。
由于请求级模型的规模比群体级或用户级模型的规模大几个数量级,因此解决这些问题并非易事。
面对挑战,我们提出了一个整体设计的请求级,保证交付广告计划系统,并对包括印象预测、销售和服务在内的三个关键要素进行了精心优化。我们的系统已部署在腾讯在线保证交付广告系统中,为数十亿用户提供了将近一年的服务。对大规模真实数据的评估和已部署系统的性能均表明,我们的设计可以显著提高请求级展示预测的准确性和投放速度。
论文地址:暂未公开
医疗预测 《INPREM:一个可解释
且可信的医疗保健预测模型》
单位:腾讯
摘要:
基于历史电子健康记录建立个性化医疗的预测模型已成为一个活跃的研究领域。得益于强大的特征提取能力,深度学习方法在许多临床预测任务中取得了很好的效果。然而,由于缺乏可解释性和可信性,使其难以应用于实际的临床决策案例中。
为了解决这一问题,在本文中,我们提出了一个可解释且可信的医疗保健预测模型(interpretable and trustworthy predictive model,INPREM)。首先,INPREM 被设计为可解释性的线性模型,以实现可解释性。同时将非线性关系编码到学习权值中,用于对每次访问之间和访问内部的依赖关系进行建模。这使我们可以得到输入变量的贡献矩阵,作为预测结果的证据,并帮助医生理解模型为什么会给出这样的预测,从而使模型更具有可解释性。其次,为了可靠性,我们在模型的每个权重上放置一个随机门(遵循伯努利分布来开启或关闭),以及一个附加分支来估计数据噪声。该模型利用蒙托卡罗采样和考虑数据噪声的目标函数,可以捕获每次预测的不确定性。反过来,捕捉到的不确定性进而让医生知道模型的置信度,从而使模型更可信。我们的经验证明,提出的 INPREM 比现有的方法有显著的优势。
论文地址:
https://dl.acm.org/doi/abs/10.1145/3394486.3403087
KDD 2020 线上大会持续报名中
KDD 2020 进行中 ,大会报名注册通道已开放:
https://www.kdd.org/kdd2020/#!
目前完整议程已公布,感兴趣的同学可以通过 Zoom 远程参会,学生票 50 美金。最受关注的环节之一,开幕式与颁奖典礼,将于当地时间 8 月 25 日 8:00-10:00 进行,敬请关注。
完整日程安排详见:
https://www.kdd.org/kdd2020/schedule
资料来源:
https://www.kdd.org/kdd2020/accepted-papers#ads-papers
https://www.aminer.cn/conf/kdd2020/papers
—— 完 ——
扫描二维码,加入讨论群
获得更多优质数据集
了解人工智能落地应用
关注顶会&论文
回复「读者」了解详情
更多精彩内容(点击图片阅读)