查看原文
其他

KDD 2020顶会来了!滴滴入选六篇硬核论文

张露露 滴滴科技合作 2022-07-13




KDD 2020会议将于8月23日-27日线上形式举行。作为数据挖掘的国际顶级学术会议,今年KDD应用数据科学方向(Applied Data Science Track)有756篇论文投递,收录121篇,接收率约为16.0%,其中Oral论文44篇、Poster论文77篇;KDD研究方向(Research Track)有1279篇论文投稿,收录216篇,接收率约为16.9%。自1995年以来,该会议已经举办了20多年,其对论文接收非常严格,每年的接收率不超过20%

 

连续第五年参加KDD大会,滴滴将继续就交通领域科学问题与学界、业界伙伴进行交流。本次会议滴滴有六篇论文被收录,这是继年初获得有数据挖掘领域“世界杯”之称的KDD Cup举办权之后,在KDD学术成果上的又一次突破。这表明了,滴滴正在紧密地把科学问题与应用场景结合起来,让技术从研究到落地更好地推进交通领域的发展。

 

本文将简要介绍滴滴入选KDD 2020的六篇论文(其中有两篇Oral论文),涵盖图神经网络在到达时间预估和客户响应预测任务上的应用、机器学习算法在团队竞赛设计中的探索、语义匹配+注意力机制对智能客服的改进、以及面向在线推荐的一种新颖异构图信息融合框架等方向。



01

异质时空图卷积网络在预估到达时长上的应用

HetETA: Heterogeneous Information Network Embedding for Estimating Time of Arrival (Oral)


Authors: 

Huiting Hong, Yucheng Lin, Xiaoqing Yang, Zang Li, Kun Fu, Zheng Wang, Xiaohu Qie, Jieping Ye


预估到达时长(ETA)是智慧交通系统中的一项关键任务。当前大多数工作致力于建立丰富的特征系统来提高ETA任务的准确性,然而这些特征系统很少考虑到空间信息的构建与挖掘。为了更好的利用时空数据信息,本文针对ETA任务构建了一个异质时空图,并提出了HetETA框架来挖掘该时空图中的丰富语义信息。具体地,本文结合地图数据中道路的转向关系和车辆轨迹信息构建了空间上的异质图,同时,HetETA采用三通道分别对联合了短期路况、前几日路况和前几周路况的时序信息而组成的异质时空图进行表示学习。此外,本文还提出了一种基于图卷积网络的Het-Chebnet模型用于处理异质图中存在的多关系信息。实验表明,本文所提出的HetETA框架有效提升了ETA任务的准确性,打开了异质信息网络表示学习在ETA任务上的应用大门。



02 

共享经济中大规模组队竞赛的个体实验效果预测

Predicting Individual Treatment Effects of Large-scale Team Competitions in a Ride-sharing Economy (Oral)


Authors: 

Teng Ye, Wei Ai, Lingyu Zhang, Ning Luo, Lulu Zhang, Jieping Ye, Qiaozhu Mei 


在全球数以百万计的司机享受由共享经济带来的经济利益和高度灵活的工作时间的同时,这些司机群体也反映该工作缺乏认同感和职业成就感。基于社会认同理论和竞赛理论,有物质激励的团队竞赛可以有效提高司机绩效、工作满意度和留存,并提高共享平台的投资回报率。虽然这些比赛总体有效,但是比赛效果的决定性影响因素和比赛如何影响单一司机个体还有待探究。本文对超过500个在滴滴开展的大型团队竞赛进行了科学系统地分析,并建立机器学习模型以预测个体效果,样本外预测误差减少超过24%。通过最佳模型的特征分析,本文提出了关于优化比赛设计和执行的许多新颖且可行的见解。模拟分析表明,只需更改不超过三个比赛设计的选项,一个真实比赛的效果就可以提升高达26%。本文的研究过程和结果揭示了如何分析和优化大型在线田野实验,具有一定的一般性。



03 双子图:一种新奇且通用的面向在线推荐的异构图信息融合框架Gemini: A Novel and Universal Heterogeneous Graph Information Fusing Framework for Online Recommendations (Poster)


Authors: 

Jixing Xu, Zhenlong Zhu, Jianxin Zhao, Xuanye Liu, Minghui Shan, Jiecheng Guo 


近年来,网络表示学习已成功地应用于推荐系统当中。研究人员尝试利用附加的辅助信息(例如用户的社会关系)来提高推荐系统性能。但是不同的推荐场景具有不同的辅助信息,因此基于辅助信息的算法在一些需要通用性的工业场景中很难应用。此外,user与item之间的异构性加剧了网络信息融合的难度。一些研究试图将user-item异构网络转化为两个同构图(即user-user和item-item),然后分别融合信息。这可能会因为忽略了原始图中的相邻关系,从而限制节点向量的表示能力。此外,user-item交互的稀疏性也是亟待解决的问题。


为了解决上述问题,我们提出了一个通用有效的框架Gemini,它只依赖于通用的user-item交互日志,避免了对辅助信息的依赖,保证了更好的通用性。为了保持原来的相邻关系,Gemini分别从user和item的角度将原来的user-item异构图变换为两个半异构图。转换后的图由两类节点组成:同构的网络节点和异构的属性节点。然后以学习同构图的方式学习节点表示,并同时引入边的信息。由于变换后的图包含原始的二阶邻域信息,所以在一定程度上解决了原始user-item网络稀疏性问题。为了有效地训练,我们还提出了一种迭代训练算法来降低计算复杂度。在5个数据集上的实验结果和在线A/B测试结果显示,Gemini优于最先进的算法。



04 

为客服构建更加智能的对话机器人:学习何时才是恰当的回复时机

Towards Building an Intelligent Chatbot for Customer Service: Learning to Respond at the Appropriate Time (Poster)


Authors: 

Che Liu, Junfeng Jiang, Chao Xiong, Yi Yang, Jieping Ye 


近年来,智能对话机器人被广泛应用到客服领域中。业界绝大多数对话机器人都采用了每个问题都一一进行回复的策略,这样做会导致部分回复不合适或者有时会使得对话朝错误的方向进行。因此,如果智能对话机器人能够选择合适的时机进行回复,会让对话更加流畅的进行下去。本文中,我们提出了多轮应答时机选择模型 (MRTM) 来解决这个问题。我们利用自监督的方式训练MRTM。它通过一个非对称的自注意力机制,利用了语义匹配中上下文与回复的关系,获取共现句子之间的权重。进而决定给定的上下文是否需要被回复。我们在真实的大规模语料库上做了大量实验,结果表明我们的模型可以大幅度显著超越基线模型。此外,我们将MRTM集成到滴滴客服对话机器人上。由于有了识别回复时机的能力,对话机器人可以收集对话信息,然后在恰当的时机作出更智能的回复。



05 

CompactETA:一种快速推理的行程时间预估系统

CompactETA: A Fast Inference System for Travel Time Prediction (Poster)


Authors: Kun Fu, Fanlin Meng, Jieping Ye, Zheng Wang 


对于大规模的线上出行平台,比如滴滴和优步,计算ETA(Estimated Time Arrival)是一项重要的基础服务。考虑到滴滴日均上百亿次的ETA调用,能够快速推理的ETA模型不仅保证了分单系统的效率,而且能够为平台剩下一大笔服务器成本。在本论文中,我们提出名为CompactETA的新算法,它可以在100us以内完成一次在线的ETA预测。我们利用了图注意力网络(Graph Attention Network)将高阶的时空依赖关系编码到特征表示中。我们进一步使用了位置编码技术(Positional Encoding)来保留行驶路径的序列信息,这一设计避免了类似RNN的循环结构。在实时推理时,只需一个非常简单的多层感知机就可以实现ETA计算。在线上真实流量的A/B实验中,CompactETA相比SOTA模型展现了100倍以上的推理加速,同时二者的预测准确性也非常接近。



06 

实时事件嵌入学习的动态异质图神经网络

Dynamic Heterogeneous Graph Neural Network for Real-time Event Prediction (Poster)


Authors: 

Wenjuan Luo, Han Zhang, Xiaodi Yang, Lin Bo, Xiaoqing Yang, Zang Li, Xiaohu Qie, Jieping Ye 


客户响应预测在许多工业应用中至关重要,特别是对于滴滴等打车平台而言,挑战更大。这是因为响应预测模型需要考虑历史和物理环境中的实时信息,诸如周边的交通和供需状况。在本论文中,我们提出一种基于动态异质图的事件嵌入学习算法,用于对周边的信息进行建模。基于此,我们提出一种基于多层注意力的图神经网络算法,用于对历史行为和环境周边的事件进行嵌入学习,从而提升对于响应模型的预测准确率。我们把这个框架应用到滴滴的两个实际应用中,离线和在线的实验效果都证明我们的嵌入学习框架可以显著的提升预测效果。这个框架已经部署到实际的生产当中,每天服务于千万级别的实时事件预测。



*未来我们将邀请作者为大家更为详尽地解析论文思路和研究成果。敬请期待!

推荐阅读

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存