查看原文
其他

亮点速览 | 盘点滴滴8篇AAAI 2020论文

点击上方“蓝色字体”,选择“置顶公众号

精彩内容,即刻送达


滴滴共有8篇论文被AAAI2020接受,研究涵盖AI技术多方面,包括模型压缩、视频分析、领域自适应、多智能体和样本不平衡等众多领域。本文把滴滴被收录的8篇论文进行汇总和亮点解读。


论文目录(按照论文首字母排序):

  • An Attention-based Graph Neural Network for Heterogeneous Structural Learning

  • An End-to-End Visual-Audio Attention Network for Emotion Recognition in User-Generated Videos

  • AutoCompress: An Automatic DNN Structured Pruning Framework for Ultra-High Compression Rates

  • Domain Conditioned Adaptation Network

  • Generative Attention Networks for Multi-Agent Behavioral Modeling

  • Multi-source Distilling Domain Adaptation

  • PCONV:The Missing but Desirable Sparsity in DNN Weight Pruning for Real-Time Execution on Mobile Device

  • Weakly Supervised Learning Meets Ride-Sharing User Experience Enhancement


1

An Attention-based Graph Neural Network for Heterogeneous Structural Learning

关键词:注意力机制,图神经网络,异构学习

摘要:现实世界中的数据通常包含了多种实体类型,这些实体通过不同的实体关系互相关联形成了错综复杂的异构信息网络(heterogeneous information network)。为了有效地挖掘业务中广泛存在的异构信息网络,滴滴AI Labs团队自主研发了一种基于注意力机制的异构图神经网络模型(HetSANN),该模型无需使用传统模型中由专家定义的元路径,能够直接自动化地处理、挖掘原异质信息网络中丰富的语义信息,为网络中的实体提取出更有效的编码表示以应用到实体分类等下游任务中。HetSANN能够广泛运用于各个异构信息网络和下游任务,在三个公开数据集上的实验表明,通过HetSANN模型提取的编码表示能够显著地提升下游任务的准确率。此外,HetSANN还探索了异质网络中关系的方向性、实体类型变换过程中的循环一致性、及其在多任务学习中的应用,为异质信息网络的挖掘方法提供了一种新的思路。

论文地址:https://arxiv.org/abs/1912.10832

2

An End-to-End Visual-Audio Attention Network for Emotion Recognition in User-Generated Videos



关键词:端到端学习,视频情感分析,视听注意力网络

 

摘要:视频情感分析关注于不同类型的视频对观察者所产生的积极或消极的影响,已有方法主要使用传统的两阶段法,即提取视觉或音频特征、训练分类器。滴滴地图事业部与伯克利大学共同提出通过使用端到端的神经网络模型解决用户生成视频的情感识别问题,并且取得了更加精准的识别效果。具体地,我们提出了一个新颖的网络模型结构,即视听注意力网络(Visual-Audio Attention Network, VAANet),将空间、通道和时间注意力集成到视觉三维卷积神经网络中,并且将时间注意力集成到音频二维卷积神经网络中。此外,我们设计了一个特殊的分类损失函数,即极性一致交叉熵损失函数,它能利用情感极性的层次约束来指导注意力权值的生成。我们在具有挑战性的VideoEmotion-8和Ekman-6数据集上进行了大量实验,结果表明我们提出的VAANet优于目前主流的视频情感识别方法。


3

AutoCompress: An Automatic DNN Structured Pruning Framework for Ultra-High Compression Rates



关键词:模型压缩,AutoML,自动结构化剪枝

摘要:深度学习模型在计算机视觉任务上不断刷新性能,近年来已成为研究与应用的热点。然而由于骨干网络参数量庞大、存储和计算代价高,难以部署在资源受限的嵌入式端上,深度模型压缩是解决该问题的一个重要技术。其中代表性的方法就是模型权重剪枝(weightpruning),权重剪枝需要找到模型中每层的不同的参数冗余,由于设计空间大,人工设计这些压缩中的超参数往往尝试过程长,而且需要专业知识指导。滴滴AI Labs与美国东北大学王言治教授研究组合作,联合提出了一种基于AutoML思想的自动结构化剪枝的算法框架,自动化地去寻找深度模型剪枝中的超参数,去除模型中不同层的参数冗余,替代人工设计的过程并实现了超高的压缩倍率。从而满足嵌入式端上运行深度模型的实时性能需求。
 
地址:https://arxiv.org/abs/1907.03141

4

Domain Conditioned Adaptation Network



关键词:领域自适应网络,域条件通道注意力机制

摘要:近几年深度神经网络在计算机视觉、自然语言处理、语音处理等领域得到广泛应用。在实际使用中,直接迁移其他与训练模型的特征到新的应用场景往往不能获得满意的泛化能力,因此大量研究通过深度域适应的方式来获得域不变特征以获得更好的迁移学习能力。然而,现有的深度域适应模型通常通过融合源域与目标域的共享卷积层的方式,来获得跨领域任务特定层的特征对齐。但是,我们发现当源域与目标域数据分布差异较大的时候,严格共享卷积层的方式是有害的。滴滴AI Labs与北京理工大学合作,提出有条件的领域自适应网络(Domain Conditional Adaptation Network, DCAN)的方法,通过一种域条件通道注意力机制对不同的域激活不同的共享卷积通道。通过这种方式,关键低层次的领域知识就可以被更合理的利用。并且,为了有效对齐高层次的特征分布,我们提出了一种条件域特征纠正模块来校正域差异。最后,我们在三个跨域基准测试做了大量实验,表明DCAN很大程度低优于现有方法,特别在域分布差异更艰巨的学习任务中。

5

Generative Attention Networks for Multi-Agent Behavioral Modeling


关键词:生成学习,多智能体,行为理解

摘要:多智能体系统(multi-agent system)广泛的存在于众多真实世界的应用中,例如交通分析、多人游戏及智能驾驶等。与此同时,对多智能体系统中智能体行为和交互的理解和建模也是实现人工智能的重要一步。滴滴AI Labs联合南加州大学提出了深度生成模型 GAMAN(Generative Attentional Multi-Agent Network),该模型可捕获多智能体系统中行为的生成过程,支持准确的行为预测与推断,可分析智能体在复杂系统中的交互方式,识别智能体的类型以及交互的类别。基于先进的生成模型方法以及新颖的注意力机制,GAMAN能够以线性复杂度学习高度异质性的多智能体系统中的交互。在实验中,该模型被应用于三个不同领域的多智能体数据集:弹簧-小球运动数据集、NBA比赛数据集以及斯坦福校园交通数据集,并评估了在行为预测、交互分析及智能体类型识别等任务上的性能。结果显示该模型的表现与已有相关模型相比有明显提升。新模型GAMAN为复杂的多智能体系统的行为预测指明了新的方向,并且在理解多智能体系统的交互方面向前迈出了一步。


6

Multi-source Distilling Domain Adaptation



关键词:领域自适应,迁移学习,多源知识蒸馏

摘要:领域自适应(Domain Adaptation, DA) 关注于解决有标签源域和无标签目标域之间存在的域偏移(Domain Shift)问题,通过自适应的方式把从源域数据上学习的专家知识更好地应用目标域。这对于不同领域数据之间的知识迁移和模型性能提升具有重要帮助,是自动驾驶、场景理解、地图更新等应用的坚实基础。常规的无监督领域自适应方法通常假设有标签数据采样于同一个源域。但在实际应用中有标签数据通常来自于多个源域,直接使用单源域的领域自适应方法可能会产生次优解。滴滴地图事业部联合伯克利提出了一个新的多源蒸馏领域自适应(MDDA)网络,它不但考虑了多个源域与目标域之间的距离,而且考虑了同一源域不同样本与目标域样本的距离。具体来说,MDDA包括四个阶段:(1)使用每个源域的数据分别预训练源域分类器;(2)通过最小化源域和目标域之间的经验Wasserstein距离,分别对抗地把目标域映射到每个源域的特征空间;(3)选择距离目标域较近的源域样本来微调源域分类器;(4)使用相应的源域分类器来分类目标域特征,然后用各自的域权重来聚合不同预测结果(权重相当于源域和目标域间的距离)。我们在标准DA数据集上进行了大量的实验,结果表明MDDA明显超过了目前的主流方法。
 
地址:https://arxiv.org/abs/1911.11554

7

PCONV: The Missing but Desirable Sparsity in DNN Weight Pruning for Real-Time Execution on Mobile Device




关键词:模型压缩,模式化剪枝与连通性剪枝

摘要:深度神经网络巨大的模型尺寸带来了更复杂的计算,在应用端也占用了更多的资源,使得深度神经网络在移动平台上的实时推理能力受到很大的挑战。 作为解决这一问题最直接有效的模型权重剪枝(weight pruning)方法,现有的研究缺少算法与加速框架结合优化从而导致了较低的推理性能与有限的加速性能。同时,剪枝合理性理论指导的缺失导致了在算法层面设计剪枝维度的困难,在移动平台层面又缺少能够利用剪枝维度的加速框架。滴滴AI Labs与美国东北大学王言治教授研究组合作提出了一种基于卷积核层面的模式化剪枝与连通性剪枝(pattern  & connectivity pruning)方法,在理论层面证明了其剪枝方法在计算机视觉概念中的合理性,从而获得了极高的推理精度;同时设计搭建了面向移动平台的基于编译器内核的推理框架,能够部署并高效执行剪枝后的模型,从而实现了在移动平台上极高的推理速度,满足了在移动端实现实时计算的要求。实验结果ImageNet在VGG-16模型上,这种模型剪枝法在Samsung S10平台上的推理速度达到了19.1ms,远超现有的各种移动平台加速器性能,实现了移动端的实时计算。

地址:https://arxiv.org/abs/1909.05073

8

Weakly Supervised Learning Meets Ride-Sharing User Experience Enhancement



关键词:弱监督学习, 用户体验

摘要:网约车司乘评价体系需要兼顾乘客体验、司机接单公平性与平台效能。针对智能评价体系存在的两大问题——样本不平衡和标注噪声,滴滴网约车技术团队与南京大学LAMDA组李宇峰团队联合提出了一种对样本进行赋权的方式,并根据少量人工标注的验证数据指导学习样本权重的算法,将其形式化为一个双层优化问题,并提出了快速的求解方法以适应大规模数据。这种半监督方法对噪音数据进行清洗的思路,对业界的方法进行了创新性的优化并且取得了很好的效果。通过线下实验和评估,新模型在AUC(AreaUnderCurve)评价指标上有近10%的提升,目前模型已在滴滴平台上开量实验。其研究成果不仅在评价数据的利用上对推荐结果有很好的提升,并且对司乘纠纷公平判责、地图POI挖掘等场景有比较好的借鉴意义。



快速了解
AAAI 2020

AAAI即是一个组织名称也是一个会议名称。我们通常所说的AAAI会议(The National Conference> )是由美国人工智能协会(American Association for Artificial Intelligence)主办,AAAI-20 于2020年2月7日-12日在美国纽约举办。本次大会官方数据表明:今年论文共收到8880篇论文提交,评审7737篇,最终接收1591篇,接受率为20.6%。

后续滴滴科技合作公众号将不定期更新AAAI-20滴滴论文的相关深度解读,敬请关注。


相关阅读

AAAI 2019 | 滴滴详解交通出行中的人工智能 多项算法模型亮相

滴滴四篇论文被AAAI 2019大会收录

一场人工智能的思想碰撞:滴滴在AAAI 2018

再回首,滴滴科技生态与发展部的2019


编辑 | 贺贺


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存