查看原文
其他

AAAI 2021 | 微软亚洲研究院论文大礼包请查收!

微软亚洲研究院 微软研究院AI头条 2021-04-27

编者按:AAAIAssociation for the Advance of Artificial Intelligence——美国人工智能协会是人工智能领域的主要学术组织之一,其主办的年会也是人工智能领域的国际顶级会议。今年的 AAAI 2021 是该大会的35届,会议2月2日-2月9日全程线上举办。本次大会中,微软亚洲研究院有多篇论文被录取,我们从中精选了7篇有代表性的工作为大家进行介绍。


用于云系统中智能虚拟机配置的基于关联的启发式搜索
Correlation-Aware Heuristic Search for Intelligent Virtual Machine Provisioning in Cloud Systems
论文链接:https://www.microsoft.com/en-us/research/publication/cahs-an-effective-correlation-aware-heuristic-search-approach-for-intelligent-virtual-machine-provisioning/

计算资源的合理分配是大多数工业云平台所共同追求的目标。无论是对于提供云系统服务的微软 Azure 云平台,或是拥有着庞大用户基数的 Microsoft 365,如何优化好资源分配都是至关重要的问题。为了保证用户体验,云平台往往都会将一定量的虚拟机提前配置好。而如何优化虚拟机的预先配置(Predictive Virtual Machine Provisioning, PreVMP)正是本文所讨论的问题。

通常 PreVMP 这一类问题的优化目标含有未知参数(这些未知参数需要利用相关的特征进行预测而得到),因此传统的优化方法无法直接用来解决这类问题。学术界将此类问题称为预测+优化(Prediction+Optimization)问题。顾名思义,求解预测+优化问题最直观的解决方法就是将其拆分为一个预测问题加一个优化问题。而这类两阶段方法有明显的不足之处是:在求解优化问题时,两阶段方法假设预测结果是准确的,但在实际中预测误差是不可避免的。

相比较于直观的两阶段方法,目前求解 PreVMP 问题的先进方法是通过贝叶斯优化将预测和优化进行有效的结合,这样可以很好地解决两阶段方法的弊端。然而目前已有的先进方法都假设各个虚拟机类型的需求量之间是相互独立的。但在实际的应用场景中,本文通过实证研究表明了不同的虚拟机类型的需求量之间是存在相关性的,所以对各个虚拟机类型需求量的独立性假设也存在一定的局限性。相关实证研究的结果可见图1:每一个蓝点表示一个虚拟机类型,两个虚拟机类型之间的距离越小则表示这两个虚拟机类型的需求量之间的相关性越大。

图1:相关实证研究结果

为了使针对 PreVMP 问题的求解方法更加适用于真实的应用场景,本文提出了新的求解方法 CAHS (Correlation-Aware Heuristic Search)。相比于已有的求解方法没有考虑不同虚拟机类型的需求量之间是存在相关性的,CAHS 方法创新地采用了基于相关性的启发式搜索。CAHS 方法基于时间序列的联合分布建立了全新的预测方法与优化方法,并且在初始阶段就将相关性较大的虚拟机类型划分为一组进行处理。同时 CAHS 方法还用神经元感知机代替了原有的传统贝叶斯优化模型,这让 CAHS 方法在处理真实数据集时有了更好的鲁棒性。

图2:CAHS 方法的整体框架

为了验证 CAHS 方法的有效性,本文将 CAHS 方法与已有的先进求解方法进行了实验对比。实验结果表明,CAHS 方法在真实数据集上的表现要明显好于所有对比的求解方法。

表1:CAHS 方法在真实数据集上的表现以及与已有方法的对比结果

实际上,CAHS 方法已经被成功应用于微软 Azure 云平台的预配置服务(Pre-Provisioning Service,PPS)中。同时,CAHS 方法的框架也可以应用在其他预测+优化的问题中,例如 Microsoft 365 中相关的资源分配问题。这些结果充分表明了 CAHS 方法有很好的通用性和实用性。

探索定位能力对于自监督学习的重要性
Distilling Localization for Self-Supervised Representation Learning
论文链接:https://arxiv.org/pdf/2004.06638.pdf
项目主页:http://nxzhao.com/projects/DiLo_localization/

自监督学习,尤其是基于对比的自监督学习(contrastive self-supervised learning)因其可以在无任何人工标注的数据上学到对多种下游任务有用的表征,而得到越来越广泛的研究。本篇论文通过对现有自监督学习模型的可视化,发现了当前模型对于前景物体的定位能力不足这一明显但被忽略的不足,进而提出了一种有效易行的改进方法。


图3: 在自然图像中,不同物体的背景往往是相似的

在目标识别任务中,模型在仅有类别的监督信号下却可以拥有定位物体的能力。有一种猜想是,模型之所以有此能力是因为不同前景物体的背景通常是相似的(如图3所示的草地和天空),模型在学到定位前景物体能力的情况下才能提升识别的性能。但无监督学习模型是否也拥有相似的能力呢?微软亚洲研究院的研究员们试图通过可视化的方法寻找答案。

本篇论文主要以基于对比学习的自监督方法为主进行研究。此类方法通过区分不同的实例进行学习,即拉近当前图像与其增广图像在特征空间的距离的同时,拉远此图像与其他图像在特征空间的距离。图4展示了对于最新的几种自监督对比模型的可视化,通过和有监督学习模型的对比,寻找出错误模式。研究员们采取了两种可视化方法:一是基于类别的梯度图(class-specific gradient),即不同像素对于分类的重要性,二是参考图片的近邻(nearest neighbor)。从图中可以看出自监督方法找到的近邻与参考图片拥有相似的背景,且梯度图于背景处高亮。这些自监督方法缺失定位前景的能力是因为它们是通过不同的增广方式(augmentation)来学习先验知识的,但这些增广方法并没有将前背景的像素区别对待。

图4: 对于不同自监督对比模型的可视化

基于此发现,研究员们提出了一种有效且简单的改进办法。通过加入基于显著性检测的增广来提升自监督学习的定位能力。具体增广方式如图5所示,用无监督显著性检测方式将图像前景抠出并替换其背景。研究员们对显著性检测方法、训练时增广的比例、增广背景图片类型,以及前背景融合方式等多个因素进行了实验(表2)。基于实验得出的结论有:模型性能会随着显著性方法准确性的提高而提高;所提出的增广方式以一定比例(如50%)加入较为有效;和真实背景差距较大的类型如纹理对于性能提升无明显作用;不同的前背景融合方式对于性能的影响也并不显著。

图5: 基于显著性检测生成的增广图像

表2: 消融实验 (a) 显著性方法, (b) 增广比例, (c) 背景类型, (d) 前背景融合方式

除了消融实验,研究员们还在多个下游任务上进行了测试,如分类、目标检测和实例分割任务,性能均得到了明显提升。通过可视化(图6)可以发现改进后的方法可以更好的定位前景物体。

图6: 改进的方法有效提升了模型定位前景物体的能力

权重学习算法的改进
Learning to Reweight with Deep Interactions
论文链接:https://arxiv.org/abs/2007.04649

近年来,受人类社会的教学模式启发,“教学”(teaching)的概念已被引入机器学习的许多领域中。在应用教学框架的机器学习算法中,存在着两个机器学习模型,他们分别扮演“教师”和“学生”的角色:教师模型通过训练数据选择、损失函数设计、网络结构设计等方面指导学生网络的训练,而学生网络则通常是针对实际机器学习任务(如图像分类、机器翻译等)而设计的模型。

图7:教学框架

在诸多教学算法框架中,权重学习(Learning to reweight)是其中特殊的一种,它使用教师模型对训练数据在更新学生模型时的权重进行调整。权重学习方法由于其简单性和有效性,在教学算法框架中备受关注。然而,在现有的权重学习算法中,教师模型仅仅利用学生模型的浅层信息(如学生模型的训练迭代次数和学生模型在训练/验证集上的损失函数值等),而忽略了学生模型的内部状态,这显然限制了权重学习算法的潜力。

本文提出了一种改进的权重学习算法,其中学生模型将其内部状态提供给教师模型,教师模型根据学生模型的浅层信息和内部状态返回训练样本的自适应权重,以改进学生模型的训练过程。在该算法中,教师模型与学生模型使用从验证集计算的元梯度(meta gradients)共同更新其参数。

图8:改进后的权重学习算法框架

研究员们分别在原始和带噪声的图像分类任务以及神经机器翻译任务上验证了本文提出的算法。结果表明,新权重学习算法在这些不同领域相比之前的算法都能够获得明显的改进。

从模型的组合泛化来看半监督迭代回译技术
Revisiting Iterative Back-Translation from the Perspective of Compositional Generalization
论文链接:https://arxiv.org/abs/2012.04276

组合泛化能力是人类智能最基本的一种能力(即对已有的复杂对象进行解构,从而用见过的小部件来组合出新东西的能力),但是当前的 Seq2seq 模型缺乏这种能力。本文重访一种简单而有效的半监督学习方法——迭代回译技术(iterative back-translation),研究它是否可以以及如何改进从而提高模型的组合泛化能力。

迭代回译技术是一种简单高效的半监督学习技术,它利用有标注数据和无标注数据共同训练模型。有标注的数据往往非常有限并且昂贵,而无标注的数据成本低且总量大,因此其中包含大量没见过的组合。据此本文做出了一个合理猜想:迭代回译能够让 Seq2seq 模型在训练过程中见过更多组合,从而提高模型的组合泛化能力。

图9:迭代回译技术(iterative back-translation)图示

本篇工作主要探究了三个问题:

(1)迭代回译技术是否能够提高Seq2seq模型的组合泛化能力;

(2)如果可以,背后的关键因素是什么;

(3)如何改进迭代回译技术,进一步提高模型的组合泛化能力。

首先,研究员们在 CFQ 和 SCAN 数据集上进行验证,结果如表3所示,可以看到,迭代回译技术能够显著提高模型的组合泛化能力,且数据质量越高,带来的提升越显著。

表3:在 CFQ 和 SCAN 数据集上进行验证的结果

为了探究其背后的关键因素,研究员们先对迭代过程中生成的伪平行数据的质量进行了分析,如图10可以看到,伪平行数据的质量随着训练过程的进行不断提升,虽然一开始质量较差,但模型能够不断地改正其中的错误,最终达到不错的效果。

图10:对迭代过程中生成的伪平行数据的质量分析结果

进一步,研究员们针对数据质量和随机性两个因素设计了消融实验:

(1)BT:标准的回译技术(back-translation),利用第一次生成的伪平行数据(包含较多错误,低 bleu/accuracy)和平行数据共同训练模型。

(2)BT-OTF:迭代过程中每次动态生成数据从而引入随机性,因此这个设定下利用反向模型动态生成新的伪平行数据,但反向模型不加入单语数据进行训练(每次生成的伪平行数据质量相当,但数据不相同)。

图11展示了实验结果,可以发现对于(1),即使数据中包含较多错误,但仍能够提高模型的表现,分析认为即使是错误的数据,其中仍然包含了很多没见过的组合,因此依然能够带来正向的效果;从(2)实验结果则可以看到随机性带来的提升非常明显,研究员们认为动态生成新的数据能够有效避免模型去拟合一些固定的错误偏置,更多关注共有的数据特征。

图11:消融实验结果

为了能够进一步高效地帮助模型提高修正错误的效率,研究员们提出了基于课程学习的迭代回译技术(curriculum iterative back-translation),具体来说就是把数据集由易到难划分为 K 份,在最开始加入最简单的数据,随着训练的不断进行,依次提升加入数据的难度。从实验结果表4、图12中可以看到,课程学习对迭代回译技术有非常大的帮助,且更有利于困难的数据。

表4:半监督迭代回译技术在准确度上的表现

图12:半监督迭代回译技术在不同数据集的表现

SongMASS: 基于预训练和对齐约束的自动歌曲创作
SongMASS: Automatic Song Writing with Pre-training and Alignment Constraint
论文链接:https://arxiv.org/abs/2012.05168

人工智能歌曲创作是近年来一个非常火热的话题。其中,基于旋律的歌词生成和基于歌词的旋律生成是歌曲创作中两个最重要的任务,他们都可以被看成是标准的序列到序列生成。然而,研究员们注意到过去的研究工作忽略了以下两个问题:

1)标注好的歌词-旋律配对数据非常缺乏。过去的工作大多只利用了有限的配对数据来训练,而没用利用到大量的无标注非配对的歌词和旋律数据;

2)在歌曲创作中,除了生成旋律或者歌词,如何生成歌词与旋律的对齐信息也很重要。过去大多数工作没有考虑到对齐,或者采用固定模板来控制对齐而限制了歌词和旋律生成的多样性。

因此,本文提出了 SongMASS 方法来解决上述问题。SongMASS 采用了编码器-解码器(Encoder-Decoder)的框架,并提出了一种针对歌曲的序列到序列学习和对齐约束。由于歌词和旋律之间的差异性较大,研究员们对各个模态(歌词属于文本序列,而旋律属于音符序列)分别使用了单独的编码器和解码器。对相同模态的编码器和解码器,研究员们使用了基于掩码的序列到序列学习(Masked Sequence-to-Sequence Learning)来学习无标签数据的知识。而对于不同模态的编码器和解码器,他们则在标记好的歌词-旋律配对数据上使用了标准的序列到序列学习,来拉近不同模态之间的语义距离。

图13:SongMASS 学习框架

由于一首歌的长度较长,通常由多句话构成。因此,在相同模态的预训练过程中可以采用句子级的掩码策略(在每句内分别使用基于掩码的序列到序列学习)来学习歌词或者旋律的表征。掩码的设计如图14所示。通过上述方法,可以有效地从无监督数据中学习歌词和旋律的表征知识。


图14:Song-Level MASS 预训练

为了能够学习到歌词与旋律的对齐语义,研究员们又在监督数据的训练上添加了句子级和单词级的注意力约束,限制每句歌词只能对齐到对应的旋律上来确保句子级上的约束,其设计的掩码如图15所示。

图15:歌词和旋律的句子级约束

而在单词级别上,研究员们则希望每个单词 y_i 和对应的音符 x_j 之间的注意力权重最大。而这个期望权重设置如下:


其中,T 代表句子的长度。在预测的过程中提取出每个单词和旋律的注意力权重,并用一种动态规划的思路来获得歌词与旋律之间的对齐。

研究员们在 LMD 数据集上对方法进行了验证,实验结果如表5所示。实验结果显示,本文提出的预训练方法以及学习歌词和旋律的对齐方法可以很好地改善歌曲生成质量,验证了 SongMASS 设计的有效性。

表5:SongMASS 在 LMD 数据集上的实验结果

基于无监督交互学习的主题式论文 PPT 生成
Towards Topic-Aware Slide Generation For Academic Papers With Unsupervised Mutual Learning
论文链接:https://www.microsoft.com/en-us/research/publication/towards-topic-aware-slide-generation-for-academic-papers-with-unsupervised-mutual-learning/

PPT 是一种常见的文稿展示形式,在学术会议上常被用作对论文的重点叙述及摘要进行展示。而自动生成 PPT 内容底稿不但可以提高工作效率,也能提升用户的制作体验。

事实上,学术论文 PPT 通常具有一套相似的主题模板,比如“论文贡献“ (major contribution),”模型“ (model),“实验” (experiments) 以及“未来工作” (future works)。本工作把主题纳入 PPT 生成的过程中:给定预先定义好的一套主题,模型将从学术论文中抽取主题相关的句子作为该主题的 PPT 内容。

首先研究员们对学术论文 PPT 进行了深入的分析:

1)学术论文 PPT 通常包含什么常用的主题;

2)对于每个主题,PPT 内容从对应的论文中抽取或者引用外部资料的比例(抽取式模型的可行性);

3)对于每个主题,统计论文中对应句子的位置分布情况(如何抽取)。

通过统计分析,研究员们选择了4个常用且大部分内容能从论文中抽取的主题作为生成目标。由于论文与对应 PPT 的平行语料资源十分稀少,本工作利用了 ACL Anthology 论文数据集,基于无监督的设定,采用交互学习的方法抽取主题相关的句子。具体来说,本工作设计的两个代理模型在训练过程中交替作为伪基准答案:

1)基于神经网络的层次化句子分类器,用于捕捉句子语义信息;

2)基于逻辑回归的的句子分类器,用于融合先验知识(包括针对任务的特征设计以及从预训练模型 BERT 中获得的信号)。

实验证明,两个代理模型通过交互学习能互相提升抽取准确率,先验知识在此过程中扮演了十分重要的角色。最后,通过人工评价认为本工作的生成结果能一定程度作为 PPT 底稿供用户进行后续润色。

通过多分辨率对比学习的无监督 3D 学习形状分析
Unsupervised 3D Learning for Shape Analysis via Multiresolution Instance Discrimination
论文链接:https://arxiv.org/abs/2008.01068

图16:基于多分辨率对比学习的无监督形状分析

最近 3D 深度学习在各种形状分析任务中(比如形状分类、分割和配准等)都取得了很好的结果。这一成果除了依赖于研究人员为各个任务设计的网络结构之外,还依赖于大量的数据标注。

研究员们注意到在自然语言理解(NLP)以及计算机视觉(CV)领域里,人们可以在一个大规模的、无标注的数据集上,对一个通用的网络结构(比如 Transformer 和 ResNet)进行预训练,然后再在各个下游任务中利用少量的有标注数据进行“微调”就能取得很好的结果。那么在 3D 形状分析任务中,能否也采用这样一个 “无监督预训练+微调”的流程实现同样的效果呢?

图17:网络结构图。该网络能同时输出逐点的特征和形状的整体特征

为了实习这个效果,需要克服两个挑战:一是要设计一个通用的 3D 神经网络,以便在预训练之后将网络用在各个下游任务中;二是要设计一个很好的无监督预训练的方法,这样才可以利用大规模的无标注数据。研究员们观察到三维物体的的整体形状特征和逐点特征是紧密相关的。关于网络结构,研究员们在八叉树的 CNN 框架下搭建了 HRNet。这一网络结构以三维点云为输入,可以同时输出逐点的和形状的特征向量,来满足不同粒度的形状分析任务的需求。关于预训练,研究员们则设计了多分辨率的对比学习训练策略,可以同时训练逐点的和形状的特征向量

无监督预训练之后,本论文将预训练的网络级联1到2层的全连接层,在4种下游任务上进行了测试(包括 ModelNet40 的分类、ShapeNet 的形状分割、PartNet 的形状分割和 3D 点云配准),实验结果表明通过“无监督预训练+微调”之后,本工作的方法的结果超越了现有的最好方法。特别是在当下游任务中训练数据很少的情况下,本工作的结果可以远远超过从随机初始化开始训练的网络。







你也许还想看



    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存