查看原文
其他

ACL2017 | 海得拉巴研究所:改进推文分布式表示-现在与未来

热爱学习的 读芯术 2019-05-05

你和“懂AI”之间,只差了一篇论文


很多读者给芯君后台留言,说看多了相对简单的AI科普和AI方法论,想看点有深度、有厚度、有眼界……以及重口味的专业论文。


为此,在多位AI领域的专家学者的帮助下,我们解读翻译了一组顶会论文。每一篇论文翻译校对完成,芯君和编辑部的老师们都会一起笑到崩溃,当然有的论文我们看得抱头痛哭。


同学们现在看不看得懂没关系,但芯君敢保证,你终有一天会因此爱上一个AI的新世界。


读芯术读者论文交流群,请加小编微信号:zhizhizhuji。等你。

这是读芯术解读的第29篇论文



ACL 2017 Student Research Workshop

改进推文分布式表示-现在与未来

Improving Distributed Representations of Tweets Present and Future

印度海得拉巴国际信息技术研究所

IIIT Hyderabad


【摘要】非监督式推文表示学习是一个重要的研究领域,有助于解决情感分析、标签预测、释义检测和微博排序等业务应用上的问题。一个好的推文表示学习模型必须能够应对推文的一些特殊性挑战,如长度短、用词不规范、语法不常见和拼写错误等。然而,针对推文表示学习模型的前人研究工作还很匮乏。在此项工作中,我们基于其目标函数来组织模型,以帮助我们理解文献。我们也指出了一些有趣的未来方向,我们相信通过构建高质量的推特学习模型来推进这些领域的发展,是卓有成效的。


1 引言


Twitter是一个被广泛使用的微博平台,用户发布信息并与之互动,这类信息被称为“推文”。理解推文的语义表示对大量应用有益,比如情感分析 (Ren et al., 2016; Giachanou and Crestani, 2016)、标签预测(Dhingra et al., 2016)、释义检测 (Vosoughi et al., 2016) 和微博排序 (Huang et al., 2013; Shen et al., 2014)。然而,推文很难建模,因为它们构成了一些挑战,比如长度短、非正式词汇、不常见的语法和拼写错误。最近,研究人员正致力于利用基于神经网络的无监督表示学习方法来解决这个问题。一旦这些表示被学习,我们就可以利用现成的表示作为输入来解决下游任务(Bengio, 2013a;Bengio et al., 2013b)。这些方法有几个优点:(1)无需训练,因为其是在未标记数据的情况下工作,(2)它们减少了对领域专家的依赖,和(3)在实践中,它们在许多的应用程序中都非常有效。


尽管如此,调查推文特有的无监督表示学习模型的前人工作并不多。在这项工作中,我们尝试以一种有组织的方式研究模型来填补这一缺口。具体地说,我们根据其优化的目标函数对模型进行分组。我们相信这项工作有助于理解现有文献。在本文结束部分,我们提出了一些令人关注的未来研究方向,我们认为通过构建高质量的推文学习模型来推进这一领域的研究是卓有成效的。


无监督推文表示模型

在文献中,有各种各样的模型跨越不同的模型架构和目标函数,以无监督的方式计算推文表示。这些模型以半监督的方式工作——模型生成的表示将被输入到一个现成的预测器,比如支持向量机(SVM),以解决特定的下游任务。这些模型跨越了各种基于神经网络的架构,包括单词向量的平均值、基于卷积的、基于循环的等等。我们认为,这些模型的性能高度依赖于它优化的目标函数——预测相邻的单词(推文内的关系),相邻的推文(推文之间的关系),推文本身(自动编码器),从结构化资源如释义数据库和弱监督建模。在这节中,我们将以一种有组织的方式对特定推文无监督模型进行首次调查,以理解文献。具体地说,我们根据优化的目标函数对每个模型进行分类,如图1所示。接下来,我们逐一研究每一类。

 

图1:基于优化目标函数的无监督推文表示层次模型


2.1推文内部关系建模


动机:每条推文都被假定有一个潜在的主题向量,它影响推文中单词的分布。例如,尽管“catch the ball”这个词在语料库中频繁出现,如果我们知道推文的主题是“technology”,我们可以预测如“bug or exception ”的单词在“catch (ignoring the)”单词之后而不是“ball”,因为“catch the bug/exception ”在“technology”的主题下更合理。另一方面,如果推文的主题是关于“sports”,然后我们可以预测“ball”在“catch”之后。这些单词表明,对于给定单词相邻词汇的预测也强烈得依赖于这条推文。


模型: (Le and Mikolov, 2014)的工作是第一个利用这个想法来计算分布式文档表示,它们擅长于在文档中预测单词。他们提出了两个模型: PV-DM和PV-DBOW,分别是连续词袋(CBOW)和流行的Word2Vec模型(Mikolov et al., 2013)的Skip-gram模型变形——PVDM分别插入额外的文档标记(可以认为是另一个词),PVDM插入一个额外的文档标记(可以认为是另一个词),它在同一文档生成的所有上下文中共享。PV-DBOW 试图根据文档表示来预测从文档中抽取的单词。虽然这些模型最初用于段落和文档,但它们比传统模型更有效:基于BOW (Harris, 1954)和LDA (Blei et al., 2003)的推文分类和微博检索任务(Wang et al.,2016)。作者(Wang et al., 201)通过增加两种功能,使PV-DM和 PV-DBOW建模concept-aware(推文中丰富的语义信号):注意上下文的单词和概念上的推文表示,它们共同利用推文的概念层次来计算更好的表示。两种讨论的工作都有以下特点:(1)他们使用一种浅层架构,可以快速训练,(2)用于测试推文的计算表示需要计算梯度,这是实时Twitter应用程序的耗时,并且(3)更重要的是,他们无法从相关的推文中挖掘文本信息,而这些信息可以产生显著的语义信号。


2.2推文间关系建模


动机:为了获取丰富的推文语义,研究人员正试图利用一种sentence-level Distributional Hypothesis (Harris, 1954; Polajnar et al., 2015)。这个想法是通过用户的Twitter时间线、局部的、转发推文和会话流的相关流来推断推文的表示形式。这种方法极大地缓解了由于推文的模糊性和简短性而导致的上下文不充分的问题 (Ren et al., 2016;Ganesh et al., 2017).。


模型:Skip-thought vectors(Kiros et al .,2015)(STV)是一个广受欢迎的句子编码器,它被训练用来预测文本语料库中的相邻句子(Zhu et al .,2015)。尽管测试是廉价的,因为它涉及到测试句子的一个廉价的正向传播,STV由于它复杂的模型结构,训练起来是非常慢的。为了克服这种计算效率低下的问题,FastSent (Hill et al., 2016)提出了一个简单的附加(log线性)句子模型,该模型预测相邻的句子(表示为BOW)在上下文中对某些句子进行BOW表示。该模型可以利用相同的征象,但计算耗费要低得多。与这项工作并行的是,Siamase CBOW (Kenter et al.,2016)开发了一个模型,直接将两个句子的BOW表示进行比较,使句子向量距离接近其相邻的句子,远离在语料库中随机出现的句子。对于FastSent和Siamese CBOW来说,测试语句表示是经过训练后得到的一个简单的单词向量的平均值。这两种模型都是在书本语料库上训练的通用句子表示模型,但是在推文语义相似度计算任务上却给出了与以往模型相比有竞争的性能指标。(Ganesh et al .,2017)的模型试图从Twitter直接利用这些征象。在技术关注和用户表示学习的帮助下,这个对数线性模型能够对目标推文,按照用户Twitter时间轴上的顺序,按时间邻近的推文捕捉显著的语义信息。


2.3 结构化资源建模


动机:近来,基于对结构丰富的资源的监督,如Paraphrase Database (PPDB) (Ganitkevitch et al., 2013) (包含了嘈杂的词对)建立了表示模型,这些模型产生了高质量的句子表示。这些方法通过在学术上的语义空间最大化句子的相似性来发挥作用。


模型:CHARAGRAM (Wieting et al., 2016a)通过学习一个基于字符的组合模型来嵌入文本序列,其涉及了字符n-gram的向量的添加,接着是一个按元素的非线性。在PPDB上训练的这个更简单的架构能够击败像CNN这样的复杂架构的模型,LSTM在2015年国际语义评测(SemEval)的Twitter文本相似任务中有很大的优势。这一结果强调了字符级模型的重要性,这些模型在拼写变化和单词选择方面解决了差异。作者(Wieting et al .,2016b)在随后实施了一个复杂的模型分析工作,主要是基于LSTMs的词平均的迁移学习,与基于PPDB损失函数最优化边缘概率的监督学习方法。对于迁移学习,他们发现基于单词平均的模型在域内和域外文本相似任务中表现良好,以很大的优势击败了LSTM模型。另一方面,单词平均模型在句子相似度和文本蕴含任务上都表现良好,表现都优于LSTM。然而,对于情感分类任务,他们发现LSTM(在PPDB上训练)击败了平均模型而建立了一个新的技术发展水平。上述结果表明,结构化资源在下游应用程序的有效计算多用途向量表示中起着至关重要的作用。


2.4 自动编码器建模


动机:基于autoencoder的方法通过重新构造自己的输入来学习潜在的(或压缩的)表示。由于像推文这样的文本数据包含离散的输入信号, sequenceto-sequence models (Sutskever et al., 2014) 如STV一样可以用来构建解决方案。编码输入推文的编码器模型通常可以是CNN (Kim, 2014), 递归模型如 RNN, GRU, LSTM (Karpathy et al., 2015) 或记忆网络(Sukhbaatar et al., 2015)。生成输出推文的编码器模型通常是一个递归模型,它在每个步骤中预测一个输出的标记。


模型:Sequential Denoising Autoencoders (SDAE) (Hill et al., 2016)是一个基于LSTM的序列的sequence-to-sequence模型,它被训练用来从损坏的版本中恢复原始数据。SDAE通过学习表示数据的特征来解释变量的重要因素,从而产生强有力的表示。Tweet2Vec(Vosoughi et al .,2016)是一个最新模型,它使用过一个字符集的CNN LSTM的编解码架构训练以直接构造输入推文。该模型在语义相似度计算和情感分类任务上优于PV-DM、PV-DBOW等单词级别的竞争模型,从而表明Tweet2Vec的字符级特征最适合处理推文的噪音和一些特性。Tweet2Vec通过使用数据增强技术来控制传播误差,在其中复制推文并将复制的推文中的一些单词替换为它们的同义词。SDAE和Tweet2Vec都有一个优势,他们不需要一个连贯的句子叙述(如STV),因为这很难在Twitter上获得。


2.5 弱监督建模


动机:在一个弱监督的设置中,我们自动为一条推文创建标签,并预测他们学习潜在的复杂模型,而不是单独使用无监督学习。标签的例子包括整个推文的情感,诸如推文上显示的标签等。这项技术可以创建一个巨大的标签数据集,尤其是创建大量数据、复杂的深度学习模型。


模型:(Tang et al., 2016)学习特定情感词表示(SSWE),以便将具有对比极性和类似句法上下文(如好和坏)的单词在它学习的语义空间中相互远离。SSWE利用积极和消极的表情符号收集的大量远程监督推文来构建一个强有力的推文表示,这在情感词典中的情感分类和单词相似度计算等任务中都很有用。(Dhingra et al., 2016) 观察到在推文中的标签可以被认为是主题,因此具有相似标签的推文一定更接近彼此。他们的模型通过使用BiGRU层来嵌入来自其他字符的推文预测标签。由于子词建模,这样的字符级别的模型可以很好地接近测试推文中的罕见词和新词(在训练中未见过的单词)的表示。该模型优于标签预测任务的单词级别基准,因此得出结论:探索推文的字符级别模型是一个值得研究的方向。这两项研究都未能研究模型的普适性(Weston et al .,2014),即模型将学习表示转化为不同任务的能力。


未来的方向

在本节中,我们提出未来的研究方向,我们认为这是值得研究并可以产生高质量的推文表示。


• (Ren et al., 2016)提出了一个监督神经网络,利用对话、作者和基于主题的上下文的语境化特征,在推文的分类上表现良好。除了 (Ganesh et al., 2017)的作品使用作者的上下文外,没有其他的工作在特定于Twitter的上下文如会话和局部流上构建无监督推文表示模型。我们认为这样的解决方案直接利用了来自Twitter的语义信号(或细微差异),不像STV或 Siamese CBOW,它们是在书本语料库上进行训练的。


• (dos Santos and Gatti, 2014) 提出了一个监督的混合模型,它利用了Twitter情感分析人物的字符和单词级别信息。由于字符级别模型击败单词级别模型的设置还不是很好理解,我们认为探索这样的混合组合模型来构建无监督推文表示将是值得关注的。


•Twitter为用户提供了与其他用户交互的平台。据我们所知,没有相关工作能够通过利用用户概况属性如资料图片、用户简介和粉丝,和社交互动如转发上下文(用户转发流中的周围推文集合)和最喜欢的上下文(用户最喜欢的推文流中的周围推文集合)。


•DSSM (Huang et al., 2013; Shen et al., 2014)提出了一系列的深度模型,这些模型被训练用来最大化给定查询的点击文件的相关性。这样的排名损失函数帮助模型迎合了各种各样的应用程序,如网页搜索排名、广告选择/相关性、问题回答、知识推理和机器翻译。我们观察到这种损失函数尚未被用于构建无监督推文表示。我们认为基于大规模的微博数据可以直接在推文中使用排名损失函数,这可能会对Twitter应用程序有帮助,而不仅仅在推文表示学习文献中。


• 语言学家认为,语言最好被理解为一种等级的短语树,而不是一个单一的单词或字符的序列。由于大多数推文不是正确的语法,因此很难获得推文的句法树。单词向量模型的平均值是最简单的复合架构,没有附加的参数,但是变现力均强于CNN、LSTM等复杂体系结构的几个下游应用 (Wieting et al., 2016a,b)。我们相信一个理论的认识,为什么平均模型表现得好可以帮助语言学家接受这些模型。


•(Wieting et al .,2016a,b)中的模型从PPDB中的嘈杂的短语对学习。注意底层文本的来源于Twitter完全不同。当直接训练来自Twitter的结构化资源如Twitter释义语料库(Xu et al., 2014)时,可以看到这种模式的有效性。这种方法的主要挑战是,即使在训练数据稀缺或者不存在的情况下,小规模的注释Twitter资源也可以鼓励像(Arora et al .,2017)这样的模型很好地工作。


•推文大多有一个伴随的图像,有时与其文本具有视觉对应性 (Chen et al.,2013; Wang et al., 2014) (“视觉”推文)。就我们所知,没有任何工作可以探究以下问题:我们是否可以对推文的相关视觉内容进行多模态表示,并与传统基准进行比较?我们可以利用 multimodal skip-gram模型 (Lazaridou et al., 2015),它构建了在传统语义基准测试中表现良好的多模态增强单词向量。然而,很难检测出视觉推文,而从非视觉推文中学习会降低推文表示质量。如果探索推文的一个分散度量(Kiela et al .,2014)来解决建立一个不可降解、改进的推文表示问题将会是令人关注的。


•解释推文表示以落地与其在下游任务中是性能息息相关的编码特征,是一个重要、但较少学习的研究领域。(Ganesh et al .,2016)的工作是首先打开推文向量表示黑盒。他们提出了基本的属性预测任务,预测了给定推文表示编码的基本属性(如俚语词、标签、提及等)的准确性。这项工作的主要缺点是不能将他们的研究与下游应用联系起来。我们认为,执行这样的相关性研究可以清楚地突出显示一种特定的表示模型在给定下游任务的性能背后的一组基本特征。


5 结论


在这项工作中,我们研究了学习无监督推文表示的问题。我们相信,我们基于目标函数对现有工作进行的调查可以为研究者提供重要的观点并帮助他们理解这一领域。我们也相信本文提出的未来研究方向有助于打破构建高质量通用推文表示模型的障碍。


论文下载链接:

http://www.aclweb.org/anthology/P/P17/P17-3002.pdf

留言 点赞 发个朋友圈

我们一起探讨AI落地的最后一公里


长按识别二维码可添加关注

读芯君爱你


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存