自然语言表示与推理专场（视频+实录+PPT）| AIS预讲会全程干货分享

From 热爱学习的读芯术 2019-05-05

“AIS2018（ACL、IJCAI、SIGIR）论文预讲会” 全程干货

2018年6月9-10日，代表学术界和工业界的顶级交流盛会——由中国中文信息学会青年工作委员会和百度公司联合举办的【“AIS2018（ACL、IJCAI、SIGIR）论文预讲会”】在北京盛大举行。预讲会共包括10个专场，芯君将为大家带来全程的内容干货。后台回复AIS，可获得讲者公开PPT。

读芯术读者论文交流群，请加小编微信号：zhizhizhuji。等你。

AIS （ACL、IJCAI、SIGIR） 2018

Session 2： Representation and Inference

https://v.qq.com/txp/iframe/player.html?vid=w0687avmr75&width=500&height=375&auto=0

“自然语言表示与推理” 专场全程视频分享

以下分享内容根据讲者口头分享整理，具体内容详见论文。

1 段超群哈尔滨工业大学

Attention-Fused Deep Matching Networkfor Natural Language Inference

段超群同学从五个方面介绍了这篇工作。

自然语言推理也叫文本蕴含，这个任务很简单，就是判断两个句子之间的语义关系，具体来说给定两个句子， P和Q，这个任务就是判断这两个句子的关系，大家比较通用的Y的集合包括三种关系，推出、相反和中立，目前，大家通常使用类似处理matching问题的方法来处理该任务。但是自然语言推理这个任务本身有自己的特性，它里面的词对之间，起决定的词对不仅是表面看起来的语义相同、相反，同时还存在上下位词，以及一些特定场景下才会出现的词对。现有的方法，对这类词建模的时候存在一定的问题，另外，类似自然语言处理中其他任务一样，该任务也存在长距离依赖问题，我们的工作主要针对这两个问题展开。

介绍一下现在一些通用的对自然语言推理的model框架。大部分模型都包括三个部分，编码层、匹配层、预测层。

我们模型整体框架的主要工作是Matching Layer这块做的，这块我们提出一个计算单元结构。在这个计算单元里面，包括四个子层，Cross Attention、Fusion for Cross Attention、Self-Attention、Fusion for Self-Attention。

下面介绍这四个子层：

给定一个previous block的输出，首先是Cross Attention，这块来计算词对之间相似度。

之后是Fusion for Cross Attention，这块我们是做attention之前的语义，attention之后进行一个拼接，再对它进行融合。

接下来是Self-Attention，这块是针对之前提到的长距离依赖问题，Self-Attention对长距离依赖问题，有一定的优势。

然后Fusion for Self-Attention，这块也类似于Fusion for Cross Attention。

数据集主要有三个：SNLI、MultiNLI、Quora。

具体网络中的各个结构模块的分析是：

第一，模块的叠加，Fusion for cross attention，self-attention、Fusion for self-attention，从整个流程来看，每个模块都会起到一定的正反馈。

我们分析一下，block数对最终结果的影响。从一到三，结果会逐层增加。第三部分比较了一下Self-attention的效果，可以看到，从句子超过15个以后，我们的模型性能优势就会大一些。

attention的结果，我们选的是三层block模型，从左往右，可以看到attention的结果是逐渐越来越清晰，右边是self-attention的结果，我们有一个意料之外的收获，通过self-attention，能够把两个句子存在明显差异的部分找出来。

总结一下，我们这个模型对复杂的词汇关系有一定的优势，self-attention这个机制确实可以缓解长距离依赖。我们未来的工作，后续主要会尝试利用未标注数据强化句子表示。

2 韩家龙腾讯AI Lab

hyperdoc2vec: Distributed Representations of Hypertext Documents

随着互联网深入生活的方方面面，超文本文档作为特殊的文本数据，它的重要性越来越体现出来。这里面最典型的一种超文本文档，我们常见的网页，在这种数据里面，除了每个文档有自己的内容、单词以外，在词和词中间出现一些超链接，去指向其他的文档。看的广泛一些，其实对于学术论文来说，也可以看成一种超文本文档。

超链接是区别传统的文本和超文本最大的区别。对于超文本文档，如果可以得到分布式表示，或者embedding，这种embedding可以用于很多下游的任务里面，比如网页和论文的分类，对于论文来说有引用推荐这个任务。我写一段话可能需要引用文章，应该引用哪篇文章。

实体的embedding可以用于实体相关的任务中，比如最典型的实体链接。对于超文本文档这个任务来说，要把它的embedding做好，我们需要合适的model超链接，我们论文里提出了一个好的超文本文档，或者一个方法需要满足的四个标准，或者说是性质，这四个性质，我们会逐个解释。

内容敏感来说很好理解，例如Zhao这篇文章embedding一定受单词的影响。

第二个，上下文敏感，Papineni这篇文章周围有一些引用它的话，这篇文章它的embedding一定要受被引用时候上下文中词的影响。

第三，新文档友好。对于学术论文的数据集来说，有一些论文刚发表，没有被cite过的。如果这个数据集截至2010年，Zhao这篇论文很可能没有被cite过，这种称之为新文档，也有好的超链接分布式表示算法，一个好的超连接分布式的算法，至少要对它新文档的embedding，不能没有，这种embedding需要有合适的计算。

最后，上下文意图敏感，有一个区别，前三个是针对文档向量而言，上下文意图敏感是对词向量而言。我用了被引文章的算法，我们希望这种引用的意图，语义对应到上下文中合适的词上面去。这种信息对于引用推荐是十分重要的。

对于这些问题来说，有一些传统方法，最典型的是word2vec、doc2vec，这两种方法其实隐含着损失的一些信息，从我们提出的四个标准来说，word2vec是不满足刚才的1、3、4，即内容敏感、新文档友好和上下文意图敏感性质的，doc2vec是不满足最后一个性质的。

为了解决以上的问题，我们提出了hyperdoc2vec这个方法，这个方法的关键之处在于每一个超文档都对应两个向量学习，一个是in向量，一个是out向量，in向量所包含的信息是这个文档自己内部有哪些词，以及引用了哪些文档。out向量包含的信息就是哪些文档引用它，以及别人引用它的时候是怎么说它的。

通过讨论可以证明这个方法满足四个性质。我们的方法还有一个好处，不依赖于下游任务，具有一般性。更多关于四个性质对任务和方法影响的实验，请参见我们的海报和论文。

3 何志成南开大学

Hashtag2Vec: Learning Hashtag Representation with Relational Hierarchical Embedding Model

在社交网络文本中，大家往往会采用一些话题标签标注文本的内容属于哪些部分，有助于对文本的检索以及其他后续一些推荐工作。

话题标签是一个不可控的创建过程，所以在采用话题标签的时候，规则并不固定，想用哪个用哪个。另外，话题标签包含多种结构关系，话题标签、消息，以及消息和词之间都会存在一定的关系。在社交媒体中，除了结构关系之后，还有很丰富的内容信息。我们要把这三方面信息做一个有效的融合学习。

对于融合学习的过程，我们给定一个推特的数据集，首先要建立一个话题标签的网络，这个网络里面包含话题标签，以及推特这种消息的文本内容，还有最关键的词。

另外，我们会构建一个层次性的网络结构来学话题标签的表示，最关键的是话题标签的关系，每个话题标签也会有相关的推特，推特又会有相关的词，这实际上是一个层级的网络结构。

我们所建构的模型分为三个部分，基于内容的节点嵌入、基于结构的节点表示和异质的联合表示学习过程。首先基于内容，在推特级别学习节点表示，对消息之间的关系，比如语义近似，会用一个基于简单的非线性函数的变换，拟合两个表示向量之间的语义联系，建立一个目标函数。我们给定的拟合目标，是归一化的邻接权重。一个推特往往会包含多个词，我们对这个包含关系做了一个归一化，同时基于非线性函数，就可以把值域做一个统一，这样在后面公式推导和梯度下降里面会非常方便。

这里也有词级别的嵌入。词和词之间的关系用一个类似的向量相乘加非线性变换的拟合，同样采用和上面一样的非线性的矩阵分解的框架。

第二部分：结构。如果是全局结构，就是话题标签之间的共现关系。如果一个推特里面使用了两个话题标签，它们就有这样的共现关系存在。拟合函数还是一样的，就是向量相乘加非线性，关键是拟合目标。这部分采用了基于随机游走的概率，由话题标签i到话题标签j，它们在网络中随机游走的概率，可以融合多级的层次网络结构信息。因为共现关系比较稀疏，融合一下肯定有更多的信息进来。另外是局部结构，话题标签，还可以被文本采用，话题标签到文本的过程，也用了一个简单归一化的邻接权重。

第三部分是联合表示学习过程，两种方式：一种是将内容信息和结构信息的学习过程做一个拼接融合。另一种采用了一个聚合过程。由话题标签到消息、消息到词的层级结构，把结构和内容做了一个融合，为每一个话题标签创建一个伪文档，这个伪文档就是基于内容的了，然后学话题标签的偏向于内容的表示，我们就有了一个新的模型。

我们用了两个推特数据来实验，并且做了案例分析，我们模型表现最优。

4 蔡祥睿南开大学

Medical Concept Embedding with Time-aware Attention

我们主要是学习医疗特征的表示。

我们的研究背景是电子医疗记录。电子医疗记录是医疗分析的核心数据。电子病历(EMRs)提供医疗分析如慢性病管理和个性化医疗，同时医学概念已被比如国际疾病分类(ICD)标准化。因为医疗概念表示是后续分析的基础，但现有研究没有充分考虑医疗概念的时间属性，并且不同医疗概念的时间上下文范围差异较大，所以我们提出同时学习医疗概念嵌入和时间上下文范围。

我们先定义了一个单位时间的概念，这个单位时间可能是天，也可能是周，也可能是月，对于具体的医疗任务，考虑的时间单位是不一样的。比如一周，在同一个单位时间内的特征，认为它们的时间是一样的。因此每个医疗特征从所有可能的上下文范围中选择一个最优的是一个指数级复杂度的事，医疗特征的上下文和医疗特征的向量表示，它并不是相互独立的两个事情。

这个模型是基于CBOW，它是用周边的单词预测这个中心单词，然后去学习单词的表示。我们模型在此基础上考虑这个中心的医疗特征，对不同时间上面的关注度是不一样的。我们在这里引入了attention的机制，就是模型中心的医疗特征，对于每一个时间单元，它的权重应该是多少。

我们的实验是在两个数据集上，一个是NUH2012，是新加坡国立大学医院分享的数据集（非公开），另一个数据集DE-SynPUF，它做过一些隐私化的处理，是公开的。

用聚类和最近邻搜索评价得到医疗特征的语义相关性，引入了两个医疗知识库，一个是Hier，一个是CCS。实验结果是我们的模型是最好的，在一个比较大的temporal scope上，此模型依然能够学到东西。

我们的模型学到的attention还是比较符合医学常识的，对于慢性病曲线是比较平滑的，对于感冒之类的，它的曲线在中间会凸显，说明只对这一段时间影响比较大。还有一类不太常见的，之前没有先兆，这个人突然生病了，最后很难恢复。前面attention比较小，后面attention比较大。

它可以作为后面一些工作的初步判断，先诊断一个病，吃了药之后会不会变好，进一步得到医院病人的状态追踪，另一方面，我们可以构建这样一个knowledge base去指导其他模型的训练。

留言点赞发个朋友圈

我们一起探讨AI落地的最后一公里

推荐文章阅读

ACL2017 论文集：34篇解读干货全在这里

长按识别二维码可添加关注

读芯君爱你

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！

谁会想到，裁员会裁到总编辑头上

“环评”提质增效助力高质量发展？

13岁男孩杀害8岁女童案今日开庭，女童父亲：侮辱遗体、没有悔罪

现在有什么副业可以让人快速上岸? 可以试试这个行业，上岸其实不难!!