查看原文
其他

ACL2017 | 北德克萨斯大学: PositionRank-一种学术文档关键短语提取的无监督方法

热爱学习的 读芯术 2019-05-05

你和“懂AI”之间,只差了一篇论文


很多读者给芯君后台留言,说看多了相对简单的AI科普和AI方法论,想看点有深度、有厚度、有眼界……以及重口味的专业论文。


为此,在多位AI领域的专家学者的帮助下,我们解读翻译了一组顶会论文。每一篇论文翻译校对完成,芯君和编辑部的老师们都会一起笑到崩溃,当然有的论文我们看得抱头痛哭。


同学们现在看不看得懂没关系,但芯君敢保证,你终有一天会因此爱上一个AI的新世界。


读芯术读者论文交流群,请加小编微信号:zhizhizhuji。等你。

这是读芯术解读的第9篇论文



ACL 2017 Long Papers

PositionRank:一种学术文档关键短语提取的无监督方法

PositionRank:An Unsupervised Approach to Keyphrase Extraction from Scholarly Documents

北德克萨斯大学

University of North Texas


【摘要】大量和不断增加的在线学术数据为增强知识发现提供了新的挑战和机会。其中一个挑战是自动从文档中提取关键短语集合以准确描述文档内容,并可以促进快速信息处理。在本文中,我们提出了PositionRank,一个针对学术文档的无监督关键短语提取模型,其中将单词出现的所有位置信息融入到有偏PageRank。与未考虑词位置的PageRank模型和强大的基准方法相比,我们的模型取得了显著改进。具体来说,在研究论文的几个数据集上,PositionRank实现了高达29.09%的提高。


1 引言


目前的学术网站包含数百万科学文献。例如,Google Scholar估计有超过1亿份文档。一方面,这些快速发展的学术文献集合有益于知识发现,另一方面,发现有用的信息变得非常具有挑战性。与文档相关联的关键短语通常提供文档的高级主题描述,并且可以允许高效信息处理。另外,在许多自然语言处理和信息检索任务(如科学论文摘要、分类、推荐、聚类和搜索)中,关键短语被证明是丰富的信息来源(Abu-Jbara和Radev,2011;Qazvinian等,2010 ; Jones和Staveley,1999; Zha,2002; Zhang et al., 2004; Hammouda等,2005)。由于其重要性,文献中已经提出了许多关键短语提取方法,主要包含两个研究方向:监督和无监督方法(Hasan andNg, 2014, 2010)。


在有监督方法的研究中,关键短语提取被定义为二分类问题,其中候选词被分类为正(即关键短语)或否(即非关键短语)(Frank等,1999;Hulth,2003 )。各种特征集和分类算法产生不同的提取系统。例如,Frank等人(1999)开发了一种系统,为每个候选词组提取两个特征,即短语的tf-idf及其距离目标文档开头的距离,并将其作为输入到Naive贝叶斯分类器。虽然监督方法通常比无监督方法表现更好(Kim et al.,2013),但是对于每个研究领域的大型人工标注语料库的要求已经引起了对无监督方法设计的重视。


在无监督的研究课题中,关键短语提取被认为是最先进的基于图排序的排名问题(Hasan andNg,2014)。这些基于图的技术从每个目标文档构造一个词图,使得节点对应于单词,边缘对应于单词关联模式。然后使用图排序算法(例如PageRank(Mihalcea和Tarau,2004; Liuet al., 2010))或HITS(Litvak和Last,2008)对节点进行排序,并将顶级词组作为关键短语返回。自从引入以来,已经提出了许多基于图的扩展,其目的在于对各种类型的信息进行建模。例如,Wan和Xiao(2008)提出了一种模型,其中包含与文本相似文档对应的目标文档的本地邻居,使用文档的tf-idf向量之间的余弦相似度计算。 Liu etal.(2010)假设了文件中的主题,并提出使用主题模型来分解这些主题,以便从所有主题中选择关键短语。然后通过聚合从几个主题偏好的PageRank获得的主题特定分数来排序关键短语。我们假设可以利用其他信息来改善无监督的关键短语提取。


图1 Rendle等人(2010)的WWW论文的标题和摘要和作者输入的论文短句。红色粗体词表示文档的黄金标准关键短语。


例如,在学术领域中,关键短语通常发生在非常接近文档开头的位置,并且频繁发生。图1显示了在2010国际万维网会议上最优秀论文奖项获得者的具体示例。作者输入的关键短语在图中用红色粗体标识。在这个例子中注意到在文档中很早发生的关键短语“Markovchain”的频率很高(甚至从它的标题)。因此,我们可以通过联合利用单词的位置信息和文档中的频率来设计一种有效的无监督的关键短语提取方法吗?我们使用研究论文作为案例研究来专门讨论这个问题。这项提取任务的结果将有助于数字图书馆的文件索引,从而改进科学文献的组织、搜索、检索和推荐。关于从研究论文中进行关键短语提取的重要性,在2017年和2010年的SemEval共享任务也强调了这一主题(Kim等,2010)。我们的贡献如下:


  • 我们提出了一个无监督的图模型,称为PositionRank,它将来自一个单词的所有出现位置信息融入到一个有偏PageRank中,为稍后用于打分和排序研究论文中关键短语的关键字打分。

  • 我们显示聚合了单词出现的所有位置信息的PositionRank比仅使用单词第一个位置的模型表现得更好。

  • 我们实验性地评估了三个研究论文数据集上的PositionRank,并且显示出相比不考虑单词位置的PageRank模型以及关键短语提取的强大基准方法的显著改进。


本文的其余部分安排如下。我们在下一节总结相关工作。 PositionRank在第3节中描述。然后,我们将在第4章介绍研究论文的数据集,以及我们的实验和结果。最后,我们在第5节总结论文。


2 相关工作


文献中提出了许多有监督和无监督的关键短语提取方法(Hasan and Ng,2014)。


有监督的方法使用带有“正确”关键短语的标注文档来训练分类器,用于区分来自文档的非关键短语。KEA(Frank等,1999)和GenEx(Turney,2000)是两种代表性的监督方法,其中最重要的特征是目标文件中短语的频率和位置。 Hulth(2003)使用词汇和句法特征的组合,例如词袋技术连接中词组的集合频率和词性标签。Nguyen和Kan(2007)扩展了KEA,以包括研究论文不同部分中候选词的分布等特征,以及短语的首字母缩写。在另一项工作中,Medelyan等(2009)扩大了KEA整合维基百科的信息。Lopez和Romary(2010)使用基于组合特征的词袋决策树,包括结构特征(例如文档的特定部分中的短语的是否出现)和词汇特征(例如,在WordNet或维基百科中是否存在候选词组)。 Chuang等(2012)提出了一种包含一组统计和语言特征(例如,tf-idf、BM25、词性过滤器)的模型,用于识别文本中的描述性单词。Caragea等(2014a)基于文档网络(例如引文网络)中可用的信息设计了特征,并在监督框架中将其与传统特征一起使用。


在无监督的方法中,使用诸如tf-idf和主题分布之类的各种措施来对词进行评分,这些词后来被聚合以获得短语分数(Barker和Cornacchia,2000;Zhang等人,2007; Liuet al., 2009)。基于tf-idf的排名在实践中表现良好(Hasan and Ng,2014,2010),尽管它简单。基于图的排名方法和中心度量被认为是无监督的关键短语提取的最先进技术。 Mihalcea和Tarau(2004)提出了TextRank,通过将PageRank应用于由文档中的相邻单词构成的词图上,从而对关键短语进行评分。 Wan和Xiao(2008)通过在可变大小w≥2的窗口中共同出现的单词之间加上加权边缘,将TextRank扩展为SingleRank。ExpandRank(Wan和Xiao,2008)中包含类似文本的相邻文档,以计算更准确的词共现信息。Gollapalli和Caragea(2014)扩展了ExpandRank,融入引文网络信息。


Lahiri等(2014)从文献中提取了关键短语,使用了诸如节点度、聚类系数和紧密度等各种中心度度量方法。Martinez-Romo等人(2016)使用WordNet中的信息来丰富图中单词之间的语义关系。


几种无监督方法利用词聚类技术,例如首先将候选词分类成多个主题,然后从每个主题中提取一个代表性关键短语(Liu等人,2009;Bougouin等,2013)。 Liu et al.(2010)将主题偏向的PageRank(Haveliwala,2003)扩展到关键短语提取。特别是,他们使用主题模型将文档分解为多个主题,并为每个主题应用单独的主题PageRank。然后使用主题模型为文档返回的主题比例作为权重,将每个主题的PageRank得分合并为唯一得分。


SemEval 2010(El-Beltagy和Rafea,2010)中表现最好的关键短语提取系统使用诸如术语频率的统计学观察来过滤不太可能是关键短语的短语。更准确地说,使用从数据估计出的阈值的频率。然后使用tf-idf模型结合促进因子来排列候选短语,其目的在于减少对单个词语的偏好。Danesh等人(2015)基于统计启发式的组合来计算每个短语的初始权重,诸如tf-idf分数和文档中短语的第一位置。然后将短语及其初始权重合并到基于图的算法中,该算法产生关键短语候选者的最终排名。 Le et al.(2016)表明,从文档中提取关键短语可以从考虑候选词组的角度看待除了名词或形容词之外的词性标签。Adar和Datta(2015)通过从科学文献中挖掘缩写提取了关键短语,并构建了一个语义上分层的关键短语数据库。词向量也用于测量基于图的模型中的单词之间的相关性(Wang etal., 2014)。在Hasan和Ng(2014)的关键短语提取的ACL调查中比较和分析了以上监督和无监督的许多方法。


与上述方法相反,我们提出了PositionRank,旨在捕获高频率的单词或短语及其在文档中的位置。尽管一个单词在文档中的相对位置在监督关键短语提取中被证明是非常有效的特征(Hulth,2003;Zhang et al., 2007),据我们所知,位置信息以前没有被用于无监督方法。本文的重要贡献在于设计了一种位置偏好的PageRank模型,该模型成功地包含了单词出现的所有位置,这与仅使用单词第一个位置的受监督模型不同。我们的模型为文档中早期发现的单词赋予更高的概率,而不是对单词使用均匀分布。


3 提出模型


在本节中,我们描述了我们完全无监督、基于图的模型的PositionRank,它同时将单词的位置及其频率包含在文档中,以计算每个候选词的有偏PageRank分数。基于图的排序算法(如PageRank(Page etal., 1998))通过考虑从整个图递归计算的全局信息来测量图中顶点的重要性。对于每个单词,我们通过聚合单词出现的所有位置的信息来计算权重。然后将该权重合并到有偏的PageRank算法中,以便为每个单词分配不同的“偏好”。


3.1 PositionRank


PositionRank算法涉及三个基本步骤:(1)单词级图构建;(2)位置偏好的PageRank设计;和(3)候选词组生成。这些步骤详细描述如下。


3.1.1 图的构建


假设d为关键短语提取的目标文件。我们首先使用NLP斯坦福工具包的词性标注器,然后选择与前人工作(Mihalcea和Tarau,2004; Wan和Xiao,2008)类似的名词和形容词作为候选词。我们为d建立一个词图G =(V,E),通过词性标注器的每个唯一的字对应于图G的一个节点。如果两个节点对应的单词在文档d中连续分词的固定窗口w中,两个节点vi和vj连接起来作为一条边(vi, vj)。注意,图可以被构造为有向和无向图。然而,Mihalcea和Tarau(2004)显示,用于表示文本的图类型不会显著影响关键短语提取的表现。因此,在这项工作中,我们构建无向图。


3.1.2 位置偏好(Position-Biased)的PageRank


形式上,将G构造为无向图,并将M作为其邻接矩阵。如果节点vi和vj之间存在边缘,则将元素mij∈M设置为边缘权重(vi,vj),否则设置为0。通过将与vi相关联的节点vj的归一化分数相加来递归地计算节点vi的PageRank得分(如下所述)。


令S表示PageRank得分的向量,对于所有的vi∈V。S的初始值设置为然后可以使用以下方式递归地计算步骤t + 1处的每个节点的PageRank得分:



其中是矩阵M的归一化形式,定义为:



PageRank计算可以看作是马尔科夫过程,其中节点表示状态,它们之间的链接是转换。通过递归地应用等式(1),我们在每个节点下得到主要特征向量,表示每个状态的固定概率分布(Manning等,2008)。


为了确保PageRank(或随机游走)不会陷入图循环,添加了阻尼因子α,以允许对图中的另一个节点进行“传送”操作。因此,S的计算变为:



其中S是主要特征向量,是长度| V |的向量,每一维的值为。向量表示,在节点vi中,随机游走可以以相等的概率跳转到图中的任何其他节点。


通过偏置,随机游走将优先游走到图中具有较高概率的节点(Haveliwala,2003)。


PositionRank的想法是为文档中早期发现并且频繁出现的单词分配较大的权重(或概率)。具体来说,我们希望为在同一文档中的第2个位置的词与第50个位置上找到的词分配更高的概率。在应用任何过滤器之前,我们将每个候选词的权重设置为其在文档中的出现位置的倒数。如果同一个词在目标文档中出现多次,则我们将其所有位置权重相加。例如,如果在以下位置找到一个单词:第2,第5和第10,它的权重为:。加和一个给定单词的所有位置权重,旨在通过考虑到每次出现的位置权重,给经常出现的单词给予更大的置信度。然后,向量被设置为每个候选词的归一化权重如下:



结点vi的PageRank得分S(vi)通过使用代数方法递归地计算以下公式:



其中是结点vi在向量中的权重。


在我们的实验中,递归计算“PageRank分数”,直到两次连续迭代之间的差值小于0.001,或达到100次迭代次数。


3.1.3 候选短语形成


在文档中具有连续位置的候选词被连接成短语。我们考虑与长达3的正则表达式“(形容词)*(名词)+”相匹配的名词短语(即单字,双数字和三元组)。


最后,通过使用构成短语的单个词的得分总和(Wan和Xiao,2008)来对短语打分。最高评分短语作为预测输出(即,文档的预测关键短语)。


4 实验和结果


4.1 数据集和评价标准


为了评估PositionRank的性能,我们对三个数据集进行了实验。第一个和第二个数据集由Gollapalli和Caragea(2014年)提供。这些数据集是从CiteSeerX数字图书馆(Giles等,1998)编制的,由ACM知识发现会议和数据挖掘(KDD)和国际万维网会议(WWW)。第三个数据集由Nguyen和Kan(2007)提供,由各个学科的研究论文组成。在实验中,我们使用每篇论文的标题和摘要来提取关键短语。作者输入的关键短语被用作评估的黄金标准。所有三个数据集总结在表1中,其中显示了每个数据集中的论文数量、关键短语的总数(Kp)、每个文档的平均关键短语数(AvgKp),以及可用关键词的长度和数量的简要描述。


表1 数据集概况


评估指标。我们使用平均相对秩(MRR)曲线来说明我们的实验结果。 MRR给出了第一个正确预测的平均排名,并定义为:



其中D是文档的集合,rd是文档d中发现的第一个正确关键短语的排名。我们还将PositionRank与以前的模型进行比较,总结了准确率Precision、召回率Recall和F1值F1-score的结果,因为这些指标被广泛应用于前人工作中(Hulth,2003; Wan和Xiao,2008;Mihalcea和Tarau,2004; Hasan 和Ng,2014)。为了计算“性能@k”(如MRR @ k),我们检查前k个预测(k范围从1到10)。我们使用平均值k来表示特定数据集的平均数量,如表1所列。例如,WWW数据集的平均值k = 5。为了比较的目的,我们使用PorterStemmer将预测和黄金关键短语减少到一个基础形式。


4.2 结果和讨论


我们的实验围绕几个问题组织,这些问题将在下面讨论。


PositionRank对其参数有多敏感? 我们模型中影响性能的一个参数是窗口大小w,它决定了如何在图中的候选词之间添加边。我们以1为步骤,尝试从2到10的值,并选择几种配置进行说明。图2显示了在所有三个数据集上,不同值w的PositionRank的MRR曲线。从图中可以看出,随着w变化,我们的模型性能没有显著变化。


图2 PositionRank使用不同窗口大小值的MRR曲线


除了窗口大小,我们的模型还有一个参数,即阻尼因子α。为了理解其对PositionRank性能的影响,我们尝试了α的几个值,例如0.75,0.8,0.85,0.9,并没有发现PositionRank的性能有显著差异(结果没有显示出由于高度重叠的曲线)。因此,在公式2中,我们设置α= 0.85(Haveliwala,2003)。


不是仅使用单词的第一个位置,而是将单词所有位置信息聚合在一起的影响是什么? 在本实验中,我们分析了文档中位置加权频率词对PositionRank表现的影响。具体来说,我们比较模型的性能,该模型将单词出现的所有位置的信息(称为PositionRank全模型)与仅使用单词的第一个位置(称为PositionRank fp)的模型进行比较。在上一节的例子中,在第2、第5和第10位出现的一个字将在整个模型中具有的权重,第一个位置模型(fp)的权重为。请注意,在有偏的PageRank中使用单词的权重应首先进行归一化。


图3 聚合单词出现所有位置(PositionRank fullmodel)的信息与仅使用单词(fp)的第一个位置的PositionRank结果比较。


图3显示了对于所有数据集,KDD、WWW和Nguyen,前k个预测关键短语的MRR的k从1到10的实验的结果。从图中可以看出,在所有数据集上,PositionRank全面模型的表现始终优于仅使用第一个位置的情况。我们可以从这个实验中得出结论,聚合来自一个词的所有出现信息可以作为PositionRank中的重要组成部分。因此,我们使用PositionRank全模型进行进一步比较。


位置信息有助于论文中的无监督关键短语提取? 在本实验中,我们将位置有偏的PageRank模型(PositionRank)与不使用位置信息的两个基于PageRank的模型TextRank和SingleRank进行比较。在TextRank中,为每个目标论文构建了一个无向图,使得节点对应于单词,边缘在文本中彼此相邻的两个单词之间绘制,即窗口大小w为2。SingleRank通过在文本中w≥2个的连续词的窗口中共现的两个单词之间添加边来扩展TextRank。


图4 PositionRank和两个不考虑位置信息的基于PageRank的无偏差模型的MRR曲线。


图4显示了将PositionRank与TextRank和SingleRank进行比较的MRR曲线。从图中可以看出,PositionRank在所有三个数据集上基本上都胜过TextRank和SingleRank,说明“位置”信息包含有助于关键短语提取任务的重要信息。PositionRank可以在无监督设置下成功利用此信息,以获得良好的提取性能。例如,使用来自单词出现的所有位置信息的PositionRank可以改善KDD的MRR @平均k为17.46%,WWW为20.18%,对于Nangyen为单一Rank则为17.03%。


图5 PositionRank与其他三个数据集基线的MRR曲线。


PositionRank与其他现有最先进的方法比较如何? 在图5中,我们比较了PositionRank与几个基准方法:TF-IDF,ExpandRank和TopicalPageRank(TPR)(Hasan andNg,2014; Wan和Xiao,2008; Liuet al., 2010)。我们根据Hasan和Ng的关键短语提取的ACL调查(2014)选择了这些基线。在TF-IDF中,我们计算目标文档中每个候选词的tf分数,而从三个数据集估计idf分量。在ExpandRank中,我们从每个论文及其本地文本邻居构建一个无向图,并使用PageRank计算候选词的重要度得分。我们用不同数量的类似文本的邻居进行实验,并为每个数据集呈现最佳结果。在TPR中,我们使用目标文件中的信息构建一个无向图。然后,我们使用主题模型来执行目标文档的主题分解,以推断文档的主题分布并计算这些主题中单词的概率。最后,我们通过聚合来自几个主题偏好的PageRanks(每个主题一个PageRank)的分数来计算候选词的重要性分数。我们使用了Mallet的主题模型的实现[3]。为了训练主题模型,我们使用了Caragea等(2014B)引入的CiteSeerx学术数据集提取的大约45,000个论文摘要的子集。对于所有模型,通过对短语中的组成单词的分数求和来获得短语的分数。


从图5可以看出,在所有数据集上,PositionRank在基线上实现了MRR的显著增加。例如,该实验的MRR@average k在Nguyen集合上提高了29.09%。在图5中比较的所有模型中,ExpandRank显然是性能最好的,而TPR在所有数据集上达到最低的MRR值。


4.3 整体性能


如前所述,前人工作中也展示了准确率(P)、召回率(R)和F1得分(F1)(Hulth,2003;Hasan and Ng,2010; Liu et al., 2010; Wan和Xiao,2008)。与这些作品一致,在表2中,我们在所有三个数据集上显示了PositionRank与所有基线的比较结果,以P,R和F1为顶点k =2,4,6,8预测关键短语。从表中可以看出,在所有数据集上,PositionRank优于所有基线。例如,在WWW排名前6位的预测关键短语中,PositionRank达到了12.1%的F1评分,而ExpandRank达到11.2%,而TFIDF和TPR均达到10.7%。从表中可以看出,ExpandRank通常是所有数据集上性能最好的基准。然而,有趣的是,与使用仅来自目标论文信息的PositionRank不同,ExpandRank从目标论文文本上类似的邻居添加外部信息,因此在计算上更昂贵。


PositionRank的第一个位置(fp)通常比PositionRank-full模型更差,但是对于所有数据集,它仍然优于大多数top k个预测关键短语的基线方法。例如,在前4名的Nguyen上,PositionRank-fp与最佳基线(TF-IDF在这种情况下)相比,达到10.5%的F1得分,达到9.6%。


表2 PositionRank基线的准确率、召回率和F1得分。最好的结果以粗体显示。


值得注意的是,PositionRank在所有数据集上都胜过TPR。与我们的模型相比,TPR是一个非常复杂的模型,它使用主题模型来学习单词的主题,并推断文档的主题比例。此外,TPR还需要为每个数据集分别调整参数(例如,主题数量)。PositionRank不那么复杂,它不需要额外的数据集(例如,训练主题模型),其性能优于TPR。TF-IDF和ExpandRank是所有数据集KDD、WWW和Nguyen上性能最好的基准。例如,在k = 4的KDD上,TF-IDF和ExpandRank的F1分数分别为9.4%和10.1%,而TextRank,SingleRank和TPR分别为8.4%,9.0%和8.9%。


对我们的结果进行paired t-test检验,我们发现PositionRank的MRR、准确率、召回率和F1得分得到明显改善(p值<0.05)。


图6 Gao等人(2006)的WWW论文的标题和摘要和作者为论文输入的关键词。深红色加粗短语代表文献的预测关键短语。


4.4 真实证据


我们用Gao等人(2006)的论文进行实际验证。它是Nguyen数据集的一部分。图6显示了本文的标题和摘要以及作者输入的关键短语。我们以粗体黑色标记了由我们提出的模型(PositionRank)预测为关键短语的候选词组,黑色选择为候选短语的单词,并以灰色表示基于其词性标签和停用词表过滤掉的单词。我们显示每个候选词在其右上角的概率(或权重)。这些权重是基于单词的位置和文本中的频率来计算的。请注意,我们的模型使用这些权重将PageRank算法偏置为偏好图中的特定节点。


从图中可以看出,作者关键短语的组成部分如“collaborative,”“crawling,” “focused,” and “geographically”被赋予最高分,而候选者如“performance,” “anchor,”or “features”被赋予非常低的权重,使得它们不太可能被选择为关键短语。


5 结论和未来工作


我们提出了一种新颖的无监督图算法,称为PositionRank,它将单词的位置和文档中的频率都包含在有偏PageRank中。据我们所知,我们是第一个在无监督关键短语提取中以全新的方式整合位置信息的工作。具体来说,与仅使用第一个位置信息的监督方法不同,我们表明,对单词位置的整个分布进行建模优于仅使用第一个位置的模型。


我们对研究论文的三个数据集的实验表明,我们提出的模型比成熟的基准模型能实现更好的结果,性能相对提高高达29.09%。在将来,探索PositionRank对其他类型文档(例如网页和电子邮件)的性能将是有趣的。


论文下载链接:

http://www.aclweb.org/anthology/P/P17/P17-1102.pdf


留言 点赞 发个朋友圈

我们一起探讨AI落地的最后一公里


长按识别二维码可添加关注

读芯君爱你


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存