查看原文
其他

ACL2017 | 曼海姆大学:改进文本简化系统的句子对齐方法

热爱学习的 读芯术 2019-05-05

你和“懂AI”之间,只差了一篇论文


很多读者给芯君后台留言,说看多了相对简单的AI科普和AI方法论,想看点有深度、有厚度、有眼界……以及重口味的专业论文。


为此,在多位AI领域的专家学者的帮助下,我们解读翻译了一组顶会论文。每一篇论文翻译校对完成,芯君和编辑部的老师们都会一起笑到崩溃,当然有的论文我们看得抱头痛哭。


同学们现在看不看得懂没关系,但芯君敢保证,你终有一天会因此爱上一个AI的新世界。


读芯术读者论文交流群,请加小编微信号:zhizhizhuji。等你。

这是读芯术解读的第18篇论文



ACL 2017 Short Papers

改进文本简化系统的句子对齐方法

SentenceAlignment Methods for Improving Text Simplification Systems

曼海姆大学

University of Mannheim


【摘要】本文提出了几种不同复杂程度的文本句子对齐方法。我们使用最好的方法对Newsela语料库进行句子对齐,从而为自动文本简化(ATS)系统提供大量的训练材料。我们发现,使用这个数据集,即使在标准的基于短语的统计机器翻译模型中也胜过最先进的ATS系统。


1 引言


自动文本简化(ATS)试图将复杂句子自动地转换成句法、词法和或语义上的简单变体,而不会显着改变原有含义。它最近引起了极大关注,因为它可以使更广泛的受众更容易阅读文本(Alu'ısio andGasperin2010; Saggion et al., 2015),并可以用作预处理步骤,提高各种NLP任务和系统的性能(Vickrey andKoller2008; Evans, 2011; Stajner and Popovi c, 2016)。


然而,最先进的ATS系统仍然没有达到令人满意的效果,并且需要一些后期的人工编辑(Stajner和Popovi c,2016)。虽然最好的监督方法通常导致具有保留原始意义的语法输出,但他们过于谨慎,几乎对输入句子没有作任何改变(Specia,2010;Stajner等,2015),这可能是由于在训练时使用了大小有限或质量差的平行TS语料所导致的。英语维基百科-简单英语维基百科(EW-SEW)是目前最大的现有句子对齐TS数据集,其中包含160-280,000个句子对,这依赖于我们是要仅对传统语句重写进行建模,还是同时对内容缩减和段落扩充建模(Hwang etal., 2015)。对于西班牙语,最大的现有平行TS语料库仅包含1,000个句子对,因此无法使用完全监督的方法。利用词向量技术(Glavasand Stajner,2015; Paetzold and Specia,2016)的英语最佳无监督词汇简化(LS)系统似乎执行更多的词汇替代,但往往是以较少的语法输出和更多的语义变化为代价。然而,到目前为止,还没有直接比较有监督和无监督的最先进方法。


Newsela语料库提供了超过2000种英文和250种西班牙文的原始新闻文章,按照严格的指南手动简化为3-4种不同的复杂程度(Xu et al.,2015)。虽然它具有比EW-SEW语料库更好的质量(Xu et al.,2015),但由于缺乏句子(和段落)对齐,Newsela尚未被用于训练端到端的ATS系统。在各种文本复杂度水平之间的这种对齐将提供大量训练数据集,用于建模不同级别的简化,即“轻度”简化(使用来自邻近级别的对齐)和“重”简化(使用等级对的对齐:0- 3,0-4,1-4)。


贡献。 我们:(1)为平行文本的段落和句子对齐提供了几种方法,并且用于评估文本片段对之间的相似性水平,作为可用的软件;(2)比较了基于词法和语义的跨越各种文本复杂程度的对齐方法;(3)通过提供定制的MST-LIS对齐策略(3.1节),测试手动简化(Bott和Saggion,2011)时保留原始信息顺序重要性的假设;和(4)表明,即使在基本的基于短语的统计机器翻译(PBSMT)方法中,新的句子对齐方法也实现了最先进的ATS系统性能。


2 相关工作


用于原始和手动简化文本的自动句子对齐方法,当前最先进的系统是用于原始和简单英语维基百科句子对齐的GSWN方法(Hwang等人,2015)和用于西班牙语Simplext语料库句子对齐(Saggion等,2015)的基于HMM的方法(Bott和Saggion,2011)。


基于HMM的方法可以应用于任何语言,因为它不需要任何语言特定的资源。它基于两个假设:(H1)信息的原始顺序被保留,(H2)每个“简单”句至少有一个相应的“原始”句(在‘n-1’或‘n-m’对齐情况下有超过一个)。


Simple Wikipedia简单维基百科并不代表直接简化“原始”维基百科文章(“简单”文章是独立于“原始”文章编写的),GSWN方法不假定H1或H2。这种方法的主要限制是它只允许“1-1”句对齐——这对于TS是非常有限的,因为它不允许句子分割('1-n'),并且求和和压缩('n-1'和'n-m')对齐——它依赖于语言,因为它需要英文维基词典。


与GSWN方法不同,我们采用的所有方法都是与语言无关的,所需资源少,并允许“1-n”,“n-1”和“n-m”对齐。类似于HMM方法,我们的方法假定假设H2。我们提供两种变体,使用假设H1和不使用的情况(第3.1节)。


3 方法


提供一组“简单”的文本片段S和一组“复杂”文本片段C,我们提供两种策略(第3.1节)来获得对齐组(si,cj),其中si∈S,cj∈C。反过来,每个对齐策略可以使用三种方法之一(第3.2节)来计算文本片段(段落或句子)之间的相似性分数。


3.1 对齐策略


最相似文本(MST): 给定一种相似性方法(第3.2节),MST比较所有可能的对(si,cj)的相似性得分,并将每个si∈S与C中最接近的一个对齐。


具有最长递增序列的MST (MST-LIS): MST-LIS使用假设H1。它首先使用MST策略,然后通过从所有获得的对齐组中提取出来,对输出进行后处理,只有那些对齐组li∈L,其中包含C中最长递增序列的偏移jk。为了允许'1-n'对齐(即分句),我们允许在L中重复C('复杂'文本片段)的偏移量。不包含在L的'简单'文本片段包含在未对齐片段的集合U中。最后,我们通过将C中的搜索空间限制为对应于前一个和下一个对齐的“简单”片段的“复杂”文本片段的偏移来对齐每个um∈U。例如,如果L = {(s1,c4),(s3,c7)}和U = {s2},则s2对齐的搜索空间减少到{c4 ... c7}。我们在结果(表2)中用“*”来表示这个策略,例如C3G *。


3.2 相似方法


C3G: 我们用log TF-IDF加权(Salton和McGill,1986)的字符N-gram(CNG)(Mcnamee和Mayfield,2004)相似性模型(n = 3),并使用余弦相似度比较向量。


WAVG: 我们使用TensorFlowToolkit的skip-gram模型(Mikolov等,2013b),来处理整个英文维基百科,并生成其单词的连续表示。对于每个文本片段,我们平均词向量以获得其内容的单个表示,因为此设置在其他NLP任务中显示出良好的结果(例如,(Mikolov等,2013a)中的新词选择)。最后,使用余弦相似度来估计文本片段之间的相似性。


CWASA: 我们采用基于连续词对齐的相似度分析(CWASA)模型(Franco-Salvador等,2016),该模型通过计算所有单词的连续表示之间的余弦相似度来找到最佳对齐单词(而不是在WAVG的情况下的平均词向量)。它最初被提议用于剽窃检测,结果非常好,特别是对于较长的文本片段。


表1 EW-SEW数据集的全部和部分匹配的例子(Hwang等,2015)。


4 人工评价


为了比较不同对齐方法的效果,我们随机选择10个原始文本(0级)及其对应的1、3、4级的简单版本。不是创建“黄金标准”并进而自动评估表现,我们采用两个注释器对每对自动对齐的段落和句子进行评估——通过每种可能的六种对齐方法和基于HMM的方法(Bott和Saggion,2011)——对于0-2规模上的三对文本复杂度级别(0-1,0-4和3-4),其中:0 - 内容中没有语义重叠; 1 - 部分语义重叠(部分匹配); 2 - 相同的语义内容(很好的匹配)。这导致了对0-4和3-4对的1218个段落和1266个句子对齐,和0-1对的1526个段落和1086个句子对齐。在TS的上下文中,良好和部分匹配是重要的。虽然完整的语义重叠建模了全部段落(“1-1”对齐),部分重叠建模了句子分割(“1-n”对齐),但同时删除无关的句子部分,添加了说明或总结('n-m'对齐)。 EW-SEW数据集的全部和部分匹配的几个例子(Hwang等,2015)在表1中给出。


我们预计自动对齐任务在0-1文本复杂度水平之间是最简单的,在0-4级之间要困难得多(4级在四个阶段的简化后获得,因此包含更场的段落和更少的0级和1级词汇重叠)。我们还探讨当我们对齐两个相邻级别时,任务是否同样困难,否则任务的难度取决于级别的复杂性(0-1 vs.3-4)。取决于任务和级别,获得的内在标注一致性,采用Cohen的κ(400个双注释实例)在0.71和0.74之间加权。


人工分析结果(表2)显示:(1)所有应用方法对于段落和句子对齐任务上均显著(p<0.001)优于HMM方法; (2)不假设H1(C3G,CWASA和WAVG)导致(不显着)正确对齐的百分比高于其假定为H1(C3G *,CWASA *,WAVG *)的情况; (3)词汇方法(C3G)和语义方法(CWASA和WAVG)的效果差异仅在0-4句子对齐任务中比较显著,其中CWASA比其他两种方法表现得更差(p<0.001),而且在0-4段落对齐任务中,WAVG比C3G表现的要差;(4)两步C3G对齐方法(C3G-2s)使用最佳段落对齐方法(C3G)首先对齐段落,然后在每个段落内对齐句子,比“直接”句子对齐C3G方法获得更好的对齐效果。


表2  英文Newsela语料库的good+partial句子和段落对齐百分比。所有结果都比HMM方法(Bott和Saggion,2011)获得的结果明显更好(p <0.001,Wilcoxon实验)。最好的分数用粗体表示。


5 外在评价


最后,我们测试了我们新的英语Newsela(C3G-2s)句子对齐(对于邻近级别-neighb,对于所有级别-all)和使用Moses工具包中标准PBSMT模型(Koehn等人,2007)与使用HMM-method获得相邻级别(Bott和Saggion,2011)的的ATS任务Newsela句子对齐。我们改变用于构建语言模型(LM)的训练数据集和语料库,同时保持总是相同的2000个句子对用于调整(Xuet al., 2016),并用他们的测试集合的前70个句子进行人工评估。使用这个特定的测试集,我们可以将我们的(PBSMT)系统与不可免费获得的TS(Xuet al., 2016)的最先进的基于句法的MT(SBMT)系统的输出进行比较。我们比较:(1)标准PBSMT模型的性能,该模型仅使用已经可用的EW-SEW数据集(Hwang等,2015)与相同PBSMT模型的性能,但是这次使用EW-SEW的组合数据集和我们新创建的Newsela数据集;(2)后一种PBSMT模型(其使用EW-SEW和新的Newsela数据集)与最先进的监督ATS系统(Xu等人,2016)以及最近提出的无监督词汇简化系统之一,LightLS系统(Glavas和Stajner,2015)


表3外部评估(基于PBSMT的自动文本简化系统vs现有技术)。


表4不同ATS系统的输出(正确的更改/简化以粗体显示,不正确用斜体)。


我们对所有系统的输出进行三种人工评估。首先,我们计算每个系统所做的更改总数(Total),将整个短语的变化计数(例如“变得失效”→“已解散”)作为一个变化。我们对那些保留了句子原始含义和语法的变化(由两位英语母语者评估)标注为正确(Correct),同时使句子更容易被理解(由两位非本地流利的英语人士评估)。第二,3位英语母语者对于每个句子的语法(G)和含义保存(M)进行评估,至少在一个1-5级量表上变化(1 - 非常糟糕;5 - 非常好)。第三,3位非流利的英语演讲者分别以原始(参考)句子和目标(输出)句子(一对)显示,并询问目标句子是否为:+2- 简单得多; +1 - 有点简单;0 - 同样困难; -1 - 有点困难;-2 - 比参考句更困难。虽然变化的正确性考虑到每个个体变化对语法、含义和简化性的影响,但是分数(G和M)和等级(S)考虑了句子内所有变化的相互影响。


在标准PBSMT设置中,将我们的句子对齐的Newsela语料库(或邻近的C3G-2l或全部C3G-2l)添加到当前最佳的对齐维基语料库(Hwanget al., 2015)中,显著提高了语法(G)和含义(M)保存,并增加了正确变化的百分比(表3)。它也通过简单的排名(S)、含义保存(M)和正确变化的数量(Correct),显著优于最先进的ATS系统,同时实现了几乎同样好的语法性(G)。


训练数据集(Newsela neighb. C3G-2s vs.Newsela all C3G-2s)中应用的简化水平显著影响G和M的分数。


使用HMM方法来对齐Newsela(而不是我们的)在所有五个标准下,简化程度都大大降低。


表4列出了不同ATS系统的输出示例。


6 结论


我们提出了几种平行TS语料库的段落和句子对齐方法,并使软件公开可用,同时表明即使是在一个基本的PBSMT设置下的ATS系统,使用新的句子对齐(免费提供)Newsela数据集都能获得最优效果,我们还表明,在“重”简化(0-4对齐)的句子对齐和段落对齐任务中,基于词法的C3G方法优于基于语义的方法(CWASA和WAVG),并且两步句子对齐方法(先对齐第一段,再对齐段落中的句子)会形成比“直接”句子对齐方法更好的效果。


论文下载链接:

http://www.aclweb.org/anthology/P/P17/P17-2016.pdf


留言 点赞 发个朋友圈

我们一起探讨AI落地的最后一公里


长按识别二维码可添加关注

读芯君爱你


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存