查看原文
其他

ACL2017 | 艾杰大学: 特定领域的文本问题自动生成

热爱学习的 读芯术 2019-05-05

你和“懂AI”之间,只差了一篇论文


很多读者给芯君后台留言,说看多了相对简单的AI科普和AI方法论,想看点有深度、有厚度、有眼界……以及重口味的专业论文。


为此,在多位AI领域的专家学者的帮助下,我们解读翻译了一组顶会论文。每一篇论文翻译校对完成,芯君和编辑部的老师们都会一起笑到崩溃,当然有的论文我们看得抱头痛哭。


同学们现在看不看得懂没关系,但芯君敢保证,你终有一天会因此爱上一个AI的新世界。


读芯术读者论文交流群,请加小编微信号:zhizhizhuji。等你。

这是读芯术解读的第11篇论文



ACL 2017 Student Research Workshop

特定领域的文本问题自动生成

Domain Specific Automatic Question Generation from Text

艾杰大学

Ege University


【摘要】我博士论文的课题是将土耳其生物文本中的描述句自动生成疑问句。我们采用句法和语义方法来解析描述句。句法和语义分别利用句法(成分或依赖关系)分析和语义角色标注系统。在解析步骤之后,问题陈述将答案嵌入到描述性句子中,并通过使用预定义的规则和模板来阐述。句法分析是使用一个名为MaltParser的开源依存句法分析器完成的(Nivre et al. 2007)。然而完成语义分析,我们将构建一个生物领域语料库(BioPropBank)和一个带有语义角色的语料库。然后,我们将采用监督方法来自动标注句子的语义角色。


1 引言


“认知是通过思想、经验和感官获得知识和理解力的精神活动或过程。”(Stevenson, 2010)。思考是通过提问而引发的,试图找到问题的答案从而获取知识。研究表明提问是一种强有力的教学手段。讲师们从学生的知识评价、学生的自我激励和鼓励学生自主学习等问题中受益。此外,学生还可以复习和熟记之前通过提问自己所学到的信息。


为讲师人工生成问题需要耗费大量的时间和精力。此外,学生在训练和记忆课程这方面也面临这相当大的问题。为了解决这些问题,自动问题生成系统可以提供足够的问题来减轻讲师的负担,帮助学生自学。


问题生成的动机是为了促进讲师的工作,帮助学生更有效地实践课程材料。在我的论文中,我们的目标是建立一个从土耳其生物文本中生成问题的系统。我们将生物文本作为我们系统的输入,并生成基于问题质量的问题排序。


AQG是自然语言处理中的一个具有挑战性的问题,特别是当需要进行语义分析来生成诸如如何以及为什么这样的综合性问题时。据我们所知,在土耳其,AQG方法是由Cabuket al(2003)和Orhan et al(2006)提出的。这两项研究生成问题都只使用了句法方法而没有任何的语义分析。然而,从包含复杂过程的生物文本生成问题,不能仅仅依靠句法手段。生物程序中实体间的关系使其很难在句法层面上进行分析。理解这些程序需要一定程度的语义分析。在我的建议中,我们计划提出一些综合性的问题,比如如何以及为什么在何时、何地、谁和谁。因此,我们需要对描述句进行句法分析和语义分析。


句子的句法分析决定了文本中的短语结构,并将其转换为更结构化的表示形式,即解析树。如“谁”做了“什么”给“谁”,“在哪里”,“何时”,“如何”和“为什么”是一个句子的语义分析。语义角色标注(SRL)是一项可以自动识别句子中谓词与其相关参数之间的语义关系任务。分配预定义的语义角色集,例如论元的Agent、Patient和Manner被定义为述词论元结构(PAS)识别问题。


像PropBank(Palmeret al. 2005)和FrameNet(Baker et al. 1998)这样的词汇资源需要在语义角色上标注参数。土耳其词汇语义资源(TLSR)是由IsguderŞahin和Adalı(2014)创建的。TLSR在一般的领域,不包括生物领域。此外,与其他语言的PropBank相比,TLSR的规模较小。目前,带标注的动词框架和意义的数量分别为759和1262。研究人员已经强调了SRL系统的领域敏感性(Albright et al. 2013;Carreras & Màrquez 2005; Johansson & Nugues 2008; Pradhan et al. 2008)。Pradhamet al(2008)指出,当测试数据的领域与训练数据的领域不同时,SRL系统的性能明显下降了10%。Albraight et al(2013)指出了在域内数据标注的存在下SRL系统的精度提高。因此,为了利用语义分析自动生成生物文本问题,我们首先需要在生物领域建立一个SRL系统。为此,我们将为生物学领域构建一个词汇资源库,并以半自动化的方式对语义角色进行标注。此外,土耳其还没有自动的SRL系统。因此,我们也计划设计一个有监督的SRL系统。


在AQG步骤中,我们使用句法和语义分析器来解析描述句。本文第一阶段进行自动SRL系统构建,将用于在语义上分析描述句。描述句的句法分析将由一个名为MaltParser的开源依存句法分析器(Nivre et al. 2007)来完成。语义角色标注和句法标记将用于识别内容以产生相关问题(即,如果语义角色标签为“Arg0”,那么问题类型将是“who”)。在问题生成步骤中,一些预定义的规则和模板将会被利用。生成的问题的质量取决于它的句法和语义正确性,以及它与给定句子的相关性。


2 背景


为了从描述性的句子中生成疑问句,采用了句法和语义的方法。使用短语结构树或依存句法分析器用句法方法来解析描述句。然后,就短语的标签来选择合适的问题类型。目前已经有几个利用句法的AQG系统。Mitkovet al(2006)提出了利用句法方法来评估学生语法知识的多选择问题生成系统。Heilman和Smith(2009)描述了一种基于语法和规则的方法,以自动生成实际问题来评估学生的阅读理解。Liu et al(2012)通过使用一种名为G-Asks的句法开发了基于AQG系统的模板,以此来提高学生的写作水平。Cabuk et al(2003)采用句法解析器得到句子中词的词干、词缀和曲折词缀。预定义的规则被用来识别句子中的短语。在最后的步骤中,基于前面步骤确定的短语通过转换规则生成问题。Orhan et al(2006)为小学的学生生成基于模板的数学问题。为了用语义方法生成问题,首先要标注论元的语义角色。然后根据语义标签选择合适的问题类型。Mannem et al(2010)利用SRL和命名实体识别(NER)系统生成基于规则的问题。Lindberg et al(2013)以教育为目的,使用语义方法生成了基于模板的问题。通过使用语义方法,Mazidi和Nielsen(2014)在化学、生物和地球科学等特定领域生成问题。在分析了SRL和短语结构树解析系统的文本后,基于预定义模板生成了相关的问题。


讲师通过提问来评估学生的阅读理解能力。产生教学问题是费时的,需要耗费讲师大量的精力。本文的主要目标是使用句法和语法来自动生成问题来减轻这些工作。在我们的知识中,用语义方法生成问题将在土耳其语料库中首次出现。我的论文与Mazidi和Nielsen在使用语义方法方面的研究相似,但在问题的形成步骤上是不同的。


由于在语义问题生成系统中需要一个SRL系统,我们计划设计一个监督SRL系统。在建立SRL系统时,采用监督、无监督和半监督的机器学习方法。在受监督的方法中,从训练数据提取特征后,一个1-N(N是角色数量),分类器(如支持向量机(SVM)、最大熵(MaxEnt)和朴素贝叶斯(NB))被用来标记语义角色。Garg和Henderson(2012)在使用依存分析器提取特征的SRL方法中使用了贝叶斯方法。Albright et al .(2013)构建了一个带有逻辑叙事的语义角色的语料库,称为MiPAQ。Monachesi et al.(2007) 从依存句法分析器中提取特性,用来监视SRL中的K邻近算法。


在半监督的方法中,少量标注了语义角色的数据称为种子数据。分类器使用种子数据进行训练。未标记的数据使用这个系统进行分类,并添加置信度最高的预测来扩展初始训练数据。这种扩展迭代进行了几次。近年来,在许多SRL研究(DoThi et al. 2016; Kaljahi & Samad 2010; Lee et al. 2007)中使用半监督的自训练和协同训练方法,并且它们展示出了在域内数据中的性能。在这些研究中,标准监督算法被用作分类器,并由短语结构树解析器提取特征。


由Gildea和Jurafsky(2002)定义的短语结构树解析的特征在大多数SRL系统中被作为基本特征。谓词、短语类型、词头、短语结构树解析路径、短语位置和谓词的语态都是一些基本特征。他们提出使用句法分析是提取特征的必要条件。


在英语的许多有监督的SRL系统中,一个角色标注语料库与PropBank和FrameNet中的词汇资源连在一起被用作训练数据。所有动词的语义角色和它们在宾州树库语料库中的许多涵义都被标注在了PropBank语料库中。比如Agent 和Patient的基本角色Arg0,Arg1, …, Arg5,并且附加的角色如时间和地点被赋予“ArgM”的标签(ArgM-TMP, ArgM-LOC, …)。表一显示了在PropBank中定义的基础和附加的语义角色,以及与他们相关的问题类型。由于PropBank中的句子取自华尔街日报[WSJ],因此,在《华尔街日报》领域以外的监管分类器的效果有所下降。本文采用了以下几种方法构建语义标注语料库:直接标注、使用平行语料库、使用半监督方法。Bootstrapping方法被Swier和Stevenson(2004)应用于常规领域的动词标注。Pado和Lapata(2009)利用英语框架语义网的翻译构建了另一种语言的相关语料库。Monachesi et al. (2007)利用英语PropBank的半监督方法和翻译来构建荷兰语料库。之后,标注者将标注的句子作为训练语料库在监督的方法中使用。


表1 PropBank的一些基本和附加的语义角色。


由于SRL系统的准确度在英语标注语料库领域外显著下降,因此在生物领域建立综合词汇资源将提高土耳其的生物文本的SRL系统。由于构建这类词汇资源需耗费大量精力,我们将采用半自动化的方法,采用自训练半监督的方法,并使用依存关系解析提取特征。在本文中,我们将使用标准的监督方法(SVM、MaxEnt和NB)建立SRL系统来评估他们在土耳其语上的性能。


3 方法


在研究生物领域的自动问题生成之前,我们将构建一个语义标注语料库和SRL系统。下面的部分将详细描述我们提出的解决这些问题的方法。


3.1 语料库建


我们首先考虑生物学领域中的语义角色标注。为了解决这个问题,我们首先从不同的来源收集生物文本,比如文章、教科书等。文章和教科书将分别从“Journal of BiyolojikÇeşitlilik ve Koruma”1和“Biyoloji ders kitabı9, 10, 11, 12”2摘取。之后,我们标记句子的词性(POS)来识别谓语,然后用它们的谓词结构(PAS)来创建词汇库。Kisla的工具(2009)被用来对句子进行标记和语形学分析。这些谓语通过它们在领域中出现的频率和重要性被选择。英文PropBank结构和指南被用作参考结构来标注土耳其语中的PAS。作为一项试点研究,我们从生物高等学校教科书中选择了500个句子并且标记了他们的词性。在识别谓词之后,我们根据它们的出现频率对它们进行排序。一些选定的谓词和它们的PAS分别显示在表2和表3中。


表2 一些选定的动词


由于标注过程开销很大,耗时很长,因此为解决这个问题,我们采用半自动、自训练的方法创建语料库。半监督方法的目的是在少量带标注数据上学习,并使用大量未标注的数据来开发训练数据。SRL分为三个步骤:谓词识别、论元识别和论元分类。在第一步中,我们使用POS标记来识别谓词,其涵义将由一些筛选规则来决定。在土耳其语中“-imek, etmek,eylemek, olmak ve kılmak”(to do, make, render,to be)是对名词性词语起谓语角色关系的助动词,称作助动词。当遇到这些动词时,我们把这个动词以及他们之前的词语称作谓语。例如,“”(被合成) (2 APT在底物水平上通过磷酸化合成。)”的谓词。


为了完成参数识别,应使用下列规则来选择候选论元:

l  如果它们与谓词之间存在依赖关系,则将短语视为论元。

l  检查存在的搭配作为候选论元。


请注意,这些假设将不会涵盖所有的候选参数,但在本文中会有所改进。


表3 谓词“sentez”(Synthesize)的语义角色标注


参数分类是通过自训练来完成的。Yarowsky和Florian(2002)在1995年利用自训练方法解决词义消歧问题。Yarowsky的实验结果表明,自训练方法的性能几乎和监督方法一样高。我们的直觉是,通过使用自训练方法,标注语义角色消耗的精力将大大减少。自训练方法是按照以下步骤实施的。首先,使用专家手工标注的种子数据训练分类器。在初始训练步骤之后,使用更多的训练数据,将所有未标记的数据进行分类,并选择更多合适的数据来扩充种子数据,以提高分类器的性能。并使用了标准的机器学习分类器,SVM、MaxEnt和NB等方法进行自训练。在我们的建议中,我们采取以下步骤选择更准确的标注数据来扩大训练数据:所有未标记的数据都使用三种不同的分类器进行分类。当其中的两个在论元标注上达成一致时,分配的标注的概率高于预先设定的阈值,那么这个标注被认为是正确的标注,并添加到初始训练数据中。如果先前的条件不满足,那么选择分配的概率最大并且高于预设的阈值的作为正确标注。半自动标注数据之后由标注员进行修正。


确定有效和适用的特征在建立SRL系统中起着至关重要的作用。这些特征是由句法或语义解析系统驱动的。在我们的方法中,我们将使用依存关系解析器来提取特征。在我们的研究中,我们定义了表4所示的特性,以及由Gildea和Jurafsky(2002)定义的基本特性。为了提高SRL系统的性能,我们将研究更多特征的效果,如命名实体NE和生物学术语。


3.2 问题自动生成


AQG的执行分为三个步骤:内容选择(必须询问句子的哪一部分),根据选定的内容和构造问题确定问题类型。在本文中,我们提出的SRL系统首先标记了陈述句。根据标记的角色,选择内容和问题类型。在QG步骤中,应用了预先确定的模板和规则。我们计划除自动生成模板外手动生成模板。“Niye < X > < yuklem > ?(why<X><predicate>?)和“Ne zaman <X>< yuklem > ?”(when <X> <predicate>))是模板的例子。如果没有合适的模板来生成问题,则应用基于规则的方法。在基于规则的方法中,土耳其语的问题结构被认为是一个形式问题。在第一步中,所选内容将从句子中删除。然后,根据确定的语义角色来选择问题类型。例如,如果语义角色标签为Arg0,则使用“kim”(who)。在第三步中,所选内容将被疑问词取代。最后,将检查生成问题的语法。在QG阶段,为了避免产生模糊的问题像“canlı dağılımı için ne önemlidir?”(what is important forlive distribution?)从句子“Bu canlı dağılımıiçin önemlidir.” (This is important for live distribution.)。同时使用了一些过滤规则。举个例子,以 “Bu, Şu, O”(this, that, it)不会认为是描述句生成的问题。此外,为了增加问题的复杂性,我们将使用短语的意译。


4 评估


为了评估SRL系统,我们队精确率、召回率、F1和准确率进行了计算。为评估整个系统的效果下列情况下将会被评估:


l  论元识别性能

l  当已知论元时,论元的分类性能

l  训练数据在新闻领域而测试数据在生物学领域时系统性能,包括反过来的情况。

l  新闻和生物领域的自训练方法的性能。


Rus at al. (2010)以参数、相关性、问题类型、语法的正确性和流畅性、歧义性和多样性来评估生成的问题。所有的参数都在1和4之间,1是最好的分数,4是最差的分数。在本文中,我们将根据这些参数和将要定义的参数来评估生成的问题。“生成问题的教育意义”也可以成为这些参数之一。我们将请三位专家人工评估生成的问题。


5 结论


从教育学的角度来看,问题被用来评估学生对于老师讲课的理解程度。因此,问题自动生成方法通过自动生成疑问句来减轻老师的负担。此外,教学系统和问答都是一些可以从问题中受益的应用。


在本文中,我们提出了从描述句中生成问题的句法和语义方法。要做到这一点,需要采用一种三段方法。由于在语义方法中生成问题需要对句子进行语义分析,我们首先要构建一个生物领域的语义标注语料库的词汇语义资源。在第二阶段,我们建立了一个SRL系统解析句子语义。最后,从句法上和语义上对描述性句子进行分析,以生成疑问句。这是第一次使用语义方法在土耳其语上进行AQG。生物学领域中的语义标注语料库可以用于信息提取、问答和摘要等多种应用。研究生物语料库的性能同时也鼓励研究人员在化学、地理等其他领域将我们提出的方法转换为语义语料库。


表4 用于论元分类的特性。


论文下载链接:

http://www.aclweb.org/anthology/P/P17/P17-3014.pdf


留言 点赞 发个朋友圈

我们一起探讨AI落地的最后一公里


长按识别二维码可添加关注

读芯君爱你


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存