引言
今天分享的七篇文章主要包括基于ChatGPT的信息抽取,知识图谱问答、基础推理(UR)对QA的影响,基于大模型的上下文学习、会话问答、语义解析提升图谱QA以及摘要生成。并且所有文章都有源码下载。具体文章及源码下载方式回复:20230327
基于ChatGPT的信息抽取
零样本信息提取 (IE) 旨在从未注释的文本构建 IE 系统。由于涉及很少的人为干预,因此具有挑战性,但是该方式可以大大减少数据标记所需的时间和精力。最近对大型语言模型(LLM,例如 GPT-3、ChatGPT)的研究,在零样本设置上表现出了强大的性能,从而启发探索基于提示的方法来实现零样本信息提取。 在这项工作中,主要探寻是否可以通过直接提示 LLM 来构建强大的 IE 模型。具体来说,我们将零样本 IE 任务转换为具有两阶段框架 (ChatIE) 的多轮问答问题。「借助 ChatGPT 的强大功能,我们在三个 IE 任务上广泛评估了我们的框架:实体关系三重提取、命名实体识别和事件提取」。两种语言的六个数据集的实证结果表明,ChatIE 取得了令人印象深刻的性能,甚至超过了几个数据集(例如 NYT11-HRL)上的一些全样本模型。
知识图谱QA
知识图(KG)是一种信息存储,其中数据以节点-边-节点三元组的形式存储。节点表示实体,边表示这些实体之间的关系。「一些 KGQA 系统试图主要根据节点和边的方式来获取答案,这通常最终成为图中的另一个实体(节点)。然而,对于更复杂的问题,例如答案不在于图中的节点或边」。语义解将析与 KGQA 问题关联起来,我们在这项工作中的重点是生成可以在 KG 上执行的最终 SPARQL 查询。
在这项工作中,我们「提出了一个端到端的知识图谱问答(KGQA)系统,命名为GETT-QA。GETT-QA使用T5(一种流行的文本到文本预训练语言模型)」。该模型以自然语言的问题作为输入,并生成更简单形式的SPARQL查询。在更简单的形式中,模型不直接生成实体和关系 ID。相反,它会生成相应的实体和关系标签。在后续步骤中,标签以 KG 实体和关系 ID 为基础。为了进一步改善结果,我们引导模型为每个实体生成截断KG嵌入。经过截断的KG嵌入能够消除歧义并提供更好的搜索结果。 实验结果发现T5能够在不改变损失函数的情况下学习截断KG嵌入,提高了KGQA性能。并且在LC-QuAD 2.0和SimpleQuestions-Wikidata数据集上得到了相当好的结果。
基础推理对QA的影响
为了解释预测的答案并评估模型的推理能力,一些研究在多跳问答 (QA) 数据集中利用了基础推理 (UR) 任务。然而,当以端到端的方式在两个任务上训练模型时,UR 任务对 QA 任务的有效性如何仍然是一个悬而未决的问题。在这项研究中,我们通过分析 UR 任务(包括句子级和实体级任务)在三个方面的有效性来解决这个问题:(1)QA 性能,(2)推理捷径,以及(3)稳健性。 虽然之前的模型尚未针对实体级推理预测任务进行明确训练,但我们「构建了一个多任务模型,可同时执行三个任务:句子级支持事实预测、实体级推理预测和答案预测」。在WikiMultiHopQA 和 HotpotQA-small 数据集的实验结果表明 (1) UR 任务可以提高 QA 性能;(2) UR 任务有助于防止多跳 QA 任务中的推理捷径;(3) UR 任务无助于提高模型在对抗性问题(例如子问题和倒置问题)上的鲁棒性。
上下文学习(大模型)
大型预训练语言模型(LMs)在上下文学习(ICL)能力方面展现了强大的性能,其中模型通过由输入-输出示例组成的提示作为Demo来学习执行一个不可见的任务,而不需要任何参数更新。ICL的性能在很大程度上取决于所选上下文示例的质量。然而,以往的选择方法大多基于简单的启发式,导致性能欠佳。 在这项工作中,将上下文中的示例选择表述为子集选择问题。我们「提出了CEIL(用于上下文内学习的组合范例),它由Determinantal Point Processes (DPPs)实例化,以模拟给定输入和上下文内示例之间的交互,并通过精心设计的对比学习目标进行优化,以获得LM的偏好」。 最后在7个不同NLP任务的12个分类和生成数据集上验证了CEIL,包括情感分析、释义检测、自然语言推理、常识推理、开放域问题回答、代码生成和语义解析。大量的实验不仅证明了最先进的性能,而且还证明了CEIL的可移植性和组合性,为有效和高效的语境内学习提供了新的思路。
ConvQA模型优化
「会话问答 (ConvQA) 模型旨在用相关段落和在对话期间多次出现的问答对来回答问题」。为了将此类模型应用于现实场景,一些现有工作使用预测答案而不是真实答案。然而,由于这些模型通常会出现预测错误的答案,因此在不进行过滤的情况下使用所有预测结果会严重影响模型的性能。 为了解决这个问题,我们根据 ConvQA 模型估计的置信度和不确定性过滤掉对话历史中不准确的答案,而不进行任何架构更改。此外,为了使置信度和不确定性值更可靠,我们进一步校准它们,从而平滑模型预测。我们在两个标准的 ConvQA 数据集上验证了我们的模型,基于答案选择的现实对话问答,结果表明我们的模型明显优于相关基线。
语义解析(知识图谱)
在本文中,主要研究语义解析器,这些「语义解析器可以理解嵌入在与用户对话中的自然语言问题,并将其用于对具有非常大词汇表(涵盖数千个概念名称和关系以及数百万个实体)的通用知识图(KG)中定义的正式查询」。 为此,我们开发了一个数据集,其中用户问题用 Sparql 解析注释,系统答案对应于其执行结果。我们提出了两种不同的语义解析方法并强调了任务的挑战:处理大量词汇、建模对话上下文、预测具有多个实体的查询以及在测试时泛化到新问题。我们希望我们的数据集将成为开发会话语义解析器的有用测试平台。
摘要生成
最先进的摘要系统可以生成非常流畅的摘要。然而,这些「摘要可能包含事实不一致和/或来源中不存在的信息」。因此,评估摘要质量的一个重要组成部分是确定来源和摘要之间是否存在信息一致性。现有方法通常基于词汇匹配或基于表示的方法。 在这项工作中,我们「提出了一种基于标准信息理论测量的替代方案,其中直接比较源和摘要中存在的信息」。我们提出了一个多选题回答和生成框架 MQAG,它通过计算自动生成的多选题的摘要和源答案分布之间的预期 KL 散度来近似信息一致性。这种方法利用了多项选择答案的概率,因为可以很容易地比较预测的答案分布。我们对四个汇总评估数据集进行了实验:QAG-CNNDM/XSum、XSum-Faithfulness、Podcast Assessment 和 SummEval。实验表明,MQAG(使用在 RACE 上训练的模型)在大多数任务上优于现有的评估方法。
推荐阅读
[1] 收藏!ChatGPT等大语言模型(LLMs)测试数据集
[2] 2023年!自然语言处理 10 大预训练模型
[3] NLP不断突破界限,2023 十篇必读的顶级NLP论文!
[4] 看ChatGPT如何"爆锤"BRET,结果却令人诧异......
[5] 你必须要知道的 “ 十二个国际顶级会议 ” !
点击下方链接🔗关注我们
「资料整理不易,点个赞、再看吧」