EMNLP2022 | 带有实体内存(Entity Memory)的统一编解码框架 (美国圣母大学)
引言
实体作为现实世界知识的重要载体,在许多 NLP 任务中发挥着关键作用,许多实体密集型 NLP 任务需要模型获取实体知识以生成信息输出。现有方法大多采用索引、检索和读取外部文档来获取实体知识,但是这样需要很大的计算开销。「为此本文提出了一个带有实体内存(Memory)的Encoder-Decoder框架,即EDMem」。
背景介绍
大量现实世界的知识与实体有关,例如人、国家和事件。实体知识是描述与实体相关的事实和属性的信息。许多实体密集型 NLP 任务需要模型获取实体知识以生成信息输出,例如回答事实问题、解释声明或进行信息对话。预训练的Encoder-Decoder模型可以直接应用于此类实体密集型任务,但它们存储和使用知识的方法仍然存在一定的问题。「将知识纳入生成过程的一种主流做法是从外部来源检索证据文件。但是,它们在索引、检索和读取大量额外文档时会需要巨大的计算开销」。因此,在不牺牲太多性能的情况下,让Encoder-Decoder模型访问实体知识非常重要。
最近,有人提议使用模型内部存储,用实体链接任务的实体知识来增强自动编码器模型。实体内存将实体知识存储为密集向量,可以直接合并到Transformer模型的隐藏状态中,而不需要编码额外的文本。然而,「以前方法中的自动编码器框架只能从预定义的实体词汇表中选择实体,但是不能给出词汇表以外的实体,更不能生成单个实体以外的答案或文本」。
基于以上考虑,本文提出了一个具有实体内存(EDMem)的新的Encoder-Decoder框架。「EDMem 是各种实体密集型 QA 和生成任务的统一框架」,我们在其中训练实体记忆来实现高效的知识整合。
模型介绍
EDMem的模型架构
EDMem的模型架构图如下所示。该框架有一个Transformer编码器、一个Transformer解码器、一个实体存储器和两个预测头。
实体内存
实体内存包含一个大型嵌入表,该表存储实体嵌入。直观地说,实体嵌入包含维基百科文档中所有提及实体的上下文信息。「在编码和解码过程中,EDMem 在遇到提及时会查询实体内存」。
模型调优
在下游任务上对其进行微调时,为了精确生成实体名称,利用 EDMem 在其生成过程中的实体链接能力,「我们设计了三种解码方法」。如下图所示:
(1) 自由形式:使用实体标识符从左到右生成; (2)静态实体链接:首先通过实体链接选择实体,为选择的实体构建前缀树,然后利用树进行约束实体生成; (3) 动态实体链接:动态选择实体以生成受约束的实体。
实验结果
本文在实体知识的两个测试平台上测试了我们的EDMem框架:「开放域QA和实体密集型生成任务」。
1、「开放域 QA 数据集的精确匹配分数」如下图。粗体分数和下划线分数是闭卷模型中最好和次优的结果。(*传统的编码器-解码器模型,†基于内存的自动编码器模型)
论文
Paper:https://arxiv.org/pdf/2210.03273.pdf
推荐阅读
[1] 论文速递 && EMNLP2022 | 接受论文抢先看!!!(内含下载列表)
[2] NeurIPS2022 | 训练缺少数据?你还有“零样本学习(zero-shot Learning)”(香槟分校)
[3]【历年NeurIPS论文下载】一文带你看懂NeurIPS国际顶会(内含NeurIPS2022)