QTrade AI 研究中心是一支将近 30 人的团队,主要研究方向包括:预训练模型、信息抽取、对话机器人、内容推荐等。本文介绍的是一篇信息抽取相关的论文,收录于 ACL 2021,论文提出了基于词依存信息类型映射的记忆神经网络,用于提升模型在关系抽取任务的性能。
论文标题:
Relation Extraction with Type-aware Map Memories of Word Dependencies
论文链接:
https://aclanthology.org/2021.findings-acl.221.pdf
代码链接:
https://github.com/cuhksz-nlp/RE-TaMM
关系抽取(Relation Extraction)是信息抽取和信息检索领域里很重要的一项研究任务,其任务目标是抽取文本中两个实体之间的关系。最近的研究表明,一种好的上下文信息建模机制,通过融合外部知识,譬如依存信息,能够很好地提升该任务的性能。考虑到除了词与词之间的依存关系,依存关系的类型同样会对关系抽取任务有帮助,此外,通过工具提取的依存信息不仅存在噪声,不同的依存信息对建模分析的贡献也不同,在上下文信息的建模过程中,融合依存信息,对不同的上下文特征进行区分建模,对提升模型的上下文表征能力会有帮助,进而提升模型在关系抽取任务的性能。因此,该研究提出了基于词依存信息类型映射记忆神经网络(Type-aware Map Memories,TaMM)的关系抽取模型,利用上下文关联的词以及词与词之间的依存关系类型对上下文信息进一步建模,对上下文特征进行区分建模。图1是该模型的架构图,图中展示了模型如何基于输入句子的依存句法树构建 in-entity(蓝色)和 cross-entity(绿色)等两种键-值记忆槽,通过类型映射记忆神经网络模块对上下文信息进行建模。
▲ 图1. 基于类型映射记忆神经网络的关系抽取模型架构图
具体地,对于每一个输入的文本,首先使用依存句法工具自动处理文本并生成依存树,根据两种不同类型的依存信息构建 in-entity 和 cross-entity 记忆槽,其中,in-entity 记忆槽是基于词的一阶依存信息构建,cross-entity 记忆槽是基于词与其他上下文关联词之间的依存路径构建。然后,使用 BERT 作为编码器,提取文本序列的表征h,并将文本序列表征h和两个记忆槽输入 TaMM 模块。在 TaMM 模块里,分别利用 in-entity 和 cross-entity 记忆槽融合键(上下文关联的词)和值(与词的依存关系类型)作为上下文特征,为了区分不同上下文特征的重要程度,采用了注意力机制,通过计算词和键之间的点积,作为权重分配给其上下文特征。最后,基于 TaMM 的输出,预测两个实体之间的关系标签。 为了检测该模型的性能,该研究在 ACE2005EN 和 SemEval 2010 Task 8 等两个基准数据集上进行实验。表 1 展示了该研究提出的模型和前人的模型在各个基准数据集上 F1 值的对比,其中 ACE2005 和 SemEval 分别对应 ACE2005EN 和 SemEval 2010 Task 8 两个基准数据集。从实验结果可以看出,该研究提出类型映射记忆神经网络模型在两个基准数据集上超越了前人的研究,达到了目前最高的关系抽取任务成绩,充分表明了该研究提出的模型能够有效利用上下文信息来提升模型性能。
另外,该研究还比较了 TaMM 和 KVMN、GAT、GCN 等不同模型利用依存信息,以及利用不同类型的依存信息,在两个基准数据集上的性能,表 2 展示了相应的实验结果。从结果可以看出,TaMM 相比其他模型能够更好地利用依存信息提升模型性能,同时也验证了两种不同类型的依存信息对提升模型性能的作用,而 TaMM 能够很好地利用两种类型的依存信息来提升模型性能。TaMM 和 KVMN 在相同设定下的对比实验也验证了键和值一样携带了有用的上下文信息,能够帮助模型提升性能。
▲ 表2. 不同模型利用依存信息,在两个基准数据集上的性能
为了对依存信息的有效性进一步分析,该研究还进行了几组不同设定的实验。 第一组实验是比较模型利用一阶、二阶、三阶依存信息在两个基准数据集上的表现,表 3 展示了相应的实验结果。从实验结果看,对于利用两种类型依存信息的模型 TaMM (Both),更高阶的依存信息可能会带来比有用信息更多的噪声,反而有损模型性能,而对于只利用一种类型依存信息的模型 TaMM (In),更高阶的依存信息能够更好覆盖两个实体之间依存路径上的上下文信息,表现则相反。
▲ 表3. TaMM利用一阶、二阶、三阶依存信息,在两个基准数据集上的性能
第二组实验是分析模型对捕获长距离词与词之间依存信息的能力,图 2 展示了模型在基准数据集 SemEval 不同实体距离组的实验结果。从结果可以看出,相比基准模型,TaMM 在不同实体距离的条件下都能表现得更好。
▲ 图2. 模型在SemEval数据集上不同实体距离组的性能第三组实验是比较模型使用不同依存树解析工具的性能,表 4 展示了模型使用不同依存树解析工具 Stanford CoreNLP Toolkits (SCT) 和 Spacy 在两个基准数据集上的性能。该结果验证了模型架构的鲁棒性。
▲ 表4:模型使用不同依存树解析工具,在两个基准数据集上的性能此外,为了提升模型的可解释性,该研究分析了 TaMM 利用两种不同类型依存信息记忆槽的情况。TaMM 模块采用了注意力机制,通过注意力机制分配合适的权重给不同的上下文特征。图 3 展示了 TaMM 利用两种不同类型依存信息记忆槽的例子,图中使用不同粗细的弧线来表示注意力机制分配给两个实体词“treadmill”和“space station”相关的上下文特征的权重,弧线越粗,表示分配的权重越高。
▲ 图3. TaMM利用两种不同类型依存信息记忆槽的例子,模型成功预测实体关系为Entity-Destination
该论文针对关系抽取任务,设计了基于词依存信息类型映射的记忆神经网络模型,其创新点在于:将依存信息及其关系类型用于上下文信息的建模,通过注意力机制区分上下文特征的重要性,在两个基准数据集上的实验结果超过了前人成绩,达到了目前最好的效果。
关于 QTrade
QTrade 是腾讯旗下领先的金融科技与监管科技公司,致力于为金融固定收益行业提供专业化、智能化的交易解决方案。以腾讯的即时通讯工具(IM)为入口、金融市场实时行情数据为依托、AI 语义解析能力为核心,QTrade 通过深耕固收市场交易业务流程、深挖交易痛点,搭建了以连接市场、提升效率、发现价值、满足合规为四大价值体系的产品版图,为固收市场及从业者提供自动化、集成化的智能平台服务。
欢迎 AI 领域志同道合的伙伴与腾讯 QTrade 取得联系:
zhaopin@qtrade.com.cn
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧