查看原文
其他

【NLP论文分享&&源码】多修辞文本生成(nFLAG)

ShuYini AINLPer 2023-07-10

点击上方AINLPer,最新干货/论文每日送达!!


中秋倒计时还有 1 天☀

引言

语言修辞通常用于口语和写作中,以实现一系列的交际目标。说话中带有修辞,如夸张、明喻、隐喻、习语、讽刺等,可以使表达更有趣和迷人,可以唤起更强烈的情感,更真切,在文字短语中使用能够让文本更有吸引力。为此本文提出了nFLAG的方法,它将多种修辞形式联合建模,实现不同修辞文本的生成。

正文开始



1背景介绍及遇到的问题    修辞语言的生成是指在忠实于原语境的前提下,用所期望的修辞方式重新构建特定文本。本文通过为英语中五种常见的修辞形式(夸张、明喻、隐喻、习语、讽刺)的自动生成提供基准,向多修辞语言建模迈出了第一步。在BART的基础上,我们采用了一种多修辞语言预训练方案(BART)和一种将目标修辞信息注入编码器的机制来训练mFLAG;这使得能够从另一个修辞形式生成具有目标修辞形式的文本,而无需对应修辞句对。实验结果显示本文的方法优于所有强基线。    随着神经网络的发展,尤其是大型预训练模型的出现,修辞语言自动生成越来越受到关注。我们看到这项任务有两个核心价值:    (a)依赖目前的计算方法可以用来更好地理解语言现象,更具体地说是不同的语言修辞;    (b)可以探索模型创造力上限,并使用它们来支持创造性写作,从而产生更多样化和更像人类的生成文本。    以往的研究多侧重于造型单一的修辞形式,一般是将一个字面句子改写成一个具有特定修辞形式的句子。这导致必须训练不同的模型,每个修辞都有一个模型,而且不能使用跨修辞形式模型。然而,由于不同的修辞格可能具有一些非字面性的特征,一篇文本也可能同时包含和组合多种修辞形式,因此是有可能从一种修辞形式向另一种修辞形式进行转换的。


2多修辞语言生成模型(mFLAG)
    针对这个问题,本文解决方法是将多种修辞形式联合建模,最终目标是建立一个单一的模型,依据输入的文本和不同修辞方式生成的不同的修辞文本。目前,多任务学习和使用域标签可能是多修辞语言建模的好方法,即在句子的开头添加一个特殊的标记来指导文本生成。这种方法需要数据对(即相同上下文但不同修辞形式的文本)来进行训练;这通常是不可获得的,特别是在不同的修辞形式之间,而且成本高昂。    为此我们根据现有的字面句子和单修辞形式之间的数据对,提出了mFLAG (Multi-Figurative Language Generation)方法,该方法适用于不同修辞之间的生成。mFLAG的训练分为两个阶段:    1、训练前,专门为多修辞方式语言进行设计,在每个句子的开头添加一个特殊的标签,以表明其修辞方式    2、利用有监督的训练,将所有修辞语言的修辞句子对组合起来,以实现多比喻语言的生成。在这里,我们引入了一种创新机制,允许表单标签将自己的修辞信息进入Embedding中,从而引导编码器表示源句子。这一机制使得不同的修辞形式之间可以产生不同的修辞文本数据。       整个多修辞语言模型如上图所示,其中在图(a)中,上面一部分是多修辞语言去噪预训练框架,其中单词掩膜作为注入的噪声,下面一部分是微调下游任务的修辞语言生成模型;在图(b)中,通过交叉注意和剩余学习将修辞信息注入编码器。


3实验结果与总结

1、五种修辞手法的正确率:
1、五种修辞方法的结果对比:
3、修辞方法之间的转换对比


3推荐阅读1、必看!!【AINLPer】自然语言处理(NLP)领域知识&&资料大分享2、【NLP论文分享&&源码】领域数据生成用于机器翻译
3、【英国谢菲尔德大学&&含源码】社交媒体舆论控制(RP-DNN)
4、【硬核干货,请拿走!!】历年IJCAI顶会论文整理(2016-2021)
5、【EMNLP2021&&含源码】当“Attention“遇到”Fast Recurrence“,强大的语言训练模型!!6、论文下载收费?有它不用怕!!


4Paper && CodeTILE: Multi-Figurative Language GenerationContributor : University of GroningenPaper:https://arxiv.org/pdf/2209.01835v1.pdfCodehttps://github.com/laihuiyuan/mflag

♥如果您喜欢AINLPer的文章♥

点击下方链接🔗关注我们叭

给个【赞】【再看】下方会有更多推荐



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存