其他
【源头活水】通过对抗性训练和数据增强改进常识因果推理
“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。
地址:https://www.zhihu.com/people/sunshine-60-37
论文信息:https://arxiv.org/abs/2101.04966
发表:AAAI2021, 华为诺亚方舟实验室, 数据集:COPA和Balanced COPA,使用RoBERTa作为baseline
01
02
判别因果关系对人类来说很简单,Kappa=0.965,但是对机器来说很难。而且COPA数据集只有1000条,很小,模型性能不稳定,会依赖数据偏差。于是出现了Balanced COPA,去除了表面特征。
深度类型的方法的目标是获得关于一个特定输入的更多的信息,例如通过使用knowledge graph了解更多关于实体和事件输入的知识
广度类型的方法试图在其方法中涵盖更广泛的实例,例如通过确定通常用于表示特定关系的语法或语义特征的类型
第一种方法是对抗性训练-干扰原始输入,产生相似但更复杂的例子,可以看作是原始输入周围区域的数据点。覆盖原始数据点周围区域的目的是为模型提供更多关于输入的语义信息。
第二种方法是通过生成完全看不见的示例来增强数据,这将导致新数据点远离原始数据点。涵盖更广泛例子的目的是找出因果关联从句的一般模式。
03
(一) Causal Relation Classification Model
(二)Augmentation with Adversarial Examples
由于COPA数据集非常小,因此需要一种方法,使在COPA数据集上训练的模型在尽可能高的准确性和鲁棒性方面表现得更好。本节介绍使用对抗性训练的工作,方法是稍微干扰原始训练集输入的句子,并使用使训练模型失败的句子作为附加数据点。 根据Zang等人(2020)的框架,我们对他们的方法进行了各种修改,以适应COPA的任务。Zang等人(2020)使用基于BERT的模型进行自然语言推理和情感分析任务,对抗性地攻击输入,并表明使用扰动输入作为额外的训练数据使BERT模型更具鲁棒性。输入扰动是将输入中的一些内容词替换为与原词具有相同基本语义单位的词。通过使用HowNet,作者只使用那些与原词出现在同一词性的词来过滤潜在的替代词(Qi等人)。2019)作为词汇替换的资源。由于计算所有的组合是棘手的,Zang等人(2020)然后使用粒子群优化(Kennedy和Eberhart1995年,PSO)算法发现模型正确地分类了原始实例,但在受扰动的实例上失败的情况。 为了使这一方法适应当前的任务,我们在实施过程中作了以下调整: Knowledge Base: 由于资源的规模和质量,我们用WordNet代替HowNet。 Adversarial Attacks:我们用ACO(Dorigo 1992)代替PSO用于选择最佳摄动,目的是找到最优的对抗例子。蚁群算法是一种受到生物学启发的算法——蚂蚁在周围环境中寻找出路的方式,属于基于种群的搜索算法的范畴,其中还包括粒子群算法。这是一种元启发式技术(Talbi 2009),其重点是探索空间,而不是优化。蚁群算法能够找到图中两点之间的最佳路径,在我们的例子中,这两点是句子中的第一个和最后一个单词,路径是每个标记的所有潜在词汇化; Sentence Length:由于COPA句的平均长度较短,因此较短的句子也被纳入了干扰范围 Semantic Substitution: 只有在替换词与原词意义相同的情况下,才选择潜在的替换词,以确保替换词只与上下文相关的同义词进行替换,不改变句子的意思。为此,我们使用SupWSD执行词义消歧 Pretrained Model: Roberta代替bert 通过这些修改,将我们的对抗性攻击方法应用到COPA训练集可以使先前训练过的基于roberta的COPA分类模型失败的成功率达到11.82%,该模型最初对输入进行了正确的分类。这些成功的攻击导致了一组76个额外的训练项目,我们将其合并到原始训练数据中
在平均性能和标准偏差方面,对抗性增强模型的表现优于仅在原始数据上训练的模型。因此,对抗性训练既能提高模型的性能,又能提高模型的鲁棒性,而且只需要76个额外的数据点。
(三)Augmentation by Causal Sentence Extraction and Distractor Generation
在本节中,我们提出了一种从大型自由格式文本中自动查找新数据进行扩展的方法。这个扩展涉及三个重要步骤 Linguistically-motivated过滤策略: 与许多话语关系一样,因果关系既可以通过句子内容含蓄地表达,也可以通过使用话语连接词明确地表达。在这项工作中,我们依靠这种关系的明确表达来寻找原始网络文本中的因果关联子句。我们总共定义了8种因果联系,包括正向和反向投射实例(as a result, because, if, since, so, therefore, thus, when)。 大量的自由格式文本资源。由于我们的候选增补句子标准非常严格,因此我们仅预期会遇到少量可用的文本资源。此外,COPA中的句子在其(可感知的)来源方面也各不相同,范围从儿童书中可能遇到的句子到最有可能来自报纸文本的句子。因此,将传统的标准单域数据集用于扩充任务似乎不太理想。因此,我们选择使用最近发布的OpenWebText语料库(Gokaslan and Cohen 2019),它本身是从Radfordet等人引入的非开放数据集衍生而来的。OpenWebText包含来自800万个文档中的40GB文本,涵盖了众多资源和领域。这些属性使其成为我们严格的COPA句子过滤方法的理想资源。 数据增强工具链。有了适当的文本资源和过滤策略,我们如下建立了用于数据增强的工具链。首先,我们从OpenWeb-Text中提取大量可能符合以前要求的句子。为了确保所提取句子的正确性以及它们编码的因果关系,我们使用Lin,Ng和Kan(2014)的PennDiscourse Treebank解析器分析每个句子,并拒绝所有未能解析或不宣扬具有所需的关系。经过所有过滤步骤和PDTB解析后,我们获得了有效句子,构成前提和单一选择的正例。 实验:为了评估我们的提取增强方法对COPA性能的影响,我们在使用不同方法生成新数据的设置之间进行了比较实验 我们根据从上面描述的增强策略派生的数据来训练我们的通用分类架构。为此,我们首先在每个生成方法(随机、重叠和GPT-2)上生成400个新的训练实例,并在原始COPA数据、单个增强数据集以及增强数据和原始数据的合并集上训练模型。表3显示了在单个数据集以及合并的原始数据和增强数据上的训练结果 将原始COPA添加到扩充数据集时,我们始终能够获得更高的模型性能。仅使用COPA训练的模型之一就可以在测试集上达到91%,但这是以超过4点的严重标准偏差为代价的–仅在随机或基于重叠数据的模型上训练的模型偏差就“超过”了。根据测试集的唯一最佳模型是基于GPT-2生成的数据以及COPA训练数据,达到94%的准确性。 尽管所有增强数据集(Random + Base,Over-lap + Base和GPT-2 + Base)在大多数情况下均会导致较高的模型性能和较低的标准差得分,但GPT-2 + Base augmentation优于其他两种方法,这就是总的来说,我们的实验表明我们的扩充策略能够生成包含高质量“类似于COPA”示例的数据,这些数据对于改善模型性能非常有用。
04
本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
“源头活水”历史文章
简单不过图卷积-Spatial Graph ConvNets
SCUT-FBP5500 人脸美学预测
Attention Is All You Need (Transformer模型)
从双层优化视角理解对抗网络GAN
EF-Net一种适用于双流SOD的有效检测模型(Pattern Recognition)
从傅立叶变换到炒股:基于多频率分析的递归神经网络
从样本对抗到模型对抗:Worst-Case Perturbations (WCP) 对抗模型
T-PAMI 2021:换个损失函数就能实现数据扩增?
Transformer in CV—— Vision Transformer
Inductive Biases for Deep Learning By Bengio
OneNet: End-to-End One-Stage Object Detection
基于认知图谱实现多跳阅读
A Little Introduction of Neural ODE
PDE遇见深度学习
Seesaw Loss:一种面向长尾目标检测的平衡损失函数
更多源头活水专栏文章,
请点击文章底部“阅读原文”查看
分享、在看,给个三连击呗!