ACL 2021 | 为什么机器阅读理解模型会学习走捷径?
©PaperWeekly 原创 · 作者 | Maple小七
学校 | 北京邮电大学硕士生
研究方向 | 自然语言处理
论文标题:
Why Machine Reading Comprehension Models Learn Shortcuts?
论文链接:
http://arxiv.org/abs/2106.01024
代码链接:
https://github.com/luciusssss/why-learn-shortcut
Introduction
机器阅读理解(MRC)任务通过问答的形式来衡量模型是否理解了自然语言文本,自 BERT 出现以来,许多基于预训练的 MRC 模型在一些 benchmark 数据集上接近甚至超越了 human performance,以至于不少论文通常会在结论中表述模型“理解(comprehend)”了文本的“含义(meaning)”。
然而深度学习模型终究只是统计模型,当前的 MRC 模型本质上仅仅是通过复杂的函数来拟合文本中的统计线索,从而预测答案而已,ACL 2020 最佳主题论文 Climbing towards NLU [1] 就指出仅仅在文本世界中构建模型而不与真实世界建立联系的话,模型永远只能学到“form”,学不到“meaning”。
因此近两年也出现了不少分析、批判与反思当前 MRC 模型存在的问题的论文,其中 What Makes Reading Comprehension Questions Easier? [2] 指出当前的MRC 模型其实并没有以我们预想的方式来推理答案,MRC 模型会学到很多捷径(shortcuts),或者说是一些显而易见的规律。
1.1 What is shortcuts?
come out
和begun
之间的语义一致性,并通过建立Scholastic journal
,Scholastic magazine
以及one-page journal
之间的共指关系(co-reference)来推导出正确答案是September 1876
。September 1876
是整个片段中唯一可以回答When
类问题的时间实体,也就是仅通过简单的疑问词匹配就可以正确回答问题,而不需要共指消解之类的复杂推导。利用这种简单的线索推导出的答案当然是不可靠的,如果文本中出现了两个时间实体,MRC 模型很可能就不知道哪个时间实体是答案了。由于捷径的存在,模型可以不用真正理解问题和片段的含义就推断出答案,比如 Did the Model Understand the Question? [4] 就发现把问题或片段的重要部分去掉以至于问题变得不可回答之后,MRC 模型仍旧能够给出正确答案,Adversarial Examples for Evaluating Reading Comprehension Systems [5] 尝试构建对抗样本来攻击 MRC 模型,实验结果表明当前的 MRC 模型是非常脆弱的,Assessing the Benchmarking Capacity of MRC Datasets [6] 也指出了当前的 benchmark 并没有真正衡量所谓的“阅读理解”能力。
MRC 模型走捷径的行为其实和人类有几分相似,我们在考试的时候遇到一个不会的题,总会去寻找一些无关线索来推导答案,比如三短一长选最长,参差不齐就选 C,以及数学考试中常见的排除法、特值法、估算法等。但我们在学习知识的过程中并不会采用这些技巧,因为这些技巧并不是真正的知识。
而模型与人类不同的地方在于,模型的学习行为是非常“懒”的,当前所有深度学习模型的优化算法都是随机梯度下降,即寻找当前状态的最优路径,因此模型会利用这些捷径来解决当下的最容易的问题,而不是像人一样去理解问题背后蕴含的知识。
虽然已经有许多论文证实了捷径现象的存在,同时也提出了一些办法来缓解这个问题,但还没有论文尝试探讨 MRC 模型是如何学到这些捷径技巧的,我们希望可以找到一个定量的方式来分析模型学习捷径问题和非捷径问题的内在机制。
为了更好地研究这个问题,我们遇到的第一个障碍就是目前还没有一个数据集包含训练样本是否存在捷径的标签,因此很难分析模型到底在多大程度上受到了捷径样本的影响,也很难分析 MRC 模型在回答问题时是否真的走了捷径。
本文以 SQuAD 数据集为基础,通过分别设计两个合成的 MRC 数据集来解决上述问题,在这两个数据集中,每个样本包含一个原样本(passage,question)的捷径版本(shortcut version)和挑战版本(challenging version),在构建数据集的时候,我们需要保证两个版本在长短、风格、主题、词表、答案类型等方面保持一致,从而保证捷径的存在与否是唯一的独立变量,最后,作者在这两个数据集上进行了几个实验来分析了捷径问题对 MRC 模型性能和学习过程的影响。
Synthetic Dataset Construction
在数据集的挑战版本中,作者将释义/复述(parphrasing)作为我们希望模型具备的推理能力,即能够识别不同词汇表达的同一个含义,因为大多数 MRC 数据集都希望模型能够学习到释义的能力。
在数据集的捷径版本中,作者考虑两种捷径:疑问词匹配(question word matching, QWM)和简单匹配(simple matching, SpM),QWM 是指模型可以通过识别疑问词类型来匹配答案,SpM 是指模型可以通过答案所在的句子和问题的词汇重叠来匹配答案。
3.1 QWM-Para Dataset
下图是 QWM-Para 数据集的构建流程,以下图为例,在捷径版本中,模型可以直接通过疑问词Who
与唯一的人物实体Beyonce
的匹配来推断出答案是Beyonce
,而在挑战版本中,另一个人物实体Lisa
构成了干扰项,这可以避免模型通过简单的疑问词匹配的捷径来推断答案,从而期望模型可以识别出named the most influential music girl
和rated as the most powerful female musician
之间的释义关系。
3.2 SpM-Para Dataset
下图是SpM-Para数据集的构建流程,在下例的捷径版本中,模型可以通过简单的词汇匹配rated as the most powerful female musician
或者通过语义匹配named as the most influential music girl
来获取答案Beyonce
,而在挑战版本中,我们只提供了原文的释义版本,从而避免了模型通过简单的词汇匹配获取答案,这对模型的释义能力提出了要求。
How the Shortcut Questions Affect Model Performance?
模型是如何学习到捷径技巧的?我们可以简单地猜测是因为数据集中的大部分问题都是捷径样本,因此模型会优先学习捷径技巧。下面我们通过观察使用不同比例的捷径样本训练出的模型分别在捷径测试集和挑战测试集上的表现,来确定模型在多大程度上受到了捷径样本的影响。
Whether Question Word Matching is Easier to Learn than Paraphrasing?
How do Models Learn Shortcuts?
前面我们通过实验证明了捷径样本确实更容易被拟合,模型更倾向于优先学习捷径技巧,我们可以猜想在训练的早期阶段,捷径样本所给出的梯度是更明确的(方差更小),因此模型更倾向于向拟合捷径样本的方向做梯度下降,然而在训练后期,模型将受困于捷径技巧的局部最优解,无法进一步学习更难的释义能力。
Discussion
MRC 模型走捷径问题其实反映了当前的模型优化算法的一个特点,即模型会优先学习更简单的样本,或者说优先拟合更简单的决策边界或概率分布,但这些简单的样本可能会将模型带入不太好的局部最优解,从而限制模型去解决更困难的问题,导致模型“安于现状”。
从阅读理解任务本身的角度来看,“阅读理解”本身就是很泛的,很难定义清楚的能力,我们并不清楚“理解”到底包含了哪些具体了能力,因此我们提供的训练数据和标签其实也并不能真正告诉模型我们希望它学习到什么能力,同时模型也并不一定会按照我们预期的方式来拟合数据集。
有趣的是,课程学习(Curriculum Learning, CL)恰好主张让模型先从容易的样本开始学习,并逐渐进阶到复杂的样本和知识,个人认为课程学习其实有一个隐含假设,就是解决困难问题所需的能力应该同样能够解决简单问题,如果解决简单问题和困难问题所需要的能力其实是两种不同的能力的话,课程学习可能就会失效。从这个角度来看,机器阅读理解在某种程度上是多任务学习和课程学习的混合体,因为“阅读理解”包含了不同角度的理解能力,每种理解能力又可以分为不同的层次。
特别鸣谢
感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。
参考文献
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧