ACL 2021 | 为什么机器阅读理解模型会学习走捷径？

Original Maple小七 PaperWeekly 2022-07-04

收录于合集 #自然语言处理 247个

©PaperWeekly 原创 · 作者 | Maple小七

学校 | 北京邮电大学硕士生

研究方向 | 自然语言处理

虽然当前的 MRC 模型在不少阅读理解 benchmark 上接近甚至超越了人类表现，但有许多研究都表明当前的 MRC 模型是脆弱的、不可靠的。本文主要探讨了 MRC 模型推理倾向于走捷径的问题，作者构造了两个数据集对比分析了捷径问题的存在对模型的表现和学习过程的影响，实验结果表明捷径问题会阻碍 MRC 模型学习真正的“阅读理解”能力。

论文标题：

Why Machine Reading Comprehension Models Learn Shortcuts?

论文链接：

http://arxiv.org/abs/2106.01024

代码链接：

https://github.com/luciusssss/why-learn-shortcut

Introduction

机器阅读理解（MRC）任务通过问答的形式来衡量模型是否理解了自然语言文本，自 BERT 出现以来，许多基于预训练的 MRC 模型在一些 benchmark 数据集上接近甚至超越了 human performance，以至于不少论文通常会在结论中表述模型“理解（comprehend）”了文本的“含义（meaning）”。

然而深度学习模型终究只是统计模型，当前的 MRC 模型本质上仅仅是通过复杂的函数来拟合文本中的统计线索，从而预测答案而已，ACL 2020 最佳主题论文 Climbing towards NLU [1] 就指出仅仅在文本世界中构建模型而不与真实世界建立联系的话，模型永远只能学到“form”，学不到“meaning”。

因此近两年也出现了不少分析、批判与反思当前 MRC 模型存在的问题的论文，其中 What Makes Reading Comprehension Questions Easier? [2] 指出当前的MRC 模型其实并没有以我们预想的方式来推理答案，MRC 模型会学到很多捷径（shortcuts），或者说是一些显而易见的规律。

比如之前讲过的 Position Bias in Question Answering [3] 就发现 MRC 模型会通过位置信息来寻找答案，因为 SQuAD 的答案大多集中于整篇文章的第一句话，所以 MRC 模型会倾向于预测答案大概率在第一句话中，当我们把第一句话移到文末时，模型的表现就会急剧下降，然而矛盾的是，曾经有一些论文会将答案的位置信息当作 MRC 模型的输入特征，虽然人类在进行阅读理解时，推导答案的位置并不构成“理解”。

1.1 What is shortcuts?

当一个问题可以通过走捷径来回答的时候，我们就称该问题是捷径问题。上图是一个简单的例子，我们希望 MRC 模型可以理解come out和begun之间的语义一致性，并通过建立Scholastic journal，Scholastic magazine以及one-page journal之间的共指关系（co-reference）来推导出正确答案是September 1876。

但实际上，模型可以直接识别出September 1876是整个片段中唯一可以回答When类问题的时间实体，也就是仅通过简单的疑问词匹配就可以正确回答问题，而不需要共指消解之类的复杂推导。利用这种简单的线索推导出的答案当然是不可靠的，如果文本中出现了两个时间实体，MRC 模型很可能就不知道哪个时间实体是答案了。

由于捷径的存在，模型可以不用真正理解问题和片段的含义就推断出答案，比如 Did the Model Understand the Question? [4] 就发现把问题或片段的重要部分去掉以至于问题变得不可回答之后，MRC 模型仍旧能够给出正确答案，Adversarial Examples for Evaluating Reading Comprehension Systems [5] 尝试构建对抗样本来攻击 MRC 模型，实验结果表明当前的 MRC 模型是非常脆弱的，Assessing the Benchmarking Capacity of MRC Datasets [6] 也指出了当前的 benchmark 并没有真正衡量所谓的“阅读理解”能力。

MRC 模型走捷径的行为其实和人类有几分相似，我们在考试的时候遇到一个不会的题，总会去寻找一些无关线索来推导答案，比如三短一长选最长，参差不齐就选 C，以及数学考试中常见的排除法、特值法、估算法等。但我们在学习知识的过程中并不会采用这些技巧，因为这些技巧并不是真正的知识。

而模型与人类不同的地方在于，模型的学习行为是非常“懒”的，当前所有深度学习模型的优化算法都是随机梯度下降，即寻找当前状态的最优路径，因此模型会利用这些捷径来解决当下的最容易的问题，而不是像人一样去理解问题背后蕴含的知识。

不过，这并不代表模型就不能超越人类表现，机器虽然不具备人类的常识、世界知识和推理能力，但机器可以通过分析上百万张试卷来记忆足够多的技巧和捷径，最后甚至能取得接近人类水平的成绩（NLP 能够做到完成英语四六级的阅读理解题目吗？[7] ）。

1.2 How to deal with shortcuts?

虽然已经有许多论文证实了捷径现象的存在，同时也提出了一些办法来缓解这个问题，但还没有论文尝试探讨 MRC 模型是如何学到这些捷径技巧的，我们希望可以找到一个定量的方式来分析模型学习捷径问题和非捷径问题的内在机制。

为了更好地研究这个问题，我们遇到的第一个障碍就是目前还没有一个数据集包含训练样本是否存在捷径的标签，因此很难分析模型到底在多大程度上受到了捷径样本的影响，也很难分析 MRC 模型在回答问题时是否真的走了捷径。

本文以 SQuAD 数据集为基础，通过分别设计两个合成的 MRC 数据集来解决上述问题，在这两个数据集中，每个样本包含一个原样本（passage，question）的捷径版本（shortcut version）和挑战版本（challenging version），在构建数据集的时候，我们需要保证两个版本在长短、风格、主题、词表、答案类型等方面保持一致，从而保证捷径的存在与否是唯一的独立变量，最后，作者在这两个数据集上进行了几个实验来分析了捷径问题对 MRC 模型性能和学习过程的影响。

Synthetic Dataset Construction

在数据集的挑战版本中，作者将释义/复述（parphrasing）作为我们希望模型具备的推理能力，即能够识别不同词汇表达的同一个含义，因为大多数 MRC 数据集都希望模型能够学习到释义的能力。

在数据集的捷径版本中，作者考虑两种捷径：疑问词匹配（question word matching, QWM）和简单匹配（simple matching, SpM），QWM 是指模型可以通过识别疑问词类型来匹配答案，SpM 是指模型可以通过答案所在的句子和问题的词汇重叠来匹配答案。

作者在 SQuAD 数据集的基础上构造上述两个数据集，通过 back-translation 来获取释义句，最后得到的 QWM-Para 数据集和 SpM-Para 数据集的训练/测试集的大小分别为 6306/766 和 7562/952，下面简单讲解数据集的构建流程，更详细的构建细节可参考原文。

3.1 QWM-Para Dataset

下图是 QWM-Para 数据集的构建流程，以下图为例，在捷径版本中，模型可以直接通过疑问词Who与唯一的人物实体Beyonce的匹配来推断出答案是Beyonce，而在挑战版本中，另一个人物实体Lisa构成了干扰项，这可以避免模型通过简单的疑问词匹配的捷径来推断答案，从而期望模型可以识别出named the most influential music girl和rated as the most powerful female musician之间的释义关系。

3.2 SpM-Para Dataset

下图是SpM-Para数据集的构建流程，在下例的捷径版本中，模型可以通过简单的词汇匹配rated as the most powerful female musician或者通过语义匹配named as the most influential music girl来获取答案Beyonce，而在挑战版本中，我们只提供了原文的释义版本，从而避免了模型通过简单的词汇匹配获取答案，这对模型的释义能力提出了要求。

How the Shortcut Questions Affect Model Performance?

模型是如何学习到捷径技巧的？我们可以简单地猜测是因为数据集中的大部分问题都是捷径样本，因此模型会优先学习捷径技巧。下面我们通过观察使用不同比例的捷径样本训练出的模型分别在捷径测试集和挑战测试集上的表现，来确定模型在多大程度上受到了捷径样本的影响。

作者训练了两个经典的 MRC 模型：BiDAF 和 BERT，如下图所示，当我们将数据集中的捷径问题的比例从 0% 增加到 90% 时，MRC 模型在挑战样本上的表现都出现了大幅下降，值得关注的是，针对 BiDAF 模型，即使数据集全是挑战样本，BiDAF 模型在捷径样本上的表现也非常好，增加捷径样本仅能带来很小的提升，但却会让模型在挑战样本上的表现大幅下降，这表明捷径问题的存在阻碍了释义技巧的学习。

Whether Question Word Matching is Easier to Learn than Paraphrasing?

我们可以注意到，当训练集的捷径样本和挑战样本的比例为时，MRC模型还是会在捷径问题上取得更好的表现，这表明模型倾向于优先拟合捷径样本，这表明学习词汇匹配比学习释义要简单得多。为了验证这个想法，作者分别在捷径数据集和挑战数据集上训练 MRC 模型，然后比较在训练集上达到同等水平所需要的迭代次数和参数量。

实验结果如下图所示，我们可以发现 MRC 模型在捷径数据集上训练的迭代次数要更少，同时所需要的参数量也更少，这表明释义能力的确是更难学到的。

How do Models Learn Shortcuts?

前面我们通过实验证明了捷径样本确实更容易被拟合，模型更倾向于优先学习捷径技巧，我们可以猜想在训练的早期阶段，捷径样本所给出的梯度是更明确的（方差更小），因此模型更倾向于向拟合捷径样本的方向做梯度下降，然而在训练后期，模型将受困于捷径技巧的局部最优解，无法进一步学习更难的释义能力。

同一个 MRC 模型在捷径数据集和挑战数据集上的表现差距越大，我们就可以认为该模型学到了更多的捷径技巧，基于此，作者尝试分别在包含 10% 捷径样本和 90% 捷径样本的训练集上训练 MRC 模型。实验结果如下图所示，可以发现在训练的早期阶段，模型在捷径数据集和挑战数据集上的表现差异逐渐增大，这一结果表明，模型在训练的早期阶段倾向于学习捷径技巧，从而在捷径样本上的表现提升得更快。

到了训练的中后期阶段，当训练集只包含 10% 的捷径样本时，这一差异转而会逐渐下降，这表明模型开始更多地学习更难的释义技巧，此时挑战样本对梯度的贡献变得更为明显，但如果训练集包含了 90% 的捷径样本，这一差异会趋于平稳，这说明模型的学习路线依旧被捷径样本所主导，模型无法通过仅有的 10% 的挑战样本学习释义技巧，即少数未解决的挑战性样本无法激发模型去学习更复杂的释义技巧。

Discussion

MRC 模型走捷径问题其实反映了当前的模型优化算法的一个特点，即模型会优先学习更简单的样本，或者说优先拟合更简单的决策边界或概率分布，但这些简单的样本可能会将模型带入不太好的局部最优解，从而限制模型去解决更困难的问题，导致模型“安于现状”。

从阅读理解任务本身的角度来看，“阅读理解”本身就是很泛的，很难定义清楚的能力，我们并不清楚“理解”到底包含了哪些具体了能力，因此我们提供的训练数据和标签其实也并不能真正告诉模型我们希望它学习到什么能力，同时模型也并不一定会按照我们预期的方式来拟合数据集。

有趣的是，课程学习（Curriculum Learning, CL）恰好主张让模型先从容易的样本开始学习，并逐渐进阶到复杂的样本和知识，个人认为课程学习其实有一个隐含假设，就是解决困难问题所需的能力应该同样能够解决简单问题，如果解决简单问题和困难问题所需要的能力其实是两种不同的能力的话，课程学习可能就会失效。从这个角度来看，机器阅读理解在某种程度上是多任务学习和课程学习的混合体，因为“阅读理解”包含了不同角度的理解能力，每种理解能力又可以分为不同的层次。

总体来说，虽然从指标上看，当前的 MRC 模型已经很厉害了，但当前的 SOTA 可能仅仅是离月亮最近的一个树梢而已。

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

参考文献

[1] https://www.aclweb.org/anthology/2020.acl-main.463.pdf

[2] https://arxiv.org/abs/1808.09384

[3] https://zhuanlan.zhihu.com/p/319443331

[4] https://arxiv.org/pdf/1805.05492

[5] https://arxiv.org/abs/1707.07328

[6] https://arxiv.org/pdf/1911.09241.pdf

[7] https://www.zhihu.com/question/457524162/answer/1866319028

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

跟着南通住建局学“朝令夕改”

ACL 2021 | 为什么机器阅读理解模型会学习走捷径？

您可能也对以下帖子感兴趣

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

跟着南通住建局学“朝令夕改”

生成图片，分享到微信朋友圈

ACL 2021 | 为什么机器阅读理解模型会学习走捷径？

您可能也对以下帖子感兴趣