查看原文
其他

刷新SQuAD2.0 | 上海交通大学回顾式阅读器(Retro-Reader)解析

张倬胜 PaperWeekly 2022-03-17


“知之为知之,不知为不知,是知也。”


©PaperWeekly 原创 · 作者张倬胜

学校|上海交通大学

研究方向|自然语言理解

阅读理解不仅需要根据篇章准确回答问题,还要识别并拒绝无法回答的问题。当前机器阅读理解系统主要得益于强大的预训练语言模型,即编码器模块。从阅读理解角度而言,编码器模块仅着眼于“阅读”。本文致力于探索更好的“解码”设计,重点关注判别器模块。启发于人类的阅读理解模式,提出一种回顾式阅读器(Retrospective Reader),集成两阶段阅读和验证的模式。


该模型于 2020 年 1 月 10 日,在斯坦福大学发起的机器阅读理解挑战赛 SQuAD 2.0 (Stanford Question Answering Dataset 2.0) 中荣登榜首,刷新了单模型和集成模型的最佳纪录;模型在 NewsQA 数据集上也获得了当前最高性能。此外,本文首次针对阅读理解任务定义统计显著性检验,并表明模该型显著优于基准模型。

引言机器阅读理解(MRC)是自然语言理解(NLU)中的一项重要且长期的目标,旨在训练机器理解文本后准确地回答问题。机器阅读理解具有良好的应用前景,例如自动问答、对话系统等。前期阅读理解工作假定所有问题均可回答,主要关注篇章和文本的建模和交互设计;近期,伴随不可回答问题的阅读理解成为一大热点,后者更加接近真实应用。 
对于伴随不可回答问题的机器阅读理解(本文关注类型),模型需具备两方面的能力:1)判断问题是否可回答;2)准确回答问题。为了进行可回答性判断,需要对给定的文本有深入的理解和精巧的判别设计,并使得阅读理解系统更接近于实际应用。相对应地,阅读理解研究可大致分为两个方面:1)构建强劲的语言模型作为文本编码建模模块;2)设计精巧的“解码”策略给出准确有效的回答。 
*注:本文认为,自然语言处理任务通常可视为编码-解码模式。 
在阅读理解任务中,编码器(即 PLM)的能力依然是压倒性的,但是答案验证器(verifier)的作用也变得重要,性能良好的验证器对于强编码器上的性能提升是决定性的。诸如 BERT、XLNet、ALBERT 等预训练语言模型(PLM)已经在各种自然语言处理任务上取得了一系列成功,广泛地发挥了强大的编码器的作用。
然而,预训练语言模型耗费大量的计算资源和计算时间。此外,当前相关研究针对阅读理解任务相适应的解码模块关注较少,而有效的解码设计对阅读理解具有重要影响,无论编码模块本身有多强,均能获得一致提升。 
本文基于人类阅读理解考试中的阅读思路:首先,通读全文和问题,掌握大意,初步判断;其次,复读全文,验证答案,给出答案。受此启发,提出一种回顾式阅读器(Retrospective Reader, Retro-Reader),集成两阶段阅读和验证的模式。


模型Retro-Reader 模型包括略读模块(sketchy reading module)和精读模块(intensive reading module)来模拟人类阅读。略读模块用于阅读文章和问题,得到初步的判断;精读模块验证可回答性,并给出候选。两个模块的输出汇总在一起,以做出最终决定。

▲ 图1. 阅读理解系统概览

略读模块由编码层、交互层和外部前置验证器(E-FV)构成。编码层用于将输入文本编码,进而输入到多层 Transformer 交互层构建篇章和问题间的向量空间关系,得到的隐层向量表示在验证器得到可回答性的初步预测。

精读模块使用与略读模块同样的编码和交互。在得到隐层向量表示后,在输入线性层得到用于可回答问题的起止位置概率的同时,并行输入到内部前置判别器(I-FV),得到不可回答的概率。此外,在早期阅读理解研究中,一大热点为基于注意力机制显性地构建篇章和问题关联,受此启发,本文在深层 Transformer 交互层后,探索了两种基于问题导向的篇章上下文融合机制,来考察在强大的预训练语言模型基础上,此类注意力机制是否还能带来提升。

最后,E-FV 和 I-FV 的不可回答概率在后置判别器中(RV)融合得到最终的回答决策。

统计显著性分析当前阅读理解相关研究发展迅猛,模型性能已达到较高的水平。因此,统计显著性测试对于评估模型性能的差异变得更加重要。本文基于较为严苛的完全匹配(Exact Match)指标进行显著性测试,并将测试建模成一个二分类问题:评估模型的每个预测完全正确与否。基于任务特点,使用一种配对样本的非参数检验--麦克尼马尔检验(McNemar’s test)来测试结果显著性,其零假设为:两个模型的预测结果(正确或错误)的总体分布无显著差异。

▲ 图2. 交叉二维频数表该测试采用二项分布检验,针对两个模型预测的结果变化频率,计算二项分布的概率值,大样本下有近似为 1 的卡方统计量:

在显著性测试中,p 值定义为在零假设下获得等于或大于观察到的极端结果的概率。p 值越小,显著性越大。常用可靠性水平为 95%,即 p = 0.05。实验结果

实验结果表明,本文提出的 Retro-Reader 不仅显著优于基准模型 ALBERT,并且在 SQuAD2.0 排行榜超越了所有模型,刷新了单模型和集成模型的最佳纪录。

此外,模型在 NewsQA 数据上同样达到了一致的提升,并取得了数据集上的最高结果。


答案分析
首先是判别器消融分析,对比使用不同的答案判断模式。


我们观察到,任何一个前置判别器(FV)都可以提高基线性能,并且将两者集成在一起作为后置判别(RV)性能最佳。


对于问题导向的篇章上下文融合机制,可以看到,在较强的预训练语言模型后端增加额外的显性交互层只能带来微弱的结果变化,验证了语言模型捕获段落和问题之间关系的强大能力。相比之下,答案判别模块可以带来更加实质性的提升,表明了答案判别的研究潜力。
为了直观地观察预测结果差异,我们给出了基准 ALBERT 和 Retro-Reader 模型给出了有关 SQuAD2.0 的预测示例。



上述结果表明我们的模型在判断问题是否可回答方面更有效,能有效避免给出似是而非的“陷阱答案”。


本文总结
答案的可回答性是阅读理解任务中的关键目标之一。本文针对阅读理解任务特点,受人类阅读模式的启发,提出回顾式阅读器,结合了略读和精读两阶段阅读和理解模式。使用最新的预训练语言模型作为基准模型,在两个关键基准阅读理解数据集 SQuAD2.0 和 NewsQA 上取得了新的最佳结果,并在新引入的统计显著性分析中,显著优于基线模型,并验证了答案判别对阅读理解的重要性和有效性。
上海交通大学自然语言处理实验室-机器阅读理解团队


上海交通大学自然语言处理实验室是国内外最早开展机器阅读理解研究的团队之一,持续投入机器阅读理解核心技术研究。团队由赵海教授主持指导,近年来团队斩获了多项国际比赛与评测荣誉: 
1. 多次荣获国际权威机器阅读理解评测 SQuAD 2.0 冠军,首次以单模型超越人类基准,首次在 F1 指标上超过 90%;
2. 2019 年荣获国际大型考试类阅读理解任务数据集 RACE 挑战赛冠军(联合云从科技);
3. 2019 年荣获国际自然语言推理 SNLI 排行榜第一名;
4. 2017 年荣获首届“讯飞杯”全国中文机器阅读理解评测(CMRC2017)单模型第一名。延伸阅读语义感知BERT(SemBERT):AAAI 2020 | 语义感知BERT(SemBERT)

基于句法指导的阅读理解模型(SG-Net):https://arxiv.org/abs/1908.05147 
增强双向匹配网络(DCMN++):https://arxiv.org/abs/1908.11511



点击以下标题查看更多往期内容: 





#投 稿 通 道#

 让你的论文被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。


📝 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向) 

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接 

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志


📬 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site 

• 所有文章配图,请单独在附件中发送 

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。


▽ 点击 | 阅读原文 | 下载论文

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存