普林斯顿陈丹琦组:以实体为问题中心,让稠密检索模型DPR光环暗淡
©PaperWeekly 原创 · 作者 | Maple小七
学校 | 北京邮电大学硕士生
研究方向 | 自然语言处理
最近,以 DPR 为代表的稠密检索模型在开放域问答上取得了巨大的进展,然而,目前的稠密检索模型还无法完全替代 BM25 这类稀疏检索模型。本文作者构建了一个以实体为中心的问答数据集:EntityQuestions,并发现 DPR 模型在该数据集上的表现大幅落后于 BM25。经过分析,作者发现 DPR 只能泛化到那些具有常见实体和特定模板的问题上,并发现简单的数据增强策略无法提升模型的泛化性能,而训练一个更稳健的段落编码器和多个特定的问题编码器可以更好地缓解这个问题。
论文标题:
Simple Entity-Centric Questions Challenge Dense Retrievers
论文链接:
https://arxiv.org/abs/2109.08535
代码链接:
https://github.com/princeton-nlp/EntityQuestions
Introduction
虽然基于稠密向量检索的 DPR(dense passage retriever)模型在许多 QA 数据集上的整体表现大幅度超越了基于稀疏向量检索的 BM25,但是深度学习模型长尾泛化能力的不足一直是个业界难题。人们常常能够观察到模型在某些具有特定规律的 case 上表现不佳,并且这些 bad case 很难修复,常常只能靠一些非深度学习的算法来兜底。
Who is [E]'s child?
)。EntityQuestions
为了构建以实体为中心的问题数据集 EntityQuestions,作者从 Wikidata(基于Wikipedia 的大型知识图谱)中筛选了多个常见的关系,并通过人工设计的模板将事实三元组(subject, relation, object)转换为自然问题。为了保证转换后的问题能够在 Wikipedia 中找到对应的段落,作者在 T-REx 数据集(Wikipedia 摘要和 Wikidata 三元组的对齐数据集)中采样三元组,并按照以下准则筛选关系类型:
该关系类型在 T-REx 数据集中有足够多的三元组(>2K); 该关系类型容易转化成表述清晰的问题; 该关系类型的候选答案足够丰富(比如对性别提问的问题只有两种答案);
作者在 EntityQuestions 上测试了 DPR 和 BM25,结果如下表所示,虽然在多个 QA 数据集上训练 DPR 可以提高表现(DPR-multi),但整体表现依旧大幅落后于 BM25。仔细分析模型在每个关系类型上的表现,我们可以发现 DPR 和 BM25 在包含人物实体的问题上差距尤其明显,原因可能是人名的特殊程度比地名、机构名要高很多。
Dissecting the Problem: Entities vs. Question Patterns
3.1 Dense retrievers exhibit popularity bias
为了确定实体是如何影响模型性能的,针对特定的关系类型,作者抽取了该关系在 Wikidata 中对应的所有三元组,并按照关系主体(subject)在 Wikipedia 中的出现频数排序,最后按照累计频数将其平均分装为 8 个数据桶。
很明显,在给定关系类型的训练集上微调有助于 DPR 泛化到带有稀有实体的问题上,在作者考虑的三个关系类型上,DPR 取得了和 BM25 几乎一致的表现,在语义相同的问题上训练对模型性能的影响不大,这表明 DPR 并不依赖于问题的特定描述,模型学习的重点在于对关系类型的表示。
另外,作者还尝试分开微调问题编码器(question encoder)和段落编码器(passage encoder),有趣的是,只微调段落编码器比只微调问题编码器要好很多,这表明糟糕的段落表示可能是模型泛化能力不足的源头。
那么段落表示(passage representations)在微调的过程中发生了什么变化呢?作者利用 t-SNE 对段落表示空间进行了可视化,如下图所示,在微调前,关系类型 place-of-birth
对应的段落有聚类的现象,使用最大内积搜索从这个聚类空间中检索问题对应的段落是很困难的,这也就解释了为什么只微调问题编码器带来的提升不够明显,经过微调之后,段落表示的分布变得更加分散,更容易区分。
Towards Robust Dense Retrieval
经过上面的观察,我们可以尝试一些简单的技巧来增强模型在 EntityQuestions 上的泛化能力。
Data augmentation
作者首先探索了在单个关系类型上微调模型是否能够帮助模型泛化到别的关系类型,作者考虑两种训练方法:一种是只在一类关系上微调,一种是联合 NQ 一起微调,实验结果如下表所示:
我们可以发现,在单个关系上微调的模型在 EntityQuestions 测试集上取得了更好的表现,但在 NQ 上的表现会变差,并且依旧大幅落后于 BM25 的表现。当联合 NQ 一起微调时,模型虽然在 NQ 上的表现会好一些,但在 EntityQuestions 上的表现提升却降低了很多。很明显,单纯在一类关系上微调并不能让模型泛化到别的关系上。
Specialized question encoders
在下面的实验中,作者对比了两个段落编码器,一个是在 NQ 数据集上训练的 DPR,另一个是在 PAQ 数据集上训练的 DPR,作者认为在 PAQ 上训练的模型是更稳健的,因为 PAQ 包含 1000 万个段落,比起 NQ 要更为多样。然后,保持段落的向量表示不变,针对每个关系类型,作者分别微调了一个特定的问题编码器,结果如下表所示:
在 PAQ 上微调的编码器(DPR-PAQ)比在 NQ 上微调的编码器(DPR-NQ)要好很多,这说明 DPR-PAQ 生成的段落表示是更稳健的,同时多编码器的设置也起到了很大的作用,大幅缩小了 DPR 与 BM25 的差距。因此这启发我们想要构建一个更通用的检索模型,我们首先需要构建一个足够稳健的段落编码器。
总之,如何训练一个能泛化到不同分布上的通用稠密检索模型依旧是一个难题,由于 BM25 算法的通用性,目前的稠密检索模型还无法完全替代稀疏检索模型,未来的发展趋势也一定是探索稠密检索和稀疏检索相结合的有效方法。
参考文献
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧