查看原文
其他

长篇问答任务(LFQA)的发展面临哪些阻碍?

蔡杰 PaperWeekly 2022-07-04


©PaperWeekly 原创 · 作者|蔡杰
学校|北京大学硕士生
研究方向|QA

论文标题:

Hurdles to Progress in Long-form Question Answering


论文链接:

https://arxiv.org/pdf/2103.06332.pdf


论文来源:

NAACL 2021



Long-form question answering

长文本问答(LFQA)的任务包括检索与给定问题相关的文档,并使用它们生成一个段落长度的答案。

Problem 1:

作者做了一个有趣的实验:将 retriver 检索到的文档在 inference 阶段替换为随机采样的文档。人工 A/B 测试和 ROUGE-L 等自动指标的结果表明,对替换为随机文档的操作对生成的答案质量几乎没有影响。

原因是 train-set 和 validation-set 中存在大量相似问题集合,validation-set 中至少有 81% 的问题被改写后在 train-set 中出现,几乎所有的验证问题都与训练集问题在主题上相似。一个使用 random retriver 的系统在 ELI5 上表现更好。因此这是目前长文本问答存在的一个隐患问题。

Problem 2:

ROUGE-L 评测指标的问题。简单的 baseline,只需要重复 copy 问题,或随机选择一个 train-set 钟的答案,就可以优于普通的 LFQA 系统,如 RAG(Lewis et al., 2020c)。

更不正常的是,作者提出的系统给出的答案甚至能够达到比人类书写的答案更高的 ROUGE-L。因此作者认为 ROUGE-L 不是一个可靠的评估 LFQA 的方法,因为它的输出空间大且相对不受限制(例如,与翻译或总结相比)。


Model

2.1 Retriever

REALM 是一个使用了 Retrieval-Augmented 的预训练模型,它将一个带有 [MASK] 符号的句子作为 question,从语料中抽取出相关的文档,然后将句子和相关的文档拼接成问答的输入格式,预测 [MASK] 位置的词。

作者在本文中将“C-REALM”作为 retriver,返回与输入问题相关的文档。“C-REALM”是一个编码器,在训练的时候使用了对比学习的思想,编码器将问题和文档分别编码,然后学习目标是将问题的向量尽量和相关的文档向量接近,使问题的向量和不相关的文档向量尽量远离,以达到筛选相关文档的目的。
2.2 Generator
基于“C-REALM”召回的文档,作者使用了“Routing Transformer”(RT,目前长文本语言模型 SOTA)),RT 是一种稀疏注意力模型,利用局部注意和在 mini-batch 中使用 k-means 聚类来更好地建模长期依赖关系。

2.3 Main Experiments

作者目前在 ELI5 数据集的榜单上达到了 SOTA。


Analysis

3.1 Are generations grounded in retrieval?

虽然本文的 retrieval-augmented 系统实现了 SOTA,但作者发现该系统几乎没有使用检索到的文档。为了测量这一点,作者进行了消融实验,在 inference 时,用维基百科上随机取样的段落替换检索到的段落。之后将这个随机 baseline 与原始系统进行比较,包括生成质量以及生成与检索段落之间的 n-gram 重叠。

结果表明随机 baseline 与原始系统的 ROUGE-L 评分相当,而且 n-gram 的重叠数量也相当。

在 human eval 中,两个系统的差别也不超过 7%。所以作者认为应该在以后的 LFQA 指标中加入一项与 random 召回结果的对比,真正说明系统的有效性。
3.2 ROUGE-L Bounds on ELI5 Performance

作者发现只需要从 trainset 中复制一个相关问题的答案就可以获得 28.5 ROUGE-L,但这个数字到底有多“好”?ELI5 上的 ROUGE-L 分数的的上界和下界分别应该是多少?ROUGE-L 对于 LFQA 来说真的是一个有用的度量标准吗?

论文中作者设置对 ELI5 数据集的 ELI5 分数设置了两个下界:1)将问题复制 5 次并 concat,因为长度较长,会加大 ROUGE-L 的分数;2)在训练集中随机检索一个答案。上界则是标准答案:平均来说,每个问题有 12 个标准答案,作者衡量的是最长的标准答案,因为最长的标准答案具有最高的 ROUGE-L 分数。

设置上下界之后,作者发现下界超过了之前的工作,上界的 ROUGE-L 并不高。所以 ROUGE-L 对于 LFQA 来说可能不是一个合适的评价指标。

对此作者提出了几种可能的解决办法:1)一个可能的解决办法是进行句子级别的评估,然后在生成的句子中汇总得分,但对于缺乏多样性和长度短的问题需要进行适当的惩罚;2)包括学习特定任务的度量来测量语义重叠或检查事实正确性和输入的正确性。

但是所有的自动度量都有存在各自的局限性,因此常常使用人工评测来测量生成答案的质量。

3.3 Difficulty of Human Evaluation

但是人工评测也会存在一些问题:
  1. 不熟悉问题主题。标注人员通常不熟悉一些问题中讨论的技术主题,这使得很难评估答案的正确性。
  2. 答案长度。答案长度增加的同时也增加了标注人员对答案理解的难度,答案的正确性也会降低。
因此,有必要设计更简单的计算方法。有部分研究人员在这方面做出了尝试,他们每次只显示一个生成的句子,并根据愚弄人类的句子数量来评估系统质量。
3.4 Conclusion
本文提出了一个“retrieval augmented”的应用于问答领域的答案生成系统,该系统在 ELI5-LFQA 数据集上实现了 SOTA。然而,作者通过深入的分析揭示了目前 LFQA 普遍存在的几个问题,包括模型,评估指标和数据集本身等等。作者希望通过本文号召社会各界共同努力,解决这些问题,使研究取得真正有意义的进展。

更多阅读




#投 稿 通 道#

 让你的论文被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。


📝 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向) 

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接 

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志


📬 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site 

• 所有文章配图,请单独在附件中发送 

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存