查看原文
其他

发布 TyDi QA:多语言问答基准

Google AI TensorFlow 2021-08-05

文 / Google Research 研究员 Jonathan Clark

问答技术每天都在为人们提供帮助,例如遇到 “墨鱼汁能安全食用吗?”之类的问题时,用户会询问语音助手或输入搜索内容并期望得到答案。去年,我们面向研究社区发布了英语版的自然问题数据集,以反映用户的真实需求与我们面临的挑战


但世界上有成千上万种不同的语言,其中很多语言都使用完全不同的方法来构词表意。例如,英语的变形用于区分单数(“book”)和复数(“books”);而阿拉伯语采用三种形态来区分双数(“كتابان”, kitaban)、单数(“كتاب”, kitab)或复数(“كتب”, kutub)。此外,有些语言,如日语,在单词之间不使用空格。要创建一个能够理解各种语言的诸多表意方式的机器学习系统,是一项挑战,而要训练这样的系统,则需要收集不同语言的大量样本。


为了鼓励对多语言问答系统的研究,今天我们发布了 TyDi QA,这是一个涵盖 11 种不同类型语言的问答语料库。根据我们的论文《TyDi QA:不同类型语言中信息查询问答技术的基准(TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages) 中的描述,我们语料库的灵感来源于表意类型多样性,这一观念认为不同的语言采用不同的结构方式来表达意义。我们为该语料库选择了一组在类型上彼此相去甚远的语言,我们期望在这个数据集上表现良好的模型,能推广运用到世界上的众多其他语言。



类型多样的语言集

TyDi QA 包含来自 11 种语言的 200,000 多个问答对,代表一系列不同的语言现象和数据挑战。许多语言使用非拉丁字母,例如阿拉伯语、孟加拉语、韩语、俄语、泰卢固语和泰语。一些语言的构词方式很复杂,如阿拉伯语、芬兰语、印尼语、斯瓦希里语、俄语。日语使用四种字母(“24時間でのサーキット周回数”,以四种颜色表示),而韩语字母本身就具有很强的组合性。这些语言在网络上可获得的数据量也大相径庭,英语和阿拉伯语有很多,而孟加拉语和斯瓦希里语的数据则非常少。我们期望新系统能应对这些挑战,并可成功应用于多种语言。



创建真实数据

研究社区早期使用的问答数据集大多是这样创建的:先给人们一些段落,然后让他们根据阅读后的理解来编写问题。然而,因为人们在编写每个问题时心中都已有答案,通过这种方法创建的问题往往包含与答案相同的单词。所以,针对这类数据进行训练的机器学习算法更倾向于单词匹配,而忽略了满足用户需求所需的更细微的答案。


为了构建更自然的数据集,我们转换了角度:从 想要 答案但 还不 知道答案的人那里收集问题。为了收集问题,我们向人们展示了一段来自维基百科的有趣内容,这段内容被翻译成他们的母语。阅读后我们让他们 任意 提出一个问题,这个问题必须是他们 无法 从这段内容中直观得到解答,但他们又 渴望 知道的。


这就类似于你在逛街时,看到有趣的事物想要进一步了解时而产生的问题。我们鼓励提问者天马行空地放飞想象力。看到关于冰的文章会让你联想到夏天的冰棒吗?很好!那么是谁发明了冰棒呢?重要的是,这些问题直接用每种语言编写,而并非通过翻译,因此多数问题不同于之前以英语编写的语料库。孟加拉语中有一个问题:“সফেদা ফল খেতে কেমন?”(人参果吃起来是什么味道?) 从没听说过人参果吗?那可能是因为人参果在印度比在美国更常见。


对于每个问题,我们均以对应的语言使用 Google 搜索,找到匹配度最高的维基百科文章,并让提问者在相应文章中查找并划出答案。尽管我们的预期是当提问者不知道答案时,问题和答案之间会产生 一些 有趣的分歧,但结合世界各语言中极为广泛的语言现象,我们发现情况甚至更为复杂。


例如,在芬兰语中出现了一些有趣的例子,比如 在问题和答案中的表达完全不同。要在整篇维基百科文章中成功选出含有其答案的句子,系统需要能够分辨芬兰语单词 viikonpäivät (平日)、seitsenpäiväinen (七天) 和 viikko (周) 之间的关系。


作为研究社区共同取得进步

我们希望这个数据集能够推动研究社区进行创新,为世界各地的用户创建更实用的问答系统。为了跟踪社区的进展,我们建立了一个排行榜,参与者可以评估其机器学习系统的质量。此外,我们还正在开源一个使用该数据集的问答系统。如要查看排行榜并了解更多信息,请访问该项挑战的网站。



致谢

本数据集是由众多 Google 员工组成的团队通力合作的成果,包括(按字母顺序)Dan Garrette、Eunsol Choi、Jennimaria Palomaki、Michael Collins、Tom Kwiatkowski 和 Vitaly Nikolaev。上述芬兰语注释由 Jennimaria Palomaki 提供。



如果您想详细了解 本文提及 的相关内容,请参阅以下文档。这些文档深入探讨了这篇文章中提及的许多主题:

  • 得到答案

    https://www.blog.google/products/search/search-language-understanding-bert

  • 挑战
    https://ai.google.com/research/NaturalQuestions/dataset

  • TyDi QA
    https://google-research-datasets.github.io/tydiqa/

  • TyDi QA:不同类型语言中信息查询问答技术的基准
    https://storage.cloud.google.com/tydiqa/tydiqa.pdf

  • 排行榜
    https://google-research-datasets.github.io/tydiqa/tydiqa.html

  • 问答系统
    https://github.com/google-research-datasets/tydiqa



— 推荐阅读 —



    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存