错误分析 我们随机抽取了 mLED 模型在测试集上的两百条结果并分析出主要的错误类型以及比例,如表 3 所示:1)信息缺失;2)信息冗余;3)生成信息不忠于原文;4)生成语义不明。 ▲ 表3 摘要结果错误类型及比例 长文档跨语言摘要中的信息缺失和冗余的问题十分严重,这是由于随着文档的长度以及文档与摘要的压缩率的增加,文档的关键信息在文档中的分布变得稀疏,模型从文章中提取关键信息的难度就越来越高。 对于生成的信息不忠于原文的问题。例如,一份参考摘要称:“Fifty-eight patients with subaortic stenosis were treated surgically in our center from December 1996 to October 2019。”但生成的摘要是“The clinical data of 13 patients with congenital heart disease were retrospectively analyzed”。错误的引用主要是由远程依赖问题引起的。在生成摘要时,该模型需要跨越长距离地融合信息。然而,随着距离的增加,远程信息变得越来越模糊,导致容易生成错误的信息。 mLED 生成语义不明句子,例如“data mining is an important content of data mining.”“the results provide us with a basis to judge whether the sub-time series of time series with increasing and decreasing is the sub-time series with great increasing and decreasing.” 这些句子让人难以理解,通常涉及语法错误。模型处理长文档时的远程依赖性问题是造成这个错误的原因之一。此外,这个错误也暴露了当前生成模型在生成长文本方面的不足。 总结 在本文中,我们提出了长文档跨语言摘要任务,并构建了第一个长文档跨语言摘要数据集 Perseus。该数据集具有文档长、摘要长、压缩率高的特点,为跨语言摘要提出了新的挑战。为了评估在我们的数据集上训练的长文档跨语言摘要模型的泛化性,我们还提供了一个体育领域的领域外测试集。
参考文献
[1] Junnan Zhu, Qian Wang, Yining Wang, Yu Zhou, Jiajun Zhang, Shaonan Wang, and Chengqing Zong. 2019. NCLS: Neural Cross-Lingual Summarization. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing. 3054–3064. https://doi.org/10.18653/v1/D19-1302
[2] Jiaan Wang, Zhixu Li, Tingyi Zhang, Duo Zheng, Jianfeng Qu, An Liu, Lei Zhao, and Zhigang Chen. 2022. Knowledge Enhanced Sports Game Summarization. In Proceedings of the Fifteenth ACM International Conference on Web Search and Data Mining. 1045–1053. https://doi.org/10.1145/3488560.3498405
[3] Iz Beltagy, Matthew E Peters, and Arman Cohan. 2020. Longformer: The longdocument transformer. arXiv preprint arXiv:2004.05150 (2020).