这里对学好的Control Code在测试集上的预测出present关键词、absent关键词的比例进行了统计(每个Control Code只会生成present关键词、absent关键词或者 元素),从上到下依次是 去掉K-step assign、K-step assign+Single Set Loss以及K-step assign+Separate Set Loss。主要有以下几点发现:去掉K-step assign的情况下,仅前面少数几个Control Code能生成有效的关键词,后面都是预测的 元素,而且通过前面的结果也可以发现,在只有5个左右Control Code有效的情况下还有26%的重复率,说明这些Control Code并不能学到语义上的信息。K-step assign+Single Set Loss相比去掉K-step assign,更多的Control Code可以来指导生成,但是由于absent预测比较难,模型还是更倾向于预测present关键词。Separate Set Loss相比Single Set Loss能将present和absent分开来,不仅有助于两者预测地更准确(消融实验最后一行),也能预测更多的absent关键词,说明这种输入端做multi-task的形式能让这两部分的Control Code一定程度上也能学到present和absent预测存在的偏置。
05
总结做个简单的总结,我们提出了一种新的训练范式One2Set来去掉顺序函数带来的诸多问题。在此范式下,我们提出了模型SetTrans,其特点是能够预测更多、更准确而且重复率更低的关键词集合。同时,我们也通过大量实验对比了顺序和没有顺序的结果,从而来证实One2Seq中的顺序函数带来的影响。我们还发现 SetTrans由于可以并行预测,在 inference 效率上是Transfomer的6.44倍,其他实验分析可移步论文查看。欢迎大家批评指正~[1] Rui Meng, Tong Wang, Sanqiang Zhao, Shuguang Han, Daqing He, Peter Brusilovsky, and Yu Chi. Deep keyphrase generation. In ACL 2017.[2] Xingdi Yuan, Rui Meng, Khushboo Thaker, Peter Brusilovsky, Daqing He, and Adam Trischler. One size does not fit all: Generating and evaluating variable number of keyphrases. In Arxiv 2018. (ACL 2020)[3] Rui Meng, Xingdi Yuan, Tong Wang, Peter Brusilovsky, Adam Trischler, and Daqing He. 2019. Does Order Matter? An Empirical Study on Generating Multiple Keyphrases as a Sequence. In arXiv:1909.03590 [Cs].