KDD 2023 | MetricPrompt: 基于度量的提示学习少标注文本分类方法
论文介绍
论文标题:
MetricPrompt: Prompting Model as a Relevance Metric for Few-shot Text Classification
董泓源,张伟男,车万翔
KDD 2023, Long Paper
https://dl.acm.org/doi/10.1145/3580305.3599430
▲ 图1. 各类标签映射设计方法对比。图中“CE”表示交叉熵损失函数,“PCL”是原型对比学习损失函数[7]
为了解决上述问题,本文提出了 MetricPrompt,这一方法通过将少标注文本分类任务重构为文本对相关度估计任务,减轻了任务相关标签映射设计上的人力成本。
如图 1 所示,在本文的方法中不再需要显式的任务相关标签映射设计。与预训练模型的预训练目标一致,MetricPrompt 只对预训练模型的输出词概率分布进行处理,从而平滑地适应于下游任务。同时,MetricPrompt 将文本对作为输入,因此在其相关度建模过程中可以使用样本文本间的交叉相关度信息来提升估计精度。
本文在三个广泛使用的少标注文本分类数据集上进行了四种少标注设定下的实验,结果表明,MetricPrompt 超越了所有自动标签映射设计基线方法,甚至还超越了需要大量人力进行任务相关标签映射设计的人工设计方法。此外,本文对 MetricPrompt 的可扩展性和鲁棒性进行了分析实验,并解释了在使用不同相关度分数池化方法时,模型性能产生变化的原因。
3.2 优化
3.3 推理
▲ 图3. MetricPrompt的推理过程
3.4 更高效的推理
代表性样本可以大大减小 MetricPrompt 推理过程的时间复杂度。对于一个标签数量为 n,每个标签对应 k 个样本的少标注文本分类任务,在不引入代表性样本时,每一个测试样本需要和 n*k 个训练样本配对并进行相关度分数计算,该过程的时间复杂度为 O(n*k)。
作为对比,传统的提示学习方法和其他不需要人工标签映射设计的提示学习方法则只需要将预训练模型抽取得到的测试样本特征表示与各个标签的特征表示进行点积相似度计算,时间复杂度仅为 O(n)。
在引入代表性样本对推理过程进行优化后,MetricPrompt 仅需计算每个测试样本与各标签下的代表性样本进行相关度预估,因此时间复杂度减少为 O(p*n)。其中 p 是人为设定的一个常数。因此, MetricPrompt 在使用代表性样本进行推理加速后,时间复杂度为 O(n),与其他常用提示学习方法一致。实验中,本文将各标签代表性样本数量 p 设置为 2。
4.1 数据集
▲ 表1. 数据集统计信息
4.2 实现细节
本文在 2, 4, 8 和 16-shot 设置下进行实验,其中相应数量的训练样本从每个数据集的训练集中随机抽样。本文为每个数据集和每个少标注设定抽取 10 个训练集,以减轻训练集选择中随机性的影响。所有实验结果均以模型在 10 个训练集上的性能的平均值给出。
为了公平比较,本文将 BERT-base-uncased 作为 MetricPrompt 和所有基线模型的主干模型。本文根据训练集的大小设置总训练步数,并相应地调整训练轮次数。训练集的大小因数据集标签数量和少标注设定而异,各个设定下的具体训练轮次数参见表 2。
▲ 表2. 不同实验设定下的训练轮次数
与 ProtoVerb 相比,MetricPrompt 在使用平均池化和最大池化的情况下,性能下降较少,达到了更高的分类精度。
4.3 主要实验结果
▲ 表3. 2-shot和4-shot设定下的实验结果,实验结果以准确率作为指标。斜体表示该方法需要人工进行任务相关标签映射设计,粗体表示在无需人工任务相关标签映射设计方法中的最佳结果
▲ 表4. 8-shot和16-shot设定下的实验结果,实验结果以准确率作为指标。斜体表示该方法需要人工进行任务相关标签映射设计,粗体表示在无需人工任务相关标签映射设计方法中的最佳结果
与无需人工标签设计的 SOTA 提示学习方法 ProtoVerb 相比,MetricPrompt 在 2-shot 准确率上提高了 5.88,4-shot 准确率上提高了 11.92,8-shot 准确率上提高了 6.80,16-shot 准确率上提高了 1.56。
MetricPrompt 甚至在无需人工任务相关的标签映射设计的情况下,在所有少标注设定中超过了 ManualVerb 的表现。在每个标签仅选用2个代表性样本的实验设定下,MetricPrompt 仍取得了优秀的性能表现。在相同的时间复杂度下,性能大幅超越之前的 SOTA 基线模型 ProtoVerb,并取得了与 ManualVerb 相当的分数。
5.1 使用领域外数据进行可扩展性测试
▲ 表5. MetricPrompt和ProtoVerb在引入额外OOD数据情况下的模型性能
如表 5 所示,MetricPrompt 在 OOD 训练数据的加持下,获得了更高的准确率。与先前的 SOTA 基线 ProtoVerb 相比,MetricPrompt 在 18 个少标注和 OOD 数据设定下的 17 个中获得了更高的预测准确率(表中下划线数字)。
5.2 对抗噪声的鲁棒性
▲ 表6. 模型在AG's News数据集的8、16-shot设定下,分别引入1、2和4个噪声样本时的性能下降。粗体表示所有方法中最少的性能下降量
5.3 不同池化方法的比较
首先,本文对不含噪声样本的场景进行分析。本文收集了 MetricPrompt 计算的相关度分数分布的统计信息。如图 4 所示,相关度分数的分布是高度不均匀的。因此,最大相关度分数在使用平均池化的 MetricPrompt 中起到了决定性的作用,导致了与最大池化类似的行为。然而,KNN 池化采用投票策略,忽略了分数值信息,带来了个更多的分类错误。
▲ 图4. AG's News数据集2-shot设定下,各个测试样本与训练样本之间的平均相关度分数
接下来分析 MetricPrompt 在存在噪声样本的情况下的性能表现。如图 4 所示,除了前几个最相关的样本,其余相关度分数的分布相对均匀。假设相关度分数的分布是均匀的极端情况,KNN 池化的预测结果将受到每个类别训练样本数量方差的显著影响。
基于这一现象,本文将引入噪声样本时 KNN 池化的性能较差归咎于其投票机制使其容易受到各个类别训练样本数量方差的影响。为了验证这一点,本文对收集每个类型类别的平均预测测试样本数量进行了统计。
▲ 图5. AG's News数据集8-shot设定下,包含7、8和9个训练样本的类别在测试阶段平均作为预测目标的次数。“\# Predicted query sample”表示测试阶段被预测为该类别的测试样本平均个数
5.4 代表性样本数量影响分析
▲ 表7. 2-shot和4-shot设定下使用代表性样本的实验结果,实验结果以准确率作为指标。粗体表示该任务上的最佳结果
▲ 表8. 8-shot和16-shot设定下使用代表性样本的实验结果,实验结果以准确率作为指标。粗体表示该任务上的最佳结果
如表 7 和表 8 所示,MetricPrompt 的性能与代表性样本数量正相关。值得注意的是,即使仅为每个类别保留一个代表性样本参与推理,MetricPrompt 在四个少标注设置下的分类精度也仍然优于先前的 SOTA 方法 ProtoVerb。通过调整代表性样本数量 p,可以使 MetricPrompt 实现分类准确率和效率之间的平衡。
针对基于提示学习的少标注文本分类方法性能严重依赖人工标签映射设计,而自动化标签映射设计方法性能较差的问题,本文提出了 MetricPrompt,通过将少标注文本分类任务转化成文本对相关度预估任务来减轻人工标签映射设计的负担。MetricPrompt 将少标注训练数据两两配对,并训练提示学习模型对文本对相关度进行估计。优化后的提示学习模型作为一个文本相关度度量来估计测试样本与各训练样本之间的相关度,从而完成分类预测。
相较于其他自动标签映射设计方法,MetricPrompt 无需引入任务特定的标签特征表示,避免了下游任务中标注数据过少引发的过拟合问题。同时,MetricPrompt 的工作方式可以视为一种广义掩码语言建模任务,使得预训练模型能够更顺利地适配于下游少标注文本分类任务。
参考文献
[1] Vandana Korde and C Namrata Mahender. 2012. TEXT CLASSIFICATION AND CLASSIFIERS: A SURVEY. International Journal of Artificial Intelligence & Applications 3, 2 (2012), 85.
[2] Tom B. Brown, Benjamin Mann, et al. 2020. Language Models are Few-Shot Learners. NeurIPS 2020.
[3] Timo Schick and Hinrich Schütze. 2021. Exploiting Cloze-Questions for FewShot Text Classification and Natural Language Inference. EACL 2021
[4] Tianyu Gao, Adam Fisch, and Danqi Chen. 2021. Making Pre-trained Language Models Better Few-shot Learners. ACL 2021.
[5] Taylor Shin, Yasaman Razeghi, Robert L. Logan IV, Eric Wallace, and Sameer Singh. 2020. AutoPrompt: Eliciting Knowledge from Language Models with Automatically Generated Prompts. EMNLP 2020.
[6] Karen Hambardzumyan, Hrant Khachatrian, and Jonathan May. 2021. WARP: Word-level Adversarial ReProgramming. ACL 2021.
[7] Ganqu Cui, Shengding Hu, Ning Ding, Longtao Huang, and Zhiyuan Liu. 2022. Prototypical Verbalizer for Prompt-based Few-shot Tuning. ACL 2022.
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧