ACL 2022 | KPT: 文本分类中融入知识的Prompt Verbalizer

胡声鼎 TsinghuaNLP 2022-07-16

学术速递

背景

利用Prompt Learning（提示学习）进行文本分类任务是一种新兴的利用预训练语言模型的方式。在提示学习中，我们需要一个标签词映射（verbalizer），将[MASK]位置上对于词表中词汇的预测转化成分类标签。例如{POLITICS: "politics", SPORTS: "sports"} 这个映射下，预训练模型在[MASK]位置对于politics/sports这个标签词的预测分数会被当成是对POLITICS/SPORTS这个标签的预测分数。

手工定义或自动搜索得到的verbalizer有主观性强覆盖面小等缺点，我们使用了知识库来进行标签词的扩展和改善，取得了更好的文本分类效果。同时也为如何在Prompt Learning下引入外部知识提供了参考。

方法

我们提出使用知识库扩展标签词，通过例如相关词词表，情感词典等工具，基于手工定义的初始标签词进行扩展。例如，可以将{POLITICS: "politics", SPORTS: "sports"} 扩展为以下的一些词：

表1: 基于知识库扩展出的标签词。

图1: 以问题分类任务为例的KPT流程图。

之后我们可以通过一个多对一映射将多个词上的预测概率映射到某个标签上。

但是由于知识库不是为预训练模型量身定做的，使用知识库扩展出的标签词具有很大噪音。例如SPORTS扩展出的movement可能和POLITICS相关性很大，从而引起混淆；又或者POLITICS扩展出的machiavellian（为夺取权力而不择手段的）则可能由于词频很低不容易被预测到，甚至被拆解成多个token而不具有词语本身的意思。

因此我们提出了三种精调以及一种校准的方法。

频率精调

我们利用预训练模型M本身对于标签词v的输出概率当成标签词的先验概率，用来估计标签词的先验出现频率。我们把频率较小的标签词去掉。

公式1: 频率精调。C代表语料库。

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

央视罕见表扬，美哭3亿人：璀璨中国史，正在走向全世界

亲密关系中，比“不爱了”更残酷的，是这3种相处模式

ACL 2022 | KPT: 文本分类中融入知识的Prompt Verbalizer

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

央视罕见表扬，美哭3亿人：璀璨中国史，正在走向全世界

亲密关系中，比“不爱了”更残酷的，是这3种相处模式

生成图片，分享到微信朋友圈

ACL 2022 | KPT: 文本分类中融入知识的Prompt Verbalizer

您可能也对以下帖子感兴趣