P-tuning：自动构建模版，释放语言模型潜能

Original 苏剑林 PaperWeekly 2022-03-17

收录于话题 #自然语言处理 210个

©PaperWeekly 原创 · 作者｜苏剑林

单位｜追一科技

研究方向｜NLP、神经网络

在之前的文章必须要 GPT-3 吗？不，BERT 的 MLM 模型也能小样本学习中，我们介绍了一种名为 Pattern-Exploiting Training（PET） 的方法，它通过人工构建的模版与 BERT 的 MLM 模型结合，能够起到非常好的零样本、小样本乃至半监督学习效果，而且该思路比较优雅漂亮，因为它将预训练任务和下游任务统一起来了。然而，人工构建这样的模版有时候也是比较困难的，而且不同的模版效果差别也很大，如果能够通过少量样本来自动构建模版，也是非常有价值的。

最近 Arxiv 上的论文《GPT Understands, Too》提出了名为 P-tuning 的方法，成功地实现了模版的自动构建。不仅如此，借助 P-tuning，GPT 在 SuperGLUE 上的成绩首次超过了同等级别的 BERT 模型，这颠覆了一直以来“GPT 不擅长 NLU”的结论，也是该论文命名的缘由。

论文标题：

GPT Understands, Too

论文链接：

https://arxiv.org/abs/2103.10385

代码链接：

https://github.com/THUDM/P-tuning

什么是模版

所谓 PET，主要的思想是借助由自然语言构成的模版（英文常称 Pattern 或 Prompt），将下游任务也转化为一个完形填空任务，这样就可以用 BERT 的 MLM 模型来进行预测了。比如下图中通过条件前缀来实现情感分类和主题分类的例子：

▲ 通过特定模版将情感分类转换为MLM任务

▲ 通过特定模版将新闻分类转换为MLM任务

当然，这种方案也不是只有 MLM 模型可行，用 GPT 这样的单向语言模型（LM）其实也很简单：

▲ 通过特定模版将情感分类转换为LM任务

▲ 通过特定模版将新闻分类转换为LM任务

不过由于语言模型是从左往右解码的，因此预测部分只能放在句末了（但还可以往补充前缀说明，只不过预测部分放在最后）。

某种意义上来说，这些模版属于语言模型的“探针”，我们可以通过模版来抽取语言模型的特定知识，从而做到不错的零样本效果，而配合少量标注样本，可以进一步提升效果，这些在必须要 GPT-3吗？不，BERT 的 MLM 模型也能小样本学习中已经比较详细讨论过了。

然而，前面已经说了，对于某些任务而言，人工构建模版并不是那么容易的事情，模型的优劣我们也不好把握，而不同模型之间的效果差别可能很大，在这种情况下，人工标注一些样本可能比构建模版还要轻松得多。所以，如何根据已有的标注样本来自动构建模版，便成了一个值得研究的问题了。

P-tuning

P-tuning 重新审视了关于模版的定义，放弃了“模版由自然语言构成”这一常规要求，从而将模版的构建转化为连续参数优化问题，虽然简单，但却有效。

2.1 模版的反思

首先，我们来想一下“什么是模版”。直观来看，模版就是由自然语言构成的前缀/后缀，通过这些模版我们使得下游任务跟预训练任务一致，这样才能更加充分地利用原始预训练模型，起到更好的零样本、小样本学习效果。

等等，我们真的在乎模版是不是“自然语言”构成的吗？

并不是。本质上来说，我们并不关心模版长什么样，我们只需要知道模版由哪些 token 组成，该插入到哪里，插入后能不能完成我们的下游任务，输出的候选空间是什么。模版是不是自然语言组成的，对我们根本没影响，“自然语言”的要求，只是为了更好地实现“一致性”，但不是必须的。于是，P-tuning 考虑了如下形式的模版：

▲ P-tuning直接使用[unused*]的token来构建模版，不关心模版的自然语言性

这里的 [u1]～[u6]，代表 BERT 词表里边的 [unused1]～[unused6]，也就是用几个从未见过的 token 来构成模板，这里的 token 数目是一个超参数，放在前面还是后面也可以调整。接着，为了让“模版”发挥作用，我们用标注数据来求出这个模板。

2.2 如何去优化

这时候，根据标注数据量的多少，我们又分两种情况讨论。

第一种，标注数据比较少。这种情况下，我们固定整个模型的权重，只优化 [unused1]～[unused6] 这几个 token 的 Embedding，换句话说，其实我们就是要学 6 个新的 Embedding，使得它起到了模版的作用。这样一来，因为模型权重几乎都被固定住了，训练起来很快，而且因为要学习的参数很少，因此哪怕标注样本很少，也能把模版学出来，不容易过拟合。

第二种，标注数据很充足。这时候如果还按照第一种的方案来，就会出现欠拟合的情况，因为只有 6 个 token 的可优化参数实在是太少了。因此，我们可以放开所有权重微调，原论文在 SuperGLUE 上的实验就是这样做的。读者可能会想：这样跟直接加个全连接微调有什么区别？原论文的结果是这样做效果更好，可能还是因为跟预训练任务更一致了吧。

▲ P-tuning在SuperGLUE上的表现

此外，在上面的例子中，目标 token 如“很”、“体育”是认为选定的，那么它们可不可以也用 [unused*] 的 token 代替呢？答案是可以，但也分两种情况考虑：

1、在标注数据比较少的时候，人工来选定适当的目标 token 效果往往更好些；2、在标注数据很充足的情况下，目标 token 用 [unused*] 效果更好些，因为这时候模型的优化空间更大一些。

2.3 增强相关性

在原论文中，P-tuning 并不是随机初始化几个新 token 然后直接训练的，而是通过一个小型的 LSTM 模型把这几个 Embedding 算出来，并且将这个 LSTM 模型设为可学习的。

这样多绕了一步有什么好处呢？原论文大概的意思是：LSTM 出现的 token 表示相关性更强，某种程度上来说更像“自然语言”（因为自然语言的 token 之间不是独立的），此外还能防止局部最优。

我在 Github 上进一步向作者确认了一下（参考这里 [1] ），效果上的差别是通过 LSTM 多绕一步的方法可以使得模型收敛更快、效果更优。

然而，这样多了一个 LSTM，总感觉有些别扭，而且实现上也略微有点麻烦。按照作者的意思，LSTM 是为了帮助模版的几个 token（某种程度上）更贴近自然语言，但这并不一定要用 LSTM 生成，而且就算用 LSTM 生成也不一定达到这一点。

笔者认为，更自然的方法是在训练下游任务的时候，不仅仅预测下游任务的目标 token（前面例子中的“很”、“新闻”），还应该同时做其他 token 的预测。

比如，如果是 MLM 模型，那么也随机 mask 掉其他的一些 token 来预测；如果是 LM 模型，则预测完整的序列，而不单单是目标词。这样做的理由是：因为我们的 MLM/LM 都是经过自然语言预训练的，所以我们（迷之自信地）认为能够很好完成重构的序列必然也是接近于自然语言的，因此这样增加训练目标，也能起到让模型更贴近自然语言的效果。经过笔者的测试，加上这样辅助目标，相比单纯优化下游任务的目标，确实提升了效果。

实验与效果

所谓“talk is cheap, show me the code”，又到了喜闻乐见的实验时间了。这里分享一下 P-tuning 的实验结果，其中还包括笔者对 P-tuning 的实现思路，以及笔者在中文任务上的实验结果。

3.1 停止的梯度

怎么实现上述的 P-tuning 算法比较好呢？如果是放开所有权重训练，那自然是简单的，跟普通的 BERT 微调没有什么区别。关键是在小样本场景下，如何实现“只优化几个 token”呢？

当然，实现的方法也不少，比如为那几个要优化的token重新构建一个 Embedding 层，然后拼接到 BERT 的 Embedding 层中，然后训练的时候只放开新 Embedding 层的权重。

但这样写对原来模型的改动还是蛮大的，最好的方法是尽可能少改动代码，让使用者几乎无感。为此，笔者构思了一种用 stop_gradient 简单修改 Embedding 层的方案，大体上是将 Embedding 层修改如下：

class PtuningEmbedding(Embedding):
    """新定义Embedding层，只优化部分Token
    """
    def call(self, inputs, mode='embedding'):
        embeddings = self.embeddings
        embeddings_sg = K.stop_gradient(embeddings)
        mask = np.zeros((K.int_shape(embeddings)[0], 1))
        mask[1:9] += 1  # 只优化id为1～8的token
        self.embeddings = embeddings * mask + embeddings_sg * (1 - mask)
        return super(PtuningEmbedding, self).call(inputs, mode)

变量经过 stop_gradient 算子后，在反向传播的时候梯度为 0，但是前向传播不变，因此在上述代码中，前向传播的结果不会有变化，但是反向传播求梯度的时候，梯度不为 0 的 token 由 mask 变量控制，其余 token 的梯度都为零，因此就实现了只更新部分 token。

完整代码可见：

https://github.com/bojone/P-tuning

对了，原论文也开源了代码：

https://github.com/THUDM/P-tuning

3.2 测试与效果

前面已经分享了原作者在 SuperGLUE 上的实验结果，显示出如果配合 P-tuning，那么：1）GPT、BERT 的效果相比直接 finetune 都有所提升；2）GPT 的效果还能超过了 BERT。这表明 GPT 不仅有 NLG 的能力，也有 NLU 能力，可谓是把 GPT 的潜能充分“压榨”出来了，当然 BERT 配合 P-tuning 也有提升，说明 P-tuning 对语言模型潜能的释放是较为通用的。

原论文的实验比较丰富，建议读者仔细阅读原论文，相信会收获颇多。特别指出的是原论文的 Table 2 最后一列，当预训练模型足够大的时候，我们的设备可能无法 finetune 整个模型，而 P-tuning 可以选择只优化几个 Token 的参数，因为优化所需要的显存和算力都会大大减少，所以 P-tuning 实则上给了我们一种在有限算力下调用大型预训练模型的思路。

▲ P-tuning在各个体量的语言模型下的效果

当然，笔者一直以来的观点是“没有在中文上测试过的算法是没有灵魂的”，因此笔者也在中文任务上简单测试了，测试任务跟必须要 GPT-3 吗？不，BERT 的 MLM 模型也能小样本学习一致，都是情感分类的小样本学习，测试模型包括 BERT 和 GPT，两者的候选模版分别如下图：

▲ 笔者在中文情感分类上使用的“BERT+P-tuning”模版

▲ 笔者在中文情感分类上使用的“GPT+P-tuning”模版

注意，对于 LM 模型，前缀的引入非常重要，只引入后缀时效果会明显变差；而对于 MLM 模型，前缀的效果通常也优于后缀。总的效果如下表：

其中“小样本”只用到了“少量标注样本”，“无监督”则用到了“大量无标注样本”，“半监督”则用到了“少量标注样本+大量无标注样本”，“P-tuning”都是小样本，PET 的几个任务报告的是最优的人工模版的结果，其实还有更差的人工模版。

从小样本角度来看，P-tuning 确实取得了最优的小样本学习效果；从模版构建的角度来看，P-tuning 确实也比人工构建的模版要好得多；从模型角度看，P-tuning 确实可以将 GPT 的分类性能发挥到跟 BERT 相近，从而揭示了 GPT 也有很强的 NLU 能力的事实。

进一步理解

这一节将会介绍笔者对P-tuning的进一步思考，以求从多个维度来理解P-tuning。

4.1 离散 vs 连续

在 P-tuning 之前，也已经有一些在做模版的自动构建，如《How Can We Know What Language Models Know?》[2] 、《AutoPrompt: Eliciting Knowledge from Language Models with Automatically Generated Prompts》[3] 等，但它们搜索的都是在离散空间下搜索的自然语言模版，所以效果有所限制，并没有取得特别突出的结果。

相反，P-tuning 放弃了“模版由自然语言构成”这一要求，从而将其变成了可以简单梯度下降求解的连续参数问题，效果还更好。同时，这一改动意味着 P-tuning 突出了模版的本质——即模版的关键在于它是怎么用的，不在于它由什么构成——给人一种去芜存菁、眼前一亮额的感觉，确实值得点赞。

注：经读者提醒，年初有一篇论文《Prefix-Tuning: Optimizing Continuous Prompts for Generation》[4] 提出的 Prefix-Tuning 方法其实已经相当接近 P-tuning，两者都设计了非自然语言的模版，只不过 Prefix-Tuning 主要关心 NLG 的应用而 P-tuning 更加关心 NLU 的应用。

4.2 Adapter

我们还可以从 Adapter 的角度来理解P-tuning。BERT出来后不久，Google在论文《Parameter-Efﬁcient Transfer Learning for NLP》[5] 中提出了一种名为 Adapter 的微调方式，它并不是直接微调整个模型，而是固定住 BERT 原始权重，然后在 BERT 的基础上添加一些残差模块，只优化这些残差模块，由于残差模块的参数更少，因此微调成本更低。

Adapter 的思路实际上来源于 CV 的《Learning multiple visual domains with residual adapters》[6]，不过这两年似乎很少看到了，也许是因为它虽然提高了训练速度，但是预测速度却降低了，精度往往还有所损失。

在 P-tuning 中，如果我们不将新插入的 token 视为“模版”，是将它视为模型的一部分，那么实际上 P-tuning 也是一种类似 Adapter 的做法，同样是固定原模型的权重，然后插入一些新的可优化参数，同样是只优化这些新参数，只不过这时候新参数插入的是 Embedding 层。因此，从这个角度看，P-tuning 与 Adapter 有颇多异曲同工之处。

4.3 为什么有效

然后，还有一个值得思考的问题：为什么 P-tuning 会更好？ 比如全量数据下，大家都是放开所有权重，P-tuning 的方法依然比直接 finetune 要好，为啥呢？

事实上，提出这个问题的读者，应该是对 BERT 加个全连接层的直接 finetune 做法“习以为常”了。很明显，不管是 PET 还是 P-tuning，它们其实都更接近预训练任务，而加个全连接层的做法，其实还没那么接近预训练任务，所以某种程度上来说，P-tuning 有效更加“显然”，反而是加个全连接层微调为什么会有效才是值得疑问的。

去年有篇论文《A Mathematical Exploration of Why Language Models Help Solve Downstream Tasks》[7] 试图回答这个问题，大致的论证顺序是：

1. 预训练模型是某种语言模型任务；

2. 下游任务可以表示为该种语言模型的某个特殊情形；

3. 当输出空间有限的时候，它又近似于加一个全连接层；

4. 所以加一个全连接层微调是有效的。

可以看到，该论文的假设主要是第 2 点，其实就是直接假设了下游任务可以表达为类似 PET 的形式，然后才去证明的。所以这进一步说明了，PET、P-tuning 等才是更自然的使用预训练模型的方式，加全连接直接 finetune 的做法其实只是它们的推论罢了，也就是说，PET、P-tuning 才是返璞归真、回归本质的方案，所以它们更有效。

简单的总结

本文介绍了 P-tuning，它是一种模版的自动构建方法，而通过模版我们可以从语言模型中抽取知识，完成零样本、小样本等学习任务，并且效果往往还更好。借助 P-tuning，GPT 也能实现优秀的 NLU 效果，在 SuperGLUE 上的表现甚至超过了 BERT。除此之外，P-tuning 还一种在有限算力下调用大型预训练模型的有效方案。

参考文献

[1] https://github.com/THUDM/P-tuning/issues/5

[2] https://arxiv.org/abs/1911.12543

[3] https://arxiv.org/abs/2010.15980

[4] https://arxiv.org/abs/2101.00190

[5] https://arxiv.org/abs/1902.00751

[6] https://arxiv.org/abs/1705.08045

[7] https://arxiv.org/abs/2010.03648

更多阅读

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

📝 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

📬 投稿邮箱：

• 投稿邮箱：hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

半年狂赚63亿了，微众银行董事长，还要卷员工

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

行游天地阅启新章｜Bloomberg Pursuits

P-tuning：自动构建模版，释放语言模型潜能

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

半年狂赚63亿了，微众银行董事长，还要卷员工

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

行游天地 阅启新章｜Bloomberg Pursuits

生成图片，分享到微信朋友圈

P-tuning：自动构建模版，释放语言模型潜能

您可能也对以下帖子感兴趣

行游天地阅启新章｜Bloomberg Pursuits