6. How Can We Know What Language Models Know? TACL 2020 2019.11.28 motivation: 运用完形填空形式,运用一个检测语言模型是否具有某些知识的探针任务。LPAQA 旨在改进 LAMA 的模版(query),为检测 LM 中的知识提供一个更严格的下界 method: 1. Mining-based Generation:基于远程监督的假设(即出现相同实体对的句子表达相同的关系),在 Wikipedia sentence 中寻找包含头尾实体 h、t 的句子,然后进一步提出了两种 prompt 抽取方法; 2. Middle-word Prompts:对于 h、t 中间包含文本的句子形式,将 h、t 中间的文本当作 prompt; 3. Dependency-based Prompts:对于其他句子,使用句法依赖解析来提取 h 和 t 最短的路径,并将路径上的词作为 prompt; 4. Paraphrasing-based Generation:类似查询拓展技术,在保持原 prompt 语义同时增加词汇的多样性。这种方法依赖反向翻译(back-translation),即翻译到另一种语言再翻译回来,构成多个样本后根据往返概率(round-trip probability)筛选 prompt。 5. ensemble: Top-1 Prompt Selection:用 LM,取 acc 最高的 prompt;Rank-based Ensemble:除了 Top-1 方案,有时候需要保持多个模版来增强效果,即选取前 K 个模版;Optimized Ensemble:通过 LM 的预测为不同的 prompt 赋权。 7. Zero-shot Text Classification With Generative Language Models NeurIPS 2019 2019.12.10 motivation: 针对 zero-shot 任务进行任务统一(转换成 qa 问题),利用 taskdescription(prompt),快速适应新的任务 method:
8. Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference EACL 2021 2020.1.21 motivation: 如何用较小的预训练模型充分发挥预训练模型作为语言模型的作用,做 fewshotlearning,做法是分类转化为完形填空
9. How Context Affects Language Models' Factual Predictions AKBC 2020 2020.5.10 motivation: 模型在进行预训练时使用到的无监督文本语料非常庞大,包含了相当多的知识,很难保证现有的预训练模型能够将这些知识全部存储在模型参数中并且之后可以足够准确的将这些知识提取出来。针对这个问题,尝试通过加入有关的上下文信息来提升模型提取知识的准确率。 method: Oracle-Based(ORA):挑选问题对应的事实样本在维基百科中的周围文本片段作为上下文。Retrieve(RET):选择 DrQA 的检索系统(TF-IDF)检索出的第一段文本作为上下文。 Generate(GEN):将问题作为前缀输入语言模型,对上下文进行自回归生成。Adversary(ADV):利用和问题具有相同关系类型但不同实体答案的问题,以 ORA 的方式挑选出包含无关信息的上下文。 10. It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners NAACL 2021 2020.9.15 motivation: 解决 label mask 预测多 token 问题。method: 选择分数最高的一个 token 为基准计算,替代多个 token 完形填空的分数计算
11. Automatically Identifying Words That Can Serve as Labels for Few-Shot Text Classification COLING 2020 2020.10.26 motivation: 小样本文本分类模型 PET 的基础上进行扩展,将原来目标中的多分类最大似然估计替换为多个 one-vs-rest 分类。这样就能够充分利用输入数据,同时减小标签和填空词之间的映射选择。通过这种方式,提出的方法就能够在小样本上也取得非常好的效果。同时通过实验发现,本文提出的方法找到的映射关系几乎可以与人工构建的映射关系一样好。 12. AutoPrompt: Eliciting Knowledge from Language Models with Automatically Generated Prompts EMNLP 2020 2020.10.29 motivation: 提出一种基于梯度的模版搜索方案 method:
12. Parameter-Efficient Transfer Learning with Diff Pruning 2020 2020.12.14 motivation: adapter 的延续,将原来的参数上增加新参数(L0 正则约束稀疏性) 13. Few-Shot Text Generation with Pattern-Exploiting Training 2020 2020.12.22 motivation: 将 PET 运用到文本生成,模型采用谷歌 PEGASES(encoder(mask),decoder(生成 mask 的部分),这种模型结构适合 PET)
14. Making Pre-trained Language Models Better Few-shot Learners ACL 2021 2020.12.31 motivation: AUTOPROMPT 需要大量样本进行基于梯度搜索,提出基于 t5 进行模板生成的自动化 pipline method: a)自动化选择标签词:1. 通过未经微调的预训练模型,对于训练集中的每一个类别,选择 top-k 的单词使得条件概率最大。2. 综合每个类别下的候选标签词,然后找出使得训练集正确率最大的 top-n 个分配方式。3. 通过对 dev 集微调,从 n 个分配方式中选择最佳的一个标签词,构建标签映射关系 M。 b)自动化选择模板 利用 t5 解码生成多个候选模板,然后对每一个候选模板利用 dev 集微调、选择其中一个最佳模板。
17. What Makes Good In-Context Examples for GPT-3? 2021 2021.1.17 motivation: 根据相似度选择 In-Context, order 根据相似度排序
18. Calibrate Before Use: Improving Few-Shot Performance of Language Models ICML 2021 2021.2.19 motivation: 本文的动机是发现 GPT-3,虽然可以在某种程度上实现 zero/few shot learning,但 performance 非常不稳定,尤其是在三个方面:prompt 的格式、few shot 的训练样本,训练样本的顺序。 Majority Label Bias 这种 bias 和监督学习中的样本不均衡现象类似,GPT-3 总是倾向于预测出常见的 label(其实,不仅是 GPT-3,所有的机器学习模型都有这个问题),所以样本的分布影响着结果。 Recency Bias GPT-3 更倾向于预测离结尾最近的样本 label,直觉上感觉这有点像灾难性遗忘,比如训练样本是 PPNN,更倾向于预测出 N。甚至这种 bias 的影响会大于第一种,比如 PPPN,会大概率预测出 N。 所以,这种 bias 也解释了为什么样本的顺序会影响结果。Common Token Bias GPT-3 倾向于预测一些常见的词(这个现象在前几年对话系统也经常会遇到,生成一个 safe 但 meaningless 的话) method: 通过一个放射变换将原有的概率 p 映射到 q,这里的 w 和 b 是需要学习的参数。但实际操作时存在一个问题,因为 prompt based learning 是一种 zero/few shot learning 方式,没有足够的样本来训练 w 和 b。 本文提出了一种 context-free input 来解决这个问题,用 N/A 作为输入,提供给 GPT-3 模型,因为 N/A 并不是有效的输入,理想情况下,GPT-3 应该给出 50-50 的 Pos 和 Neg 比例,但实际给出了 61.3% 的 Neg,这正式 recency bias 带来的问题。因此,可以通过手动设定 w 和 b 的值,来 uniform model 的输出。 19. PADA: A Prompt-based Autoregressive Approach for Adaptation to Unseen Domains 2021 2021.2.24 motivation: 利用 t5 的 embedding,选择领域的代表关键词(利用互信息),然后进行领域迁移(挖掘领域共现关键)
20. How Many Data Points is a Prompt Worth? NAACL 2021 2021.3.15 motivation: 论文证明这个 < MASK > 方法比模型加一个线性层做分类任务性能好。这个方法比传统任务(例如:加一个线性层做分类任务)用的样本少,为几分之一。针对任务的不同,只需用到几百到几千的样本。 21. GPT Understands, Too 2021 2021.3.18 motivation: P-tuning 重新审视了关于模版的定义,放弃了“模版由自然语言构成”这一常规要求,从而将模版的构建转化为连续参数优化问题,虽然简单,但却有效。
22. Improving and Simplifying Pattern Exploiting Training 2021 2021.3.22 motivation: 预测 mask token 的时候,只把和 class 相关的 token 的 logit 过 softmax 算概率,忽略了词表中其他非 class token 的信息。具体来说,adapet 在预测 mask token 的时候,先把词表上所有 token 的 logit 过 softmax 算概率,然后把 class 相关的 token 拿出来,用 bce loss 去优化:最大化 correct class token的概率,最小化非 correct class token 的概率。 对于 label words 是 multi token 的情况,则最大化所有 correct class token 的 subtoken 的概率,最小化非correct class token 的 subtoken 的概率。Label Conditioning:随机 mask 原文中的词,然后用 bce loss。最后超过 pet,没有超过 ipet(用了无标签数据)。
23. Factual Probing Is [MASK]: Learning vs. Learning to Recall NAACL 2021 2021.4.12 motivation: 将 AutoPrompt 离散搜索 prompt 的方式用于连续 tuning 的初始化,同时发现比随机初始化效果好,选择 label 词较好。
24. Learning How to Ask: Querying LMs with Mixtures of Soft Prompts NAACL 2021 2021.4.14 motivation: 利用 ensemble 优化模板,学习哪个模板更有效,和如何融合模板:p-tuning+ensemble+em 算法,prompt 初始化是用挖掘的方式
25. KnowPrompt: Knowledge-aware Prompt-tuning with Synergistic Optimization for Relation Extraction 2021 2021.4.15 motivation: 融入外部知识(实体,关系)的 embedding 当做参数,将关系分类设置成模板,采用 MASK 的方式训练,同时增 KE 的 loss 。 method:
26. Surface Form Competition-Why the Highest Probability Answer Isn’t Always Right 2021 2021.4.16 motivation: 多项选择任务中最高的概率回答是否最优的问题。但是,按字符串概率排序可以由于表面形式竞争而存在问题——其中不同的表面形式竞争概率质量,即使它们代表相同的基本概念,例如:“计算机”和“PC”。由于概率质量是有限的,由于来自其他字符串的竞争(如这是有效的答案,但不是多项选择选项之一),这降低了正确答案的概率。 作者提出领域条件点互信息,一种替代评分函数,通过简单地根据与特定零样本任务上下文中的先验可能性成正比的项重新权衡每个选项,直接补偿表面形式的竞争。它在多种选择数据集,在所有 GPT-2 和 GPT-3 模型上的零样本性能方面取得了一致的收益。 27. The Power of Scale for Parameter-Efficient Prompt Tuning 2021 2021.4.18 motivation: 验证当模型参数变大时候(比如百亿),prompt 的长度,初始化,预训练目标和训练 step 变得不那么重要,同时简单的 ensemble(投票)能提高效果。
36. Knowledgeable or Educated Guess? Revisiting Language Models as Knowledge Bases ACL 2021 2021.6.17 motivation: 设计实验分析之前的方法所衡量的,并不是模型的信息抽取能力,而是设计的 prompt 对原始数据集的拟合程度。并且验证基于 demonstration 的方法,更多是相似 type 信息泄露,同一 type 的数据进行混合,发现只要 type 一致,最终的信息并不会差太多。
37. Cutting Down on Prompts and Parameters: Simple Few-Shot Learning with Language Models 2021 2021.6.24 motivation: 在 few-shot learning 场景下,通过微调 transformer 中的 bias,超过 full-model finetuning(全量参数),节省参数存储,另外提出 null prompt,效果接近略差于有 prompt 效果。
38. Multimodal Few-Shot Learning with Frozen Language Models 2021 2021.6.25 motivation: 基于 prompt-tuning 的多模态小样本学习模型
39. Meta-tuning Language Models to Answer Prompts Better 2021 2021.7.16 motivation: 针对 few-shot 任务进行任务统一(先转换成蕴含,然后转换成 qa 问题),利用task description(prompt),快速适应新的任务 method:
40. Knowledgeable Prompt-tuning: Incorporating Knowledge into Prompt Verbalizer for Text Classification 2021 2021.8.4 motivation: 对标签词进行扩展,相当于引入外部知识