全网首个OpenPrompt尝鲜报告:Prompt研究者必备实验利器
©PaperWeekly 原创 · 作者 | 李国趸
学校 | 浙江大学硕士生
研究方向 | 少样本学习
为什么我们需要 Prompt 工具包? OpenPrompt 是什么?
OpenPrompt 的优势:为什么我们需要 OpenPrompt?
Next Step towards PromptCenter:不仅仅是 OpenPrompt
Prompt learning 的性能并不是很稳定,需要考虑诸多的因素,诸如 template 和 verbalizer 的设计,tunable token 和 label words 的初始化和预训练模型的选择等。 一些 Prompt 的工作仍基于传统 fine-tuning 的代码模版,用最小的更改成本来实现 Prompt learning,代码耦合程度较高,缺乏可读性和可复现性。
定义 tokenizer,然后用 PromptTokenizer 包起来,PromptTokenizer 中实现了额外的一些辅助方法;
定义 template:按照需要选择 soft,或者 hard,或者 hybrid,每个都有相应的类;
定义 verbalizer:同样按照需要可以选择 soft,或者 hard 等;
定义 model:一般有两种,PromptForClassification 和 PromptForGeneration,当然里面要传入预训练模型,可以是 BERT,也可以是 T5,还要传入定义的 template 和 verbalizer。
利用 Python 的 dict 的 key-value 形式表示 template,每个 dict 表示一个特殊的节点及其描述。 meta 标签表示了一些特殊的 slot,填入对应的输入,比如 {"meta":"premise"} 表示这个 slot 填入的是 premise sentence。 shortenable 标签表示了该 slot 在面临预训练模型输入长度限制时能否被截断,比如一些特殊的 token 就不能被截断,而一些输入句子是可以被截断的。 soft 标签指定当前位置是 soft token,其 value 表示用什么词进行初始化,duplicate 表示 soft token 在该位置周围重复多少次。soft id 标签则指如果两个 soft token 有相同的 soft id,则共享 word embedding。 mask 标签则表示此位需要被预测,post_ processing 标签则表示该位置的内容可以传入一个函数去后处理。
特别鸣谢
感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧