ICML 2020 | Google提出最强生成式摘要预训练模型——天马
论文标题:PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization
论文来源:ICML 2020
论文链接:https://arxiv.org/abs/1912.08777
代码链接:https://github.com/google-research/pegasus
概述
文章提出了一种专门针对文本摘要生成的预训练方法,并提出了一种 GSG (Gap Sentence Generation) 的生成方法,该方法在模型的 fine-tune 阶段只需要 1000 个 example 就能达到 12 个数据集的 SOTA,这个结果还是很抢眼的,值得仔细读一读。
论文中提到,pre-train 的 task 如果和 down-stream 的 task 越接近,那 down-stream 的 task 的效果也就会更好,按理说这是个大家都知道的结论,但是没想到这个效果更好竟然也会体现在样本的数量上,只需要 1000 个 examples 就能超过 SOTA,这是结论是我没有想到的。
Random 随机选择 m 个句子来 mask
Lead 选择前 m 个句子来 mask
Principle 给每个句子进行打分,计算每个句子和剩下部分内容的 ROUGE1-F1 值,从高到低取 m 个句子来 mask
作者预训练的时候训练了两个版本,一个版本是单独的 encoder,只用了 MLM(mask language model)作为 target,在 decode 阶段 decoder 和 encoder 共享参数。
finetune
不同的词表大小,带来的收益也是不一样的。
再看看 large 模型的效果:
更多阅读
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
📬 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。