Google T5速读

AINLP 2019-12-18

以下文章来源于NLPCAB ，作者李如

ALBERT凳子还没坐热，GLUE就又换了老大，Google T5 (Text-to-Text Transfer Transformer)大力出奇迹，威震天在角落默不作声。

简介

这次的T5模型虽然名字和BERT+系列不一样，但底子里还是差不多的。给我的感觉就是大型Seq2Seq的BERT+干净的数据+多任务+一些改动。论文的作者深入对比了不同的预训练目标、模型结构、无监督数据集、迁移方法、NLU任务，最终拼成了T5。文章除去reference一共34页，可以说很良心地剖析了transformer的效果，建议同学们根据自己的任务和时间慢慢读。

来感受一下T5 11B的size：

贴一下在GLUE和SUPERGLUE的登顶照：

1. 模型

输入和输出

和GPT2一样，T5把所有的NLP问题归结为了“text-to-text”的任务，下图展示了T5在翻译、分类、相似度、摘要任务上的输入输出样例：

Relative position embeddings (PE)

T5使用了简化的相对位置embeding，即每个位置对应一个数值而不是向量，将(key和query)相对位置的数值加在attention softmax之前的logits上，每个head的有自己的PE，所有的层共享一套PE。个人认为这种方式更好一点，直接在计算attention weight的时候加入位置信息，而且每一层都加一次，让模型对位置更加敏感。

2. 数据

Colossal Clean Crawled Corpus (C4)

作者选取了Common Crawl数据集，这个数据集每周大约爬取20TB的WEB数据。虽然数据集已经抽取了文本，但实际上并不干净，里面还包含了很多非自然语言的东西，比如错误消息、菜单、重复文本，用过脏数据的同学一定深有体会。于是本文对数据进行了比较细致的处理：

只取结尾有标点的句子
去掉包含脏话的网页
有很多页面包含"enable Javascript"的提示，去掉包含Javascript的句子
"lorem ipsum"是一个测试网页排版的拉丁文，去掉包含这个占位符的网页
去掉包含代码片段的网页
以三句为一个片段进行去重
去掉非英文的网页

经过上述处理后最终生成了750GB的数据集C4，并且在TensorFlow Datasets开源了。

3. 任务及数据格式

任务

机器翻译、问答、生成式摘要、文本分类(单句&双句)

数据格式

输入：参考GPT2，直接把任务名称当作prefix和输入拼在一起
输出：分类任务(如推断)，需要输出"entailment", "neutral", "contradiction"这三种文本，否则都算错；回归任务输出str类型的浮点数。还有其他任务，请需要的同学前往附录D参考～

4. 训练

预训练

参考SpanBERT，mask掉15%，平均长度为3的span
训练更长步数，1百万步*1024个样本
使用Multi-task预训练，即混入在无监督数据中混入一定比例的任务数据

精调

也是Multi-task，将所有GLUE/SuperGLUE的数据拼在一起变成精调一个task，减少过拟合，但同时也会牺牲一些精度
batch size减小到8
其实最后同时进行了多任务精调和单独精调，根据dev集选择最好的结果

解码

大部分使用Greedy decoding，对于输出句子较长的任务使用beam search

5. 结论

Architectures

原始的Transformer结构表现最好
encoder-decoder结构和BERT、GPT的计算量差不多
共享encoder和decoder的参数没有使效果差太多

Unsupervised objectives

自编码和自回归的效果差不多
作者推荐选择更短目标序列的目标函数，提高计算效率

Datasets

在领域内进行无监督训练可以提升一些任务的效果，但在一个小领域数据上重复训练会降低效果
Large、diverse的数据集最香了

Training strategies

精调时更新所有参数 > 更新部分参数
在多个任务上预训练之后精调 = 无监督预训练

Scaling

在小模型上训练更多数据 < 用少量步数训练更大的模型
从一个预训练模型上精调多个模型后集成 < 分开预训练+精调后集成

总体感觉T5除了position embedding之外没什么新的东西，在GLUE以及机器翻译上的提升都很有限，但作者本来的意图也是做一个全面的分析，砸百万美元替大家排忧解难，此处应有掌声。

从最近的研究来看，目前模型复杂度和性能真的是很难平衡，但今天也听到了量子计算的福音，科技永远向前，希望NLP越来越好。

本文转载自公众号: NLPCAB，作者：李如

超小型bert横空出世：训练和预测提速10倍

2021 校招算法岗，劝退还是继续

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区，专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享，主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等，欢迎关注！加技术交流群请添加AINLP君微信(id：AINLP2)，备注工作/研究方向+加群目的。

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

从地方目标看全国！今年经济增长还是有很高要求

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！

Google T5速读

简介

1. 模型

2. 数据

3. 任务及数据格式

4. 训练

5. 结论

您可能也对以下帖子感兴趣

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

从地方目标看全国！今年经济增长还是有很高要求

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！

生成图片，分享到微信朋友圈

Google T5速读

简介

1. 模型

2. 数据

3. 任务及数据格式

4. 训练

5. 结论

您可能也对以下帖子感兴趣