CLUECorpus2020:可能是史上最大的开源中文语料库以及高质量中文预训练模型集合
我们开放大规模的高质量100GB中文语料用于中文任务,来促进中文NLP的发展。可以用于语言模型和模型预训练、文本生成、词嵌入模型等多种任务;为了便于预训练等任务的使用,现已处理成了预训练的格式、多个小文件以及统一命名,并做了数据集拆分;另外我们对词表进行了精简,使其更加适用于中文的处理以及提高训练和推理速度;我们在此基础上预训练了多个高质量模型,这些模型也开放下载使用。
CLUECorpus2020:Large-scale Pre-training Corpus for Chinese 100G 中文预训练语料,项目地址:
https://github.com/CLUEbenchmark/CLUECorpus2020
CLUEPretrainedModels:高质量中文预训练模型集合---最先进大模型、最快小模型、相似度专门模型,项目地址:
https://github.com/CLUEbenchmark/CLUEPretrainedModels
论文地址:https://arxiv.org/abs/2003.01355
语料介绍
通过对Common Crawl的中文部分进行语料清洗,最终得到100GB的高质量中文预训练语料。具体的数据介绍和我们的实验分析参见我们的技术报告。实验产出的模型见:高质量中文预训练模型,大号、超小和相似度预训练模型
数据特点:
可直接用于预训练、语言模型或语言生成任务。
发布专用于简体中文NLP任务的小词表。
词表介绍
实验效果
使用小数据集在BERT-base上的效果对比:
更多实验结果和分析可以参考:CLUEPretrainedModels
数据下载
申请方式:将使用语料研究目的和用途,计划、研究机构和申请者介绍,发送到邮箱,并承诺不向第三方提供。
邮箱: CLUEbenchmark@163.com,标题是:CLUECorpus2020 100G语料库
预训练模型介绍
本项目是与CLUECorpus2020的姊妹项目,通过使用前者的预训练语料库和新版的词汇表,来做模型的预训练。详细报告见,技术报告
项目亮点:
1.提供了大模型、小模型和语义相似度模型。大模型取得与当前中文上效果最佳的模型一致的效果,在一些任务上效果更好。
2.小模型速度比Bert-base提升8倍左右,与albert_tiny速度一致,但效果更佳;
3.语义相似度模型,用于处理语义相似度或句子对问题,有很大概率比直接用预训练模型效果要好;
4.一期支持6个分类和句子对任务,后期会支持CLUE benchmark所有任务;
模型下载
中文任务基准测评.分类与句子对任务
AFQMC:语义相似度任务
TNEWS':中文新闻(短文本)分类。包含15个类别的新闻,包括旅游,教育,金融,军事等。
IFLYTEK':关于app应用描述的长文本数据,包含和日常生活相关的各类应用主题,共119个类别,如:打车、地图导航、免费WIFI、经营等
CMNLI:自然语言推理任务,判断给定的两个句子之间的关系,如蕴涵、中立、矛盾。
效果对比-小模型
效果对比-大模型
效果对比-句子对模型
速度对比
小模型使用建议
1.学习率:稍微大一点的学习率,如{1e-4, 4e-4 1e-5} 默认:1e-4
2.训练轮次:5-8。使用验证集上效果最好的模型,用于测试集上测试或在线预测
3.相似性或句子对任务,优先使用专门的RoBERTa-xxx-pair模型,如RoBERTa-tiny-pair(小号)或 RoBERTa-large-pair(大号)
模型结构
为方便调用,所有模型都保持和Bert-base一致的结构,并可以直接使用Bert加载。
RoBERTa-xxx-clue.zip
|- bert_model.ckpt # 模型权重
|- bert_model.meta # 模型meta信息
|- bert_model.index # 模型index信息
|- bert_config.json # 模型参数
|- vocab.txt # 词表
一键运行.基线模型与代码 Baseline with codes
使用方式:
1、克隆项目
git clone https://github.com/CLUEbenchmark/CLUEPretrainedModels.git
2、进入到相应的目录
分类任务
例如:
cd CLUEPretrainedModels/baselines/models/bert
###cd CLUEPretrainedModels/baselines/models_pytorch/classifier_pytorch
3、运行对应任务的脚本(GPU方式): 会自动下载模型和任务数据并开始运行。
bash run_classifier_xxx.sh
如运行 bash run_classifier_iflytek.sh 会开始iflytek任务的训练
4、tpu使用方式(可选)
cd CLUEPretrainedModels/baselines/models/bert/tpu
sh run_classifier_tnews.sh即可测试tnews任务(注意更换里面的gs路径和tpu ip)。数据和模型会自动下载和上传。
cd CLUEPretrainedModels/baselines/models/roberta/tpu
sh run_classifier_tiny.sh即可运行所有分类任务(注意更换里面的路径,模型地址和tpu ip)
问题反馈和支持
如有问题请提交issue,加入讨论群(QQ:836811304)
或发送邮件CLUEbenchmark@163.com
中文任务基准评测:通过推动中文任务测评的标准化和提供相关基础设施的方式,促进中文NLP事业的发展。附论文全文:
推荐阅读
CLUEDatasetSearch:搜索所有中文数据集,附常用英文数据集
抛开模型,探究文本自动摘要的本质——ACL2019 论文佳作研读系列
关于AINLP
AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP君微信(id:AINLP2),备注工作/研究方向+加群目的。