CLUECorpus2020：可能是史上最大的开源中文语料库以及高质量中文预训练模型集合

中文任务基准评测 AINLP 2020-10-22

我们开放大规模的高质量100GB中文语料用于中文任务，来促进中文NLP的发展。可以用于语言模型和模型预训练、文本生成、词嵌入模型等多种任务；为了便于预训练等任务的使用，现已处理成了预训练的格式、多个小文件以及统一命名，并做了数据集拆分；另外我们对词表进行了精简，使其更加适用于中文的处理以及提高训练和推理速度；我们在此基础上预训练了多个高质量模型，这些模型也开放下载使用。

CLUECorpus2020：Large-scale Pre-training Corpus for Chinese 100G 中文预训练语料，项目地址：

https://github.com/CLUEbenchmark/CLUECorpus2020

CLUEPretrainedModels：高质量中文预训练模型集合---最先进大模型、最快小模型、相似度专门模型，项目地址：

https://github.com/CLUEbenchmark/CLUEPretrainedModels

论文地址：https://arxiv.org/abs/2003.01355

语料介绍

通过对Common Crawl的中文部分进行语料清洗，最终得到100GB的高质量中文预训练语料。具体的数据介绍和我们的实验分析参见我们的技术报告。实验产出的模型见：高质量中文预训练模型，大号、超小和相似度预训练模型

数据特点：

可直接用于预训练、语言模型或语言生成任务。
发布专用于简体中文NLP任务的小词表。

词表介绍

Google原始中文词表和我们发布的小词表的统计信息如下：

实验效果

使用小数据集在BERT-base上的效果对比：

更多实验结果和分析可以参考：CLUEPretrainedModels

数据下载

申请方式：将使用语料研究目的和用途，计划、研究机构和申请者介绍，发送到邮箱，并承诺不向第三方提供。

邮箱: CLUEbenchmark@163.com，标题是：CLUECorpus2020 100G语料库

预训练模型介绍

本项目是与CLUECorpus2020的姊妹项目，通过使用前者的预训练语料库和新版的词汇表，来做模型的预训练。详细报告见，技术报告

项目亮点：

1.提供了大模型、小模型和语义相似度模型。大模型取得与当前中文上效果最佳的模型一致的效果，在一些任务上效果更好。

2.小模型速度比Bert-base提升8倍左右，与albert_tiny速度一致，但效果更佳；

3.语义相似度模型，用于处理语义相似度或句子对问题，有很大概率比直接用预训练模型效果要好；

4.一期支持6个分类和句子对任务，后期会支持CLUE benchmark所有任务；

模型下载

中文任务基准测评.分类与句子对任务

AFQMC：语义相似度任务
TNEWS'：中文新闻（短文本）分类。包含15个类别的新闻，包括旅游，教育，金融，军事等。
IFLYTEK'：关于app应用描述的长文本数据，包含和日常生活相关的各类应用主题，共119个类别，如：打车、地图导航、免费WIFI、经营等
CMNLI：自然语言推理任务，判断给定的两个句子之间的关系，如蕴涵、中立、矛盾。

效果对比-小模型

效果对比-大模型

效果对比-句子对模型

速度对比

小模型使用建议

1.学习率：稍微大一点的学习率，如{1e-4, 4e-4 1e-5} 默认:1e-4

2.训练轮次：5-8。使用验证集上效果最好的模型，用于测试集上测试或在线预测

3.相似性或句子对任务，优先使用专门的RoBERTa-xxx-pair模型，如RoBERTa-tiny-pair(小号)或 RoBERTa-large-pair(大号)

模型结构

为方便调用，所有模型都保持和Bert-base一致的结构，并可以直接使用Bert加载。
RoBERTa-xxx-clue.zip
    |- bert_model.ckpt      # 模型权重
    |- bert_model.meta      # 模型meta信息
    |- bert_model.index     # 模型index信息
    |- bert_config.json     # 模型参数
    |- vocab.txt            # 词表

一键运行.基线模型与代码 Baseline with codes

使用方式：
1、克隆项目 
   git clone https://github.com/CLUEbenchmark/CLUEPretrainedModels.git
2、进入到相应的目录
   分类任务  
       例如：
       cd CLUEPretrainedModels/baselines/models/bert
       ###cd CLUEPretrainedModels/baselines/models_pytorch/classifier_pytorch
3、运行对应任务的脚本(GPU方式): 会自动下载模型和任务数据并开始运行。
   bash run_classifier_xxx.sh
   如运行 bash run_classifier_iflytek.sh 会开始iflytek任务的训练  
4、tpu使用方式(可选)  
    cd CLUEPretrainedModels/baselines/models/bert/tpu  
    sh run_classifier_tnews.sh即可测试tnews任务（注意更换里面的gs路径和tpu ip）。数据和模型会自动下载和上传。

    cd CLUEPretrainedModels/baselines/models/roberta/tpu  
    sh run_classifier_tiny.sh即可运行所有分类任务（注意更换里面的路径,模型地址和tpu ip）

问题反馈和支持

如有问题请提交issue，加入讨论群(QQ:836811304)

或发送邮件CLUEbenchmark@163.com

中文任务基准评测：通过推动中文任务测评的标准化和提供相关基础设施的方式，促进中文NLP事业的发展。

附论文全文：

推荐阅读

AINLP年度阅读收藏清单

CLUEDatasetSearch：搜索所有中文数据集，附常用英文数据集

CLUENER2020：中文细粒度命名实体识别数据集来了

中文NER任务实验小结报告——深入模型实现细节

BottleSum——文本摘要论文系列解读

抛开模型，探究文本自动摘要的本质——ACL2019 论文佳作研读系列

鼠年春节，用 GPT-2 自动写对联和对对联

用 GPT-2 自动写诗，从五言绝句开始

征稿启示 | 稿费+GPU算力+星球嘉宾一个都不少

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区，专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享，主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等，欢迎关注！加技术交流群请添加AINLP君微信(id：AINLP2)，备注工作/研究方向+加群目的。

喜欢此内容的人还喜欢

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！

61岁上海大爷相亲：年轻貌美，婚后AA，不能吃太多