查看原文
其他

CLUECorpus2020:可能是史上最大的开源中文语料库以及高质量中文预训练模型集合

中文任务基准评测 AINLP 2020-10-22

我们开放大规模的高质量100GB中文语料用于中文任务,来促进中文NLP的发展。可以用于语言模型和模型预训练、文本生成、词嵌入模型等多种任务;为了便于预训练等任务的使用,现已处理成了预训练的格式、多个小文件以及统一命名,并做了数据集拆分;另外我们对词表进行了精简,使其更加适用于中文的处理以及提高训练和推理速度;我们在此基础上预训练了多个高质量模型,这些模型也开放下载使用。


CLUECorpus2020:Large-scale Pre-training Corpus for Chinese 100G 中文预训练语料,项目地址:

https://github.com/CLUEbenchmark/CLUECorpus2020


CLUEPretrainedModels:高质量中文预训练模型集合---最先进大模型、最快小模型、相似度专门模型,项目地址:

https://github.com/CLUEbenchmark/CLUEPretrainedModels


论文地址:https://arxiv.org/abs/2003.01355

语料介绍

通过对Common Crawl的中文部分进行语料清洗,最终得到100GB的高质量中文预训练语料。具体的数据介绍和我们的实验分析参见我们的技术报告。实验产出的模型见:高质量中文预训练模型,大号、超小和相似度预训练模型

数据特点:

  1. 可直接用于预训练、语言模型或语言生成任务。

  2. 发布专用于简体中文NLP任务的小词表。

词表介绍

Google原始中文词表和我们发布的小词表的统计信息如下:

实验效果

使用小数据集在BERT-base上的效果对比:

更多实验结果和分析可以参考:CLUEPretrainedModels

数据下载

申请方式:将使用语料研究目的和用途,计划、研究机构和申请者介绍,发送到邮箱,并承诺不向第三方提供。

邮箱: CLUEbenchmark@163.com,标题是:CLUECorpus2020 100G语料库

预训练模型介绍

本项目是与CLUECorpus2020的姊妹项目,通过使用前者的预训练语料库和新版的词汇表,来做模型的预训练。详细报告见,技术报告

项目亮点:

1.提供了大模型、小模型和语义相似度模型。大模型取得与当前中文上效果最佳的模型一致的效果,在一些任务上效果更好。

2.小模型速度比Bert-base提升8倍左右,与albert_tiny速度一致,但效果更佳;

3.语义相似度模型,用于处理语义相似度或句子对问题,有很大概率比直接用预训练模型效果要好;

4.一期支持6个分类和句子对任务,后期会支持CLUE benchmark所有任务;

模型下载


中文任务基准测评.分类与句子对任务

AFQMC:语义相似度任务
TNEWS':中文新闻(短文本)分类。包含15个类别的新闻,包括旅游,教育,金融,军事等。
IFLYTEK':关于app应用描述的长文本数据,包含和日常生活相关的各类应用主题,共119个类别,如:打车、地图导航、免费WIFI、经营等
CMNLI:自然语言推理任务,判断给定的两个句子之间的关系,如蕴涵、中立、矛盾。

效果对比-小模型

效果对比-大模型

效果对比-句子对模型

速度对比

小模型使用建议

1.学习率:稍微大一点的学习率,如{1e-4, 4e-4 1e-5} 默认:1e-4

2.训练轮次:5-8。使用验证集上效果最好的模型,用于测试集上测试或在线预测

3.相似性或句子对任务,优先使用专门的RoBERTa-xxx-pair模型,如RoBERTa-tiny-pair(小号)或 RoBERTa-large-pair(大号)

模型结构

为方便调用,所有模型都保持和Bert-base一致的结构,并可以直接使用Bert加载。
RoBERTa-xxx-clue.zip
    |- bert_model.ckpt      # 模型权重
    |- bert_model.meta      # 模型meta信息
    |- bert_model.index     # 模型index信息
    |- bert_config.json     # 模型参数
    |- vocab.txt            # 词表

一键运行.基线模型与代码 Baseline with codes

使用方式:
1、克隆项目 
   git clone https://github.com/CLUEbenchmark/CLUEPretrainedModels.git
2、进入到相应的目录
   分类任务  
       例如:
       cd CLUEPretrainedModels/baselines/models/bert
       ###cd CLUEPretrainedModels/baselines/models_pytorch/classifier_pytorch
3、运行对应任务的脚本(GPU方式): 会自动下载模型和任务数据并开始运行。
   bash run_classifier_xxx.sh
   如运行 bash run_classifier_iflytek.sh 会开始iflytek任务的训练  
4、tpu使用方式(可选)  
    cd CLUEPretrainedModels/baselines/models/bert/tpu  
    sh run_classifier_tnews.sh即可测试tnews任务(注意更换里面的gs路径和tpu ip)。数据和模型会自动下载和上传。

    cd CLUEPretrainedModels/baselines/models/roberta/tpu  
    sh run_classifier_tiny.sh即可运行所有分类任务(注意更换里面的路径,模型地址和tpu ip)  

问题反馈和支持

如有问题请提交issue,加入讨论群(QQ:836811304)

或发送邮件CLUEbenchmark@163.com

中文任务基准评测:通过推动中文任务测评的标准化和提供相关基础设施的方式,促进中文NLP事业的发展。

附论文全文:

推荐阅读

AINLP年度阅读收藏清单

CLUEDatasetSearch:搜索所有中文数据集,附常用英文数据集

CLUENER2020:中文细粒度命名实体识别数据集来了

中文NER任务实验小结报告——深入模型实现细节

BottleSum——文本摘要论文系列解读

抛开模型,探究文本自动摘要的本质——ACL2019 论文佳作研读系列

鼠年春节,用 GPT-2 自动写对联和对对联

用 GPT-2 自动写诗,从五言绝句开始

征稿启示 | 稿费+GPU算力+星球嘉宾一个都不少

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP君微信(id:AINLP2),备注工作/研究方向+加群目的。


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存