查看原文
其他

打造生成式人工智能压舱石,智源联合共建单位开源可信中文互联网语料库CCI

智源研究院 智源研究院 2023-12-09
在中国网络空间安全协会人工智能安全治理专业委员会数据集工作组、北京市委网信办、北京市科委、中关村管委会、海淀区政府的支持下,智源研究院联合拓尔思、中科闻歌共建了 “中文互联网语料库”(Chinese Corpora Internet,简称 CCI),旨在为国内大数据及人工智能行业提供一个安全、可靠的语料资源,并以此为契机促进不同机构合作,共同推动大数据和人工智能领域的健康发展。

项目背景

随着大模型的快速发展,业界及学界对高质量数据集的需求日益增长。这些数据集不仅需要包含大量信息,而且还需经过严格的筛选和清洗,以确保其准确性和下游模型及应用的安全。然而,当前业内流行的公开数据集均存在一定质量和安全风险,中文领域尤其缺乏高质量、符合安全要求的数据集。另外,构建一个符合安全要求的中文数据集也面临诸多挑战。
首先是语料内容的安全风险。当前,很多公开数据集存在以下问题:
  1. 数据来源杂乱,存在诸多潜在内容风险,导致模型及应用存在潜在安全隐患;
  2. 侵害他人合法权益:如隐私权、版权等,导致模型生成内容对个人或团体产生不利影响;‍‍‍
  3. 歧视性内容:包含对特定群体的不公正或偏见性描述,影响模型的公正性和可接受度;‍
  4. 虚假数据:不真实的信息可能导致模型训练结果偏差,影响模型的有效性和可靠性。

其次,内容清洗也存在突出的问题。目前,不同机构在内容清洗上的标准不一,对负面信息或违法违规信息的分类体系也大相径庭。由于缺乏统一的标准和认识,各机构在内容审核与安全过滤上投入了大量的人力和物力,但效果仍不理想。此外,大量的过滤规则需要非常及时地根据监管部门的业务指令和舆情热点事件不断更新,这对数据集迭代更新速度提出了新的要求。

因此,开源一个经过严格筛选和标准化处理的数据集对于大模型技术创新与发展尤为重要,只有更为广泛的合作和资源共享才能完成这项艰巨的任务。

中文互联网语料库CCI 

中文互联网语料库CCI在数据来源上均为高质量可信、中国境内的互联网站,经过严格的数据清洗和去重,并且在内容质量、价值观等方面进行了针对性的检测与过滤,进一步提升数据质量和安全可信程度。此次数据处理规则包括:

  • 基于规则的过滤:文字密度提取、敏感词过滤、垃圾信息过滤、简繁体转换等;
  • 基于模型的过滤:低质量内容过滤;‍
  • 数据去重:数据集内部 / 数据集间去重;

此外,由于大语言模型的预训练数据规模庞大,容易引发评测数据泄露。一旦评测数据不小心进入预训练数据,将导致大模型“被动刷题”的后果,对大模型团队容易带来负面影响。为此,我们在数据处理过程中采用了多种检索技术,对当前主流的多个中文评测数据集进行严格筛查和过滤。本数据集也是首个针对当前主流评测数据集进行严格过滤的开源数据集,包含以下方法:‍‍‍‍‍‍

  • 基于规则匹配:字符串匹配、模糊匹配等;
  • 基于信息检索方法:TF-IDF、BM25等;
  • 过滤的中文评测数据集包括:C-Eval、CMMLU、GAOKAO、CLUE等。

CCI语料库首期开放的数据(CCI v1.0.0)规模为 104GB。数据集总体的时间跨度为2001年1月至2023年11月。

下载地址:
  • 智源开放数据仓库: https://data.baai.ac.cn/details/BAAI-CCI
  • HuggingFace:https://huggingface.co/datasets/BAAI/CCI-Data

未来,智源研究院与共建单位将继续在CCI语料库的基础上,进一步扩充数据来源、完善数据处理流程,不断提升语料库规模并提升数据集的质量,为大模型开源社区提供更多的高质量、可信的数据资源。

秉承开源开放精神

建设高质量、高可信度、高安全性的中文数据集

智源研究院致力于构建高质量、高可信度、高安全性的中文数据集,推动数据资源的开源开放,支持和促进学术研究与技术发展。

作为非营利研究机构,智源研究院秉承开源开放精神,持续推动中国高质量中文数据资源的有效利用。我们致力于加速数据处理标准、技术、工具以及支持平台的研发,以提升数据处理的效率和质量,已经开放的主要成果包括:

  • 2021年,智源推出全球最大语料库WUDAO copora,开放200GB高质量低风险中文语料,由400余个产学研单位合作,已有770多个研发团队申请,为微软、哈佛大学、斯坦福大学、华为、阿里巴巴、腾讯、鹏城实验室等提供数据服务,有效支撑全球大模型相关研究。
  • 2023年6月,开放最大规模、可商用、持续更新的中文开源指令数据集COIG,由来自全球40余个机构的100多名工程师共同参与,创造了跨越国界、紧密合作的全球数据开源成果。
  • 2023年9月,开源全球最大的中英文文本对语义向量模型训练数据集MTP(massive text pairs),数据规模达3亿对(其中中文1亿,英文2亿)。文本主题丰富,源自海量优质文本数据,涉及搜索、社区问答、百科常识、科技文献等多种主题。由该数据集训练得到的语义向量模型BGE (BAAI General Embedding) 性能大幅领先同类别模型。


继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存