COIG二期发布:最大规模中文多任务指令集,上新千个中文数据集
高质量的指令数据是语言大模型(LLM)发展的重要“燃料”,而现阶段中文大语言模型数据集仍十分稀缺、现有开源数据集有诸多商用条款限制,成为研究发展掣肘因素。
近日,智源研究院发布的国内首个大规模、可商用中文开源指令数据集COIG (Chinese Open Instruction Generalist),带来二期成果COIG-PC(Prompt Collection ) ,当前已发布来自348个源数据集的949个指令任务文件,未来将持续更新。
与其他中文指令数据集相比,COIG-PC覆盖了绝大多数的传统自然语言处理场景,支持商用许可,且支持根据需要自行采样,还有对不同指令的细粒度类型与领域说明。
COIG-PC:最大规模、持续更新的中文多任务指令数据集
数量远超一期,可信度更高,COIG-PC采用类似FLAN Collection的Instruction数据收集流程:通过对来源于互联网的传统 NLP数据集进行改写,高质量地建模NLP常规指令,并进行精心开发与优化。
COIG二期不仅是指令微调,也是多任务学习进一步规模化的珍贵资料。可以帮助中文自然语言处理(NLP)的语言模型进行微调和优化;并为研究人员和开发人员提供丰富资源,以提高语言模型处理中文文本的能力,包括但不限于文本生成、信息提取、情感分析、机器翻译等领域。
COIG-PC 由来自全球二十多个机构的近百位工程师联手对数据进行规范化处理,包括智源研究院, 北京大学, 香港科技大学, 滑铁卢大学, 谢菲尔德大学, 北京邮电大学,MAP(Multimodal Art Projection),Stardust Data等。
项目团队正积极工作,预计将整合超过1800个开源数据集,并通过人工改写,精心整理近4亿条指令数据,并提供完善的数据筛选、版本控制工具,方便研究使用。
四大优势,直面大模型时代中文数据难题
数据体系的搭建是模型训练的基础,数据集的质量直接影响模型的性能。当前,大模型中文语料稀缺,COIG-PC将成为中文NLP领域的宝贵资源:
解决复杂中文问题:作为一种拥有海量汉字和多样语法结构的语言,中文因其错综复杂的特性和丰富多样的字符及语法结构而闻名,这种复杂性让模型训练显得极其困难。COIG-PC 数据集作为专为中文量身打造的资源,将有效提高模型应对复杂中文的能力。
全面的数据整合:COIG-PC搜集了上千个原始中文NLP开源数据集,集成了市场上几乎所有可用的中文数据集,构造了中文社区最大的开源指令微调数据集,希望缓解LLM时代中文社区的数据难题。
数据去重和规范化: COIG-PC非常注重数据的质量,经过严格的人工处理以消除重复数据,确保数据集没有冗余。此外,联合来自二十多个机构近百位工程师进行数据规范化,保证数据结构良好。这种方式不仅使模型训练更高效,也可以保证模型训练的结果更加准确。
微调和优化: COIG-PC对数据集进行了指令优化,这一结构可以帮助模型更好地理解和执行任务,可进一步提高模型在未知任务和领域的表现。
通过全面聚合、精心筛选、去重和数据标准化,COIG-PC将有效促进中文大语言模型的发展,为中文NLP领域带来新的可能性和机遇。
回顾 | COIG一期已开放总计17.8万条指令数据
今年5月,智源推出开源可商用中文指令数据集 COIG 一期——数据类型多样、经过人工质检与修正、数据质量可靠,获得来自学界与产业界的热烈反响。
COIG 一期总计 178k 规模、由5 个子数据集构成:包括翻译指令、考试指令、人类价值观对齐指令、反事实修正多轮聊天、Leetcode指令。
COIG-PC许可声明
默认许可 - 子数据集没有特别声明时:在 COIG-PC 数据集中,如果子数据集没有特定的许可声明,那么默认适用的许可条款将是 Apache License 2.0(Apache-2.0)。
子数据集的许可声明优先: 对于 COIG-PC 数据集中任何有明确声明许可的子数据集,声明的许可条款及条件应优先适用。
使用 COIG-PC 数据集的用户和开发人员必须确保遵守上述许可条款。务必审查并遵守每个子数据集的指定许可条件,因为每个子数据集的许可条件可能存在差异