大模型语料数据联盟开源发布高质量多模态语料“书生·万卷”
继今年7月在2023世界人工智能大会发起成立“大模型语料数据联盟”(以下简称“语料数据联盟”),上海人工智能实验室(上海AI实验室)于8月14日宣布,联合中央广播电视总台、人民网、国家气象中心、中国科学技术信息研究所、上海报业集团、上海文广集团等语料数据联盟成员,共同开源发布“书生·万卷” 1.0多模态预训练语料。
“书生·万卷” 1.0目前包含文本数据集、图文数据集、视频数据集三部分,本次开源的数据总量超过2TB。集合语料数据联盟成员丰富的内容积累与上海AI实验室领先的数据处理能力等优势,“书生·万卷”将为学术界及产业界提供更符合主流中文价值对齐的高质量大模型多模态预训练语料。
“书生·万卷”链接:https://opendatalab.org.cn/WanJuan1.0(点击阅读原文直达)
跨界联合
共建宽领域语料库
数据是人工智能重要的基础设施,数据质量是决定大模型能力的关键因素之一。为促进大模型的科研创新、客观评估大模型技术产品水平及差距,推动大模型技术高质量发展,加速应用创新与行业落地,大模型语料数据联盟于7月6日世界人工智能大会开幕式上宣布成立,旨在通过链接模型训练、数据供给、学术研究、第三方服务等多方面机构,联合打造多知识、多模态、标准化的高质量语料数据,探索形成基于贡献、可持续运行的激励机制,力争打造国际化、开放型的大模型语料数据生态圈。
精细处理
构建高质量预训练语料
在多元融合方面,“书生·万卷”1.0包含文本、图文、视频等多模态数据,范围覆盖科技、文学、媒体、教育、法律等多个领域,在训练提升模型知识含量、逻辑推理和泛化能力方面具有显著效果。
在精细处理方面,“书生·万卷”1.0经历了语言甄别、正文抽取、格式标准化、基于规则及模型的数据过滤与清洗、多尺度去重、数据质量评估等精细化数据处理环节,因而能更好地适配后续的模型预训练需求。
在价值对齐方面,研究人员在“书生·万卷”1.0的构建过程中,着眼于内容与中文主流价值观的对齐,通过算法与人工评估结合的方式,提升了语料的纯净度。
在易用高效方面,研究人员在“书生·万卷”1.0采用统一格式,并提供详细的字段说明和工具指导,使其兼顾了易用性和效率,可快速应用于语言、多模态等大模型预训练。
开源开放
进一步降低大模型门槛
“书生·万卷”已被用于书生大模型预训练,其开源发布将进一步降低大模型技术探索和落地的门槛。
据了解,“书生·万卷”的主要构建团队——OpenDataLab旨在建设面向人工智能开发者的超大规模、高质量、多模态开放数据服务平台,致力于打造国内公开数据资源的基础建设。目前,该平台已建立共享的多模态数据集5500个,涵盖超过1万亿token文本语料、60亿张图像、8亿个视频片段和100万个3D模型。
高质量、多模态、宽领域的数据支持已成为当前人工智能大模型发展的重要基石,上海AI实验室将持续通过开源开放,与语料数据联盟伙伴一道,共建包容、开放、有序、共享的人工智能大生态。
大模型语料数据联盟
由上海人工智能实验室联合中央广播电视总台、人民网、国家气象中心、中国科学技术信息研究所、上海报业集团、上海文广集团等10家单位联合发起。为应对大模型发展对高质量、大规模、安全可信语料数据资源的需求,保障大模型科研攻关及相关产业生态发展,大模型语料数据联盟于2023年7月6日世界人工智能大会开幕式上宣布成立,旨在通过链接模型训练、数据供给、学术研究、第三方服务等多方面机构,联合打造多知识、多模态、标准化的高质量语料数据,探索形成基于贡献、可持续运行的激励机制,打造国际化、开放型的大模型语料数据生态圈。
如需了解更多关于大模型语料数据联盟的相关信息,请联系:Comm@pjlab.org.cn。