查看原文
其他

大模型数据之二|中美大模型的竞争之路:从训练数据讲起

王峥 傅宏宇 袁媛 阿里研究院
2024-10-01

阿里研究院

12/28

2023

本期导语


近年来,美国陆续出台芯片法案、人工智能倡议法案等规则,中美科技战越演愈烈。这是一场交织着技术、产业、经济、政治和全球博弈等多重复杂和综合因素的地缘政治冲突,是中美高科技领域近几十年来竞合和博弈的必然结果。


在这一轮AI大模型竞争中,美国作为AI的重要发源地,拥有众多技术巨头和顶尖研究机构,一直处于领先地位,美国科技公司2023年先后推出高性能的大模型及其升级版,如OpenAI的GPT-4、Google的Gemini模型等;中国则通过前期AI应用的技术积累和科技企业的大量投入,推出阿里巴巴的“通义千问”、百度的“文心一言”等大模型,成为和美国竞争的重要力量。


从训练数据角度来看,中美的数据来源有何差异?公共数据的开放和运营能否成为中文语料的竞争优势?建设中国版大模型数据我们该怎么做?带着这些问题,承接上一期内容,本期专题和大家聊一聊中美大模型训练数据来源,谈一谈如何让大模型底层更为坚实,希望引发一些政策和制度设计层面的思考与共鸣。





训练数据从何而来?中美做法迥异

分析大模型的数据来源可以从政府和社会力量两方面入手。从政府视角看,哪些公共数据可以支持大模型训练?我们梳理了以下几种:


一是,经过权威认证或凝聚共识的知识,如专利文档、上市公司财报、法院判例/裁判文书、医疗诊断记录、政策文本等,除了可用于预训练语料,还可应用于行业大模型监督微调(SFT)或外挂语料库建设。二是,提供公共管理和服务的counting属性数据,如公共交通、供水、供电、供气等,可用于提升模型多线程处理,调度优化能力。三是,具有科研属性的数据,主要特征有长周期、大规模、多模态、来源清晰、描述详细、可使用,如天气、医疗、地球科学、基础科学领域等,用于AI for Science,让模型提升从复杂数据中提炼规律,提升精准预测的能力,同时拓展AI大模型在更多领域中应用。四是,科研期刊论文,用于提升模型上下文的理解能力和逻辑推理能力。


而社会力量整合政府开放数据与网络公开数据,在拓展广度的同时,提升精细度和专业性。“广”的层面,社会力量将公共数据与网络公开数据融合后做进一步清洗和加工,形成具有多样性、大规模、高质量特点的预训练数据集。“齐”的层面,社会力量通过大量高质量反馈做数据标注,将模型产出与人类价值观对齐。“专”的层面,也会整合领域知识和经验,促进语料的流通和共享,提供行业大模型所需的高质量、专业性的数据供给。由此可见社会力量在大模型训练语料中所起到的主导作用。


那么,美国与中国在获取大模型数据方面的做法有哪些不同呢?

美国

美国联邦政府在公共数据中承担了”应开尽开“的职责,由社会力量来探索数据的应用。政府开发了专门针对AI训练数据的开放平台,并针对公共数据和科研数据进行质量维护和运营管理,在保证数据可用性的同时降低公众使用门槛。公共数据开放的范围限定在政府数据,包括各级政府及政府资助的大学和研究机构。


在开放共享阶段,联邦政府会对与AI相关的数据做标识、在数据量大时做”上云“处理、定期更新、分类、清洗、标注、结构化、并确定分级开放权限。在开发利用阶段,政府会提供便捷的用户检索服务、提供数据接口API。在科研论文方面,设立PubMed 论文检索系统,整合国家医学图书馆下属的3个论文数据库资源,记录了3600万+条生物医学文献的引用和摘要,并提供原文链接。在科研属性公共数据方面,国家气象和海洋局(NOAA)从卫星、雷达、船舶等来源每天新产生数十TB数据,按季度更新150个数据集,因数据量庞大存储在云端。为方便公众开发利用,提供了数据集API接口。在权威认证的知识方面,如法院的裁判文书是很好的结构化数据,对于训练法律大模型价值很高。美国遵循“公开是原则,不公开是例外”的理念,除了隐去涉及国家秘密和个人隐私的信息,联邦和地方法院都实现了公开,并提供了API接口供调用。


美国的社会力量整合政府的开放数据与网络的公开数据,提升数据精细度和专业性,形成以开源为主的高质量训练语料。社会力量主要有开源/非盈利组织、互联网公司研究部门、学界、多类型机构合作组成。数据集以开源为主,站在前人的肩膀上不断迭代。以在大模型中被广泛应用的,由开源组织Eleuther AI开发的825GB英文语料库The Pile为例,在22个子数据集中,来源于政府公共数据的有4个(PubMed数据库、商标专利数据库、卫生研究院数据等)。在行业大模型中,社会力量对领域数据集的专业性也起到了重要贡献。以把大模型当做大脑来辅助运行的具身智能机器人为例,Google DeepMind 联合33家学术实验室,汇集了来自 22 种不同机器人类型数据,涵盖100多万条片段,展示机器人在15万项任务上的表现,创建Open X-Embodiment 开源数据集。基于该数据集训练的具身智能模型,解决了机器人在特定任务专业而通用能力差的难题,成功率提高 50%,技能表现提高 2 倍。



在政府与社会力量协同的方面,美国联邦政府发挥了AI训练数据“汇聚融合”的角色。为巩固美国在AI领域的竞争优势,由政府主导推动为期6年的国家人工智能研究资源NAIRR 计划,让AI研究者获得更多算力和数据资源。计划的原则是尊重社会力量的专业性,作为经营主体的指导委员会中有多位来自AI业界和学界的资深人士。NAIRR在数据资源整合中发挥的作用体现在,联邦政府通过建立数据资源服务平台,汇聚政府与社会力量的开源数据资源。通过建立统一的数据汇聚标准,规范数据描述格式,促进多方数据融合。倡导AI-Friendly的数据兼容性,将数据集整理和格式化成易于AI算法处理和学习的形式,如文档的电子化程度、版面编排、以及相关数据来源的完整性。同时推动多方协作的数据资源开发利用,如运营数据集社区、提供数据搜索服务等。

中国

我国的公共数据采用主体性质界分,包含各级行政机关在履行公共管理职能中获取的数据,覆盖范围比美国更广,但在开放共享和开发利用程度上仍有不足。如天气数据的开放,在中国气象数据网查询地面逐小时观测资料时,个人用户需注册,且可选范围被限定在7天以内;而对比NOAA,无需注册即可下载,且以地表温度为例,数据最早可追溯到1951年。在开发利用中,我国也仅对个别数据集提供了API接口。再如法律领域,最高人民法院设立了裁判文书网,除例外情况外统一公布各级人民法院的生效判决书。但近年公开的数量有明显下降趋势,2020年上网文书2300多万,而2023年截至12月仅公开300万。另2024年1月将启用“全国法院裁判文书库”,仅法院人士在内网可查询。


我国的社会力量主要是结合海外优质开源数据集及中文语料,产出训练数据集。以阿里巴巴的“通义千问”大模型为例,训练数据来自公开来源的混合数据,以中文和英文为主。而中文语料主要来自知乎、百度百科、百度知道等公开网络数据,来源于政府的公共数据非常少。从总体看,中文语料库的开源情况不如英文普遍,据AI应用开放社区Hugging Face数据统计,中文开源数据集数量仅占比英文开源的11%。在行业大模型中,社会力量对行业数据集专业性有一定贡献,推动了在交通、政务、医疗等领域的应用。整体看,用领域知识训练大模型仍面临困难,第一是领域知识积累的专业门槛高、时间周期长。第二是企业出于商业利益和知识产权考虑,对领域知识共享意愿度低。第三是因为我国公共数据开放不足,导致部分行业缺少优质的数据供给。在这种情况下,如果还要试图缩小已经开放的公共数据范围,那么高质量语料短缺的问题将更为突显。


我国尚未形成对大模型提供有效供给的数据资源生态。相比美国政府以公共数据开放服务于训练语料,社会力量以融合公共数据和网络公开数据提升语料广度、精细度和专业性的生态模式,我国可供大模型训练的有效数据资源呈现碎片化分散状态。中文语料、科研成果等高质量数据集开放程度低,企业用于训练的语料来源不清晰、权属不明确,开源后存在一定的合规隐患,使得企业更倾向于自采、自用,大模型数据流通机制尚未形成。此外,由于过多依赖删除手段治理,导致网络上有中式价值观的高质量公开语料供给较少。





建设具有竞争力的中国版大模型,训练数据该去向何方?

根据中美对比的差异,结合我国国情,针对建设中国版通用大模型,我们建议加强政府与社会力量的协同,具体有以下几点:

主动开放人工智能大模型训练公共数据,鼓励受财政支持的科研单位、文化单位开放训练数据

进一步加大大模型训练公共数据的开放力度,借鉴美国经验,在政府侧实现“应开尽开”,由社会力量探索应用场景。对于受财政支持的科研、文化单位所有的知识产权类数据,鼓励通过开放、共享等方式向社会公开,基于非营利性成本补偿原则明确合理收费标准,如国家图书馆收录的大量历史典籍、科研论文等。

加强AI相关数据的标识和开发利用

在政府信息化项目中主动判断或响应市场主体和技术社区要求,对可以用于AI训练的数据源进行主动标识,提高AI相关数据的开发程度、保障AI相关数据的提供质量。此外还应关注AI相关数据集的开发利用,在提升质量的同时降低公众使用门槛,如开发API接口,更便捷的检索体验,大体量数据上云等。同时,积极探索公共数据的授权运营,鼓励社会力量参与大模型训练公共数据集的开发建设。

关注开源数据集的开发,提升数据集质量

社会力量可以汇总整理AI需求数据特征,参与甚至负责AI公共数据集运营。同时还应重点关注数据集的质量提升,一方面建立产业对数据集的评估标准,明确大模型训练语料全面性、准确性、真实性、可靠性、安全性等指标;另一方面根据模型效果和用户的使用反馈,不断优化数据供给。



针对行业大模型,我们建议:

关注领域知识和经验的收集与积累

重点关注工业语料,代码,科研等B端应用语料库的建立和经验传承,定标准、立规范、重引导,根据产业发展实际需求和应用规律提出建设方案。

促进垂直领域知识的流通与共享

领域知识的积累和流通难以用堆积人工方式解决,建议设计机制和提供技术基础设施促进专业语料的生成和共享。如通过隐私计算等技术,在大模型“存算分离”的架构下,实现数据“不动”,物理隔离,激励模型共建共享,接口开放,促进垂直语料共享及模型共建和输出。



END


致谢:感谢阿里巴巴集团政策法规研究室主任刘明、阿里巴巴集团安全部AI安全负责人陈岳峰、阿里巴巴集团高级算法专家李天宇对本文提供理论支持和技术指导。


参考文献:

[1] The Pile: An 800GB Dataset of Diverse Text for Language Modeling, 2020

[2] Strengthening and Democratizing the U.S. Artificial Intelligence Innovation Ecosystem, 2023

[3] Recommendations for Leveraging Cloud Computing Resources for Federally Funded AI Research and Development, 2020

[4] Open X-Embodiment: Robotic Learning Datasets and RT-X Models, 2023

[5] 数据“卡脖子”,何谈研究话语权?, 2021


作者|王峥、傅宏宇、袁媛 阿里研究院AI政策研究中心

责编|崇修(转载及媒体合作请评论区或邮箱留言)

阿里研究院AI政策研究中心,依托阿里巴巴集团先进的AI科技能力、丰富的AI应用场景、负责任的AI技术生态,总结沉淀AI发展和治理实践经验和方法案例,为AI政策制定实施提供科技企业的智识建议。

【活动推荐】

* 最终议程以现场实际为准

 扫码报名参加【数纳斯·2024企业内外数据流通交流会

现场领取大会周边礼包!
同时访问数纳斯https://shunasi.alibaba.com/meeting

参与分享有礼,赢取丰富奖品!


继续滑动看下一个
阿里研究院
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存