携手白玉兰开源,打造中国首个本土数据开放许可协议
在7月9日圆满举办的世界人工智能大会“AI时代数据开放共享创新论坛“上,上海白玉兰开源开放研究院正式发布“木兰-白玉兰开放数据许可协议 V1.0”(下简称木兰-白玉兰协议),标志着中国首个本土数据开放许可协议的诞生和落地。开放数据中国作为上海白玉兰开源开放研究院的生态合作机构,与白玉兰开源共同合作完成了协议的从零到一的研发,并作为首批倡导计划合作机构将共同协力推进”木兰-白玉兰协议“的落地应用。
“木兰-白玉兰协议“在“木兰开源协议”的框架下,旨在打造一套适用于中国国情和本土法律环境的数据流通标准协议。数据要素的流通是一个复杂问题,其牵涉到技术、商业模式、法律环境等多个维度的问题,而“木兰-白玉兰协议”的目的是希望从法律层面提供一套可以约定数据发布方和使用方的标准权责的文本,从而形成一种“社区行为规范”去加速数据的开放共享。
此次推出的“木兰-白玉兰协议” V1.0版本,并不奢望能够适用于所有类型的数据流通情景,特别是当前数据权属、数据交易规则等不明晰的情况下。因此“木兰-白玉兰协议”设定了一系列前提,即其当前仅适用于“公开发布的”、“免费流通的”、"不涉及国家安全及个人信息"的数据发布情景,并且要求数据发布者自我检视并承诺其“合法合规拥有相应数据或享有数据的用益权”。在这一系列前提假设下,“木兰-白玉兰协议”效仿知识共享协议,推出了一个套组协议:其由要求使用者最低限度必须署名数据来源的“木兰-白玉兰协议”(MBODL)作为基础版本,可叠加“要求相同方式许可进而分享数据或改良数据”的”木兰-白玉兰 相同许可协议“(MBODL-SA)、“不同程度限制数据使用者商业化数据成果”的“木兰-白玉兰 非商业协议”(MBODL-NC),以及”限定数据使用者仅可计算使用“的“木兰-白玉兰 仅计算使用”(MBODL-CU)。
而在上述套组协议推出的同时,针对人工智能研发中大量训练数据来自多源数据的汇编而构成的事实,“木兰-白玉兰协议”也推出了一个实验性的分离数据集结构和内容的特殊版本,其效仿“开放数据库协议”(Open Database License)将数据集的结构(scheme)和数据集中具体含有的内容(content)分别予以授权,因此能够解决数据集最终汇编发布者和数据内容原始发布者间不同许可授权的矛盾,并尊重原数据内容发布者的授权许可设定。
“木兰-白玉兰协议”是一套年轻的、实验性的数据开放许可协议,也因此其需要社区的支持和参与。随着今天协议的正式对外发布,“木兰-白玉兰协议”在github上的repo也正式对外公告,也欢迎开源开放的同仁们能够积极通过github的平台共同参与到协议的进一步完善、修订和落地中。也衷心希望就如同在当天圆桌环节各位嘉宾寄语的,我们5年后回过头来看,能够真正通过协议、通过一系列的社区运动,让开源开放成为常态,让"木兰-白玉兰协议"成为标准化的默认条款。