要点分析 | 中国《生成式人工智能服务管理办法(征求意见稿)》解读
作者:垦丁(广州)律师事务所 王捷 | 邱世贸 | 常孝雯
W&W国际法律团队
专注互联网出海法律实务:
W&W国际法律团队深耕海外多地区多条业务线,通过多年来积累的出海法律服务经验以及资源优势,结合本土化的合规经验与国际化的思维,致力于为出海互联网企业提供专业的一站式法律解决方案,为逐鹿海外的互联网企业提供优质及多元化的法律服务,为各类新型业务搭建运营合规体系及提供有效的风险评估及合规解决方案。
互联网前沿领域法律服务:
W&W国际法律团队深耕出海法律实务的同时,也紧跟互联网前沿动态,可以为互联网企业提供前沿领域的法律服务,为企业开拓新的业务领域保驾护航,比如AIGC产品全链路合规法律服务,包括AI与数据合规, AIGC与知识产权布局、侵权风险防范,内容审核标准制定等。
覆盖以下行业领域:
物联网、智能家居、智能汽车、车联网、芯片制造、Web3.0、NFT、AI、电子设备及智能终端制造、数字化安全、IOT、云计算与服务、社交网络平台、电子商务、短视频视听直播、网络游戏、人力资源等行业领域。
(此处仅展示部分内容,如有任何需求,请尽管与我们联系。)
引言
为促进生成式人工智能技术健康发展和规范应用,国家互联网信息办公室于2023年4月11日发布了《生成式人工智能服务管理办法(征求意见稿)》(以下简称为“《办法》”),并向社会公开征求意见。《办法》共计21条,对概念、适用范围、生成式人工智能产品服务提供者的义务、法律责任等多个方面进行了规定。
一、 概念界定与适用范围
《办法》第2条将“生成式人工智能”定义为“基于算法、模型、规则生成文本、图片、声音、视频、代码等内容的技术”,同时确定了办法的域外效力。
但尽管《办法》已对何为生成式人工智能作出定义,但该定义仍然具有一定的模糊性。该定义与2022年11月25日发布的《互联网信息服务深度合成管理规定》(以下简称为“《深度合成管理规定》”)中对于“深度合成技术”的定义,存在一定的重叠。
除了“生成式人工智能”之外,W&W国际法律团队通过对文本的分析,也发现《办法》中确定了部分生成式人工智能相关的概念的名称,如输入信息、预训练、优化训练等。
二、预训练数据
《办法》第7条规定了对于预训练数据的要求,包括:符合《中华人民共和国网络安全法》等法律法规的要求;不含侵犯知识产权的内容;数据包含个人信息的,征得个人信息主体同意或具备其他合法性基础;确保数据真实性、准确性、客观性、多样性;国家网信部门关于生成式人工智能服务的其他监管要求。
单纯从文本来看,《办法》第7条对预训练数据提出了较为严格的要求,部分要求的可实现性亦较低。
以不含侵犯知识产权的内容为例,目前训练生成式人工智能普遍采用的数据集(如CommonCrawl、Wikipedia、Reddit)中,包含了大量互联网公开的内容,若采用此类数据集进行训练,不可避免地涉及知识产权。
而“数据真实性、准确性、客观性、多样性”这一点,目前尚未有更加细节的规定以明确何为“客观性”和“多样性”,这仍然有待更加细节的法律文件或标准文件的发布以确定标准。
三、数据标注
《办法》第8条对数据的“人工标注”进行了规定。目前根据全球生成式人工智能模型的训练数据及训练来看,在预训练(即首次的训练)时会才用未经标注的数据进行无监督学习(“unsupervised learning”),在这个阶段尚不存在使用人工标注的数据。预训练结束形成基本模型(base model)后,此时的模型已经具备完成通用任务的能力。但为了使得模型更适合某个特定行业或场景,模型的训练者普遍会使用人工标注的数据、在基本模型的基础上再进行微调(fine-tune),形成微调后的模型(fine-tuned models),这一步也是监督式学习(“supervised learning”)的一步。在获得微调后的模型后,模型训练者可再进一步,添加“基于人类反馈的强化学习”。根据我们目前的了解,这一步主要由人类手动选择模型输出的多个内容中最适宜的一个,我们认为“手动选择内容”亦属于“人工标注”。
根据W&W国际法律团队对于ChatGPT的训练方式和过程的了解,在微调和“基于人类反馈的强化学习”这两步,前一步中,OpenAI雇佣了第三方供应商撰写了一定数量的对应的提示词(“Prompt”)和输出内容(“Completion”);后一步中则是由人类手动选择模型输出的多个内容中的一个。
《办法》规定了“提供者应当制定符合本办法要求,清晰、具体、可操作的标准规则”。但根据我们对《办法》文本的研究,相关的要求目前可能仅有《办法》第7条第2款第2项和第4项的“不含有侵犯知识产权的内容”、“保证数据的真实性、准确性、客观性、多样性”等。
四、透明度义务
《办法》第17条规定了生成式人工智能服务提供者(以下简称为“提供者”)的透明度,包括告知用户产品的模型训练所使用的的数据的相关信息,人工标注的规则和人工标注数据规模、类型,基础算法和技术体系。但根据W&W国际法律团队对于市面上的生成式人工智能产品的观察,部分产品亦主动告知了用户产品的局限性、产品的使用规范等内容。
五、个人信息
《办法》第9条规定了务提供者应当要求用户进行实名认证,这使得特定自然人是可被直接识别或间接识别的。且《办法》第11条规定了提供者应当对用户的输入信息和使用记录承担保护义务。根据W&W国际法律团队的理解,提供者在告知并取得用户的同意的基础上,会将用户的输入信息和相应的输出内容进行留存,并进一步利用此类信息进行模型的进一步训练。并且,根据《办法》第19条的规定,提供者需要审核用户使用生成式人工智能产品输出的内容,在用户使用过程中违反法律法规,违背商业道德、社会公德时,暂停或终止服务,为了能够追溯产生不法行为的用户,我们认为生成式人工智能产品提供者会将输入信息与用户账户信息进行关联,因此输入信息属于个人信息。
除了输入信息应当作为个人信息、处理输入信息需要符合《中华人民共和国个人信息保护法》的规定之外,《办法》第13条还要求提供者不得非法留存能够推断出用户身份的输入信息。根据垦丁W&W国际法律团队过往服务的客户案例,在实践中程序自动判断用户提交的输入信息是否包含用户身份信息、商业秘密等是较为困难的。但是从该条的文本来看,该条仅禁止“非法留存能够推断出用户身份的输入信息”,若提供者取得留存的合法性基础,则可以留存相关输入信息。但若提供者准备使用此类输入信息进行模型的进一步训练,需要考虑对包含用户身份信息的输入信息进行匿名化处理,或考虑再次取得用户的同意或具备其他合法性基础等。
六、内容审核
尽管《办法》并未直接地规定提供者应当设置内容审核机制,但根据我们对于《办法》第13条“建立用户投诉接收处理机制”、第15条“对不符合办法要求的生成内容的处理”、第19条“发现用户违法违规行为时应采取的措施”,我们认为提供者仍然需要建立内容审核机制,包括审核用户主动投诉的生成内容、提供者发现的不符合办法要求的生成内容(可能先由机器进行审核,对存在疑点的内容由人工再次审查)。
根据我们对《办法》第15条和第19条的理解,生成违法违规的内容分为两种情况,一是用户未主动促使模型生成违法违规内容、而模型却生成了违法违规内容,二是用户使用特定的输入信息使得生成式人工智能产品生成违法违规的内容。在前一种情况中,我们理解过错方为提供者,为防止该情况再次发生,提供者应当采取包括内容过滤、模型再训练等多种方式以杜绝情况再次发生和产生潜在的影响,若法律、行政法规有相应规定时,承担相应的法律责任;在后一种情况中,我们理解用户的过错程度较大,此时提供者可以采取包括暂停或终止向特定用户提供服务,在无法解决时再选择停服。我们理解,目前生成式人工智能产品仍然不可避免地会生成部分违法违规的内容,若生成违法违规内容便禁止对外提供服务,可能会导致相关产品无法持续运营。
七、总结
总体而言,《办法》对生成式人工智能训练、运营过程中的重点问题,提出了相应的规范,但《办法》的规定仍然相对抽象,有待网信办对部分规定如何落地提出更进一步的要求。
《生成式人工智能服务管理办法(征求意见稿)》全文:
推荐阅读:
重榜发布 | 《AIGC产业发展与法律合规实务手册》(第一版)
『实务分享』:当AIGC遇上数据跨境,该如何应对?| 垦丁W&W国际法律团队创始人王捷律师
【从零读懂】数据出境合规100问 | Part 4:数据出海实践关键问题与海外SCCs要点对比
【从零读懂】数据出境合规100问 | Part 3下篇:《数据出境安全评估办法》高频问题与适用解读
【从零读懂】数据出境合规100问 | Part 3中篇:《数据出境安全评估办法》高频问题与适用解读
【从零读懂】数据出境合规100问 | Part 3上篇:《数据出境安全评估办法》高频问题与适用解读
【从零读懂】数据出境合规100问 | Part 2下篇:《个人信息出境标准合同规定(征求意见稿)》高频问题与适用解读
主编介绍
王 捷 律师
垦丁广州联合创始人、执行主任、垦丁国际业务部负责人、
W&W国际法律团队创始人
业务领域:
个人信息保护与全球数据合规、数据合规、互联网与网络法实务合规、企业出海合规、网络安全
王律师持有CIPP/E(国际信息隐私专家认证/欧盟)、区块链应用操作员资格证书、数据安全师、数据合规官资格证书,是联合国世界丝绸之路委员会专家,中国国际贸易促进委员会深圳调解中心专家调解员,广东省法学会信息通讯法学研究会理事,荷兰RuG国际经济法与商法硕士。
王律师曾在阿里巴巴大文娱集团、国际律所与海外仲裁委员会工作积累了12年+科技型公司实务经验,具备中外律所从业背景。专业能力模块包括产品风险管控、业务流程搭建、竞对攻防布局、政府监管合规、海外公司治理等。王律师已为多家头部与一线的知名互联网公司、大中型外资企业及大型国企提供专业法律服务,行业覆盖物联网、智能终端制造、IOT、云计算与服务、社交网络平台、电子商务及平台、智能汽车与车机系统、芯片制造业、网络游戏、Web 3.0、NFT、AI、以及GPT等新兴领域。
王律师擅长解决由互联网、数据及智能技术引发的数据安全风险与合规解决方案落地,包括数据保护与合规、产品风险管控、业务流程搭建、风险分析评估、政府监管合规、竞对攻防布局,已为各类涉互联网企业拓展全球市场提供法律支持,尤其擅长为企业出海欧美、东南亚、印度、日韩、中东、中国港澳台地区等新兴及重要市场提供有效的合规解决方案与落地支持。
同时,王律师独著《Comparison of Various Compliance Points of Data Protection Laws in Ten Countries/Regions》,在全球最高分的六篇论文中,荣获国际知名隐私组织FPF第 12 届政策制定者年度隐私论文奖,该文章同时被评为年度隐私政策制定者“必读”文章。其耕笔的多篇互联网与数据合规文章收录于国际知名专业数据库。
联系方式:jie.wang@kindinglaw.com
+86 13650790754
资讯编写
陈凯婷
垦丁律师事务所W&W国际法律团队实习生