重榜发布 | 《AIGC产业发展与法律合规实务手册》(第一版)
作者:垦丁(广州)律师事务所 王捷 | 黄琼 | 邱世贸 | 常孝雯
引言
2022年12月,Open AI的大型语言生成模型ChatGPT将人机对话推向新高度,当前各大科技企业不断推出相关技术、平台和应用。随着AI技术广泛应用于各行业,AIGC作为AI与大数据、云计算、5G等多技术领域结合的产物,其实践的规范化与合规化已成为企业和组织不可或缺的一部分。本报告旨在介绍AIGC的概念、要素和实践,探讨AIGC的法律合规要点,并提供全球范围内与AIGC相关的法律法规附录,以期为相关从业者和研究者提供有价值的参考和指导。
一、
概念辨析:AIGC是伴随技术变革与数字化的生成式网络信息内容(节选)
(一)AIGC全称为AI-Generated Content,目前对于AIGC的界定尚无统一规范的定义,2022年9月,中国信通院和京东探索研究院共同发布了《人工智能生成内容(AIGC)白皮书》,将AIGC定义为“既是从内容生产者视角进行分类的一类内容,又是一种内容生产方式,同时还是用于内容自动化生成的一类技术集合”。该定义认为AIGC兼有内容特征和技术特征两个方面,总体上可以将AIGC概括为伴随AI技术变革和数字化而产生的一种新的生成式网络信息内容。
(二)AIGC作为内容生成模式,AI能力极强,在数量和质量上克服了数字内容创作在PGC(Professionally-generatedContent)和UGC(User Generated Content)发展阶段的缺点,极大地提高了效率。
(三)AIGC内容生成可分为文本生成、图片生成、音频生成与视频生成。AIGC把结构写作、创造性写作和对话写作作为文本生成的主要分支。通过利用AIGC,用户可以根据给定提示在他们的图片中更改或添加新元素;AIGC也可以独立生成图像,以满足特定要求,以及从2D图像中创建三维模型。AIGC的音频生成技术可以分为两类。第一类为文本到语音合成,即输入文本后可以输出特定者的语音,主要用于机器人和语音广播。第二类语音克隆是指给特定目标输入语音,该语音会转换成特定目标输出的语音,通常用于智能配音和其他类似场景,以合成来自特定目标的语音。此外,可基于文本描述或图片内容理解生成场景化音频、乐曲等。AIGC用于视频生成与图像生成原理类似,主要分为视频编辑与视频自主生成代表性模型有VideoGPT,Imagen video等。
(四)AIGC可用于服务元宇宙的内容生成,例如虚拟地图、虚拟物品、虚拟角色和虚拟场景等,从而创建更加逼真的元宇宙体验。在这一点上,AIGC可以克服传统数字内容制作开发周期长的缺点,可根据已有数据做衍生,更加高效地为元宇宙发展创作数字内容。AIGC能够以更少的成本、更快的速度,生成更具个性化的数字场景与内容,会大大提高元宇宙数字内容的制作效能,极大地扩展元宇宙商业前景。
二、
关键要素:AIGC建立于海量训练数据和庞大参数量的模型之上(节选)
截止至2023年6月,基于Google于2017年发布的Transformer技术而开发的各种大语言模型(Large Language Model,以下或简称为“LLM”)已经百花齐放。我们通常所说的AIGC背后的模型,多数为大语言模型。此类模型,可以根据用户输入的提示词(“Prompt”),生成特定输出。在众多大语言模型中,最受关注的莫过于OpenAI的GPT系列的大语言模型。
(一)在GPT-1之前,比较先进的自然语言处理模型都使用监督学习来训练模型,并且训练出来的模型仅能适用于某个特定的任务,比如情感分析。而监督模型需要大量的已标注数据进行训练,获取大量的已标注的数据并不容易。而GPT-1使用了无监督学习(无需使用标注数据进行训练),证实了先通过大量文本进行模型训练(无监督学习)再针对性在具体任务上进行微调(监督式学习)是可行且有效的。
(二)相比GPT-1,GPT-2的创新主要在于使用了更多的参数与更大的数据集。GPT-2的成功,证明了在自然语言处理领域亦可以“大力出奇迹”,通过庞大数据集训练的模型无需微调便可以迁移至其他类别任务中(即所谓的“涌现”)。
(三)训练GPT-3的文本数据是超过45TB且GPT-3有1750亿参数。此时的GPT-3已经足够强大,可以实现语言翻译、编写代码、阅读理解等多项任务,但存在回答缺少连贯性、存在偏见、编造虚假内容等多个问题。
(四)在2022年3月,OpenAI发布了InstructGPT。InstructGPT在GPT-3的基础上,加入了人类的评价和反馈数据。人类手动选择出最符合用户意图的文本,并将这些选择出的文本用于模型的微调。另外,InstructGPT包含一个驱使模型尽可能输出更好的答案的奖励模型,人类反馈加上奖励模型,便是所谓的Reinforcement Learning from Human Feedback(RLHF)。尽管InstructGPT仅有13亿参数,但其在回答问题的效果上却比1750亿参数的GPT-3和1370亿参数的LaMDA更好。
三、
应用实践:AIGC涉及的典型行业与场景(节选)
(一)在传媒领域,AIGC作为一种新兴技术,不仅可以在文本层面生成内容,还可以生成图片、视频等多种形式的内容。在虚拟主持人、虚拟主播方面,AIGC已经可以实现语音合成和视频生成,并且可以实现观众与主持人、主播之间的实时活动。
(使用“AI孙燕姿”为关键词在Bilibili上进行检索)
(二)在电商领域,目前也出现了为客户推荐商品、讲解卖点的AI导购。除了推荐商品,AIGC亦可以帮助商家撰写商品文案、绘制产品宣传图、使用人工智能客服回复客户问题等。
(三)在影视领域,除了“AI孙燕姿”,亦出现了如”AI周杰伦“、”AI陈奕迅“等AI歌手。音乐类的AIGC如今不仅能够模仿歌手演唱,亦实现了根据文本直接编写出一首完整的曲子。
(四)在投融资领域,2023年3月,GPT-4发布之际,摩根士丹利便宣布其通过OpenAI的GPT-4,为内部的知识库引入全新的查找信息的方式,省去了内部顾问在不同的网站上阅读大量信息、仅为获得某个特定问题的答案的时间。GPT-4也用于扫描服务的访问,用来识别恶意攻击者的行为。
( 摩根士丹利基于GPT-4开发的内部问答机器人)
(五)AIGC所适用的行业不仅局限于我们以上列出的行业,其他领域,如设计、工业等,AIGC亦发光发热。
四、
法律风险:知识产权侵权(节选)
(一)数据采集和训练阶段
数据是一切生成式人工智能的灵魂,是AIGC的灵感和素材来源。AIGC所采集的数据来源于包括但不限于公共数据集、公共网站、自有数据、众包数据、合成数据等数据源,而AIGC获取上述数据的主要方式包括数据交易、自行采集和开放数据爬取等方式,但不管使用何种方式生成结果,该生成式人工智能输出的内容仍很大几率包含前述数据来源中他人享有著作权作品的部分或全部特征。换言之,AIGC作为在大量不同数据集上训练出来的模型,如使用受著作权保护的数据来训练人工智能模型,AIGC的文本数据挖掘技术可能导致其在他人享有著作权的作品中“借鉴”部分内容。对于这部分内容,若不能适用“合理使用”或其他免责事由,则可能引发侵权纠纷。
(二)输出内容阶段
如前述内容,人工智能输出的内容主要依赖于其背后庞大的数据库,其输出内容的步骤包括文本编码、噪声预测、去噪等过程。输出内容时的知识产权风险指的是AIGC生成的内容侵犯了他人的知识产权,例如侵犯了原作品的版权等。这种风险通常是由于AIGC生成的内容与已有作品过于相似或几乎一致导致的。AIGC是否构成对他人知识产权的侵犯,构成对何种著作权具体权能的侵犯,需根据实质相似标准作相应判断。
实质性相似是指两个作品在表达方式、构成要素、情节安排、人物塑造、主题等方面具有相似性,达到了足以构成侵权的程度。实质性相似是判断是否构成侵权的一个重要标准,需要综合考虑多种因素,包括作品的整体结构、表现手法、风格特点、主题内容等。目前在AIGC的场景下,由于AIGC的生成过程能够从海量的素材中提炼抽象的元素,并进行多种组合和变化,如果AIGC与原作品在表达方式、构成要素、情节安排、人物塑造、主题等方面具有实质性相似,达到了足以构成侵权的程度,就可能构成复制权侵权行为。反之,即使不构成实质性相似,也可能构成侵权行为,如AIGC保留原作品的基础表达,仍然可能构成对原作品改编权的侵权行为。
五、
合规应对:AIGC非知识产权领域的法律风险及防范(节选)
W&W国际法律团队在对AIGC有关知识产权进行分析和阐述时,同样观察到除知识产权外,AIGC可能还涉及其他的法律风险点。
由于人工智能技术的迅速发展和广泛应用,也可能会引发一系列的监管和合规问题,如数据隐私保护、反垄断、公平竞争等。
需要注意的是,本报告中提到有关AIGC可能涉及的法律风险点仅仅是我们在实践以及对行业的观察中进行总结并提炼的部分风险点,并未涵盖AIGC涉及的所有法律风险点,且由于篇幅有限,我们并未做过多的展开。
(一)数据流转
根据垦丁W&W国际法律团队服务的过往客户的案例,并非每个公司都会选择自行部署AIGC模型,而是大多数公司会选择使用市场上较为成熟的模型的对外API、按量计费的服务,如OpenAI的GPT-4或者Anthropic的Claude,此类服务的服务器一般部署于西欧以及北美。而运行服务层代码的服务器可能根据公司产品的目标市场的法律法规、服务器延迟等多种因素,被部署在不同的国家或地区,服务层与模型层之间的数据流转可能涉及数据跨境。
(二)网络安全
目前的AIGC模型,在训练或使用的过程中均需要消耗大量的计算资源(主要是GPU、内存)。根据我们的观察,OpenAI在训练GPT时便使用了分布式人工智能框架Ray以解决其复杂的计算需求。
使用分布式训练或分布式处理时,模型所部署的服务器可能位于不同的数据中心,服务器之间的通信需要使用到广域网或互联网,不法分子可能截取服务器之间的通信并篡改,从而最终影响AIGC模型的权重、甚至是整体性能。因此,使用第三方云服务提供商的服务器进行训练的公司,应该确保在分布式训练或分布式处理时,依照适用国家的网络安全相关的法律法规,对服务器之间的通信进行加密。
(三)个人信息保护
考虑到目前较多提供AIGC服务或产品的公司大都位于美国,此类公司起草隐私政策时往往采用美国标准的隐私政策,并未考虑到GDPR或UK GDPR的相关规定,从而可能被欧盟或英国的数据保护监管机构进行处罚。
根据我们对于ChatGPT的隐私政策的研究,OpenAI对于其隐私政策的最近几次的修订,针对监管机构提出的意见进行了针对性的修改,特别是“国际用户”部分增加了个人信息处理的合法性基础、欧盟及英国的代表、数据跨境传输、数据控制者的披露等内容。这些部分亦是垦丁W&W国际法律团队为不同公司、同时在不同目标国家或地区上线产品、起草或修订隐私政策时,主要需要结合目标国家或地区的数据隐私立法和执法进行相应增加或修改条款的部分。
六、
深入解析:AIGC产业发展与法律合规
随着人工智能技术的迅速发展和广泛应用,越来越多的企业和机构开始关注人工智能的法律风险和合规问题。在本报告中,我们对AIGC法律风险及合规要点进行了介绍和探讨,包括AIGC的概念、要素、应用以及可能出现的法律风险点,同时W&W国际法律团队收集了全球范围内部分与AIGC相关的法律法规和监管动态。
作为一项新兴的技术,人工智能在应用过程中不可避免地会面临一系列的法律风险和合规问题,如个人隐私保护、知识产权保护、数据安全等。因此,需要各方共同努力,探索如何更好地利用人工智能技术,实现更加美好和可持续的未来。
W&W国际法律团队深知在人工智能应用日益广泛的背景下,规范化和合规化已成为企业和组织不可或缺的一部分。然而,AIGC的实践也面临着许多法律风险和挑战。在不同国家和地区,对于人工智能的监管和治理也存在着差异和不确定性。因此,我们需要不断关注和研究AIGC的发展和实践,了解全球范围内与AIGC相关的法律法规,制定并完善企业和组织的AIGC合规计划,并及时跟进和应对相关的法律风险和挑战。
尽管本报告提供了一些关于AIGC的基础和重要概念,但这并不代表我们的探讨就此结束。相反,我们将继续关注AIGC的发展和实践,并持续输出更多深入版本的内容,我们将继续跟踪和分析AIGC的相关动态和趋势,为读者提供更深入、更全面的信息。
本文摘自《AIGC产业发展与法律合规实务手册》(第一版),如需手册全文,欢迎大家关注本号在后台输入“AIGC”获取PDF版本。
出海互联网法律公众号,一个专注于互联网出海的生态赋能平台,将持续与您共享信息资源,解读分析国内外最新最实务网络安全与数据合规动态。
推荐阅读:
【从零读懂】数据出境合规100问 | Part 4:数据出海实践关键问题与海外SCCs要点对比
【从零读懂】数据出境合规100问 | Part 3下篇:《数据出境安全评估办法》高频问题与适用解读
【从零读懂】数据出境合规100问 | Part 3中篇:《数据出境安全评估办法》高频问题与适用解读
【从零读懂】数据出境合规100问 | Part 3上篇:《数据出境安全评估办法》高频问题与适用解读
【从零读懂】数据出境合规100问 | Part 2下篇:《个人信息出境标准合同规定(征求意见稿)》高频问题与适用解读
W&W国际法律团队
专注互联网出海法律实务:
W&W国际法律团队深耕海外多地区多条业务线,通过多年来积累的出海法律服务经验以及资源优势,结合本土化的合规经验与国际化的思维,致力于为出海互联网企业提供专业的一站式法律解决方案,为逐鹿海外的互联网企业提供优质及多元化的法律服务,为各类新型业务搭建运营合规体系及提供有效的风险评估及合规解决方案。
覆盖以下行业领域:
物联网、智能家居、智能汽车、车联网、芯片制造、Web3.0、NFT、AI、电子设备及智能终端制造、数字化安全、IOT、云计算与服务、社交网络平台、电子商务、短视频视听直播、网络游戏、人力资源等行业领域。
(此处仅展示部分内容,如有任何需求,请尽管与我们联系。)
主编介绍
王 捷 律师
垦丁广州联合创始人、执行主任、垦丁国际业务部负责人、
W&W国际法律团队创始人
业务领域:
个人信息保护与全球数据合规、数据合规、互联网与网络法实务合规、企业出海合规、网络安全
王律师持有CIPP/E(国际信息隐私专家认证/欧盟)、区块链应用操作员资格证书、数据安全师、数据合规官资格证书,是联合国世界丝绸之路委员会专家,中国国际贸易促进委员会深圳调解中心专家调解员,广东省法学会信息通讯法学研究会理事,荷兰RuG国际经济法与商法硕士。
王律师曾在阿里巴巴大文娱集团、国际律所与海外仲裁委员会工作积累了12年+科技型公司实务经验,具备中外律所从业背景。专业能力模块包括产品风险管控、业务流程搭建、竞对攻防布局、政府监管合规、海外公司治理等。王律师已为多家头部与一线的知名互联网公司、大中型外资企业及大型国企提供专业法律服务,行业覆盖物联网、智能终端制造、IOT、云计算与服务、社交网络平台、电子商务及平台、智能汽车与车机系统、芯片制造业、网络游戏、Web 3.0、NFT、AI、以及GPT等新兴领域。
王律师擅长解决由互联网、数据及智能技术引发的数据安全风险与合规解决方案落地,包括数据保护与合规、产品风险管控、业务流程搭建、风险分析评估、政府监管合规、竞对攻防布局,已为各类涉互联网企业拓展全球市场提供法律支持,尤其擅长为企业出海欧美、东南亚、印度、日韩、中东、中国港澳台地区等新兴及重要市场提供有效的合规解决方案与落地支持。
同时,王律师独著《Comparison of Various Compliance Points of Data Protection Laws in Ten Countries/Regions》,在全球最高分的六篇论文中,荣获国际知名隐私组织FPF第 12 届政策制定者年度隐私论文奖,该文章同时被评为年度隐私政策制定者“必读”文章。其耕笔的多篇互联网与数据合规文章收录于国际知名专业数据库。
联系方式:jie.wang@kindinglaw.com
+86 13650790754
资讯编写
陈凯婷
垦丁律师事务所W&W国际法律团队实习生