查看原文
其他

熊杰 张晓彤|生成式人工智能的数据风险及其合规治理——以ChatGPT为样例

熊杰 张晓彤 上海市法学会 东方法学
2024-10-09

ChatGPT等生成式人工智能的应用在促进社会变革的同时也引发了一系列数据安全风险,包括数据收集阶段的合规和样本质量风险,数据处理阶段的算法黑箱和生成内容偏见、歧视风险,内容输出阶段的结果失真、数据泄露以及知识产权侵权等。为应对前述数据安全风险,生成式人工智能在治理过程中应当坚持以人为本的价值理念以及安全可控、透明可信、公平正义、责任等基本原则,并将数据合规管理理念引入生成式人工智能的治理过程中。以合规方式治理生成式人工智能的数据风险需要从合规法律规范体系的完善、企业数据风险管控机制的健全、算法模型的技术规制的加强以及人工智能伦理文化的培育等四个方向为着力点展开综合治理。

引言

得益于互联网信息技术的飞速发展,人类社会迈入了工业4.0——以“数据”为核心要素的智能化时代,人工智能(Artificial Intelligence,AI)当仁不让地成为这一时代的重点研究课题,以数据为养料且功能强大的人工智能产品更是标志性产物。1997年,IBM公司研发的初代人工智能计算机“深蓝”(Deep Blue)就初露锋芒,成功战胜了国际象棋大师加里·卡斯帕罗夫;2016年和2017年,谷歌 (Google)公司研发的人工智能机器人“阿尔法狗”(Alpha Go)更是以不可阻挡之势先后战胜世界围棋冠军李世石和柯洁,一石激起千层浪,在惊叹于“阿尔法狗”超人智慧的同时,人工智能新一轮研究热潮也由此高涨。2022年OpenAI公司研发出的具有强大自主学习能力以及人机互动功能的ChatGPT (Chat Generative Pre-trained Transformer)聊天机器人一经问世,便迅速火遍全球,吸引大批用户下载使用。随后,百度旗下的“文心一言”、华为公司的“盘古”模型、腾讯集团的“混元”以及阿里研发的“通义听悟”等在智能程度和功能上不弱于ChatGPT的国产生成式人工智能模型也应运而生。以ChatGPT为代表的新一代人工智能模型,即生成式人工智能在人机互动、文艺创作、代码编程、智能推介、信息检索等领域展现出远超于人类的惊人能力,不断挑战着人类智慧的上限,也不断重塑着人类关于人工智能的传统认知,促进着社会生产力的进步,给人们的衣食住行带来了前所未有的体验。但ChatGPT等生成式人工智能在缺乏有效监管和法律规制的情况下生长,快速投入应用市场,同样引发了如人工智能知识产权侵权、数据信息泄露、生成和传播不良信息等一系列社会和法律风险,引发了各国政府以及广大人民群众的担忧,采取有效措施进行风险的预防和规制也成为国际共识。我国发布了《互联网信息服务深度合成管理规定》《生成式人工智能服务管理暂行办法》(以下简称“暂行办法”)等法律法规文件等规制日益壮大的人工智能行业。本文依托于人工智能高速发展的这一时代大背景,尝试对生成式人工智能发展过程中产生的数据法律风险进行梳理和分析并提出相应治理措施。

一、ChatGPT等生成式人工智能的概念及运行机理


(一)“人工智能”的概念源起及其分类

“人工智能”一词产生已久,早在1950年,“计算机科学之父”阿兰·图灵(Alan Mathison Turing)就在其文章《计算机与智能》(Computing Machinery and Intelligence)使用了“机器智能”一词,并且提出 了著名的图灵测试,“如果一台机器能够通过电传设备与人类展开对话而能不被辨别出其机器的身份,那么就可以称这台机器具有智能。”用以评判人造机器是否具备人类智慧。1956年,被后人誉为“人工智能之父”的约翰·麦卡锡(John McCarthy)及其同事在达特茅斯研讨会上首次提出“人工智能”这一概念,“人工智能”这门新兴学科也由此兴起并迭代发展至今。“人工智能”的概念和外延尚未达成广泛的共识,如英国萨里大学法学院教授瑞恩·艾伯特认为“人工智能就是一种算法或机器,它能完成原本只有具备认知能力才能完成的工作。”美国斯坦福大学在《2030年的人工智能与生活调查报告》(Artificial Intelligence and Life in 2030)则认为人工智能是“一种受到人类感知、思考、推理和行动方法启发但又有所区别的科学和计算机技术。”而根据我国电子技术标准化研究院的定义,“人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。”由前述概念可知“人工智能”实际上就是研究如何使机器如同人类一样理性思考和行动。

根据人工智能的具体功能以及智能化程度,可以将其分成弱人工智能以及强人工智能:弱人工智能顾名思义是指智能化程度低,仅具备特定功能或者仅从事特定任务的人工智能,这类人工智能主要处于计算和感知的智能水平,前述深蓝计算机和阿尔法狗等专用型人工智能模型便是典型代表;强人工智能则是指智能化程度高,具有自我意识和自我思维的智能机器,这类机器又可分为类人(机器高度模拟人类的思维和推理模式)与非类人(机器不仅在知觉和意识上异于人类,而且在推理模式上也与人类有别)两大类,两种强人工智能都具有比肩甚至超脱于人类的智慧,处于理论假设研究阶段的通用人工智能模型就是此类;英国学者尼克·博斯特罗姆(Nick Bostrom)认为随着人工智能技术的日益进步,未来还会产生一种在科学创新、通识和社交技能等几乎所有领域都远超人类大脑智慧的超级人工智能(Super AI,ASI),如科幻影视作品《钢铁侠》中的智能机器人管家“贾维斯”和《魔幻手机》中的“傻妞机器人”。值得注意的是,受制于当前的科技水平,即使是以ChatGPT为代表的当前最为先进的生成式人工智能也仅处于从弱人工智能向强人工智能的探索阶段,强人工智能以及科幻作品中的超级人工智能在很长一段时间仅具备理论可能性,因而并不在本文的讨论范围之内。

(二)ChatGPT等生成式人工智能的运行机理

“生成式人工智能”作为人工智能技术的最新成果,利用事先编写和设定好的算法、规则、模型等,不依赖于人类的直接参与而通过大数据学习便能够自动生成文本、图片、音频等内容。实际上无论是人工智能发展初期采用的“专家系统”模式,即预先存储某一领域专家学者的知识与经验,而后模拟人类专家的决策过程以处理复杂问题,还是目前最为先进的通过模拟人脑神经元的运行规律进行决策的“深度学习”模式,人工智能模型决策在本质上仍是一种数学逻辑运算——通过不同的运算程序对所收集或者输入的数据进行解码分析、预测。以生成式人工智能模型ChatGPT为例,其运行大致需要经过如下阶段:首先是训练数据的收集和处理,OpenAI主要使用的公共爬虫数据集拥有从电子书籍、社交媒体帖文、新闻报道、用户聊天记录等文本中收集的超万亿单词的人类语言数据,这不仅为ChatGPT的训练提供了充足的养料,而且在一定程度上保证了数据样本的质量和可信度,提高了决策的正确率。其次是数据学习和训练,ChatGPT利用预设的深度算法学习模型进行学习,由于OpenAI对ChatGPT的定位为聊天机器人,因而具有优秀人类自然语言处理功能的深度神经网络模型Transformer就成了首选的算法模型,ChatGPT也通过Transformer实现了对人类自然语言表达方式的掌握,并且通过训练掌握了大量的人类经验。第三,训练学习完成的ChatGPT通过人机问答等模式与用户进行人机交互,尝试理解并且回答用户的发问。第四,ChatGPT主动将人机交互的信息记录纳入数据集,并且自动根据用户反馈信息改进其训练内容,以此循环往复,ChatGPT回复的准确度和流畅度也呈现出一个螺旋式上升的过程。通过探讨ChatGPT的运行逻辑,我们可以发现:“生成式人工智能是集成了人机互动、数据收集与爬取、深度学习等技术的大模型,具有拟人类思维能力。”其中以亿为单位的大数据集提供了充足的样本支撑,计算机编程技术提供了高效率的算法程序支持,先进的芯片技术提供了强大的算力支持,因此可以说数据、算法以及算力是以ChatGPT为代表的生成式人工智能产生划时代影响力的关键因素。

二、生成式人工智能运行的数据安全风险

ChatGPT等生成式人工智能广泛应用于数字经济时代的生产生活过程中,一方面促进了生产力的解放,提高了劳动效率,拓宽了民众知识获取的渠道,但是与此同时,由于规制机制不健全、生成式人工智能发展不成熟等现实因素,生成式人工智能的运行和应用过程也给人类社会带来了极大的风险和挑战。

(一)数据收集阶段的安全风险

ChatGPT等生成式人工智能关键因素之一便是充足的基础养料——数据,一般而言,收集的有用数据越多,数据库越大越集中,人工智能便具有更多样化的样本用于学习和分析,在人机互动过程中问题定位就越精确,输出的结果便越贴近真实社会,准确度也会相对提升。因而,人工智能的研发团队便希望尽可能多地获取数据以支持人工智能训练数据的更新和扩大,但是在收集训练数据的过程中将诱发数据合规风险。
1.预训练数据收集风险




ChatGPT等生成式人工智能需要足够的训练数据作为产品平稳运行和系统优化的支撑,这就意味着其研发团队将通过各种方式为其收集足够多用于日常训练的数据,除了依法向第三方购买数据库之外,通过网络爬虫技术(Web Crawler)在互联网上爬取公共数据是一种低成本高效能的方式,如OpenAI公司就会利用Reedit链接等爬虫技术抓取维基百科等网页的数据资料为ChatGPT搜集寻来你基础训练数据,但是这种数据爬取的方式极易突破数据安全保护的红线,引发数据安全保护问题。一方面,在爬取公民网络聊天记录、数字证件等私密个人信息时需要严格遵循个人信息获取的基本规则,比如我国个人信息保护法、数据安全法中的“知情同意原则”“最小最必要原则”等,但是实际上在利用网络爬虫技术收集数据的过程中很难符合前述规定,这就存在侵犯个人信息的可能性;另一方面,如果在爬取数据的过程中故意通过技术手段绕过或者突破数据管理者或者其他合法持有人如数据公司、网站经营管理者等设置的技术保护措施,不仅可能侵犯用户个人信息安全,而且是一种破坏数据经济正常秩序并被严厉打击的不正当竞争行为,更有甚者将涉嫌侵犯商业秘密罪、侵入计算机信息系统罪等计算机网络犯罪。另外,如果未经许可爬取国家机关掌握的政务数据、军事数据等具有严格安全管理规范和授权使用规范的数据资料,将存在破坏国家机密、危害国家数据安全的可能性,在爬取域外数据时也存在违反域外数据保护法规的可能性,从而诱发国际数据安全风险。
2.训练数据样本质量风险




“生成式人工智能对训练样本有较强的依赖性,数据的数量和质量决定了生成式人工智能输出的内容。”以用于机器学习的数据训练大模型为例,ChatGPT等生成式人工智能训练结果的好坏与其输入的数据样本的规模和质量呈正相关,训练结果又会直接影响该人工智能程序最终的工作性能,然而在互联网信息时代,每时每刻都在生成大量的虚假、无效等不良数据,如果管理者不加以筛选和清理,人工智能系统用于训练的数据集将被大量低质量的数据所污染,不具备人类完整思维的生成式人工智能模型在决策时也会出现结果偏差甚至谬误。有学者认为数据质量风险具有三种表现方式:第一是训练数据的内容具有不良性,如充斥着大量涉嫌暴恐、性暗示、歧视偏见、网络谣言等违法犯罪信息;第二是训练数据的代表性和有效性存疑,参考价值不高;第三是训练数据可能存在时效偏差,比如训练数据的内容过时落后,缺乏时效性。事实上,受制于现实收集手段和收集条件的限制,数据样本的规模和质量的确存在不均衡这一现实问题,比如由于计算机底层代码主要由英文单词编写的缘故,大部分人工智能程序训练的语料库主要是英文组成,这就导致训练数据在以中文、俄文等或者其他小语种编写的时候必须先行翻译,否则将难以与人工智能完美适配,然而任何翻译文本都并非会百分之百还原原文意思,甚至多次翻译之后会存在完全曲解原文意思的情况,这将导致人工智能的训练结果产生偏差甚至谬误。另外,尽管人工智能产品是客观的,但是人工智能设计者以及训练师依然是具有自我意识的自然人,在设计人工智能产品底层代码和进行数据收集投喂时不可避免地会嵌入个人主观偏好和价值情感,但问题在于人的主观情绪会在一定程度上阻碍人工智能程序的中立性,比如导致数据收集程序的过滤机制存在偏差,故意收集大量带有伦理偏见、社会危害的风险数据,这些数据样本一旦进入到ChatGPT等生成式人工智能产品的训练过程中,将误导人工智能的推理过程,导致生成结果的不准确性甚至出现谬误。

(二)数据处理阶段的安全风险

1.“算法黑箱”风险




正如前文所述,人工智能本质上就是一种数学运算,其正常运行离不开计算机工程师预先设计好的各种算法程序,由于ChatGPT等生成式人工智能对数据的解码和分析过程完全是在计算机中依照算法程序进行,其决策的底层原理和底层规则往往被人工智能设计者所隐藏,这就导致在缺乏专业解释的情况下,一般受众只能在无法直观感受和理解人工智能的运行逻辑和过程的情形下被动接受人工智能输出的结果,这一不公开、不透明以及不可解释的算法运行过程便是控制论中的“算法黑箱”。生成式人工智能运行过程的不透明性和不可解释性实质上体现的是一种算法服务提供者与用户在算法决策中的不同等和权利不对称,严重侵犯用户的知情权,尤其是当算法技术与资本和权力结合过于紧密的情况下便会极大程度地加剧信息数据鸿沟、增加“算法霸权”的可能性。另外,算法黑箱的存在也使得部分形式上通过了所谓“安全测试”的人工智能程序暗含着错误推理、错误决策等深层安全隐患,而暗含隐患的人工智能产品一旦应用于交通、医疗等民生领域或者其他重要领域,将给个人利益和公共利益造成不可估量的损失。
2.偏见和歧视风险




ChatGPT等生成式人工智能作为数字时代资本市场的“新宠儿”,在具体研发、运行的过程中必然在一定程度上体现着研发者、投资者的价值观,底层代码的不中立、预训练数据的质量偏差、反馈结果的内容带有社会偏见和歧视等因素都会导致ChatGPT等生成式人工智能产品在工作时“价值选择、价值判断”产生偏差,生成包括种族、地域、性别、职业、政治等偏见或者歧视性内容,具体而言,如在图片识别时将“黑人照片”识别成“黑猩猩”,对某一社会群体针对性地仅输出负面信息,而对另一群体仅输出正面信息;又如广泛存在于生活中的“大数据杀熟”“人工智能相貌歧视”等现象。另外,基于“深度学习”的特性,如果不及时干预人工智能的数据训练,采取清除、筛选初始极端化数据等措施,那么这些极端化、片面化的内容将会成为人工智能再次进化的“养料”,从而进一步生成更多新的歧视性、偏见性内容,甚至使被污染的人工智能程序沦为持续生成极端歧视和偏见性内容的“毒气池”。

(三)内容输出阶段的安全风险

1.输出结果失真风险




生成式人工智能具有极强的数据分析和信息编辑筛选能力,能够在极短的时间内根据用户的提问输出一份较为标准的“答案”,但是究其本质,其生成过程是一种经验再现,即通过对前端语料库进行筛选后的一种简单预测,而非如同人类大脑从语义和逻辑进行深思熟虑后推导出结果,因而ChatGPT这类聊天机器人在输出结果过程中基于程序规则只考虑如何能够输出更加“优美”,符合人类自然语言表达逻辑的标准话术,而非输出真实且正确的“参考答案”。而正是由于ChatGPT的基础数据库够大,因而其输出的大部分结果都是已经被人类验证过的正确的信息,但是一旦ChatGPT等生成式人工智能的训练数据出现质量问题或者缺乏关于某一新问题的预训练数据,生成式人工智能也会“胡编乱造”,主动输出错误信息,而且不给予用户风险提示。例如,如有用户曾向ChatGPT聊天机器人询问我国民法典第1307条的具体内容,ChatGPT回答为“婚姻的结束,由双方当事人协商一致,或者由人民法院裁定”,而实际上我国现行民法典总共1260条。ChatGPT等生成式人工智能故意输出不实信息的缺陷如果不加以矫正,不仅会误导用户,而且将放大社会公众对于人工智能产品的不信任感,这对于可信任AI产业的发展并非好消息。人工智能应用程序除了主动生成不实信息外,也存在被其他自然人或者组织故意诱导用于实施人工智能违法犯罪行为的风险,比如早期的ChatGPT甚至会输出“毁灭人类计划书”“污言秽语”等不良信息,因而可以预料的是随着生成式人工智能技术的进步,在缺乏政府和法律有效监管的情况下,该人工智能技术必然会被不法分子用来满足个人私欲,人工智能产品也会被作为恶意制造虚假信息或者作为实施网络暴力、网络间谍、网络诈骗等违法犯罪行为的工具,甚至会被用来发动“舆论战争”,破坏选举活动、破坏医疗、交通、教育等重要基建设施,扰乱社会秩序,危害国家和社会的稳定。
2.数据泄露风险




人工智能应用领域也是数据泄露的重灾区,由于生成式人工智能的更新迭代需要不断收集训练数据,因而会自动将爬取的数据以及人机交互的过程中记录的用户信息以及聊天记录存储起来,而这就存在多方面的数据泄露风险。一方面,人工智能服务提供者或者其他掌握了数据访问权限的人员极有可能在个人利益的驱使下将存储的数据违法出卖给第三方机构;另一方面,ChatGPT等生成式人工智能产品在未来进行人机交互,提供服务的过程中,在筛选数据库匹配输出内容的过程中完全有可能将其他用户的信息作为结论输出给其他用户,而这些信息如医疗案例、司法文书等私密信息本就是应当重点保护的重要数据信息。另外,黑客攻击、系统漏洞、人工智能应用程序的固有缺陷等都会导致数据的意外泄露,而以亿为单位的数据集预示着数据泄露的后果是极为惨重的。

3.知识产权侵权风险




ChatGPT等生成式人工智能在具体应用过程中还可能产生一系列的知识产权纠纷,具体包括人工智能应用侵犯他人知识产权问题,也包括人工智能生成物的知识产权归属问题。第一,侵犯他人知识产权。一方面,生成式人工智能在抓取互联网数据集进行训练的过程中不可避免地涉及使用他人享有著作权的数字作品,而如果未经著作权人许可而使用、复制作品,则有可能违反知识产权保护法律规范。另一方面,正如前文所言,ChatGPT等生成式人工智能会在输出结果的过程中“胡说八道”,如果对他人作品进行改编,甚至是歪曲魔改,则有可能涉嫌侵犯著作权人的保护作品完整权、改编权等合法权利。第二,人工智能生成物的知识产权归属。关于ChatGPT等生成式人工智能生成物时的知识产权归属问题,学术界众说纷纭:学术界主流观点更为赞同“工具论”,认为人工智能作为人类进行文学创作的辅助工具,从而否认AIGC的知识产权主体地位;有学者则认为应当根据人工智能发展的不同阶段来确定人工智能在知识产权主体地位,“构建‘法人视为作者,版权归于法人’—‘AI视为作者,版权归于法人’—‘AI即为作者,版权归于AI’的纵深式、渐进式制度安排模式。”还有学者提出应当将人工智能生成物纳入知识产权的保护范围之中,根据协议的有无总体上确立以意思自治为原则,人工智能使用者为补充的著作权赋予机制。然而在司法实务界,美国、英国欧盟等大多数国家和地区都对ChatGPT等生成式人工智能的作者地位持保守态度,我国也是如此,根据著作权法的相关规定,人工智能目前并不能作为著作权的权利主体。值得我们反思的是,尽管世界大多数国家对人工智能能否取得作者地位否定态度或者未予规定,但是随着人工智能技术的进步,人工智能生成物的知识产权问题是未来知识产权法律无法搁置的问题,否则不仅将损害人工智能产业的发展,也会损害相关企业、个人以及社会公共福祉。

三、生成式人工智能的治理原则

生成式人工智能的广泛应用是一个“潘多拉魔盒”,既可以给人类的社会再生产带来极大的推动力,也可能在滥用时破坏社会秩序的正常运转,挤压人类的生存空间,因而需要将其纳入法律治理的轨道中,人工智能产业较为发达的主要国家、地区以及国际组织也对人工智能应用提出了不同的治理原则。如日本人工智能学会伦理委员会在《日本人工智能学会伦理准则》中提出了包括公平(非歧视)、安全无害、合法、以人为本、隐私保护、责任、合作与促进等在内的七项准则。美国国防部出台的《人工智能原则:国防部人工智能应用伦理的若干建议》明确提出人工智能应当遵循包括公平(非歧视)、安全无害、以人为本、责任、透明(可解释、可溯源)等治理原则。欧盟的《可信赖人工智能伦理指南》则提出了公平(非歧视)原则、安全无害原则、以人为本、透明(可解释、可溯源)以及可测试等原则;经济合作与发展组织(OECD)在《人工智能建议》同样提人工智能应用的发展需要遵循公平(非歧视)、安全无害、以人为本、责任、透明(可解释、可溯源)以及有益等原则。我国新一代人工智能委员会于2019年发布了《新一代人工智能治理原则——发展负责任的人工智能》(以下简称“治理原则”)强调人工智能的治理应当遵循“和谐友好、公平公正、包容共享、尊重隐私、安全可控、共担责任、开放协作、敏捷治理等八项原则。”经过对各种版本的治理准则进行分析对比,本文认为生成式人工智能作为一种技术工具,不仅需要符合科学技术的内在规律,遵循“以人为中心”的价值理念,同时应当坚持安全原则、透明可信原则、公平正义原则以及责任原则等基本原则。


(一)“以人为中心”的价值理念之提倡

人工智能在设计之初也是本着解放人类双手,促进社会生产力的变革以及促进社会进步的初心,因而无论人工智能技术和应用发展到何种远超人类智慧的程度,都应当高举“以人为中心”的根本大旗,坚持“科学技术服务人类”的价值理念。首先,人工智能技术必须掌握在人类能够控制的范围内,任何人工智能系统都应当服从人类的指令,人工智能的任何举动都不应对人类造成可预见的伤害,即使在不得不损害特定人利益的情况下也必须选择伤害最小的方式,诸如科幻影视作品《黑客帝国》《终结者》中人工智能统治、奴役甚至毁灭人类等类似悲剧绝不应当发生在人类的现实社会中。基于此,本文同样认为赋予人工智能以“人格权”以及将人工智能列为犯罪主体的观点是值得怀疑的。其次,有学者指出:“人的尊严是人类社会相较于动物的基本特征,技术的迭代不仅不能以降低人的尊严为代价,而且应当将人的尊严作为边际约束。”因而依靠人工智能程序决策时应当充分考虑人的尊严,保障人类的自决权,比如人工智能在采集和存储用户信息时应当严格受到数据安全管理规范的约束,必须遵守“知情同意原则”“合法性原则”等处理原则,应当赋予用户自主决定是否使用人工智能提供的某项服务的权利等。再次,人工智能技术以及产品应当体现一定的人类伦理准则,具体而言要确保相关的技术以及产品服务被用于增强人类的综合能力,增进人类的幸福感和安全感,尊重用户人格权、维护公平正义等伦理准则应当嵌入人工智能的开发程序之中,不得输出明显有违人类常识公理,违背民主自由、人权保护的内容。

(二)生成式人工智能治理的基本原则

1.安全可控原则




如前文所述,人工智能在发展的过程中面临着诸多数据安全风险,这些风险不仅给人工智能行业的健康发展带来挑战,而且对于整个人类社会而言同样是巨大隐患,因而必须在保证人工智能给人类社会带来最大利益的同时制造较少或者最小的社会危害,这实际上要求人工智能在发展和治理过程中必须坚持安全可控原则,该原则包含着“安全、稳健、无害、非恶意、预防、保护、完整性等”等深刻内涵。在实践中,此原则贯穿于人工智能系统的研究、设计、开发、应用等全流程,要求生成式人工智能系统本身应当符合国家或者行业的安全标准,在进行底层代码设计时应当尽可能提升算法的“鲁棒性”和可靠性,减少错误或者有害代码的编写;在训练数据收集、数据脱敏、数据清洗、模型训练等过程不存在危险,数据信息存储不存在安全隐患等;在产品投入市场时应当事先经过研发团队内部以及国家相关机构的安全性测试,并且依法经过安全登记或者备案,以最大程度保证生成式人工智能系统的安全性能,确保人工智能的技术的进步,人工智能产品的运行符合低碳环保等可持续发展的理念,总之需要确保产品的合规可控。另外,还内在着要求人工智能系统的研发者等权利人应当依法承担一定的安全管理义务,确保产品的运行稳定可靠,认真评估人工智能相关应用可能引发的法律、安全、社会治理等方面的问题,通过提高人工智能安保等级、加强风险预防措施建设等方式确保人工智能朝着安全可控的方向发展。
2.透明可信原则




生成式人工智能决策的“黑箱”问题历来广受批评,各国也通过加强国家法律法规等方式强化生成式人工智能决策过程的透明性。透明可信原则具体包括了决策过程的可解释性、可溯源、可理解性、信息披露、信息展示等内涵,因此也被认为是人工智能的“帝王原则”。该原则旨在保护公众的知情权,通过增强人工智能程序设计、训练以及决策等流程的透明度和可溯源性,不仅可以消除公众对人工智能辅助决策的忧虑,而且能够提高决策结果的可信度和可接受度。事实上,在“数据即权力”的时代背景下,科技巨擘打着所谓“技术中立”的旗号,大肆绕过法律的红线,通过人工智能程序大肆收集数据信息,分析用户私人数据,利用技术黑箱优势,熟悉用户真实需求,实施精准营销,反而使最应接收数据隐私保护的广大用户成为被公开、被透明的对象,这显然与本原则的初衷不符,因而需要坚持人工智能程序运行的透明性与可解释性。

当然,人工智能科学技术本身存在专业壁垒以及天然的可解释性难题,完全的公开透明不仅是强人所难,而且也没有实际意义,另外从保护企业商业利益、维护知识产权以及激励技术创新的视野出发,也不宜要求所有的人工智能技术都必须公开透明,因此本文强调人工智能治理应当坚持的是适当的或者说有限透明原则。原则上面向我国境内公民提供服务的人工智能产品或者服务提供者都应当向社会公众或者相应国家管理机关进行可视化解释说明,涉及公共利益的人工智能技术或者产品还应当依法公开包括源代码、原参数文件、算法训练数据集等全部或者部分内容,出于商业秘密保护以及知识产权保护的要求,应当认可相关主体仅依法向国家有关机关提供审计、安全性验证等所需要的数据信息,而未向社会公众公开。另外,透明可信原则并非要求完全打开“算法黑箱”,而是最大限度地实现“黑箱控制”,保障公众的知情权,因而应当允许存在无法完美可视化、解释的情况存在。
3.公平正义原则




公平正义也是未来生成式人工智能技术研发和应用应当遵循的基本原则之一,包括防止偏见和歧视、提高人工智能技术及其产品的可信度和接受度、维护社会总体稳定和谐等内涵。将公平正义等理念纳入人工智能的开发和监测审核机制中,要求在收集数据时应当综合采集,而不应根据个人偏好或者系统偏好收集单方面的数据作为训练数据,以此确保人工智能的底层算法输出的结果不存在歧视或者偏见,相反,如果人工智能系统在训练过程中存在歧视性的数据或者算法偏见,它们可能会在决策中体现出来,这将导致对某些社会群体的不公平对待,这不仅会加剧公众对人工智能产品的怀疑和抵触心理,进而加剧社会的不平等。其次,和谐社会建设也将无从谈起。总之,人工智能系统在生成决策时一方面应当坚持形式正义,即不应当存在明显的偏见与歧视,不得明面上或者含有歧视具有特定种族、宗教信仰、生理缺陷、社会地位等属性的群体等,另一方面应当兼顾实质正义,即保护弱势群体的权利,确保所有用户能够得到相对公平的结果,维护人的尊严和社会正义,构建更包容的社会。
4.责任原则




ChatGPT等生成式人工智能的广泛应用虽然在一定程度上促进了社会进步,但是监管责任主体的过于混乱也导致人工智能行业出现种种乱象,因而应当确立合理范围内的责任原则。一方面,该原则强有力地规范了人工智能从业者,要求人工智能程序的研发者、测试者、服务提供者应当具备高度的责任意识和道德自律意识,致力于开发和提供具有高度可靠的人工智能系统,以此来减少初始的安全风险,并且不得利用所谓“技术限制”逃避责任或者主动侵犯他人的合法权益;另一方面也规范了使用者,要求使用者必须依法依规使用人工智能程序,不得用于违法犯罪,否则应当依法承担相应责任。另外,本文所言责任原则是建立在包容审慎态度上的追责原则,即需要考虑人工智能技术的发展是一个螺旋式上升的过程,现阶段的人工智能产品尚不成熟,出现无法解释以及无法提前预知的风险并不意外,因而只要相关主体尽到了最基础的注意义务,就不应当再受到追责,因而这就倒逼企业等主体通过构建数据合规体系来实现对人工智能应用数据风险的提前预防。

四、生成式人工智能的合规治理方案

正如孙跃教授所言,数据合规不仅是独具创新性的企业数据治理模式,而且是强化公民个人信息保护的高效举措,更是规范数字经济发展,维护社会公共利益的重要方略,人工智能作为数字经济时代的“蓝海”产业,在急速扩张的过程中本就存在前文所述的数据安全风险,因而更需要引入现代化的数据合规管理理念,建立起人工智能领域的合规体系,以应对已经出现以及未来可能出现的数据风险,保证人工智能行业的发展始终运行在法治化轨道上,确保人工智能产品和服务能够为人类福祉所服务。


(一)生成式人工智能法律规范体系的完善

构建人工智能领域的数据合规管理体系首先需要国家机关提供完整的法律规范体系作为行为指南。实际上尽管数据安全法、《互联网信息服务深度合成管理规定》《暂行办法》等在内多部管理规范的出台为我国人工智能行业治理提供了合规指南,但是规范内容的过于原则性和缺乏针对性。例如《暂行办法》作为人工智能治理的专项法规,存在规制效力弱和规制内容不全的现实问题,前者体现在《暂行办法》为部门规章,对违背禁止性规定的人工智能企业智能给予通报批评、警告以及罚款等威慑力较弱的行政处罚,后者体现在《暂行办法》以生成式人工智能服务为主要规制对象,而对于生成式人工智能的基础研发等内容关注不够,因而在提高治理效能上存在短板。

考虑到人工智能技术更新迭代速度快,技术变现面临的数据风险多变,同时在国际上还需要应对来自英美、日本、印度、欧盟等人工智能技术强国和地区的竞争和“联合围剿”,需要从风险预防的视角完善我国的人工智能法律规范体系。本文认为国家有关机关应当将人工智能治理专门法律的制定列入立法计划之中,未来可尝试在借鉴国内外人工智能治理先进经验的基础上,制定一部专门的“人工智能法典”,同其他有关人工智能治理规范性文件一同构建包括“网络安全、数据安全、个人信息安全保护、可信赖人工智能”等治理规则在内的具有中国特色的人工智能生态治理法律规范体系。在人工智能风险规制体系上应当包括但不限于以下内容:第一,在人工智能管理机构的设置上可以借鉴美国、日本等国家组建“人工智能伦理委员会”承担国内外人工智能技术以及产品的备案审查、安全评估、伦理风险监测以及责任追究等职能。在组成人员上,可以按照一定比例抽调其他国家机关的工作人员并且从国内外人工智能头部企业、律所、高校、科研院所等企事业单位中聘任一定数量的知名技术、法律专家和学者作为组成人员。第二,在人工智能风险管理机制上,本文认为可以通过探索人工智能源代码、算法备案以及强制解释制度等来加强人工智能技术和产品的可追溯性以及可问责性。第三,在人工智能算法技术的规制方面,需要强化数据风险评估认证制度的建设,强化算法技术应用的监管,通过定期报告或者汇报制度增强算法技术的可解释性、透明性,规范人工智能大数据训练模型数据收集、存储、使用的合法性等。第四,尽管在规制对象上,我国《暂行办法》对生成式人工智能服务提供者的数据保护义务进行了明确规定,本文认为在未来的人工智能立法上仍需要进一步对服务提供者之外的人工智能基础技术和产品研发者、人工智能使用者、训练数据提供者以及其他负有监管职责主体的权利义务进行一定的约束,促进人工智能问责体系的完整和公平,总之“生成式人工智能的监管者应负责搭建适应生成式人工智能可控发展的环境生态并承担最终监管责任。”第五,在具体处罚方式上,本文认为除了依法对相关责任人和企业予以传统的罚款、责令停业整顿、依法追究刑事责任等处罚措施之外,还可以适用勒令召回问题产品、责令下架人工智能应用程序、责令重新进行安全评估等对“物”处罚措施。第六,行业自律公约、伦理规范、标准指南等软法更灵活、适应性更强,可以服务于多种治理目标,已成为人工智能治理的最常见形式,因而我国需要在制定相应硬法规范的前提下发挥软法规范的治理效能,比如制定生成式人工智能领域的国家级技术规范与技术标准,鼓励行业协会、各企业主动制定人工智能技术伦理等行业,但更需要各类技术规范和技术标准,构建软法、硬法结合的规范体系。


(二)健全人工智能企业数据风险管控机制

人工智能企业在致力于新技术研究以及新型人工智能产品开发过程中,尤其是在当前ChatGPT等生成式人工智能产品广泛被用于自动化决策领域带来了巨大的数据风险的情况下,企业作为第一责任人更应当依法健全常态化的数据风险管控机制以回应社会关切,适应合规管理要求。首先,需要从源头治理的视角出发来完善企业决策机制,决策者在高效稳健的决策机制的加持下,不仅能够通过评估和审核机制发现企业战略经营过程中出现的各种风险漏洞,而且能够充分收集各方信息,高屋建瓴地对企业发展过程中可能遭遇的各种隐性风险进行提前预防,甚至在相关风险具有现实化危险的同时快速做出反应,及时调整方向,将危害降至最低。第二,建立现代化的风险评估机制,将数据风险的识别、处理以及防控贯穿于人工智能产品研发、投产以及市场运行的整个流程。本文认可对人工智能应用中的数据风险事件根据其产生概率、发生频次以及危害后果严重程度等要素划分为若干等级,比如低、中、高、极高等四种风险等级,并且根据每一等级分别制定相应的应对措施,风险等级越高越需要采取更为审慎的治理态度和措施。第三,健全数据风险处置措施,具体包括数据风险调查、问责程序,数据损害补偿措施,事故报告制度等内容,总之,在发生数据风险事件时,企业应当积极进行合规整改,及时向社会公众以及主管机关报告风险事件的调查报告、内部自查结论以及补救和赔偿方案以及改进计划,如果有涉嫌犯罪的责任人则应当依法向有关机关移送并配合案件侦查追责。


(三)加强人工智能算法模型的技术规制

法律手段只能够解决自然人或者企业所引发的合规风险,而无法解决技术问题,因而需要用技术来规制技术。在数智化时代,人工智能技术的更新与进化需要依托算法训练模型的成熟,从某程度上说,ChatGPT这一生成式人工智能的成功正是基于优秀的底层算法模型,因而人工智能的治理离不开算法训练模型的合规优化。第一,需要加强数据源的合法性、可追溯性。数据源的合法性要求企业在收集训练数据时应当依法遵循数据安全法、个人信息保护法的相关规定,在获取用户个人信息或者其他第三方的数据信息时应当严格通过用户许可协议等方式明确收集相关数据信息的用途、数据安全保护义务,以及用户的救济权利内容,保证用户的知情权,并且获取其授权同意。数据的可追溯性可以通过开发数据来源记录机制,通过保存信息数据获取日志以及数据标注等方式保证人工智能在数据处理的各个阶段可以追溯数据源头,在必要时还可以要求开发记录人管理人员说明相应数据使用的时间,地点,用途等理由,增强数据使用的可解释性。第二,需要加强数据训练样本的质量和多样性,以实现算法结果偏差的最小化和结论的准确性。ChatGPT等生成式人工智能饱受诟病
    (四)推进人工智能数据伦理文化的培育

理念是行动的先导,文化是无形的戒尺,优良的企业文化一经形成,就成为一种精神力量,直接指导、约束着企业员工的一言一行,因而构建企业数据合规离不开合规文化的渲染,人工智能行业的发展同样需要遵循基本合规伦理文化准则。首先,在人工智能科创企业组织内部,需要大力宣扬守法经营、依法依规决策的合规文化,建立起人工智能企业数据合规文化培育机制,通过企业数据合规手册、前述合规承诺书等方式在公司决策层、管理层以及执行层宣扬合规理念。其次,人工智能技术研究、产品研发、服务提供等一线执行层需要明确嵌入人工智能伦理规则,将公平正义、安全可控、社会主义核心价值观等积极道德理念融入人工智能的底层代码之中,以保证人工智能产品或者服务符合人类公共利益。再次,需要定期开展数据合规业务培训,通过开展常态化、全覆盖的合规制度培训、业务流程培训、合规文化培训等合规专项培训,保障员工得到关于合规目标、合规文化以及企业风险的正确的、完整的信息,实现员工、管理人、企业整体目标同步。最后,企业需要建立人工智能应用违规举报机制,通过企业微信公众号、举报热线、网站平台等方式给予用户及时反馈的渠道,及时了解生成式人工智能产品在提供服务过程中输出歧视、偏见等违背伦理的内容以及其他给用户带来较差使用体验的情形,并且给予及时的处理结果反馈。
结语

ChatGPT等生成式人工智能凭借先进的技术以及强大的功能优势吸引了公众的注意力,也激发了资本的投入,新一轮生成式人工智能技术和产品的研发如火如荼,但与此同时,有关ChatGPT等生成式人工智能产品导致的各种风险事件的负面报道也将人工智能技术并不成熟、应用并不规范等漏洞暴露在了公众视野之下。本文围绕着生成式人工智能应用的数据风险展开了讨论,首先对ChatGPT等人工智能的基本概念和运行机理做了简要阐释,其次论述了生成式人工智能在数据收集、处理以及结果输出时的数据风险,再次论述人工智能的治理应当坚持以人为本、贯彻安全、透明、公平正义以及责任原则,最后尝试从治理规范的完善、数据风险管控机制健全、算法模型规制以及人工智能伦理合规文化培育等四个方面提出了人工智能的合规治理方案。一方面,人工智能的发展已然进入了缺乏有效监管的“无人区”,正如社会公众和有关学者所担忧的那样,缺乏有效监管和治理的人工智能将如同脱缰之马逐渐脱离人类的控制,并且可能造成巨大且无法挽回的损失,另一方面,人工智能技术本身并非“洪水猛兽”,生成式人工智能产品的应用对于促进产业升级,提高社会生产效率,增进人类福祉等方面具有重要作用,因而我们应当对人工智能技术的发展整体上持乐观和欢迎的态度,未来需要做的便是进一步以发展为导向,探求人工智能技术风险治理和安全保障的有效措施,不断发挥人类的主观能动性,找寻人工智能技术创新与维护公共利益的平衡点,保证即使生成式人工智能发展成更具智能性的通用人工智能甚至超级人工智能时也能保证为增进人类福祉而服务。

往期精彩回顾

周芷妍|数字时代法官预判确定性与认知偏差控制

朱舒予|我国短视频平台版权治理义务体系之重构

目录|《新兴权利》集刊2024年第1卷

王镕洪|生成式人工智能背景下个人信息保护的困境与破解

徐宇翔|生成式人工智能发展背景下的金融消费者个人信息保护问题研究

杨顺|ChatGPT等生成式人工智能对学术诚信的挑战及应对

上海市法学会官网

http://www.sls.org.cn


继续滑动看下一个
上海市法学会 东方法学
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存