张凌寒:生成式人工智能的法律定位与分层治理 | 现代法学202304
The following article is from 现代法学 Author 张凌寒
【作者】张凌寒(中国政法大学数据法治实验室教授、博士生导师,法律博士,北大法律信息网签约作者)
【来源】北大法宝法学期刊库《现代法学》2023年第4期(文末附本期期刊目录)。因篇幅较长,已略去原文注释。
内容提要:生成式人工智能改变了数字社会的生产架构,向既有的技术治理体系提出挑战。一是生成式人工智能呈现“基础模型—专业模型—服务应用”的分层业态,无法在现有的“技术支持者—服务提供者—内容生产者”监管框架中找到适配的法律定位;二是其传播模式和技术指标使得原有规制工具难以适用。生成式人工智能治理应符合其功能业态的技术逻辑,也应基于其在数字社会生产的地位,重新认识和调整生成式人工智能的法律定位,将模型作为新型的法律治理对象。生成式人工智能的基础模型因可接入千行百业而具有通用性,因同时提供信息内容与机器所需合成数据而具有强大赋能性,是人工智能时代的新型数字基础设施。应构建“基础模型—专业模型—服务应用”的分层治理体系,在不同的层次适配不同的规制思路与工具。在基础模型层以发展为导向,将其作为数字社会新型基础设施设置法律制度;在专业模型层以审慎包容为理念,进行分级分类并设置合理避风港规则;在服务应用层实施敏捷治理,建立合理容错制度。由此,我国得以从单一场景的算法治理发展为适应不同治理目标的复合型系统性治理。
关键词:生成式人工智能;分层治理;数字基础设施;模型规制
目次 一、问题的提出
二、生成式人工智能改变网络治理底层架构带来法律定位困难与监管挑战
三、生成式人工智能分层业态下的法律定位:基础模型层是数字基础设施
四、生成式人工智能的分层治理体系构建
结语
从美国人工智能公司OpenAI推出的爆款应用ChatGPT到其迭代产品GPT-4上线问世,仅仅间隔4个月时间。相比ChatGPT,GPT-4实现了几个方面的飞跃式提升:识图能力得到强化,文字输入限制提升,回答准确性显著提高,能够生成歌词、创意文本,并实现不同风格切换。一时之间,各大互联网公司纷纷在2023年3月内发布研发成果:著名人工智能绘画工具Midjourney升级至Midjourney V5;谷歌开放大语言模型PaLM的API,同时发布了帮助开发者快速构建生成式AI应用的工具MakerSuite;Adobe全新创意生成式人工智能Firefly亮相;百度发布文心一言,等等。大模型驱动的生成式人工智能以前所未有的态势闯入了社会生活的方方面面,不仅推动人工智能技术进入新的时代,也可以预见其将在基础科学研究、学术出版、医药研发、教育等多个领域带来深刻影响。
预训练大模型加速了人工智能技术的迭代发展,以ChatGPT为代表的生成式人工智能并非昙花一现。其对社会的深远影响可体现在以下三个层面:第一,在知识生产层面,科研方法不再受困于自由度过高引起的“维度灾难”,深度学习可以承载海量计算,科研范式将从效率比较低的“作坊模式”转向“平台模式”;第二,在人机关系层面,信息内容传播方式从平台加算法的推荐信息流传播,到一对一智慧问答传播,实现了认知层面的人机对齐;第三,在产业发展层面,ChatGPT类生成式人工智能大模型的主要功能在于为产业赋能,其可以接入多个垂直行业应用提高生产效率。
生成式人工智能表现虽然惊艳,但带来的风险与法律挑战同样令人担忧。其知识产权侵权、生成虚假信息问题受到广泛关注,同时,它在训练过程中需要被“投喂”海量数据的来源问题、它所生产的内容中潜在的歧视问题,给数据安全、算法安全、网络谣言、数据主权、国家安全等方面带来潜在风险。生成式人工智能的发展超出各国监管预期,因此尚未与各国法律中对个人信息处理者、数据处理者与算法服务提供者的相关义务协调衔接。正是考虑到生成式人工智能给社会治理等各方面带来的挑战,各国政府不约而同做出了相应的立法与监管动作。意大利宣布从3月31日起禁止使用ChatGPT,同时对其隐私安全问题立案调查。德国、法国、爱尔兰等国也效仿意大利的做法,加强对生成式人工智能的监管。4月11日,美国商务部下属机构也发布“人工智能问责政策”征求意见稿,就是否需要对ChatGPT等人工智能工具监管征求意见。同日,国家网信办发布《生成式人工智能服务管理办法(征求意见稿)》(下文简称《办法(征求意见稿)》),拟规范生成式人工智能的发展。2023年7月10日,《生成式人工智能服务管理暂行办法》公布。
当前,生成式人工智能的治理仍是多方聚焦共商的重要话题。一是我国的网络治理与算法监管一直以来以服务提供者作为抓手,要求其承担主体责任并履行一系列网络、数据、算法的安全运行义务,但生成式人工智能以预训练大模型作为技术基座,原有以服务提供者为抓手的监管框架无法直接将义务施加于生成式人工智能技术提供者。二是目前对于生成式人工智能服务的定位无法确定,显然《互联网信息服务深度合成管理规定》(下文简称《深度合成管理规定》)对技术支持者仅将其作为服务提供者的辅助者,范围过于狭窄,无法应对居于技术运行关键地位的生成式人工智能技术提供者。三是原有的算法治理框架诸多具体制度均以解决企业和监管部门的信息不对称为目标,算法备案、算法透明、算法解释等均以企业向监管部门披露信息为目的。但生成式人工智能的预训练大模型海量的训练数据和数以千亿的参数设置显然进一步加剧了监管工具的适用难度。甚至可以说,在面对生成式人工智能时,社会公众、监管部门,甚至开发企业本身都共同面对着未知领域。
此次生成式人工智能的监管思路,相比于深度合成的监管确实体现出监管逻辑更新和制度体系迭代的新趋势。但也需要指出,《办法(征求意见稿)》仍采取算法和深度合成的评估、标注等监管工具,其规制的主要对象仍是信息内容服务。然而,生成式人工智能的功能远不止提供信息内容服务,智慧问答只是其诸多功能中的一个。生成式人工智能可以作为“技术基座”赋能金融、医疗、自动驾驶等多个领域。在产业分层中,生成式人工智能首先通过海量数据使得生成式人工智能底层大模型“见多识广”,具有强大能力;其次通过“术业有专攻”的专业优化训练,让其适配不同行业和场景;再次可以向C端用户直接提供服务应用。未来将为千行百业赋能,成为人工智能时代的数字基础设施。
本文主要讨论生成式人工智能如何在法律体系中定位以及监管框架构建。生成式人工智能的技术跃迁正在推进产业变革,现有监管体系亦面临挑战,制度应如何回应?技术与社会制度的关系正在超越线性的决定论,制度可影响技术发展的进程但无法控制其进化的路径。本文的讨论突破了机械决定论和传统线性思维方式,强调技术与制度的交互作用。生成式人工智能正在改变数字社会生产结构与社会关系。制度应面对技术发展,合理定位并与技术形成良性互动。
我国网络法律制度框架基本搭建完成,一直以来的网络治理不约而同以网络服务提供者作为关键主体,因此平台责任一直是技术治理的核心议题。相对而言,技术支持者由于并不与用户直接发生互动因而并非规制的重点。我国的人工智能治理体系中,对技术支持者的要求一般为遵循人工智能伦理的软性要求,硬性要求仅在《深度合成管理规定》有所规定,即参照服务提供者承担一定的合规义务。此外,为了解决监管部门与技术企业信息不对称的问题,我国的监管工具箱包括算法备案、算法检查、算法解释说明等。这个规制体系适应平台聚合用户生产内容并通过算法进行信息推送的数字生产逻辑,但在人工智能生成内容时代则存在一系列制度上的不适应之处。
(一)现有监管框架的“技术支持者—服务提供者—内容生产者”体系及其逻辑
数据、算法、平台都是人工智能治理的具体对象。近十年间,我国围绕平台经济的兴起建立起现有的网络法律制度框架。平台作为服务提供者是网络法律规则的核心规制对象,平台责任也成为数字经济治理的核心议题。后续随着技术应用的发展,我国的网络治理框架向前延伸至“技术支持者”。为了内容监管的需要,也将“内容生产者”纳入了网络治理体系,形成了依照“技术支持者—服务提供者—内容生产者”三类主体分别设置法律责任,以服务提供者为核心抓手的规制体系。
网络服务提供者(平台)是汇聚用户生产的信息内容和调动生产资源要素的社会生产组织者。服务提供者的责任内容逐渐丰富的过程,也是平台逐步在数字社会生产中组织更多社会资源、加强数字基础设施建设与增强对生产要素控制力的过程。服务提供者不断整合信息基础服务(如身份认证、物流)、交易流程、信用评价、内容推荐,并把劳动力(如骑手)、实体资源(如网约车、饭店)等生产性资源链接到网络上,改变了工业经济生产方式,形成了依托服务提供者调动生产资源、匹配多方需求的网络,通过海量用户吸引更多的服务链接到平台上形成网络效应。因此,网络服务提供者的法律义务在近年来急剧扩张,国家从个人信息保护义务、数据安全、算法安全、信息内容安全等多个方面均提出了压实主体责任的主张。
具体到信息内容领域,我国逐步形成了以服务提供者为核心,向前延伸至技术支持者,同时扩展到内容生产者的治理链条。《网络信息内容生态治理规定》规定了内容生产者的范围,即制作、复制、发布网络信息内容的组织或者个人。技术支持者进入规制范围则源自《深度合成管理规定》,主要是指为服务提供者提供技术支持,如提供具有编辑生物识别等特定信息功能的模型、模板等工具的技术者。信息内容安全的治理体系依照从内容生产(内容生产者)、传播过程(服务提供者)和用户接收终端(用户)流程构建。内容生产环节包括在权威信息源通过发放互联网新闻牌照进行控制,在用户信息源通过账户账号管理避免机器人、水军、僵尸账号等问题,并要求以上内容生产者承担遵守内容安全底线的义务;在传播过程中压实服务提供者的平台主体责任,要求平台作为服务提供者建立包括过滤、辟谣、提示、标记、应急、删除等机制的安全管理体系,并同时管理算法控制推荐信息流。对技术支持者的要求始于《深度合成管理规定》,因其模板等技术支持可以影响内容生成。
服务提供者始终是算法和人工智能监管的重点,对技术开发层的技术支持者则多为伦理要求,少有直接规制。人工智能技术有待解决的风险包括信任风险、公平风险、失控风险、社会风险、责任风险,对应的治理需求则是实现人工智能的透明度、公平性、可控性、包容性和可问责性。一般认为,我国人工智能治理中对于算法系统设计使用的公开透明、算法结果的公正、相应问责机制的建立等制度基本由现有算法监管体系实现。这些制度的最终落脚点仍落在服务提供者身上。
综上所述,我国的网络治理体系以服务提供者(平台)作为核心抓手是基于其数字社会生产组织者的地位。在信息内容领域更是明确了“技术支持者—服务提供者—内容生产者”的监管框架,规制对象一般为服务提供者和内容生产者,技术支持者仅由于对信息内容的影响刚刚被纳入监管范围。
(二)生成式人工智能的分层业态突破主体界分引发法律定位困难
生成式人工智能整个产业呈现明显的分层,区别于原有的“技术支持者—服务提供者—内容生产者”相对泾渭分明的法律主体界分,从底层的基础模型开始即可对终端的服务应用层内容生产产生直接影响。生成式人工智能整体呈现将技术支持、服务提供与内容生产“三位一体”融合的技术形态,打破了现有的网络治理法律制度对数字社会生产方式在结构方面的底层设定。
生成式人工智能的业态可分为三个层次,分别为“基础模型—专业模型—服务应用”。第一层为基础模型层。可以将基础模型层理解为操作系统,世界范围内可能存在少量具有竞争关系的通用性基础模型,以及若干在特定行业高价值专业化的基础模型。但由于训练开发成本惊人,因此只能由少数知名企业与机构提供。超千亿参数的大模型研发,并不仅仅是算法问题,而是囊括了底层庞大算力、网络、大数据、机器学习等诸多领域的复杂系统性工程,需要有超大规模人工智能基础设施的支撑。生成式人工智能大模型与云计算相互依赖,在云服务基础上叠加模型即服务的业态,可为专业模型层提供人工智能基础服务,也可直接为客户端用户提供服务。
第二层为专业模型层。在基础模型的技术支持下,企业可通过深度学习平台等进行适应专业垂直细分领域和场景的个性化定制。作为下游垂直细分领域的开发者,可以在基础模型的基础上简化开发工作,并以专业模型为基础开发服务应用。与开发昂贵的基础模型不同,产品模型是在基础模型基础上进行专业领域知识与专业数据的优化训练。这是因为直接将基础模型应用于专业领域存在可信性不足的问题,也会由于缺乏专业知识导致表现不佳,如专门为生物制药提供服务的产品模型,专门构建融合了领域知识的大模型分子图预训练模型,应用于药物设计、靶点发现等生物制药领域,并将其作为生物制药模型的核心基础。这类专业模型可被用于金融、就业、生物医药、教育等领域,根据垂直细分场景需求专门训练或定制。
第三层为服务应用层。该层兼具技术与内容生产者角色,如应用于搜索引擎、智能问答、音视频生成,直接为客户端用户提供服务。当基础模型直接提供客户端的智慧问答时,就成为了服务应用层,如ChatGPT即基础模型直接为用户提供智慧问答服务。
技术跃迁突破了现有法律制度的底层设定。“技术支持者—服务提供者—内容生产者”的法律主体界分已经随着技术的发展被逐渐消解。先是近年来技术中立原则被立法和判例屡次否认,服务提供者和内容生产者的角色界限已经不再明晰。生成式人工智能的大模型进一步将三者功能实质上融为一体,既可以模型即服务的形式为企业提供技术服务,又可以通过智慧问答的方式直接提供对用户的内容生成,法律主体的界限在技术实际运行中已经模糊。
互联网发展初期的技术结构,也就是专业生产内容时代确立的“网络服务提供者”与“内容生产者”的二元结构已经随着技术发展被逐渐消解。在用户生成内容时代,平台是“服务提供者”,用户取代专业媒体成为海量的活跃于平台的“内容生产者”。平台通过算法控制用户生成内容的信息流,既是信源又是信道,成为“基于算法”的信息发布者。平台(服务提供者)基于推荐算法对信息流的控制,使其一定程度上具有了内容生产者的性质,经过了较长的理论探讨和司法判例才在司法判例中得到承认。
生成式人工智能的底层通用能力直接打破了网络治理领域一直以来的网络服务提供者与信息内容生产者的二元藩篱,更是进一步将“技术支持者”的功能与上述二者相融合。例如,ChatGPT可以被接入智能客服场景,当用户与智能客服发生对话时,其提供的内容既直接与基础模型的预训练数据与参数有关,也与专业模型的优化垂直领域训练数据直接相关。有学者从划分标准、规则适用、理论体系等方面论证了生成式人工智能服务提供者在形式上符合网络内容服务提供者的定义,但在实质意义上不宜将其认定为网络内容服务提供者。与此同时,在模型即服务的业态下,无论是通过API接口介入基础模型并保持在线的形式,还是提供开源基础模型服务的形式,其在现有监管框架内又同时符合“技术支持者”和“服务提供者”角色。
如果说用户生成内容时代,法律可以通过提高平台基于算法的注意义务来进行法律角色与责任规则的调适,那么,在人工智能生成内容时代,三分的法律主体认定规则是否有存在必要都成了问题。生成式人工智能使得数字社会生产方式的结构已经发生变化,以原有的主体为核心的治理模式无法应对技术的发展。
(三)生成式人工智能的传播模式与技术指标难以适用原有监管工具
生成式人工智能的技术跃迁,已经形成了底层技术基座与产业技术链条,训练数据与参数指数级增长,打破了现有的网络治理法律制度对数字社会生产方式在信息传播方式方面的底层设定。这使得围绕信息不对称建立起来的透明度监管工具箱面临着困难,信息内容传播中的责任认定和责任分配也面临着挑战。
产业模式和技术参数指标决定了透明度的监管工具箱的适用困难。生成式人工智能的预训练大模型类似于其在海量数据的自监督学习阶段完成“基础”教育,然后再由垂直产业企业根据自身需要进行专门性训练和参数微调,类似于“专业”教育。过去算法监管针对的是分散化的模型研发模式,现在的预训练大模型具有通用性和泛化性,带来了标准化的人工智能研发范式。在共享参数、多个主体在不同环节分别训练的情况下,信息披露变得愈加艰难。从技术指标上看,大模型参数规模逐步提升至千亿、万亿,数据特征高维、模态格式多样的趋势也逐渐明显,计算复杂度会随之呈指数增加,这意味着人工智能的可解释性更差。除了数据和参数的指数级增长,生成式人工智能可从给定数据中直接估计一个分布并生成新数据,可发现同类数据本身的相似度但非复制,给自动化决策结果的解释说明带来了更多困难。
生成式人工智能改变了网络信息传播方式,这使得信息内容安全方面的责任认定和责任分配规则面临挑战。生成式人工智能生成的内容更加个性化、定制化,投放方式更为精准。信息传播方式从“信息的搜索和呈现”,如推荐信息流、搜索引擎等方式,跨越到了“独立解决问题”的方式。在为用户解决问题(如协助创作、回答、完成任务)的过程中将定制化的产品或者服务分发给用户。这是否落入《网络安全法》第24条有关网络实名制的范围内呢?智能问答难以精确归属于“为用户提供信息发布、即时通讯等服务”,因此生成式人工智能是否应贯彻网络实名制的要求存在争议。此外,如果在用户的提问引导下,生成式人工智能产出了不符合信息内容安全的结果,生成式人工智能服务提供者是否要承担“内容生产者”的义务呢?在与用户的互动中,生成式人工智能可以进一步依据用户需求和使用习惯调整输出内容。内容的产生是一个动态迭代和优化的过程,可以通过收集反馈和评估效果不断调整和改进。这种情况下,用户与生成式人工智能服务提供者共同影响生成的内容,这使得有关信息网络传播的定义和法律责任认定规则都可能面临挑战。
综上所述,生成式人工智能不仅是人工智能技术的迭代革命,也意味着数字社会生产方式进一步向前推进。一方面,生成式人工智能产业呈现分层状态,“基础模型—专业模型—服务应用”的技术业态使得各层兼具“技术支持者—服务提供者—内容生产者”功能;另一方面,生成式人工智能改变了网络信息传播方式,训练数据与参数指数级增长。生成式人工智能的技术特点和产业形态打破了现有的网络治理法律制度对数字社会生产方式在结构与信息传播方式方面的底层设定,本质上重构了网络法的底层架构,这必然要求对其法律地位和治理框架进行重新认识和调整。
面对一套技术系统,首要的是判断其究竟是一个独立的技术系统,还是一整套生产方式。讨论生成式人工智能的法律角色及法律治理,需要究其本质,探讨其在数字社会生产中对生产方式的影响。生成式人工智能的基础模型因可接入千行百业而具有通用性,推动着数据要素流动以及具有公共性的融合计算服务体系建立;同时提供网络信息内容与机器所需合成数据具有强大赋能性,是人工智能时代的新型数字基础设施。作为新型数字基础设施,生成式人工智能基础模型本身具有通用性,并且因为对下游产业的控制力而具有公共性。
(一)基础模型融合数据算法算力三要素成为独立规制对象
基础模型融合海量数据、算法、算力,是人工智能时代的“重工业”,高昂的成本必然使基础模型从“百花齐放”到“数枝独秀”,而改变现有各平台分散研发的模式,这打破了现有的网络治理法律制度对数字社会生产方式的底层设定。无论是基于风险的治理,还是基于主体或基于应用的治理,均形成于人工智能专用模型作为底层架构的发展阶段。
生成式人工智能的分层业态中,基础模型是底层核心技术,也是人工智能研发工程化的重大创新。基础模型最重要的是进行“训练”,无论是预训练还是优化训练,都是对数据、算法、算力等要素资源的精巧组合,最后形成具有超大规模参数量的基础模型。“训练”既是生成式人工智能投入产业应用前的技术工程,又直接影响到后续专业模型的表现和服务应用的内容。《深度合成管理规定》首次明确了深度合成服务提供者和技术支持者对训练数据的管理义务,不过规定并未进一步就训练数据的管理细则提出要求。“训练数据”在生成式人工智能治理中已经作为专门对象,说明监管部门充分认识到训练应该成为法律调整的对象,因其直接关系生成式人工智能的法律定位与相关权利义务分配。
基础模型的训练数据与生成结果之间的关系,早已超越“算法黑箱”的复杂性,数据规模产生“涌现”现象,更类似于食物被消化长成了骨骼肌肉。大模型的训练需要强大的数据预处理能力,在模型训练之前,通常依赖专业数据团队对数据集进行去重、清洗、分词、词的正则化或标准化等一系列预处理。通过海量数据的“投喂”后,大模型会在某个临界值出现“涌现”现象,意指在训练量较小的时候,其结果与随机结果差不多,但当训练量超过某个阈值的时候,模型处理复杂问题的能力和精确度突然大幅提升。可以理解为大模型通过海量学习,经历记忆期和平台期,方可“顿悟”到其中规律,达到具有强大处理能力的泛化期。而这也是大模型获得底层通用能力的原因。
由此可见,模型训练的目的是获得“能力”,这与既有法律制度中的信息内容监管、以风险为导向的分级分类治理的监管目标有所不同。与此同时,训练行为也与个人信息处理行为、算法推荐服务提供、数据处理行为等现有法律体系中的相关概念有所不同。
第一,模型训练过程有机融合了数据、算法、主体、场景等人工智能的监管对象。目前我国的技术治理体系中,设立了数据、算法、主体、场景四大类分级分类的标准。我国目前初步构建的多系统分级分类法律体系将基础模型的风险判断因素有机融合,在基础模型的风险级别判断标准上,包含了数据处理量级及广泛被应用的场景两大考量因素。
第二,训练数据的质和量是生成式人工智能高质量发展的基础,《办法(征求意见稿)》专门对数据质量提出要求。基础模型的生成内容与训练数据存在相关关系,分析认为ChatGPT出现输出价值观偏差的核心原因,是数据集在多样性、代表性、公正性等方面存在缺陷,导致偏见、刻板印象、文化片面性等问题。此外,在《办法(征求意见稿)》出台以前,就有对“数据质量”的法律规定,这些要求或来源于政策文件的倡导性条款,或来自防止弄虚作假等“合法性”的要求。
第三,模型训练行为独立于个人信息处理行为、算法推荐服务提供及数据处理等既有法定行为,这主要体现在前述诸多行为的相关法律规范难以适用于训练行为的规制上。如基础模型的训练需要海量数据,训练数据中涉及的“个人信息”的处理和使用存在违反我国《个人信息保护法》中的“最小必要”原则要求的风险。用户在使用ChatGPT过程中所提供的个人信息上附着的个人信息法定权益,如撤回、修改、删除的权利等,现阶段都难以通过有实质性帮助的便捷方式得到保障。但在基础模型的训练过程中,生成式人工智能服务提供者作为数据处理者,仍应依据《数据安全法》履行数据安全保障义务。
由此可见,基础模型的训练已经成为了一个融合了数据、算法、算力的专门过程,需要出台专门的、独立的规范予以规制。《办法(征求意见稿)》拟将训练数据列为专门的调整对象,这意味着我国监管部门已经开始从基础模型的训练阶段着手展开规制。
(二)基础模型的通用性与赋能性及其带来的生产方式变化
生成式人工智能的基础模型因可接入千行百业具有通用性,可为多个垂直细分领域创造个性化人工智能系统,同时提供网络信息内容与机器所需合成数据具有强大赋能性,是人工智能时代的新型数字基础设施。作为新型数字基础设施,其推动着数据要素流动及具有公共性的融合计算服务体系建立。
第一,基础模型具有通用性,可支撑多个垂直产业泛化介入,降低数据生产要素流动壁垒。基础模型的功能泛化性、通用性改变了人工智能产业生态。人工智能技术实现了从决策式人工智能到生成式人工智能的跃迁。强大的底层通用能力是生成式人工智能基础模型给人工智能产业带来的跃迁式革新,底层大模型加上深度学习平台,推动了人工智能全产业链的加速升级。这种通用性改变了过去人工智能分为视觉、听觉、语义等不同领域分散研发的情况,实现了应用领域和场景更换。海量的模型参数量、前所未有的数据处理量、更大的训练计算量,推动实现了人工智能模型通用性的跨越式提升。
基础模型客观上促进了数据要素共享,技术底层使得平台打破封闭架构实现互联互通成为可能。既往的研究与讨论中,数据要素的流动与共享的流动方式被想象为数据交易、公共数据开放,以及通过监管部门主导的强制企业打破封闭架构的互联互通。基础模型则提供了新的数据共享与互联互通的思路,具有超越性技术能力和资金支持的企业,通过碾压式技术开发和成本投入,实现海量数据资源池与模型训练的规模效应。当不同的企业与应用被链接到基础模型上之后,又成为基础模型的流量入口累积更多的数据,被用来进行进一步反馈性的模型训练。具有持续训练学习能力的预训练大模型,使得人工智能时代的技术基础设施超越了数据存储分析、支付物流、身份认证等类型的平台基础服务,而是向产业层面延伸。这也进一步降低了生产要素流动的壁垒。
第二,基础模型具有赋能性,兼具信息内容与数据要素供给功能,可为产业企业赋能降本增效。大模型本身具有明显的商业化价值,其对于行业的赋能,显现了人工智能驱动新一轮科技革命和产业变革的巨大力量。生成型人工智能的基础模型可以以“高质量生成内容”形式赋能,为网络生态提供内容资源。生成式人工智能不仅局限于分析已经存在的东西,而是学习归纳已有数据后进行创造,基于历史进行模仿式、缝合式创作,生成了全新的内容,也能解决判别问题。在这样的技术变革下,生成式人工智能的开发者的角色早已超越了为服务提供者提供技术支持,而是成为数字社会生产的资源提供者———内容生产的强大引擎。生成型人工智能的基础模型可以“合成数据”形式赋能,为模型训练提供数据生产要素。合成数据作为真实数据的替代品,是利用算法人为生成出符合真实世界情况的数据,可以在数学或统计学上反映真实数据的属性。合成数据目前已应用在人工智能模型训练开发和仿真验证中,可以为数字孪生、智慧医疗等模型训练提供资源,并在金融、医疗、零售、工业诸多产业领域中落地实施。合成数据是人为生成的,具有成本低廉和隐私保护优势,可以解决真实数据采集耗时费力、数据标注量大成本高和真实数据隐私泄露风险等问题。
由此可见,基础模型已经从产业生态角度改变了数字社会生产,更成为了信息内容和数据要素的提供者。
(三)基础模型的数字基础设施法律定位及其具备的公共性
基础模型由于其通用性和赋能性,成为人工智能时代数字社会生产的新型数字基础设施,也同时具备了数字基础设施的公共性特征。基础模型层作为基础设施的公共性,一方面来自基础模型组织数据、算法、算力人工智能要素参与社会生产的控制力,另一方面来自对企业和产业的影响力。
1.生成式人工智能基础模型是新型数字基础设施
传统基础设施具有基础性、赋能性和公共性等一般特征。基础设施的基础性源自其能够为产业变革和经济发展提供基础性支撑和行业赋能,如交通、能源、水利等基础设施。基础设施如交通、水利设施等具有较强的赋能性,被认为是社会先行资本,作为经济起飞的重要前提条件而应当优先发展。进入数字经济时代,数字基础设施已经像水、电、公路一样,成为人们生产生活的必备要素,为产业格局、经济发展、社会生态发展提供保障。数字经济时代,经济高质量发展的需求下,社会生产对基础设施的需求也随之发生结构性转变。
生成式人工智能的基础模型具有基础设施性质,可以支撑多产业泛化通用接入,客观上促进了数据等生产要素共享,既意味着生产力跃升也同时推动了生产关系的变化。生成式人工智能的基础模型层既符合传统基础设施的基础性特点,也符合新型数字基础设施可提供综合数字计算与处理能力的特征。也是基于此,通用性、规模性成为人工智能产业政策的目标。在《上海市人工智能产业发展“十四五”规划》中明确指出现在人工智能发展面临的瓶颈是规模化应用深度不足,而大模型将会是未来突破发展瓶颈的关键技术。《北京市“十四五”时期高精尖产业发展规划》也将国家级人工智能前沿研究中心、超大规模人工智能模型训练平台作为了发展重点。《广州市人工智能产业链高质量发展三年行动计划》也提到对大模型及其上下游产业生态链的布局要求。生成式人工智能的模型层既是企业的开发平台,也是模型训练的资料来源,具有新型数字基础设施的赋能性特征。
2.生成式人工智能基础模型作为数字基础设施的公共性
理论上对平台作为数字基础设施的公共性论证多从两个角度展开:一是平台本身作为载体的公共性,基于其组织生产、掌控数据等生产要素等;二是对平台内经营者的治理等公共性权力,事实上承担着维护市场秩序保护用户权益的公共职能。生成式人工智能的基础模型层一方面充分符合本身作为载体的公共性,另一方面对接入基础模型的下游生产者具有准管理的公共性权力。
第一,生成式人工智能的基础模型作为新型数字基础设施,形态是新型集成型平台,本身具有公共性。基础模型比起数字平台更加纵深地组织生产提供基础性服务。基础模型提供的不仅包括原有平台的数据、算法、基础服务、网络、资源等核心要素,更进一步将“模型作为服务”的服务扩展到了有效的算力如芯片架构和算力系统,还包括开发系统和环境、云计算等系列融合性的智能服务。如我国浪潮信息开发了2457亿参数的“源”大模型,通过模型API服务、领域模型、开发者社区等多种形式对外提供算法基础服务。其次,基础模型的训练需要海量数据与算力的惊人投入,基础模型汇聚和掌控着人工智能的三要素数据、算法和算力,因而具有公共性。一般认为模型的思维推理能力与模型参数大小有正相关趋势,一般是突破一个临界规模(大概62B,B代表10亿),模型才能通过思维链提示的训练获得相应的能力。预训练大模型的高算力投入设置了人工智能研发的高门槛,目前全球范围内只有少数头部企业和科研机构能够支撑预训练大模型的开发、训练。
第二,生成式人工智能的基础模型进一步绑定了平台与企业的关系,具有了对产业和企业前所未有的控制力。如果说数字平台经营者的市场力量还来源于对竞争和交易的控制力,那么基础模型的控制力更来自对技术运行的控制力。接入基础模型的企业经由深度平台训练的“应用”“服务”将不再如以往一样拥有独立支配运行的权力,因为大模型作为技术基础设施使得垂直细分行业的应用与服务具有“出租”性质,服务与应用变成了必须依赖大模型更新的在线服务。打个比方,消费者既往购买纸质书即享有书的完全所有权,但现在购买电子书,服务提供者可设置期限停止消费者的访问权限。仰赖基础模型提供人工智能服务的企业,与过去购买机器设备等物理实体的企业相比,对上游技术的依赖性更强。因此,大模型的服务商对整个产业生态系统具有了前所未有的技术层面的控制力。未来的基础模型的计算能力也成为人工智能产业的重要资源,引起对企业具有正向赋能效应,对产业企业运行具有更强的穿透力。
综上所述,生成式人工智能不仅是人工智能技术的迭代革命,也意味着数字社会生产方式进一步向前推进,而生成式人工智能的模型层则因具有极强的通用性、赋能性成为了人工智能时代的新型数字基础设施。新型数字基础设施既具有传统基础设施的特点,也有别于原有的数字基础设施。在特征上由于多产业泛化通用接入、供给数字社会生产的网络内容生态与模型验证训练和具有数据和算力的自然垄断性,而具备基础设施通用性、赋能性特征;又有别于原有的数字基础设施,不仅提供连接服务更提供计算服务,不仅外部赋能更提供生产要素,不仅具有公共性也具有一定的竞争性。因此,在社会生产方式的演进语境下,生成式人工智能的模型层是人工智能时代的新型数字基础设施,本质是对生产力的大幅提升。
我国生成式人工智能的法律治理应以发展为导向,以生成式人工智能的多重法律角色作为治理的原点,调整原有制度中的不协调之处。在鼓励我国生成式人工智能发展的思路下,应将生成式人工智能作为基础设施,划分为技术、产品与服务三个层次,以“基础模型—产品模型—服务应用”为形式,关注不同层次的不同生产要素,大力鼓励基础模型层的技术发展,审慎包容监管产品模型层,对服务应用层沿用并调整以实施敏捷治理。将我国从较为单一的场景的算法治理,演化为适应不同治理目标的生成型人工智能的复合型系统性治理。
(一)从主体监管到“基础模型—专业模型—服务应用”分层规制
生成式人工智能的治理应顺应技术发展给社会生产带来的变化,重新思考人工智能治理底层技术逻辑改变后,应如何更为有效的构建治理框架。生成式人工智能的治理应改变我国原有的“技术支持者—服务提供者—内容生产者”的监管体系,实施“基础模型—专业模型—服务应用”的分层规制。不同的层次适配不同的规制思路与工具。
数据、算法、人工智能等前沿技术推动法律制度发生变革,仍遵循经典的“生产力决定生产关系”马克思主义政治经济学原理。在20世纪末数字经济发展早期和具有通用性的生成式人工智能发展的今天,呈现了一致的发展趋势:更广泛的社会生产的资源被绑定于平台之上,平台在产业生态中更为纵深地控制和组织社会生产。生成式人工智能需要法律应对的主要原因,在于其深层次地推动了数字社会生产的进一步变革。早期网络法发轫于知识产权领域,是因为文字和音乐等作品最先被数字化并可在网络上流动;后期网约车、劳动力、商品等可被数字化表达,平台经济迅速发展;如今生成式人工智能的基础模型打通了人机语言壁垒,实现了万物皆可“Token”化,因此可以更加广泛和深入地链接、调配更多的垂直产业、实体经济,不仅填充与完善了既有的网络业态,也会发展为技术、内容、计算服务多样化与一体化的集约型模型服务平台。
分层规制的原因之一,在于只有在生成式人工智能的服务应用层有划分“服务提供者—内容生产者”的意义,在基础模型和专业模型层则与“内容生产者”规制目的关系不强。这是因为“内容生产者”概念来自信息内容安全监管,其制度目的在于向社会公众通过服务提供者发布信息,需遵守底线负有相关义务以保证信息内容安全。但是,生成式人工智能的基础模型层和专业模型层要么只在企业内部训练运行,要么向垂直细分领域的企业(B端)提供接口以赋能,并不直接与用户(C端)发生交互。而实现对“内容生产者”的规制目的,只需要在服务应用层提出相关要求,做好过滤审核即可。生成式人工智能的功能远不限于“内容生成”而已经成为新型数字基础设施。因此,仅仅由于其生成文本、视频、音频等一项功能就以“内容生产者”做全产业链的要求并不符合其功能业态。
分层规制的原因之二,在于减轻技术端即基础模型层和专业模型层的注意义务,促进产业发展。在现有的治理框架内,技术提供者对信息内容安全的注意义务最低,内容生产者对信息内容安全的注意义务最高。在互联网发展早期,服务提供者享受了多年的责任豁免,这也被认为是网络产业发展迅速的重要原因。生成式人工智能在服务应用层仍沿用之前信息内容安全的监管制度,即可实现信息内容安全的治理目的。如果基础模型层和专业模型层即按照“内容生产者”进行要求,则其将成为科技创新的负担。
分层规制的原因之三,在于鼓励企业根据不同的业态层次承担不同水位的风险防范义务与法律责任。分层治理也鼓励企业分别发展基础模型层和服务应用层,区分对企业和对用户模式。分层治理可以将基础模型层从内容生产者的责任中解放出来,鼓励企业将面向用户提供服务应用的传播信息内容部分切割出来单独承担责任。即使不进行主体和业务的切分,企业和工作人员也可按照风险发生等级承担相应责任。
在分层规制中不同的层次有各自的治理理念与监管聚焦。基础模型层应以发展为导向,关注科技伦理、训练数据、模型参数;专业模型层应以审慎包容为理念,关注关键领域与场景,训练数据来源与安全,个人信息保护,并在此领域可引入分级分类;服务应用层则关注信息内容安全、市场竞争秩序与用户权益保护,沿用原有监管工具,并适时引入新兴监管工具、细化合规免责制度,给新兴技术发展留下试错空间。将我国从较为单一的场景的算法治理,演化为适应不同治理目标的生成型人工智能的复合型系统性治理。
(二)以发展为导向的基础模型层制度设计及其公共性考量
分层规制理念下,应将生成式人工智能的基础模型层作为新型数字基础设施。生成式人工智能的基础模型应作为经济数字智能化转型的重要依托,由国家适度超前部署、扩大产业投资、激发民间活力。因此,在新型基础设施的发展理念下,应从法律制度层面保障生产资源的获取,规划数据要素与算力资源的投入调配,并在基础模型层达到一定的公共性标准后,要求其以开放中立为原则,合理行使平台内公共管理权力。
第一,建立公共训练数据池推动基础模型的数字基础设施建设。生成式人工智能基础模型层的数字基础设施建设,需要法律制度保障其获取数据要素,可通过构建数据管理制度促进数据利用,以及建立公共训练数据池推动产业发展。在《数字中国建设整体布局规划》中,将构建数据资源畅通循环的制度作为数字基础设施建设的内容,充分体现了数据生产要素对于基础设施建设的重要作用。高质量的模型训练,需要高质量的训练数据。有关公共卫生、科技、教育的国家数据资源库,可成为公共训练数据池的重要来源,实现数据汇聚利用的价值。
第二,设置合理知识产权制度保障基础模型层训练数据的获取。互联网上累积数十年的数据、数据库、代码等被用来进行大模型的训练。现阶段主流观点认为“合理训练”有利于人工智能产业发展,各国产业政策和法律也正在跟进。
第三,被认定为具有公共性的平台应以开放中立为一般原则,以拒绝向特定用户开放为例外。当未来的某些基础模型层经过竞争达到一定规模,则会涉及因具备公共性而承担开放中立与其他相关义务的问题。从宏观的视角看,作为智能服务提供者的模型平台支撑数字经济运行,对于各个行业的数字化转型都具有不可忽视的战略意义。在现阶段接入基础模型的服务享有强大竞争优势(如ChatGPT接入必应搜索引擎),未来当生成式人工智能服务成为社会生产普遍服务后,可能将出现“模型开放中立”原则,即凡是愿意接受基础模型服务协议、在诚实信用原则下使用模型服务的主体,均不应排除在模型服务之外,除非有拒绝支付合理对价(政府可能介入指导价格)、影响基础模型安全运行(如对模型“投毒”)、危害国家安全等正当理由。
最后,被认定为具有公共性的平台,应合理行使平台内公共性管理权力。基础模型作为模型服务提供者,可通过模型与其他服务集成形成多元化服务平台,同时可通过架构开放自身用户接口,使得第三方开发者通过运用和组装平台接口进一步开发新的模型与应用,并可能在平台上统一运营成为开放式平台。通过模型的访问权限,能够调节模型平台、用户、第三方开发者等多个主体之间的关系,形成复杂分层的治理和控制机制,塑造人工智能生态产业链。公共性的模型平台对于平台上多个主体都具有强大的控制力和管理权限,应要求其合理行使公共性管理权力,允许平台内公平竞争、保护创新、合理收费等,履行非歧视竞争义务。
将生成式人工智能的基础模型作为新型数字基础设施,应匹配与基础设施发展相适应的法律制度,其中包括构建数据要素流动制度与建立公共训练数据池,从法律制度层面保障“合理训练”获取训练数据资源,以及合理投入并调配算力资源等。
(三)专业模型层与服务应用层的审慎包容与敏捷治理工具箱
在基础模型层之上的专业模型层与服务应用层,应有着不同的治理理念与监管聚焦。在专业模型层,应以审慎包容为理念,引入专业模型的分级分类,关注重点领域与场景,设置精细的新型避风港规则。在服务应用层,仍关注信息内容安全、市场竞争秩序与用户权益保护等价值,一方面沿用原有监管工具,另一方面建立敏捷治理的监管工具箱、细化合规免责制度,给新兴技术发展留下试错空间。
1.专业模型层的审慎包容与分级分类
专业模型层的治理以审慎包容为理念,关注重点领域与场景的分级分类,设置合理的法律责任水平。一是在专业模型层将“模型”本身作为规制对象,融合数据、算法、场景的分级分类理念。专业模型层中,进行领域性专业性调优的模型应直接成为法律规制的对象,并与我国现有的数据、算法、场景的分级分类标准统筹协调。虽然基础模型的通用性特征使其无法适应分级分类的体系,但专业模型层则具有具体应用的垂直行业与场景,可考虑设计监管的分级分类。专业模型的分级分类应以“模型能力”作为分级分类的考量指标,模型能力直接与训练数据量级、算法性能相关。以模型能力作为专业模型层的分级分类监管体系,可将数据、算法等标准有机统筹。
二是在不同的领域和场景叠加行业规范要求,在重点领域与场景进行专门的制度设计。专业模型层的用户多为中小企业,通过“术业有专攻”的优化训练对基础模型进行行业化和场景化改造。换句话说,专业模型层是基础模型层的B端用户,是服务应用层的模型服务提供者。术业有专攻的优化训练不仅应遵循生成式人工智能训练数据的相关要求,还应遵循行业规范的具体要求。如针对智慧医疗、心理咨询的专业模型训练应遵循医疗伦理的相关要求;提供金融服务的专业模型训练应遵守金融系统监管的法律法规等。在未来的监管中,各部门也可对管理职能内的专业模型训练进行专业指导与监管。
三是需要合理设置发展早期的法律责任水平。社会成本本身即包括法律责任水平。各国为鼓励网络产业发展,曾纷纷对网络服务提供者施以较轻的注意义务。但后期随着产业的发展,法律责任水平逐渐提高。最初云服务被认为是一种类似于煤水电一样的互联网基础设施服务,涉及一定程度的公共利益而非简单的私人服务,因此,只有有关国家机关的授权才能够对用户存储在其服务器上的内容进行核查。生成式人工智能的专业模型在发展早期,应设置一定的免责规则,一定程度成为其提供设计精巧的避风港责任。专业模型层对基础模型进行优化与微调,可能叠加基础模型层数据造成输出结果违反法律规定或侵害民事权利等。专业模型层已经前置必要的输出拦截过滤,并证明输出的结果与专业模型层的调优和专业训练数据之间并无直接关系即可适用模型层的避风港规则。
2.服务应用层的敏捷治理与合理容错
服务应用层的治理一方面应沿用原有的治理理念与监管工具,保证我国人工智能监管的协调性与一贯性,另一方面应建立敏捷治理的监管工具箱、细化合规免责制度,给新兴技术发展留下试错空间。
第一,沿用原有的治理理念与监管工具,使我国人工智能监管脉络协调一致。一是在治理理念层面,我国现有的监管思路把信息内容安全仍一以贯之地列为治理的首要任务,如《办法(征求意见稿)》的出台即明确划定了人工智能生成内容的底线。生成式人工智能的服务应用与人类互动时的输出内容为文本、图像、音频、视频等,都被纳入了信息内容安全监管范畴中。二是我国已有较为成熟的信息内容安全制度体系,沿用既有的评估审核标准,要求服务应用层的生成式人工智能服务提供者承担信息内容安全义务,建立相应的过滤、停止传输、处置等制度。算法推荐和深度合成监管中确立的备案、评估等制度也应进行调整,以适应生成式人工智能的技术发展。
第二,建立敏捷治理的监管工具箱,试行推动监管沙盒,细化合规免责制度,给新兴技术发展留下试错空间。生成式人工智能还属于新兴技术,而在服务应用层面的信息安全技术还是为了用户生成内容(UGC)时代研发,无论从识别标准、识别速度、识别力量上尚不能完全应对生成式人工智能的发展。甚至可以预见,在防范技术成熟之前,生成式人工智能必然会出现信息内容安全的问题。此时极有必要探索尝试相关制度给新兴技术留下试错空间。选择之一是监管沙盒制度,选择之二是在技术成熟之前,细化生成式人工智能服务提供者的合规免责制度。在企业建立并运行了现有法律规范中相关的信息内容安全制度,并可举证已经采取了现有技术能力范围内的措施后,可以合规免责,给新兴技术发展留下试错空间。
在专业模型层和服务应用层的监管面临的直接问题,是如何认定专业模型提供者和服务应用提供者的责任。在技术发展前景尚未明朗的当下,审慎包容无疑是有利于产业发展和构建合理制度的选择。
以ChatGPT为代表的生成式人工智能在为人类社会带来便利的同时也给社会治理带来了前所未有的挑战。如何界定生成式人工智能的法律定位并在此基础上形成与生成式人工智能的技术特点与产业形态相适应的治理框架是法律回应技术发展的应有之义。究其本质,生成式人工智能的基础模型融合了数据、算法、算力三要素,具有极强的通用性与赋能性,是人工智能时代的新型基础设施。与此同时,管制和创新,也即安全和发展,是网络立法的永恒命题。掌握人工智能治理的话语权、规则制定权,抢先形成新的国家竞争优势,已成为世界各国的努力目标。我国在个人信息保护和数据立法领域与欧盟、美国并行,在算法治理和深度合成治理领域则成为领跑者。在此基础上,应以促进生成式人工智能健康发展为契机,积极构建符合我国实际且能够促进我国人工智能技术产业长远健康发展的治理制度,这样也有助于形成我国的制度竞争优势。生成式人工智能的治理应顺应技术发展给社会生产带来的变化,改变我国原有的“技术支持者—服务提供者—内容生产者”的监管体系,构建“基础模型—专业模型—服务应用”的生成式人工智能分层治理体系。应坚持以发展为导向,以生成式人工智能的多重法律角色作为治理的原点,调整原有制度中的不协调之处。具体而言,在鼓励我国生成式人工智能发展的思路下,将生成式人工智能作为基础设施,划分为技术、产品与服务三个层次,以“基础模型—产品模型—服务应用”为形式,关注不同层次的不同生产要素,大力鼓励基础模型层的技术发展,审慎包容监管产品模型层,对服务应用层沿用并调整以实施敏捷治理。将我国从较为单一的场景的算法治理,发展为适应不同治理目标的生成型人工智能的复合型系统性治理。
《现代法学》2023年第4期目录
【专论】
1.论中国自主法学知识体系的建构
喻中(3)
2.论人权治理的三重逻辑及其展开
刘志强(17)
3.低强度行政审查的协同性
韩思阳(32)
4.已公开的个人信息的合理使用及其缩限
王冉冉(46)
5.算法决策场景中就业性别歧视判定的挑战及应对
胡萧力(59)
6.算法推荐下版权过滤义务的构建
张洋(75)
7.再论强化中国刑法学研究的主体性
刘仁文(90)
【ChatGPT的法律回应专题】
8.ChatGPT等生成式人工智能的刑事责任问题研究
刘宪权(110)
9.生成式人工智能的法律定位与分层治理
张凌寒(126)
【社会主义市场经济法治】
10.不正当竞争行为司法认定的“泛道德化”倾向及其矫正
郭传凯(142)
11.论国际商事诉讼的仲裁化
———兼评我国《民事诉讼法》涉外编修改
吴永辉(156)
《现代法学》由重庆市教育委员会主管,西南政法大学主办,西南政法大学期刊社出版,是CSSCI来源期刊、中国中文核心期刊、RCCSE中国核心学术期刊(A)、AMI综合评价A刊核心期刊、中国科技核心(Q2)期刊(社科卷)。
无论是工作汇报,产品介绍,还是法律研究报告、市场宣传文案,法宝智能写作系统都能为您提供高质量写作支持,满足法律工作者日常学习工作中各类领域的写作需求,提供源源不断的创意与灵感,全面助力您的文案写作。您可以在平台上选择不同的写作模型,输入关键词和要点,即可自动生成文档大纲与内容。平台内嵌法宝V6数据库,让您的内容创作有据可依。与此同时,智能写作平台还支持实时对生成文档进行修改和优化,确保文章撰写的准确性。
—— 系统亮点 ——
“一键生成文章大纲”——输入关键词和内容要求,即可自动生成文章大纲,为您提供创作起点和清晰明了的写作思路。
“智能生成文章内容”——GPT模型结合法宝数据库快速生成逻辑自洽、内容丰富的文章。
“法宝V6数据库支持”——查阅生成结果的相关法律法规、学术期刊等信息。可准确理解法律术语,帮助生成符合要求的法律文件;能够自动匹配对应法律法规,实现法理逻辑处理自动化,增强文章权威性与可信度。法宝智能写作能及时跟踪法律法规的最新变化,避免使用已失效或废止的法律条文作为参考。
-END-
责任编辑 | 郭晴晴
审核人员 | 张文硕 韩爽
本文声明 | 本文章仅限学习交流使用,如遇侵权,我们会及时删除。本文章不代表北大法律信息网(北大法宝)和北京北大英华科技有限公司的法律意见或对相关法规/案件/事件等的解读。
皮勇 张凌寒 张吉豫 | ChatGPT带来的风险挑战及法律应对
张凌寒:深度合成治理的逻辑更新与体系迭代 | 法律科学202303
张凌寒:论数据出境安全评估的法律性质与救济路径 | 行政法学研究202301
张凌寒:数据生产论下的平台数据安全保障义务 | 法学论坛202102
张凌寒:《个人信息保护法(草案)》中的平台算法问责制及其完善 | 经贸法律评论202101
关注下方公众号,获取更多法律信息