作者:曾赟,浙江大学光华法学院教授、浙江大学新时代“枫桥经验”研究院特聘研究员。来源:《法制与社会发展》2023年第1期(第41-59页)。(责任编辑:朱振、路鹏宇)基于科学研究的第四种范式——数据科学,可提出继法教义学、实证法学、计算法学研究之后的第四种法学知识新形态——数据法学。数据法学是法学研究创新发展的新方向,也是一门独立的法学新学科。数据法学有其特定的研究对象、方法和内容。数据法学特定的研究对象是法律数据。法律数据是指以任何电子或者其他方式对形式完好的、具有意义的、能给予相关参考点一个值的法律信息的记录。数据法学特定的研究方法是法律大数据方法,而非法律解释方法和实证法学方法。数据法学的本体论内容是数据权益,涵盖个人数据权益、企业数据权益和数据安全利益。数据法学的认识论内容是关于相关关系的研究,涵盖法律数据产品的创造和法学知识的发现两个方面。
关键词:数据法学;法律大数据;数据权益;计算法学特定的时代背景对法学知识形态的形成具有决定性影响。我们现在处在一个怎样的时代?2012年,美国发布了《大数据研究与发展倡议》,这标志着大数据已成为时代的重要特征。在我国,体现这一时代重要特征的标志性事件是2015年国务院发布《促进大数据行动纲要》和2020年中共中央、国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》。2020年,全球数据量达到64.2ZB。随着大数据发展上升至国家战略层面,数据被确立为一种重要生产要素,大数据时代已然降临。顺应大数据时代发展潮流,学者们提出了不同的法学知识形态。有学者将法律大数据研究作为一种新形式的实证研究;有学者基于大数据时代背景,提出发展计算法学的理论构想;也有学者基于计算时代背景,提出计算法学新范式;还有学者基于数字社会背景,提出发展数字法学的理论思维。我们认为,大数据时代背景下法学研究的新知识形态是数据法学。数据法学有其独立的研究对象、研究方法和研究内容。数据法学是继法教义学、实证法学、计算法学之后的第四种法学知识形态,是法学研究创新发展的新方向,同时也是一门独立的法学新学科。当前,我们处在大数据时代。不同于传统时代,大数据时代的科学新范式是数据科学。根据不同时期,可将科学范式区分为实验科学、理论科学、计算科学、数据科学。实验科学范式最早可追溯至13世纪的英国哲学家和教育改造家、实验科学的先驱洛基·培根(Roger Bacon),他强调通过假设—实验—验证的方法探求事物的因果性。与实验科学相对,理论科学强调通过理性演绎和模型构建来探求事物的因果性。20世纪末,开普勒定律、牛顿运动定律、麦克斯韦方程等理论科学成果过于复杂,使得分析方法难以解决日趋复杂的问题,这导致科学范式从理论科学向计算科学演进。计算科学是一门通过虚拟实验和计算机模拟来理解与分析社会系统复杂问题的仿真科学。计算科学产生了海量的数据,从而催生了一门新兴的学科,即数据科学。数据科学是在抓取数据的基础上,通过数据获得知识,并利用知识进行决策,预测未来,理解过去和现在,创造新工业、新产品的一门科学。数据科学新范式反映在法学研究中即为数据法学。基于此,数据法学是以法律数据为研究对象,运用数据科学方法创造法律数据产品和发现法学知识的独立的法律科学。
数据法学有其特定的研究对象,即法律数据。何为数据?根据《中华人民共和国数据安全法》(以下简称《数据安全法》)、《深圳经济特区数据条例》《上海市数据条例》《重庆市数据条例》的规定,数据是指以任何电子或者其他方式对信息的记录。据此,法律数据就是指以任何电子或者其他方式对法律信息的记录。如何理解法律数据这一概念呢?例如,刑事裁判文书在被告人基本信息部分中记载了“因犯盗窃罪……判处有期徒刑十个月……刑满释放”这一条数据(以下简称“数据1”),这是不是数据法学的研究对象?要回答这个问题,我们需清楚界定信息。信息可被分为量化的信息和质化的信息。信息论的奠基者香农认为,由于通信的语义与效果过于含糊、复杂,难以被量化,故而信息理论只考虑信息的度量(logarithmic measure)问题,而不考虑信息的语义和效果问题。信息论的基本概念,例如编码、熵、散度(divergence)、冗余,建立在量化的信息概念基础之上。现代信息理论的信息概念亦多指一种量化的信息,例如费舍尔信息(Fisher Information)原理、香农信息(Shannon Information)原理、科尔莫戈罗夫复杂性(Kolmogorov Complexity)和量子信息(Quantum Information)等理论的信息概念。量化的信息与数字一致,均采用二进制代码的形式来表示物理项目或者活动。质化的信息是指一种语义信息,即有具体内容的信息,如意义、表征等。例如,古代边境烽火台上的狼烟被用来表示敌情。基于语义学,当前最具国际声望的信息哲学家弗洛雷迪(Floridi)将质化的信息界定为形式完好(well-formed)、有意义和真实的数据。简而言之,质化的信息等于“数据+意义”。
一般地,为避免意义的不确定性,信息理论通常采用一种量化的信息概念。但显然,一种无意义的信息可能会导致信息的错误,原因在于,即便语句的语法结构是完整的,也并不存在一种在具体的语境中可自动识别语法错误的程序编码。例如,对于“周某利用‘云搜索’‘全国公安综合查询系统’等数据资源库,查询张某某提供身份证号码的人员的开房记录、网吧上网记录、出行轨迹信息等公民个人信息”这条数据,即便经过算法训练,所抽取的数据仍然可能是错误的,即查询开房记录等公民个人信息的行为人是“张某某”,而非“周某”。鉴于此,信息理论逐渐关注信息的语义。例如,互信息(Mutual Information)理论认为,信息传输中的任何一个随机因素X实际上都是带有语义的。同样地,虽然哲学社会科学常采用质化的信息概念,但是随着数据科学技术的持续推进,哲学社会科学研究者也开始关注编码技术等信息理论。例如,将数据1标注为“1”(有前科),无此类数据的标注为“0”(无前科)。根据上文所述,信息理论转而关注信息的语义研究,哲学社会科学也重视信息的编码与标注等数据科学技术应用。基于此,我们从量化与质化两个方面来定义法律信息。法律信息是指法律数据与其他法律数据组合在一起,且能给予相关参考点一个值,从而能从量的方面解释数据的意义的记录。记录法律信息的数据形式包括符号、数字、字母、文字、图像、语音等。例如,“法袍”这一符号经过数据分析后,若能够表征“法律职业”,则为法律信息。又如,前述数据1是对有前科这个法律信息的记录,因而数据1是对法律信息的记录,属于数据法学的研究对象。鉴于此,作为数据法学特有的研究对象,法律数据可被界定为:以任何电子或者其他方式对形式完好的、具有意义的、能给予相关参考点一个值的法律信息的记录。需要指出的是,一串不具有任何意义的数据不是数据法学的研究对象。兹以“周某、张某某侵犯公民个人信息罪一审刑事判决书”文本内容为例,进一步说明法律数据与法律信息二者间的区别对界定数据法学研究对象的意义。
字段1:张某某按每个身份证号码信息100元至200元不等的价格,通过微信转账方式向周某支付报酬,再将从周某处获取的信息以每条150元至280元不等的价格倒卖给他人。
字段2:被告人周某、张某某非法获取、出售公民个人信息,被告人周某非法所得超过五万元,情节特别严重;被告人张某某非法所得超过五千元,情节严重。被告人周某、张某某的行为严重侵犯了公民的隐私权利,均已构成侵犯公民个人信息罪。依照《中华人民共和国刑法》……
根据上文所述,字段1是“数据”。字段1尽管出现了“信息”字符,但仍然不是信息,只是未经处理的原初事实,没有上下文,也无多少意义。因此,字段1不是数据法学的研究对象。字段2是“信息”。当数据与其他数据组合在一起,且能给予相关参考点一个值,即能解释数据的意义时,该字段才是信息。字段2的参考点为“是否构成侵犯公民个人信息罪”,即非法获取、出售公民个人信息,情节严重,且违反刑法规范的,是“1”,反之,则为“0”。因此,字段2是对法律信息的记录,是数据法学的研究对象。
需要说明的是,尽管法律数据概念的外延既涵盖数据法律规范文本,也涵盖宪法、刑事法律、民事法律与行政法律诸规范文本,但法律规范不是数据法学的直接研究对象。只有当数据法律规范作为数据分析中自然语言处理(natural language processing)的对象,即作为数据分析的对象时,例如字段2中《中华人民共和国刑法》(以下简称《刑法》)涵盖的保护公民个人信息的数据法律规范,数据法律规范才成为数据法学的研究对象。同样地,作为数据分析对象的宪法、刑事法律规范、民事法律规范与行政法律规范才是数据法学的研究对象。虽然数据法律规范可同时作为数据法学和数据法教义学的研究对象,但作为数据分析对象的法律规范与作为法教义学规范分析对象的法律规范明显不同。具言之,数据法学研究建立在基于数据驱动的数据分析基础之上,而数据法教义学研究建立在数据法律规范分析的基础之上。
数据法律现象、数字法律现象、信息法律现象也不是数据法学的直接研究对象。由于我国学者通常将法律现象作为法学的研究对象,故他们在提出一个新的法学概念时往往将“法律现象”界定为新法学概念知识的研究对象。通过梳理有关文献可知,学者对于法律现象意义的理解主要有规范分析和经验归纳两种不同视角。据此,若基于法律现象的规范分析视角界定数据法律现象、数字法律现象、信息法律现象,则这些法律现象是数据法教义学、数字法教义学、信息法教义学的研究对象。若基于法律现象的经验归纳角度界定数据法律现象、数字法律现象、信息法律现象,则这些法律现象是数据法实证研究、数字法实证研究、信息法实证研究的对象。有的学者将“具有数量关系的法律现象”作为计算法的研究对象。在数据挖掘、维护、处理、分析与转化诸环节中和数字化过程中产生的法律问题及其他相关的法律数据现象、数字现象、信息现象也不属于数据法学的直接研究对象,而属于实证研究的对象。
需要说明的是,量化的信息与质化的信息的类型划分对于法律科学研究的类型化仍然具有一定意义。例如,我国有学者将计算的对象界定为计算法学的研究对象,而计算的对象乃一种量化的信息。正是基于这一原因,国外计算法学者才将计算法学界定为“像软件一样工作的法律”。显然,量化的法律信息、法律数字主要涉及纯粹的数字化技术问题,亦即数据的数字化问题,而数字化是运用数字技术将计算机中的信息对象,如数字(number)、字符、声音、颜色、图形、图像,都用 “0”和“1”来表示。鉴于此,量化的法律信息、法律数字不是数据法学的研究对象,但可以是计算法学的研究对象。
数据法学有其特定的研究方法,即法律大数据方法。法律大数据方法是指运用机器学习算法对法律大数据进行抓取、维护、处理、分析,从而发现法律数据之间的相关关系,并据以创造法律数据产品和发现法律规则、原则、制度等法学知识的科学方法。通过运用法律大数据方法,研究者可实现对复杂法律系统的理解和对未来法律事件的预测。法律大数据是法律大数据方法的物质基础,机器学习算法是法律大数据方法的技术基础,算力是法律大数据方法的动力基础。三个方面的基础条件共同构成法律大数据方法的物质特征、技术特征和动力特征。只有具备前述三个特征的法学研究方法才是法律大数据方法。根据数据科学原理,符合“3v”特征的法律数据就是法律大数据。尽管自“大数据”一词被广泛传播以来,大数据的定义已经从“3v”定义发展到“10v”定义,但大数据的“3v”定义仍具有意义。“3v”定义出自于盖特纳(Gartner)公司分析师道格·拉尼(Doug Laney)于2001年所作的报告,他将大数据界定为一种具有超大容量 (volume)、种类多样(variety)、流动速度快 (velocity)的数据。类似定义还有国际数据中心(IDC)给出的“4v”定义,即在前述“3v”的基础上增加“价值性”(value)特征。另外,较具有代表性的还有维基百科和麦卡锡公司给出的定义。维基百科对大数据的定义是:大数据是一个研究如何分析信息和系统抽取信息的领域,或者是指因为容量太大、种类太复杂,采用传统数据处理应用软件而无法处理的数据集。麦卡锡公司对大数据的定义是:大数据是指利用一般类型的数据库软件工具无法抓取、存储、管理和分析的数据集。当然,大数据的“大”是一个变动的概念。有观点认为,当前大数据规模的标准可泛指单一数据集的大小在几十TB和数PB之间。
机器学习算法是法律大数据方法分析的技术基础。法律大数据的挖掘、分析、处理、可视化等环节均依赖机器学习算法。研究者如果不掌握法律大数据挖掘、分析等算法技术,就无法开展数据法学研究。所谓机器学习,是根据给定的训练样本对某系统的输入输出之间的依赖关系进行估计,以便对未知输出作出尽可能准确的预测。机器学习是一个源于数据模型的训练过程,最终会给出一个面向某种性能度量的决策。总地来看,机器学习包括监督学习、无监督学习、半监督学习、集成学习、强化学习五种类型。不同类型有着不同的算法。较具代表性的监督学习算法有线性判别分析、偏最小二乘、支持向量机、K近邻、朴素贝叶斯、逻辑斯蒂回归、决策树、反向传播法、卷积神经网络。较具代表性的无监督学习算法有K均值、层次聚类、主成分分析、典型相关分析法、等距特征映射、局部线性嵌入。较具代表性的半监督学习算法有EM算法、协同训练算法、直推式支持向量机。集成学习算法主要有Boosting算法、Bagging算法、随机森林算法。强化学习算法主要有蒙特卡罗法、瞬时差分法、Q学习算法、策略梯度算法。强化学习算法中的深度强化学习算法主要有深度Q网络(deep Q network)、深度策略梯度算法。
数据法学是一门技术性强的法律科学,体现在对法律大数据的抓取、维护、处理、挖掘、构架、分析、可视化以及法律数据库的创建、商业智能化等方面。法律大数据方法的实现除需要具备前述物质基础、技术基础外,还需有超级计算机硬件、软件工具提供算力支持。例如,传统统计分析工具和数据挖掘算法对多维、复杂的大数据不具备可移植性和可伸缩性,因而往往以损失原始数据为代价,产生一种低效率、低质量的数据挖掘结果。对绝大多数研究者来说,即便其所分析的数据仅为上百G的普通数据,亦难以通过传统软件开展统计分析。例如,有学者对其所收集150G的普通数据,在利用Awstats日志分析软件进行处理时,尚不得不通过三步处理法后,才可运用SPSS这一常规软件进行分析。为应对大数据挖掘的低效率、低质量等问题,研究者通过集成方法、云计算开发新的可用于法律大数据分析的应用软件。例如,IBM公司通过对R语言和Hadoop的深度集成,克服了传统软件扩展性差、分析功能薄等不足。又如,Google公司构造新搜索引擎平台,以实现海量小文件存储和大数据的实时交互分析。但是,研究者目前大多只能采用分步统计的办法实现对容量较大的数据的处理与分析。
总之,法律大数据方法与实证法学、数据法教义学、计算法学的研究方法明显不同。兹以用于传染病预防的SIR模型被用于特定区域、特定时期内的毒品违法犯罪预防为实例,来说明法律大数据方法、实证法学研究方法与计算法学研究方法的区别。根据SIR模型,当I(已吸毒者)人数趋多时,S(易吸毒者)人数趋少,同时R(移出者即解除强制戒毒人员)人数会变多。在排除外在干预情况下,当毒品基本传播数R₀=3时,则吸毒人数比将达到66.7%。R₀越高,吸毒者人数比越高。据此,若加强对毒品违法犯罪行为的预防,从而使毒品基本传播数R₀趋向于0,则社会中吸毒者人数将趋向于0。基于SIR模型,通过计算机模拟毒品传播的环境、途径、方式,我们可以发现阻断毒品传播的路径方法。这一研究方法即为计算法学研究方法,亦即一种计算机模拟与模型计算方法。显然,这种方法并非绝大多数法学研究者所能掌握。毒品基本传播数R₀则可采用法律大数据方法计算得出。当然,R₀也可以通过抽样调查得出,而抽样调查的方法就是实证法学研究方法。
数据法学研究有其特定的本体论内容,这关乎数据法学的存在方式。数据法学本体论所要回答的问题是:数据法学这一存在的存在是什么?如前所述,数据法学的研究对象是法律数据,因此可将对这一问题的回答转换为对法律数据这一存在的存在是什么的回答。以前文字段2为例,其本体论追问究竟是什么呢?从数据分析出发,保护公民的隐私权是字段2的本体论内容。也就是说,《刑法》第253条之一规定的侵犯公民个人信息罪保护的法益是公民的隐私权。显然,数据法学研究对本体论的追问是以基于数据驱动的数据分析为基础的。质言之,数据法学研究既非以形而上的哲学思辨为基础,也非以规范分析命题为基础。此与数据法教义学对本体论的追问显著不同,后者以法律规范分析为基础。从基于数据驱动的数据分析出发,可将数据法学研究的本体论简约为权益保护论。基于此,刑事法律数据的本体论是刑法法益保护,民事法律数据的本体论是民事权益保护,法律数据的本体论是数据权益保护。由于数据权益是一种新型权益,故此处仅就数据权益的相关问题展开讨论。
(一)对个人数据权益可以通过赋予个人数据某种财产权益属性的进路来保护
个人数据权益在我国法律上是一项民事权益,而在一些外国法上是一项宪法基本权利。个人数据权属的论争焦点在于个人数据权益是不是一种新型财产权益或者所有权。对此,有学者持肯定说。例如,国外有学者通过对《欧盟一般数据保护条例(草案)》的分析,认为虽然该草案未有关于财产权的只言片语,但仍可从中推演出个人数据财产权或所有权保护意向。对于2018年实施的《欧盟一般数据保护条例》,国外有学者从关于个人数据删除权(right to erasure)、数据可携带权、数据主体的同意权等权利保护和个人数据的自由流动义务的规定出发,直接推论该条例含有个人数据财产权益或所有权保护。我国有学者从个人数据潜在商业价值、使用价值等方面展开论证,认为应赋予个人数据财产权。亦有学者主张赋予个人数据所有权。
为分析个人数据权益是否可被认定为一项财产权益或者所有权,本文通过“中国裁判文书网”收集全国各基层人民法院自2016年1月至2022年9月就侵犯公民个人信息罪案件作出的裁判,案件数量为8227例。其中,判决书全文载有“财产权”字符的案件共49例,约占样本总数的0.59%。通过分析,可将49例载有“财产权”字符的判决数据分为以下两种情况:一是判决认定被告人非法出售、获取、提供公民个人信息的行为威胁到不特定公众的财产安全。也即,公民相关个人信息外泄致使其财产安全受到潜在威胁。二是极少数判决认定被告人的前述行为侵害了不特定多数公众的财产权益。第一种情况的样本数为45例,约占载有“财产权”字符样本总数的92%。当然,8227个侵犯公民个人信息罪案件的判决均认定,被告人的前述行为侵害了被害人的具体人格权。在第一种情况下,法院明显未将个人信息认定为一项财产权益或者所有权。在第二种情况下,虽然法院认定被告人侵犯公民个人信息的行为构成了对财产权益的侵害,但是从判决书内容来看,其所指的财产权益并非一种个人财产权益,而是不特定多数公众的财产权益。
根据上文所述,个人数据权益不是一项财产权益或所有权。理由在于,个人数据权益不具备实现财产权的前提条件。享有财产权的前提是个人可以控制自己的财物,无论是有形财物,还是无形财物。那么,在法律赋予个人对数据、信息处理的同意权之类的个人数据权益之后,个人是否可以有效控制数据呢?答案是否定的。其一,个人缺乏作出知情同意的背景知识和相应的能力、时间以及精力,因此个人所作出的“同意”其实并不完美。其二,数据处理是由许多服务和流程组成的一个整体,因此,如果每一个环节的数据处理都需要个人数据主体作出同意,那么,个人数据主体不仅将要花费一生的时间来行使这一同意权,而且常常会因此而心情紧张不安。显然,由于我们事实上无法控制自己的数据,故个人数据权益不具有实现财产权的前提。总之,个人数据权益的本体栖息于人性尊严基础之上,个人数据权益是一项新的、独立的、具体的人格权益。
当然,虽然个人数据权益不具有财产权或所有权属性,但鉴于个人数据权益遭遇恣意侵害的程度日趋严重,我们认为,法律可以通过赋予个人数据某种财产权益属性来强化对个人数据权益的保护。赋予个人数据一定的财产权益属性,有助于强化对个人信息的控制,从而促进隐私权保护。例如,国外有学者认为,美国社会中的个人隐私遭遇任意侵蚀的主要原因是个人失去对个人信息的控制,因而一旦个人成为个人信息的所有权人,则可以实现对个人信息的有力控制,从而使隐私权得到有力保护。对此,也有学者持反对意见。剑桥大学教授沃辛顿(Sarah Worthington)认为,给数据主体的权利保护贴上财产权或者所有权的标签,是完全没有必要的。在沃辛顿看来,只要数据主体享有简单的受法律保护的权利,或者数据用户在使用数据的过程中受到特定的法律约束,即可实现隐私权保护目的。我们认为,可以通过赋予个人数据一定意义上的财产权益来促进人格权益的保护。例如,通过规定侵犯个人数据同意权、决定权、更正权、限制处理权、更正补充权、携带权、删除权诸项权利的损害赔偿责任条款来强化对个人数据权益的保护。我国《个人信息保护法》第69条恰好说明前述观点足以成立。
企业数据又可被称为生产者数据。从概念的外延分析,企业数据主要有三类:一是企业名称、商标、域名之类与企业主体自身相关的数据;二是企业在生产经营活动中合法收集的原始数据,可被称为经营数据或经营信息,例如客户信息资料数据、直播平台上粉丝打赏主播数据;三是企业在数据处理与数据创新活动中获取的衍生数据或数据产品,例如企业通过数据挖掘而形成的用户对某商品或者服务的总体评价数据。企业数据权属争议主要是关于第二、三类数据的权属争议。
为分析企业原始数据或经营数据的权属,本文通过“中国裁判文书网”,以“大数据”为全文检索词,以“不正当竞争”为案件名称检索词进行检索,得到2017年4月至2022年9月之间相关的民事案件106例。通过分析,发现法院对企业原始数据或者经营数据的保护主要有两种路径:一是采用商业秘密保护等知识产权保护路径。例如,在“北京洪威先创科技股份有限公司与孙娟、李璐雅、北京世诚伟业科技发展有限公司侵害经营秘密纠纷”一案中,法院认定原告企业对客户名单数据享有商业秘密权益。二是采用竞争性利益保护路径。例如,在“北京微播视界科技有限公司诉上海六界信息技术有限公司、厦门市扒块腹肌网络科技有限公司、浙江淘宝网络有限公司不正当竞争纠纷”一案中,法院根据《反不正当竞争法》第2条,确认原告对经营数据享有竞争利益。
为分析企业数据产品或衍生数据的权属,本文通过“中国裁判文书网”以“数据产品”为全文检索词进行检索,得到2017年1月至2022年9月之间相关的民事案件207例。通过案例分析,可发现法院会确认企业对其数据产品或者衍生数据享有财产性权益,并将这种财产性权益界定为一种竞争性财产权益。例如,在“淘宝(中国)软件有限公司与安徽美景信息科技有限公司不正当竞争纠纷”一案中,法院确认原告对其开发的数据产品“生意参谋”享有竞争性财产权益。
根据前述分析,将数据财产权益作为一种对世的绝对权的观点是值得商榷的。我们认为,企业数据权益是一种新型的财产权益,对企业数据权益的保护可采用一种防御性财产权益的保护路径。基于此,我们提出剩余所有权说,主张数据生产经营者对其数据产品或者衍生数据享有剩余的占有权和剩余的收益权。基于企业数据剩余占有权说,企业数据财产权益体现为一种基于商业秘密或正当竞争而获得的竞争性利益。基于企业数据剩余收益权说,企业数据财产权益体现为一种企业通过数据交易获得利润的收益权。
数据安全是保障数字经济健康发展的条件,是国家总体安全的重要内容,因而也是数据法学本体论的重要内容。根据《数据安全法》和《中华人民共和国网络安全法》,数据安全是指数据处于一种有效保护和合法利用的状态以及保持这一状态的能力。数据安全状况是指数据的保密性、完整性和可用性状态。我国法律按照数据的不同类型和级别来设定数据安全保护制度,对核心数据、重要数据与一般数据,分别实行高度严格管理制度、严格管理制度与合理管理制度。
通过“中国裁判文书网”以“重要数据”为全文检索词进行检索,可检索到相关刑事裁判文书。通过对案件数据的分析,《刑法》对数据安全的保护主要有两类:一是重要数据安全保护。重要数据是指一旦遭到篡改、破坏、泄露或者非法获取、非法利用,就可能危害国家安全、公共利益的数据。重要数据包括重要的公共数据,例如评级空气质量的环境监测数据、医疗数据等。重要数据不包括个人信息,但基于海量个人信息形成的统计数据、衍生数据若具有重要数据的特征,则属于重要数据。例如,在“陈振宇、黄义秋等犯侵犯公民个人信息等罪”一案中,法院认定存储在腾讯公司计算机系统中的QQ账号、密码及关联游戏账号的虚拟财产均是重要数据。一般地,如果被告的犯罪行为侵害了不特定多数公众的个人信息安全,则检察机关会以维护公共利益名义提起附带民事公益诉讼。二是核心数据安全保护。核心数据是指关乎国家安全、国家经济命脉、重要民生、重大公共利益的数据。在具体案件中,核心数据的范围仍有待法院裁判的进一步确认。例如,在“唐中刚犯受贿罪”一案中,医保中心数据就曾被法院认定为核心数据。
由于《数据安全法》的实施时间较短,所以有关数据安全保护的案例较少。鉴于此,有关数据安全保护方面的法律数据分析研究有待于后续深入。具体而言,数据安全利益保护研究包括以下内容:一是有关数据违法的民事责任形式的问题,例如《数据安全法》第52条规定的民事责任形式问题以及《数据安全法》第32条与第69条规定的侵权损害赔偿责任形式问题。二是有关数据违法行为处罚程序及相对人权利保护的问题。《数据安全法》第6章规定的“法律责任”多数是行政违法责任,故有关如何规制数据行政执法权力、保障行政相对人权利诸问题有待行政法学界的进一步研究。三是有关刑事责任如何实现的问题。依据《数据安全法》第45条第2款与第52条第2款,违反该法,构成犯罪的,依法追究刑事责任。目前,我国有关数据安全保护的刑法立法几乎是空白,因此刑法学界需加强有关核心数据、重要数据安全利益保护方面的研究。
数据法学研究的认识论需要回答的问题是:数据法学是关于因果关系的知识,还是关于相关关系的知识?从认识论角度考察,数据法学研究的内容包括法律数据产品的创造和法学知识的发现两个方面。前者是后者的前提,后者是在前者基础上的知识发现。数据法学认识论坚持主张,数据法学是关于相关关系的科学知识。
法律数据产品的创造是法学知识发现的前提。换言之,法律数据产品需具有法学知识发现的功能。但是,我国目前的法律数据产品,尤其是法律数据库,并不具有法学知识发现的功能。目前,我国法律数据产品的创造主要体现在以下两个方面:
一是法律数据库的创造。目前,我国法律数据库主要包括司法案例数据库之类的法律数据库产品。根据对“中国裁判文书网”“聚法案例”“北大法宝”等法律数据库的功能的初步诊断,我国法律数据库既不具有数据分析功能,也不具有法学知识发现功能。例如,在“中国裁判文书网”“聚法案例”“北大法宝”检索系统输入“正当防卫”,其页面所显示的案例是裁判文书中载有“正当防卫”字段的案例,而非法院对正当防卫作出认定的案例。基于此,我们无法通过现有的法律数据库搜索到符合条件的案例,无法通过检索法律数据库实现法学知识的发现之目的。就此而言,目前正在紧锣密鼓进行的类案检索数据库创建尤其需要关注法学知识发现功能,而非类似案例相似点的简单再现。
二是法律人工智能建设。我国法律人工智能建设主要包括以下技术:其一是庭审过程中的语音识别技术。目前,该技术已被广泛应用于智慧司法建设。语音识别的应用有助于减轻庭审记录的压力,也有助于提升案件办理的数量。这一技术应用虽然比较成熟,但也存在瓶颈,例如,多人同时说话时,语音识别率明显偏低。其二是图像识别技术。该技术已被广泛应用于司法辅助系统建设,例如法律手写文本、证据原件的文字转化。总体来看,我国当前法律人工智能建设仅体现为一种司法辅助系统的应用性建设,因而我国法律人工智能建设仍处在一个相对初级的阶段。正如有学者指出的:“当前司法人工智能应用还较为混乱、低效。”产生这一现象的原因主要在于,一种像人一样思维和行为的强人工智能技术目前尚处在较为幼稚的阶段。因此,法律强人工智能应用技术也就处于相对初级的阶段。
法律数据产品的创造是法律规则、原则、制度诸法学知识发现的前提。那么,数据法学的知识发现是关于因果关系的知识,还是关于相关关系的知识?在康德列举的十二个先验知性范畴中,因果性问题是康德的《纯粹理性批判》中“最重要而最基本的论证之一”。传统科学这座大厦正是建立在因果关系这一知性范畴基础之上,而科学的知识就是关于事物之因果关系的知识。如果数据法学的回答是否定的,那么,数据法学还是科学吗?
数据法学认识论坚持主张,数据法学是关于相关关系的知识。基于经验主义认识论立场,数据科学认为,数据自己会说话。持经验主义认识论立场的数据科学强调,“我们不需要知道‘为什么’,而只要知道‘是什么’就够了”,坚称自己不属于传统科学的阵营,并始终认为基于数据科学方法发现的知识是关于“是什么”而非“为什么”的知识。
其一,从经验论角度考察,实际事物之间其实并不存在一种普遍必然的因果关系。也就是说,休谟问题是真实存在的,对休谟问题的回答是否定的。休谟的问题是:我们从实际观察到的有限事件归纳推出涉及潜在无穷的事件的全称判断是合理的吗?为什么可以根据过去、现在的经验预测未来?对于休谟问题,哲学、逻辑学有着不同的回答。归纳起来,主要有两条路径。一是承认休谟问题真实存在,从而主张在知识论领域用相关关系取代因果概念。二是将“因果”概念上升为纯粹理性概念,使之成为一种先验观念。从纯粹理性主义角度分析,作为先验观念之因果关系就如同万有引力一般,具有普遍必然性。康德是这一主张的集大成者。在他看来,一种普遍必然的原因一定隐藏在结构背后,因而只能通过一种或然性的方法猜测原因。基于因果关系的先验观念,传统科学研究通过理性演绎,基于假设、模型、实验的经典路径来发现实际事物之间的因果性。
其二,对事物之间相关关系的研究也是一种科学研究。自皮尔逊主张用“相关性研究”取代“因果性研究”,相关关系便成为统计科学理论、概率论的基本范畴。经典统计估计、贝叶斯概率等统计理论均通过概率计算来寻求关于实际事情之间是否相关及相关程度的答案。贝叶斯概率的基本路径是:提出先验假设,进而根据调查数据在给定证据E的情况下计算假设H为真的概率。经典统计估计是指在原假设为真时计算抽样结果为实际样本的概率。特别指出的是,经典统计估计所得的概率并非原假设为真时的概率。
其三,一定程度上,因果研究并不可靠。因果研究有其固有的局限性。有学者高呼:“确认因果机制是一种自诩得意的幻象,大数据推翻了这个假象。我们又一次陷入一个历史绝境:在这里‘上帝死了’”。《连线》杂志前主编安德森(Anderson)指出,采用假设、模型、实验的传统科学方法已经过时,我们无需基于假设就可以分析数据,只要基于大数据分析就可发现模式,就此而言,科学家所要认识的是相关关系而非因果关系。在他们看来,建立在理性主义认识论和人工智能的符号主义思想基础之上的因果关系模型是不可靠的。正如威斯康星大学数学家、统计学家博克斯教授所指出的那样,“所有的模型都是错误的,但有些是有用的”。
一旦我们将科学大厦的基础从传统意义上对事物因果关系的探求转向基于大数据的对实际事情之间相关关系的探求,将产生以下两难困境:一方面,如果承认基于大数据发现的关于事物之间相关关系的知识是科学知识,那么就应该否定利用传统科学方法获得的关于事物因果关系的知识是科学的知识。这不仅仅关涉所谓“哥白尼式革命”的问题,还关系到传统科学知识的普遍必然性问题,亦即传统科学知识是不是一种普遍必然的知识?另一方面,如果承认传统科学知识的科学性,那么就应该否定数据科学知识的科学性。由此,数据法学认识论问题亦面临两难困境。承认数据法学的相关性研究是科学的,就应该否定传统法学的因果性研究的科学性,反之,则应该否定数据法学研究的科学性。
针对上述两难困境,有研究者认为,如何从相关关系中推断出因果关系,才是大数据的真正问题所在。例如,有学者将因果关系界定为对因素相互作用过程与其效应之间关联的描述,而将相关关系视为一种因果派生关系。这一解决方案的根本不足在于对因果概念进行随意定义,然后又随意衍生出另一个所谓因果派生关系的概念。自亚里士多德创立“四因”起,因果概念就有其特定的含义。虽然休谟曾基于经验论立场对因果关系的必然性提出根本性质疑,但他并没有否定因果概念。恰恰相反,休谟正是在因果概念原有的意义上对因果关系的必然性提出质疑。那么,究竟如何解决数据法学认识论面临的两难困境?我们认为,可从经验相关论与理性因果论两个角度来回答。
经验论视角下具有或然性的相关性概念并不影响理性论视角下必然原因概念的成立。同样,后者也不影响前者的成立。基于理性因果论视角,事物之间存在一种必然的因果关系,而作为结果的真实原因也是普遍必然存在的。康德明确指出,一个原因概念带有必然性的特征。只有原因具有必然性的特征,人类的理性之翼才不会折断,人类对必然真理的追求才不会停息。基于此,世界并非变化莫测,而是有律可循。也只有坚持一种理性论意义上的因果关系,法律才是确定的。对于数据刑法学来说,犯罪是刑罚的必然原因,刑罚是犯罪的必然结果。没有犯了罪而不受刑罚的人,也没有受了刑罚而不是因为犯罪的人。这也就是金岳霖先生所说的“理有固然”,而其所说的“势无必至”可指经验论视角下的相关性。质言之,当犯罪这个事件出现时,刑罚并不必然随之而来。但是根据统计分析,犯罪与刑罚二者之间存在显著相关性。任何人一旦犯罪,则很可能会遭遇随之而来的刑罚,此其一。犯罪轻重与刑罚轻重二者间的关系可以通过法律大数据分析计算得出,此其二。基于此,我们既肯定经验论视角下基于法律大数据获得关于事实之间相关关系的知识的科学性,也承认理性论视角下因果关系的普遍必然性。
在廓清数据法学的概念、研究对象、方法及内容之后,我们需要确定数据法学的研究定位。具体包括:其一,数据法学属于何种类型的法学知识形态?其二,数据法学是法学研究创新发展的方向吗?其三,如何确定数据法学的学科定位?
(一)数据法学是继法教义学、实证法学、计算法学之后的第四种法学知识形态特定的科学研究范式对法学知识形态的发展具有决定性的影响。回顾科学研究范式的演进历程,考察法学知识形态的发展脉络,我们认为数据法学是继法教义学、实证法学、计算法学之后的第四种法学知识形态。
实验科学研究范式对法教义学知识形态的形成具有决定性的影响。实验科学研究范式最早由13世纪的实验科学先驱洛基·培根(Roger Bacon)开启,后经17世纪的实验科学创立者弗朗西斯·培根(Francisc Bacon)的阐发,一直延续至今。循着实验科学范式,19世纪的法学家的重要使命是让法学科学化。毫无疑问,奥斯丁是这一时期法律科学化理论构造的先驱。承继实验科学范式,奥斯丁开创了被称为法教义学源流的分析法学流派。奥斯丁从经验论出发,将法律界定为“主权者的命令”,进而基于事实与价值分离的基本立场,先验地假设“实然的法秩序是法律适用的唯一法律渊源”。基于此,法教义学是一门视现行法律秩序为信条,并以此为基点开展法律解释学研究的规范科学。当然,对何谓“现行法律秩序”这一问题,学者们有不同理解。多数学者认为,现行法秩序是指现行实证法律规范。也有学者认为,现行法秩序是指法的体系化教义和它的逻辑融贯性,而非立法者制定的法律(主权者的命令)。我们认为,二者其实并不矛盾。无论是注释法学研究,还是法教义学视角中法律适用的理性演绎,对现行法律规范的解释必然从现行法律规范本身出发,同时也需遵循法律体系的基本信条,实现逻辑的自洽与融贯。
在20世纪,现代科学研究不再停留在“实验科学”阶段,而是向“理论科学”迈进。承继理论科学范式,法学知识形态开始向实证法学演进。实证法学研究的基本模态是先验地假设“法律事实受法律原则的支配”,犹如“自然受制于自然法则”,“社会事实受制于社会法则”一般。进而,基于数据,通过数学模型或者理论模型,可分析、评估与预测法律事实状况与法律事件的发展方向。因此,实证法学研究的是“现实中的法”,而非“当为规范”。先例是现实中的法的典型形式,故案例研究是实证法学研究的重要形式。多数学者认为,实证研究既包括定性研究,也包括定量研究。由此可见,实证法学是指一种通过对“坚实数据(hard data)”的统计分析而开展的定量研究或通过对态度调查结论、个案访谈记录等不便于测量的定性数据的分析而开展的定性研究,前者是定量实证法学,后者是定性实证法学。质言之,只要从事实出发,而非从规范分析出发得出结论,就是实证研究。我们认为,不宜将定性研究归于实证法学研究,因为在社会科学领域,基于定量研究的实证主义与基于定性研究的诠释主义是两种对立的社会科学方法。美国法学学者一般持此种观点,例如,范德堡大学特雷西·E·乔治教授(Tracey E.George)认为,实证法学的核心是定量分析或统计分析。
在20世纪中后期,科学研究范式演进到计算科学。与之相随,法学知识形态开始向计算法学转型。计算法学是对计算科学范式的必然反映。斯坦福大学计算机科学教授迈克尔·格尼塞吉内思(Genesereth)将计算法学界定为一种法律推理自动化方法。他认为,实现法律推理自动化方法需要两个要素:一是采用形式逻辑的句子来表征事实和规则;二是利用机械推理技术来获得所表征的事实与法律之间的因果关系。有学者认为,计算法就是“像软件一样工作的法律”。所谓“像软件一样”,意指一种法律方法,而非空洞的法律理论,具体包括编程、编码,甚至包括基本的“黑客技术”方法。
大数据时代的科学范式是数据科学,与之相一致的法学知识形态是数据法学。数据科学家认为,未来属于那些能够把数据变成产品的公司和人们。他们戏称:“数据科学家所从事的工作是21世纪最性感的工作。”数据科学也是一种新的科学方法,例如,美国康奈尔大学校长、计算机教授玛莎·波拉克(Pollack)在2015年的一次演讲中将数据科学界定为一种继实验、模型、计算之后的第四种知识发现方法。数据科学方法可被理解为一个由捕获、维护、处理、分析、转化五个环节组成的数据科学生命圈。基于此,建立在数据科学基础上的数据法学既是第四种法学知识新形态,也是一种基于法律大数据驱动而创造法律数据产品和发现法学知识的新方法。由此,数据法学方法既是一种基于算法的理性演绎,也是一种基于法律数据的归纳推理。正如数据科学是科学研究创新发展的新方向,建立在数据科学之上的数据法学是法学研究创新发展的新方向。
关于法学研究创新发展的方向,学界展开了热烈讨论。苏力教授采用“范式”概念,概括了当代中国法学研究发展的三个阶段,即“政法法学”“诠释法学”“社科法学”。考虑到“范式”一词有比较严格的定义,故我们采用“法学知识形态”的概念来指称法学知识的演进历程。黄文艺教授即采用“法学知识形态”的概念来描述中国独特的法律文明历史和法律生活实践演进。陈兴良教授亦采用“法学知识形态”的概念来指称当代中国法学知识的演进状态。需要说明的是,苏力教授开启的社科法学研究其实是一种定性实证法学研究,而非定量实证法学研究。随着大数据时代的到来,我国法学学者相继提出了计算法学、数字法学、信息法学、网络法学、数据法学等概念,并声称自己所提出的概念代表了法学研究创新发展的方向。我们认为,植根于数据科学范式的数据法学才是法学研究创新发展的新方向。
其一,实证法学不是大数据时代法学研究创新发展的新方向。一方面,实证法学植根于科学研究的第二种范式——理论科学,因此,尽管实证法学研究占据法学研究的重要地位,但大数据时代背景下实证法学不是法学研究创新发展的新方向。另一方面,实证法学研究即便被视为一种范式,也并非近来才兴起的一种法学新范式,而是早在20世纪前期就已兴起的法学范式。例如,庞德在1911年发表的《社会学法学的范围和目的》一文中提出社会学法学的6项纲领。又如,在20世纪40年代,美国犯罪学学者格鲁克夫妇通过对波士顿500名违法青少年与500名守法青少年的实证调查,发现了青少年犯罪的原因。再如,被认为是20世纪美国最优秀的法学家之一的哈利·卡尔文(Harry Kalven)在20世纪40年代采用统计分析方法对美国陪审团对刑事判决的影响进行了研究。当然,直至20世纪末21世纪初,在法律评论刊物、学术会议、重要法学院中,实证法学研究才有显著扩展。基于此,认为实证法学是近来才兴起的法学新范式的观点是值得商榷的。同样地,基于大数据时代提出法律实证研究新范式,并将法律大数据研究视为法律实证研究一种新形式的观点值得商榷。总而言之,实证法学范式无法解释数据法学知识形态的基本信念,这正如理论科学范式无从解释数据科学范式的基本信念一样。由此,我们不能用实证法学范式来指称大数据时代背景下的数据法学知识形态。
其二,计算法学、数字法学、信息法学不是大数据时代法学研究创新发展的新方向。如文中所述,虽然计算法学、信息法学、数字法学的称谓有所不同,但所指的内容实则相同。其含义均可被理解为:运用计算科学方法,针对特定的法律问题,采用形式逻辑的句子来表征事实和规则,并通过编程、虚拟实验、计算机模拟、机械推理来获得事实和法律之因果关系的法律科学。计算法学、数字法学、信息法学虽然也是新兴的法律科学,但不是大数据时代法学研究创新发展的新方向。计算法学与数据法学二者之间有着本质区别。一是,计算法学是在法律小数据样本基础上的虚拟实验和模拟计算,数据法学则是在法律大数据全样本基础上的数据分析和数据计算;二是,计算法学探求法律事实之间的因果关系,数据法学则探求法律事实之间的相关关系;三是,计算法学的思维逻辑是演绎推理,数据法学的思维逻辑则是归纳推理;四是,计算法学的科学基础是科学的第三种范式——计算科学,数据法学的科学基础则是科学的第四种范式——数据科学。显然,建立在计算科学基础之上的法学知识形态不能被冠以“数据法学”的称谓。由此,基于大数据时代背景而提出计算法学新范式的观点及认为计算法学是数据密集型科学的观点显然值得商榷。鉴于前述,数据法学才是法学研究创新发展的新方向。
其三,法教义学与实证法学研究视角下的数据法学、计算法学、数字法学、信息法学也不是大数据时代法学研究创新发展的新方向。目前,我国学者关于数据法方面的研究均沿着法教义学研究路径展开,如何渊主编的《数据法学》、齐爱民所著的《数据法原理》、武长海主编的《数据法》。具体路径为:基于对数据法律规范的诠释理解和对数据法的概念、原则、制度、法律规定的相同与不同及相似的比较分析,整理出跨度更高的概念、原则和制度。显然,数据法教义学研究依附于数据法律规范,基于数据法律正确的假设,将数据法律规范视为一个法秩序之内的封闭体系,研究方法是法律解释。基于此,数据法教义学与传统的法教义学并无二致,不是法学研究创新发展的方向。同样地,实证法学研究视角下的计算法学、信息法学、数字法学归属于实证法学研究,故不具有自身独立的意义,亦难以成为法学研究创新发展的新方向。
数据法学是一门独立的法学学科,原因在于数据法学有其特定的研究对象、方法和内容。法教义学视角下的数据法学、信息法学、数字法学不是一门独立的法学学科,原因在于其研究对象为数据法规范、信息法规范、数字法规范,研究方法为法律解释。质言之,这些学科既不具有特定的研究对象,也不具有特定的研究方法。实证法学研究视角下的数据法学、信息法学、数字法学也不是一门独立的法学学科,因为这些学科的研究对象为数据法律现象、信息法律现象、数字法律现象,研究方法为实证方法,也就是说,这些学科也不具有特定的研究对象和研究方法。总之,法教义学视角下的数据法学、信息法学、数字法学归属于法教义学研究,实证法学研究视角下的数据法学、信息法学、数字法学归属于实证法学研究,这些都不是独立的法学学科。同样地,网络法学亦不具有其特定的研究对象和研究方法,不是一门独立的法学学科。雷磊教授亦认为,有关此类问题的研究在传统法学研究中就存在。
由此可见,数据法学是继法教义学、实证法学、计算法学之后的第四种法学知识新形态,是法学研究创新发展的新方向,同时也是一门独立的法学新学科。
廓清数据法学的概念、研究对象、方法、内容,提出数据法学是法学知识新形态,并证立其独立学科地位,将为法学研究的创新发展奠定理论基础。其一,基于数据正确的理论假设,提出数据法学是法学知识新形态学说,从而为法学理论的创新发展奠基。当然,数据法学的理论建构路径与法教义学、实证法学、计算法学的理论建构异曲同工,法教义学、实证法学、计算法学分别基于法律规范正确、法律事实正确、计算模型正确而开展各自研究。其二,从数据法学本体论出发,提出赋予个人数据权益以一定意义上的财产权益保障,赋予企业数据新型财产权益的观念,有助于破解数据权属理论当下的困境。其三,从数据法学认识论出发,提出理性主义视角下因果关系普遍必然性和经验主义视角下因果关系偶然性之二分的观点,有助于突破休谟问题的困境,从而为数据法学的科学性奠基。其四,从数据法学方法论视角,提出融数据法学研究针对“全样本”之归纳推理方法和机器学习算法之理性演绎于一体的法律大数据方法,从而为走出经典统计估计得出的概率非原假设为真时的概率之有效估计困境及破解贝叶斯概率中先验概率不确定的难题奠基。
数据法学研究将对法律数据产品的创造和法学知识的科学发现产生影响。整体来看,“中国裁判文书网”“聚法案例”“北大法宝”等法律数据库并不具有法学知识发现的功能。原因在于,搜索系统的技术构架没有采用机器学习算法技术,而仅采用一种简单的机械分词技术,从而使得类案相似点的检索过于简单,也使得其统计分析不准确。如果无法通过法律数据库搜索到符合条件的案例数据,也就无法实现基于海量案例发现法学知识的目的。由是观之,我国法学研究需要精通数据法学的专门人才。数据法学的实践基点乃质化的对法律信息的标注及其数字化,因此,数据法学人才的培养应专注于法律数据数字化能力的培养。法律人应当改变空洞的理论叙事研究方式,务实学习数据科学知识,有效创造法律数据产品,以真实地发现法学知识。