其他
左卫民 | 中国计算法学的未来:审思与前瞻
近年来,“计算法学”逐渐成为法学界的高频热词。例如,若干法学院校开设了计算法学课程、法学与计算机的双学位专业,甚至开始在计算法学相关领域招收研究生。中国计算机协会(CCF)也成立了计算法学行业分会以促进计算法学的发展。伴随数据时代来临,法律实践更容易被数据记录、捕获,奠定了法律计算的数据基础。随机森林、聚类算法、神经网络等机器学习方法的出现,为法律计算的实现提供了可能。上述种种,似乎预示计算法学正在兴起。然而,关于计算法学的发展却存在着两种声音:其一,计算法学正在兴起。在国内,已有文章开始探讨计算法学的概念与内涵。计算法学似乎正成为一种新的发展趋势。其二,计算法学并未成为独立且成熟的学科。在部分学者看来,国内尚未有成熟的计算法学概念、成果涌现,计算法学既没有有效的计算方法,又缺乏可行的计算思路,计算法学的发展可能受到诸多质疑,似乎难以成为一个独立的学科。
笔者认为,中国的计算法学的前景如何,取决于其是否能够完整经历从知识酝酿或引介,到概念凝练和学科构建,再到研究方法成熟的过程。对于刚刚走在知识酝酿阶段的新学科而言,其研究前景还有诸多的不确定性。关于计算法学在中国的未来,我们需要讨论三点:第一,计算法学的概念范畴。什么研究才能称为计算法学研究?抑或是计算法学的概念与定义是什么?第二,计算法学应当如何计算。可以计算的法律经验数据是什么?用以法律计算的方法是什么?第三,计算法学的前途。即法律的计算效果究竟如何?未来的计算法学学科应该如何发展?一、计算法学:概念为何?
何谓计算法学?这是一个尚未充分明确的问题。在域外,理论界实际上较少直接使用计算法学的称谓,相邻概念主要涉及计算社会科学(computational social science)、法律计量学(jurimetrics)、法律信息学(legal informatics)等。具体而言,可从以下方面把握域外计算法学的相关概念。 第一,从计算社会科学(computational social science)角度把握。按照克劳迪奥·乔菲雷维利亚(Claudio Cioffi-Revilla)的定义:“计算社会科学是以计算为媒介,对社会学领域开展的跨学科研究,使用大数据、云计算和智能机器人等计算机技术进行的数据挖掘。”2009年,由15位学者在自然科学领域内权威期刊《科学》(Science)杂志刊发的《网络生活:计算社会科学时代即将到来》指出:通过大量社会信息,计算和预测人类的交流、互动将成为计算社会科学的主要研究领域。据此,计算社会科学被视为一种充分使用大数据和依托计算科学方法的社会科学研究。计算法学的概念自然也需要放在计算社会科学的框架下把握。 第二,从量化研究角度把握。法律计量学的最早倡导者洛文杰(Loevinger)在《法律计量学:前进的下一步》一文中主张,将量化思维引入法律分析过程,强调使用概率统计方法来测量证人、法官与立法者行为。我国有学者则将其翻译为“计量法学”或“数量法学”,所谓“计量法学”是一种使用法律实证分析,以数据建模为方法,从事判决预测与制度评价的研究。计算法学便应当从法律量化的角度加以理解。 第三,从法律信息的角度阐释。自从香农创立信息学以来,信息就成为计算机技术研究的对象。法律信息学开始成为信息学的分支之一,如根据美国斯坦福大学法律信息中心杰内塞雷斯(Michael Genesereth)的论断,计算法学是法律信息学的组成部分,而法律信息学是法律推理的一种方法,依托现代信息技术的法律分析可以极大地改变法律行业,提高法律服务的质量和效率,从而提高获得司法公正的机会,并改善整个法律体系。据此,计算法学的概念应当在法律信息学的范畴内理解与把握。然而,法律信息学的概念似乎还没有获得理论界的普遍性认可,域外代表性的研究成果尚不多见。 整体上,具备成熟研究思路和方法的计算社会科学(computational social science)已在数据与人工智能风起云涌的欧美社科界蔚然成风。在笔者看来,其原因可能与域外社会科学界包括法学界如美国实证研究已经成为主流研究范式有关。欧美社科界很多研究者具备很强的统计分析能力,并在多领域开展实证研究包括法律实证研究。同时,当前域外研究者包括实证研究者通过长期关注并不断吸收机器学习等计算科学的方法,展开新的科学研究包括新的实证研究,相关研究成果甚至可能促进法学与人工智能技术的跨界融合。实际上,我们已经见到域外司法人工智能技术的发展往往伴随着法律实证研究成果的实践应用,美国COMPAS软件与法国Predictice软件对裁判结果预测的实践应用即是最好的例子。以“做实证研究”来促进法律人工智能技术的发展,进而寻求在重大问题上的研究共识,正在成为美国式法律实证研究(计算法学)发展的新方向。 与域外不同,计算法学在中国的出现,可能与新文科的兴起,相关学术组织的成立,以及计算法学论文的发表有关。具体来看,国内对计算法学概念的研讨,大致可以分为两种进路。第一种进路中的计算法学是“法律与计算、科技”的结合,认为使用计算机技术研究传统法学问题即是计算法学。应用计算机技术实现对海量裁判文书中的数据提取、要素输出和准确率检查等就是计算法学的研究成果。这种理解往往将“计算法学”简单理解为“法律与科技、计算”的结合,并进一步认为,在法律数据完备、真实、精确的前提下,通过计算方式研究法律数据,从而设计出一系列智能化产品,为立法与司法活动提供重要参考。据此来看,这种进路将法律人工智能相关技术作为焦点,在识别、转换法律文本为法律数据方面做了不少努力,如应用自然语义识别、裁判文书提取等,但在文字转换成为数据之后,如何展开数据式研究,却并未有多少应用统计学和机器学习方式展开的研究,也缺乏在此之上的法律人工智能开发,最常见的仅仅是知识图谱式的显示而已。同时,这种定位还将法律与科技的结合问题,如法律如何规制大数据、人工智能应用的相关问题作为学术研究的关切点。不过,这种学科定位与发展模式仅是“科技”与“法律”简单交叉的研究定位,可能导致计算法学与法律人工智能、司法人工智能的研究内容重叠。当法律人工智能的发展在技术层面需要经历漫长过程,技术应用还可能遭受法律伦理质疑之时,这恐怕难以支撑“计算法学”成为一门充分展开的独立学科。 第二种路径认为,计算法学是一种应用数学、统计学、计算科学的相关知识、方法展开的法律实证研究。笔者比较认同此种进路,但更明确地认为:计算法学其实是传统实证研究的新阶段,它是一种从量的层面研究社会现象的方法与学科。作为社会现象的一种,法律现象也具有量的属性,可以从量的方法进行观察和研究。根本上,法律实证研究与计算法学的研究对象有着天然共性。如法律实证研究与计算法学都强调使用统计学方法进行数据的收集、分析,进而发现法律现象的相关性和因果性。显然,计算法学与法律实证研究都是一种基于经验数据的量化研究。至于是否应用计算机技术、计算思维和计算方法,并不能成为法律实证研究与计算法学的“分水岭”。当前,法律实证研究成果同样重视法律大数据与计算机技术结合,主要基于法律现象的经验数据,使用统计学与计算机科学的相关知识来阐释法律实践。例如,王禄生开发了分段、分词检索工具,实现对303万份判决书的自然语义挖掘,形成了一系列的法律实证研究成果。笔者所著的《刑事辩护率:差异化及其经济因素分析》一文,应用“爬虫”软件对54409份裁判文书进行了数据挖掘,使用Python语言参与数据挖掘和分析工作。同时,美国的实证研究学者更是已经将决策树、随机森林以及神经网络等机器学习方法应用于法律的实证研究。通过分析法官经验和法律决策模式,使用机器学习方法构造和模拟出同人类决策类似的决策模型,并依据决策模型的研究成果研发出风险评估和预测案件裁判结果的人工智能系统。 如图1所示,科学意义上的计算法学与法律实证研究呈现“一体两面”的关系。计算法学与法律实证研究在研究对象、研究方法和研究领域上相通,其本质上是实证研究在新材料、新方法兴起后的应用与拓展。计算法学处于统计学、计算机技术与法学的交叉领域,并非单纯强调计算科学方法与计算机技术在法学领域内的推广,更不是那种既不使用数据,也不运用统计学方法,更没有决策树、梯度算法等机器学习方法应用,仅简单将法律问题与科学技术简单组合的“伪”计算研究。至少计算法学研究的其中一种应是基于法律经验现象的数据分析与定量研究,以统计学、机器学习为主要研究方法,实质上是法律实证研究的最新表述,可以视为法律实证研究的衍生或者2.0版本。
二、计算方法:如何计算法律?
如何计算法律?一方面,法律的计算需要有成熟的计算法学,使用机器学习计算法律实践或法律现象或许正在成为法律计算的一种新方向。另一方面,有了成熟的计算方法,还需要具备丰富的法律数据来源。可是计算的法律数据则诞生于法律的实践,静态的法律条文既不可能反映数量变化情况,更无法自我呈现法律条文背后复杂的权力关系,因此,动态变化的法律实践才是法律量化数据的重要源泉。下文将从可以计算的法律量化数据特征与计算法学如何使用机器学习方法两个方面展开分析。 (一)计算法律的方法 计算法学的基本方式是什么?这是一个十分重要但尚未厘清的问题。笔者以为,以统计学为根基的机器学习应成为法律计算的主要方式。在美国,已经有学者开始探索、使用机器学习相关方法研究法律问题。如美国学者乔恩·克莱因伯格(Jon Kleinberg)等人以此分析了美国15万余件重罪案件的法官假释结果,他们对法律的计算思路与方法值得关注,可据此从计算法律的设计思路,法律决策树与随机森林的组成以及梯度提升算法的应用方面把握计算法律的方式。 首先,使用机器学习的法律计算是以概率论、数理统计、最优化理论等为基础,核心要素是法律数据的计算模型。机器学习的结果与统计学的相关性分析类似,都是一种法律数据拟合度很高的计算模型,可以实现通过机器学习方法对法律结果的预测。如乔恩·克莱因伯格等人利用美国司法部(1990年至2009年)审前保释决定的相关数据,并将其分为法官决定组与机器学习预测组,对影响释放决定的因素,如再犯风险、逃避审判风险、保释金数额等决定性要素量化处理。通过决策树、梯度提升算法等机器学习方法构建和训练计算模型,使用梯度算法提高计算模型的精确性,通过对比法官决策结果与机器学习算法预测结果的差异,分析影响差异产生的“不具有观察性”的要素。 其次,利用法律经验数据的特征与法律决策分类结果之间的数量关系建构出具有分类关系的决策树,即让不同法律关系特征落入对应分类的模型。为避免单一法律特征可能被过度放大,造成不必要的偏差,其随机挑选部分法律数据特征建构多棵决策树形成随机森林。决策树与随机森林是常用的机器学习分类方法,在法律样本数据中,依据结果变量与自变量之间的对应关系可以构建多棵决策树组成随机森林。如再犯风险、逃避审判可能和保释金额同审前释放决定之间的对应关系即可构成不同类别的决策树。获得一种对同类数据相同方法处理的“学习分类器”,使得新出现的案例数据对应预测分类。例如,在乔恩·克莱因伯格等人的研究中使用决策树对释放风险予以评估,将观察因素(影响决定的因素)映射到结果(逃避审判风险)的函数,建立一系列“二元决策树”。如决策树根据先前是否有犯罪记录进行第一次分叉,直至没有办法再找到新的属性来进行节点分割时分叉停止,每个叶节点都形成对应的结果。上述方法将审前释放决定与各类影响因素之间构成不同的决策树,并使用由决策树构成的“预测模型”实现对同类问题的分类预测,使得机器学习具备初步的结果分类预测功能。 再次,使用梯度算法提升模型预测结果的精确性,对比预测结果与法官决定的差异,分析影响人类法官决策的潜在因素。如若构建出多个决策树模型,让重要的法律关系在法律决策的结果中占有更重要的比重,从而形成精确度更高的决策树,需要使用梯度提升法。利用梯度提升方法将法律数据进行迭代,在决策树的特定分叉中结合深度学习方法应用损失函数,减少偏差和方差来提升预测结果的精确性。不仅如此,还会不断使用估计与评估的相关算法,避免因使用相同数集造成过度拟合与标签缺失问题,确保训练树(输入值)的数据与评估树的数据之间没有缺漏。如在美国法官的审前释放决定中,被告人是否出庭相比被告人是否具有前科,对于评估逃避审判责任的风险可能就是一组更为重要的关系。将机器学习的输出结果与现实答案(法官释放结果)代入损失函数,可以对比出人类法官决策与机器学习预测之间的差异。此外,在处理选择性标签与潜在混淆因素问题之后,机器学习预测的释放结果与法官释放结果的差异化因素即会被捕获。乔恩·克莱因伯格等人的研究即发现:“相比机器学习算法,人类法官决策似乎释放了一些高犯罪率的人群。这似乎表明人类法官可能错误预判了部分被告人的释放风险或者考虑过其它不具备观察条件的影响因素。”结合这类差异,进一步发现,法官不当运用“不具有观察性”因素对释放风险进行了不当评估。如被告是否出庭或庭上举止等因素,使得法官假释决定可能存在尚未被发现的系统性偏差,使用机器学习方法得出的解释决定反而可能有助于减少监禁率与犯罪率。 分析域外文献中使用机器学习方法计算法律过程旨在说明,决策树、随机森林、梯度提升算法等机器学习方法已在相关法律实证研究与计算法学中广泛应用,机器学习的法律计算具备相当的实际应用价值。如苏尔登(Surden)等人的专题文章详尽介绍机器学习算法在法律实证研究中的实践应用,张永健等人使用聚类算法等机器学习方法分析法律渊源的分类,李本(Benjamin Liebma)等人应用深度学习方法分析中国法官规避司法责任的规律性特征,等等皆是如此。可以说,计算法学(实证研究的机器学习版)的核心方法即是通过收集真实、客观的法律运行数据,使用logistic回归、相关性分析等统计学方法,结合决策树、随机森林、梯度提升算法、聚类算法等典型的机器学习方法对法律实践与法学现象展开研究或进行观察,并总结、归纳法律运行规律。这些研究方法便是当下域外相当成功的实证研究与计算法律的最新方式,值得我们观察、借鉴与尝试运用。 (二)可供计算的法律数据特征 当然,拥有了成熟的计算方法以后,法律的计算还需要有大量符合计算要求的法律数据。首先,可以计算的法律是公开化而非半公开化的法律数据。理想的、可计算的法律数据要全景式展现法律规律(现象)产生、发展及其运作结果的全过程。实际上,公开化、完全理想的法律数据并不太多。我国裁判文书网公布的裁判文书是可公开获取的法律数据,但公开的仅仅是裁判结果与清单式的证据材料,而没有公开裁判形成过程的相关信息。例如,审判委员会的决策可能对裁判结果产生实质性影响,但是此类信息往往又不会被裁判文书所完整记载。又如可以影响量刑的法官的价值取向,主观偏好、司法潜见等因素似乎也未充分公开。此外,大量案外(如社会结构、经济水平和环境等)因素对司法裁判的影响程度,也未以法律数据的形式量化。因此,可以被外界计算的法律数据往往是已被数据记录的、公开化的法律经验(现象)数据,而非尚未被收集的法律数据,当前可以计算的法律也往往处于法律规范、法律实践的内部。 其次,可以计算的法律是一种具备普遍性、共通性以及类型化特征的法律量化数据。计算法律的前提是将法律经验、法律规律从法律的文本语言转化为计算机可以识别的数字,其过程实际上就是法律信息的模式识别,需要对法律信息进行划分和归类处理。目前运用较多的方法是“自然语义挖掘”技术。通过这种技术可以使得外在表述不同,但内涵相对一致的法律文本语言划分为相同或者相似的类别。换言之,可以计算的法律经验数据需要具备一定的类型化特征,具备模式化识别的条件。极为罕见的法律现象、法律经验往往可能无法形成有规模的类型化法律数据,并且概括的分类必然会失去或忽略那些可能相关的特征。这可能减损数据本身所蕴含的信息量。在样本的数据量不足或数据失真的情况下,即便存在好的计算方法,也难以产生可靠的计算结果。 此外,基于法律人法律推理和思维判断所获取的主观性法律经验或法律感受往往无法进行类型化处理,更难以客观量化。例如,“排除合理怀疑”作为刑事证明标准,往往是法官自由心证之结果,具有一定法律推理及其主观经验累积判断的特征,而“合理怀疑”的内涵来源又具有丰富的神学、宗教色彩。所以,“排除合理怀疑”很难通过数字指标予以类型化分析和量化,更不是具备量化特征的法律关系。 再次,可计算的法律还应当具备相对确定的数量关系特征。建构量刑模型即是一种典型的应用。刑罚中的刑期作为统计学意义上的连续变量,往往受到犯罪动机、犯罪手段以及认罪态度等因素的影响,前述量刑情节本身又属于统计学意义上的定性变量。通过分析若干量刑情节的定性变量对量刑幅度的影响,可以发现各类量刑情节对刑期影响程度的大小,进而得出量刑实践的规律性特征。换言之,量刑幅度与量刑情节是具备数量变化特征的法律关系,特别在最高法院积极推动的量刑规范化改革影响下,我国量刑程序公开化、透明化程度已经取得长足进步,由相对确定的法定刑与法官自由裁量权共同构成的量刑程序构造,更有利于排除非法律因素的干扰,使量刑结果与量刑情节之间的数量关系特征更为明显。不过,如果一项判决就是规则与事实相结合的产物,司法人员的工作模式便宛如数学公式的计算,这属于非常理想化的法律计算过程。实际上,有研究表明:“只有在寻求的目标很简单、有清晰的定义和可以测量的情况下,效率公式、生产函数和理性行动才能被具体指明。”然而,不少法律语言都存在模糊不清的“半影地带”。尤其是我国定罪量刑所依据的法律条文可能因法律语言的融合和变迁形成语言的复杂、多元性变化。即使相同的法律条文,在具体适用的场合往往可能产生不同的理解,使用不同的法律解释方法也可能产生截然相反的结果。例如,法律条文中的“认罪态度良好”“犯罪情节极其恶劣”“手段极其残忍”等内容,虽然文本表述明确,但是相同文字表述可以含有相当丰富和多元的内容,可能影响数据量化的精准性。因此,量刑幅度与量刑情节这类相对确定的数量变化关系,因相关量刑情节在法律概念、法律语言方面的模糊性,也只能得出大致的量刑范围,而不能得出具体的精确计算结果。法律计算还不能如“自动售货机”那般输入案情与法条便得出判决的结果。 最后,计算法学所计算的是具有一定数据质量要求的全样本大数据或大量数据,这与传统实证研究有所差异。传统实证研究所处理的数据在代表性方面可能更好,但在数量与质量方面不如计算法学所处理的数据。不过,两者之间并没有一个非此即彼的区分。实际上,传统法律实证研究往往也能够处理较大数量的有代表性的数据,但完美的全样本大数据在法律计算时并不多见,因而计算法律的实践或许还会遭遇一定的数据质量难题。
三、前路漫漫:计算法学的春天会到来吗? 计算法学的出现使得学界甚至资本都摩拳擦掌,一时间“计算法学”变得炙手可热,冠以“计算法学研究”“计算法学方法”“计算法学技术”的成果开始涌现。在笔者看来,此种热闹繁荣的景象并非意味着计算法学即将步入正轨。恰好相反,计算法学还需经历漫长的实践探索。虽然机器学习已经应用于法律计算和法律实证研究,机器学习对法律的计算效果或许具有积极意义,但是也存在一定的局限性。从积极层面而言,使用机器学习方法对法律经验数据的分析,可以获得一种数据拟合性较高的回归分析结果,能够客观揭示复杂法律实践之间所蕴含的法律运行规律,从而改变了传统依据主观先验式经验,通过法律逻辑推理并且创造法学理论的传统法学知识生产方式。这有助于我们发现立法与实践的悖反之处,将法律中的模糊表达量化为具有客观参考价值的法律数据。此外,这种方法还可以揭示从前我们可能无从获知的某些法律实践之间存在事实上的相关性与关联程度,并且在条件相同的情形下,机器学习算法将始终给出相同的答案,从而能够减少法律系统内部所存在的主观盲目性,遏制法官因行使自由裁量权导致的错误。 然而,机器学习对法律的计算并不是一种“全方位、无死角”的计算,使用机器学习的法律计算存在两方面的局限性。一方面,机器学习的法律计算仅仅是一种依托历史数据的“预测”,仅能发现法律世界的“相关性”,难以解释法律世界中的“因果律”。使用机器学习方法对法律结果的“预测”,其作用主要是发现各类影响因子、作用因素与法律实践现象之间的相关性。当然,法官的司法决策过程涉及大前提(法律规则)、小前提(法律事实)和法律结果的“三段论”推理过程,此类决策推理是一种“反事实推理”的过程。即便是法律数据拟合度很高的机器学习“模型训练”也仅是一种相关性分析,对于需要“反事实推理”得出法律的因果推断过程,机器学习方法尚处于“知其然,而不知其所以然”的阶段。单纯的机器学习方法本身可能难以直接发现因果关系,揭示现象背后更深层次法律实践之“因果律”。 另一方面,机器学习的法律计算难以充分把握、模拟人类的思维和意识。法律人的决策推理过程、决策结果往往与机器学习的法律现象预测具有明显差异,这在复杂案件中更是如此。有研究就指出,“人类区别于其它灵长类动物的典型特征即是拥有意识”。由“硅元素”组成的计算机能否如同由“碳基”组成的人类那般拥有意识,像人类那样思考?这一直是人工智能界与哲学界争议不休的话题。计算机技术的先驱阿兰·麦席森·图灵在进行“图灵测试”时,也有意或无意地回避机器是否具备意识的问题。姑且不论前述争议的结局如何,法律人的思维推理模式与机器学习的计算之间始终存在“隔阂”,而这些不同是人类的自然基础不同于机器所决定的。如法律人决策与推理的过程往往涉及无罪推定、排除合理怀疑、内心确信等带有人类主观评价色彩的复杂概念,许多无法量化输入、客观认知的法律知识,恐怕难以被尚不具备人类思考和意识的计算机理解。即便理论上使用“强化学习”的方法可应对没有历史数据输入的学习场景,但是此类学习方法还处于“有多少人工,方有多少智能”的尴尬局面。因此,它自然就难以胜任对主观性法律概念的理解和把握。 实际上,感知领域才是机器学习与人工智能技术主要突破的方向,图像识别、语音转化是人工智能技术的主要应用场景,如人脸识别技术、自动驾驶、棋类(AlphaGo)游戏是其主要应用成果。这在相当程度上是一种基于历史经验数据、对客观物体的感知技术。相比机器学习面对单一客观关系的“预测”结果,法律人决策面对的更多是未来不确定性的主观性法律关系,复杂的人类法律决策夹杂人类常识、情感与主观价值判断等因素,机器学习等人工智能技术是—种“站在第三人”视角观察现象、总结规律、建立理论的方法,实际上难以模仿和学习人类常识和主观性认知,更不擅长模拟法律人的决策与内心推理过程,至少在复杂案件中难以模拟、超越人的决策机制的效果。相比人类意识和人类大脑所具备的“自监督学习”机制,机器学习方法在法律的预测能力、学习效率、成本收益方面不尽如人意。目前,最先进的人工智能系统可能还不如一只猫聪明,猫的大脑有大约7.6亿个神经元和1万亿个突触,人脑则具有860亿个神经元但功耗仅为25瓦。人脑的计算量大约是每秒可执行1.5×1018次计算,现在一块GPU每秒可执行1013次计算,功耗约为250瓦。为了达到人脑的计算能力,必须将10万处理器链接并且至少消耗25兆瓦的巨型计算机才能实现。前述能耗是人脑消耗的100万倍。即便未来机器的处理能力变得同人类一般强大,但是机器是否也具备人类基于生理的共情能力仍然未知。况且,法律人的决策过程实际上是对未来不确定性法律关系的评判,而非简单基于已知法律数据的“预测”,这其中的差异也决定了机器学习方法与当前开发出的人工智能技术并不擅长模拟人类常识和逻辑推理过程。总之,计算机难以深度介入与模仿法律人的决策。 面对法律计算的上述局限,尚处于学科凝练与基础建构阶段的计算法学,需要在未来理清学科发展脉络,突破发展进程中的困难与瓶颈。 第一,结合我国法律数据的“本土资源”,探索可行的法律计算思路与机器学习方法。当前,我国裁判文书、检察文书的公开已初具规模,各类司法文书的电子化与法律运作过程的数据化正在成为现实。但是,可公开获取裁判文书所呈现的内容往往只是法官自由心证的结果及其支撑裁判结果的材料及理由。这类数据可能已受到人类选择性认知的影响,难以全面展现裁判结果形成的完整过程与全部考量因素。真实法律世界的某些部分包括重要而“隐秘”的部分是可获得的法律数据尚未充分反映的。即便是从司法机关内部获取的法律数据,因其数据本身主要满足诉讼管理之需要,还不能完全呈现司法实践的全貌,更难以充分满足精确计算法律的需要。总的来说,我国所公开的司法数据大多是一种结果性材料,对于研究一些诸如司法人员推理、决策等过程性问题的作用相当有限。据此,计算法学的未来发展,一方面需要吸收、借鉴域外实证研究中既有的机器学习、神经网络等计算机技术与方法,结合本土法律数据,探索有效的法律计算思路与机器学习方法,促进中国计算法学的落地实施;另一方面,需要不断扩宽法律数据的来源渠道,客观记录司法实践的运行过程,保障法律数据来源渠道、形成过程与经验现象产生的真实性,为计算法学的繁荣奠定数据基础。 第二,计算法学应致力在更多问题、更广阔领域内,探索、应用机器学习,并与传统法律实证研究以及其他研究方法共同揭示法律实践规律与匡正法学理论。作为法律实证研究的衍生和拓展,计算法学同样以法律实践的经验现象作为理论关切点,通过收集、整理、分析和应用数据,尝试使用统计学、机器学习的相关知识进行相关研究。计算法学运用机器学习方法进行法律结果“预测”,是一种数据拟合程度较高的相关性分析,在相当程度上也是统计学知识与方法的实践应用。相比传统的法律实证研究,充分使用机器学习方法的计算法学或者说“未来版的实证研究”将倡导使用决策树、随机森林、梯度提升算法、神经网络架构等机器学习、深度学习方法来分析法律关系,从而更有利于在大量散乱分布的法律数据中发现零散数据之间的相关性与关联程度,最终发现司法实践或法律事件的发展或运行规律。同时,为了弥补机器学习方法在“因果推断”领域的缺憾,归纳法律现象背后的内在规律与成因,还需要创新传统的实证研究方法,这主要是使用诸如随机实验、断点回归、双重差分、工具变量等方法,在实验室条件下或者随机田野试验的条件下不断探索法律规范、法律政策与法律实践之间的“因果律”。如2021年诺贝尔经济学奖得主书亚·安格里斯特(Joshua D Angrist)和吉多·因本斯(Guido W Imbens)的贡献即在于对因果关系分析方法的创新,即使用“自然实验”来模仿随机控制实验,评估反事实结果从而推断经济变量之间的因果关系。2019年诺贝尔经济学奖阿比吉特·班纳吉(Abhijit V. Banerjee )、埃斯特·迪弗洛(Esther Duflo )、迈克尔·克雷默(Michael Kremer)在“减轻全球贫困方面的实验性方法”作出了杰出贡献,发现了全球贫困原理以及各种扶贫政策的因果效用。前述方法对于判断法律规范与实践之间的因果关系具有启发和借鉴意义。因此,未来实证研究还应持续探索随机试验、双重差分、工具变量等统计学的因果推断方法,从而形成各类揭示“因果关系”的成熟方法。 当然,计算法学虽然是法律实证研究的最新范式转型,但不是唯一的创新方式,其范式“转型”也不意味着研究方法的替代。计算法学的发展绕不开法律实证研究方法的推广,更无法取代法律实证研究的知识贡献。即便是一种在原有方法上的部分创新也不应该直接否定或摒弃原有方法的知识贡献,否则极易陷入研究方法上的“独断论”错误。事实上,机器学习方法的主要原理依然是统计学领域内相关性分析的数学知识。对于需要发现法学理论“因果律”的领域,通过法律文本的法教义学研究仍然是未来法学理论建构的重要源泉,结合司法实践的法律实证研究与社科法学研究在揭示法律实践规律方面也依然占有一席之地。尤其是传统实证研究通过对统计学方法的创新应用,在因果推断等方面也可以做出创新性研究,其价值与意义不亚于甚至可能高于不少计算法学的成果。可以说,法教义学、社科法学与法律实证研究(包括计算法学)的方法在学术志趣、研究对象与实现路径方面尽管存在差别,但是它们都各自具备着独特的方法论价值,相互之间彼此共生,共同促进法学研究的繁荣。使用统计学、机器学习方法的计算法学也应当结合现有法律实证研究等方法,共同揭示法律实践之间的关联性与因果律,客观把握法律实践规律,探索出一种补充、修正法学理论的新模式。计算法学与法律大数据的到来从未叫嚣“理论已死”,而只是可能“从根本上改变了我们理解世界的方式”。 换言之,使用机器学习方法的计算法学出现或许将会为我们带来观察法律现象的全新方法,但是我们更应理性看待其未来发展:既不能高估机器学习方法所带来的法律预测能力,也不能低估不断发展的统计学理论与方法在主流实证研究中的独特魅力与价值,更不能忽视结合统计和计算的实证研究与机器学习在发现法律实践规律方面的贡献。无论如何,现阶段我们需要更多地夯实法律研究的“计算能力”,正确认识法律数据的欠缺性与机器学习法律计算的局限性,培养具备交叉学科背景的法律计算人才,摸索可应用于中国法律数据的计算思路与计算方法,打造中国计算法学的“拳头产品”。尝试并推进以实证研究方法为底色的计算法学学科建设,促进计算法学研究的落地生根,将是未来中国新型法律人的责任与使命。计算法学的春天已经来临了吗?就让未来告诉未来吧。