查看原文
其他

王禄生|论法律大数据“领域理论”的构建

文章信息

作者:王禄生,东南大学法学院

文章来源:《中国法学》2020年第2期


摘    要:作为“领域大数据理论”的重要组成部分,法律大数据的基础理论研究由于过分受通用大数据技术的框架影响而在本体论、认识论与方法论方面存在不足。在本体论方面,将法律大数据视为通用大数据技术在法律领域的平移应用,并将大数据的通用特征视作法律大数据的领域特征;在认识论方面,奉行数据驱动的经验主义,忽视甚至排斥法学理论嵌入;在方法论方面,过度重视技术瓶颈的解决,而淡化“领域知识壁垒”的应对。下一步,要在充分认识领域特殊性的基础上展开法律大数据“领域理论”研究。在本体论层面,构建法律大数据的领域特征,实现“4V特征”与“3A特征”的结合;在认识论层面,打造“轻量级理论驱动”的法律大数据领域认识论;在方法论层面,关注法律大数据所面临的“领域知识壁垒”,并从提升法律人地位、推动领域大数据技术创新和打造法律知识工程师培养体系三方面予以应对。


关键词:法律大数据; 法律人工智能; 领域理论; 轻量级理论驱动; 领域知识壁垒;


引言

大数据是时下学术界最热门的话题之一,它在气候、金融、医疗、法律等各个领域都具有巨大的潜力。随着研究的深入,大数据的相关探讨已经开始由“应用/技术导向”朝着“理论导向”转型。这其中一个重要的趋势就是“领域大数据理论”的萌芽与发展。具体而言,就是从每个领域的特殊性出发,围绕本体论与认识论展开对领域大数据技术的探讨,进而形成特定领域大数据技术的方法论指导。比如,在金融大数据的研究中,有学者就认为,通用大数据“4V特征”中的“多样性”(variety)并非金融领域的核心特征。此外,通用大数据依赖MapReduce实施Hadoop的数据处理策略尽管具有良好灵活性和易迁移性,然而,该策略依赖于离线批处理,因此不适应金融大数据高度强调实时性的领域需求。与之类似,在教育大数据领域也展开了相关研究。有学者认为,相较于其他领域而言,教育大数据来源于对学生学习数据的全程数字化,并由此挖掘形成个性化的教育方针。上述特点决定了该领域需要特别面对隐私保护与数据安全问题。有论者还认为,教育大数据具有特殊的领域需求,需要在通用大数据的基础之上进行有针对性的技术迭代,嵌入基本学习理论以及领域专家构建的学习者模型。从哲学角度看,对领域大数据技术本体论的思考影响了该领域认识论的构建进而影响到领域方法论的形成,其意义自不待言。

法律是大数据最为重要的领域应用之一。近年来,我们见证了大数据在法律尤其是司法场景中的重大发展。我国已经成为法律大数据与人工智能应用的大国,“智慧法院”建设更是在世界范围内处于领先位置。与此同时,国家政策层面对科技的强调进一步提升法律大数据的重要性。党的十九届四中全会就明确提及“加强社会治理的科技支撑”。中央政法委书记郭声琨也强调:“要善于把大数据、人工智能等现代科技与社会治理深度融合起来”。可以预见,在新时期制度变革与技术创新的话语体系中,法律大数据还会因为与“社会治理”“公共安全”“法治建设”等中心工作的紧密关系而持续受到关注。

然而,巨大实践需求的背后则是法律大数据应用在范围与成效等方面并未达到预期,以至于在实践中出现“话语分裂”。一方面是对法律大数据应用的顶层推动及其效用的媒体宣传;另一方面则是一线实务人员相对保守甚至略显负面的评价。“上热下冷”“内热外冷”成为法律大数据应用重要的实践面相。法律大数据行业仍然不得不面对“未来还未来”的现实。对于成效与期待之间的断层,不少学者展开了相关的研究。其中,有学者采用技术进路分析了法律大数据在自然语义理解、模型训练等领域遭遇的技术瓶颈限制了法律领域智能化应用的效果;也有学者采用制度进路,认为法律大数据应用推广需要制度设计予以保障。上述进路从不同侧面观察了法律大数据应用存在的问题,一定程度上为法律大数据应用的优化提供了参考。

尽管如此,中国法律大数据的研究仍然处于初级阶段,充其量刚刚形成了科学启蒙的共识,并实施了有限的科学实验。更为重要的还在于技术进步的话语使我们因被主题新颖性所迷惑而忽视了法律大数据“领域理论”的构建,尤其是结合法律领域特殊性的本体论、认识论与方法论反思不足,许多相关主题和相关理论尚未得到清晰界定。这具体表现在三方面。其一,在本体论上,对法律大数据的定义模糊、领域特征有待扩展,表现为将通用大数据的特征视为法律大数据的特征,片面追求在法律大数据的大体量、全样本、实时性与多样性。对于法律领域的适配性、正确性、易变性等需求关注不足。其二,在认识论上,套用通用大数据的思维方式,强调从海量数据中自动提取知识,追求算法的准确性并排斥理论预设,忽视了法律领域对知识获取过程因果性和可解释性的特殊需求。其三,在方法论上过度关注技术逻辑,忽视法学基本理论的有机嵌入。在实际研发与应用过程中出现技术人员与法学专家脱节、技术开发与一线需求断层的现象。面对上述挑战,作为中国司法改革乃至社会治理的重要方案,法律大数据研发需要进行领域本体论、领域认识论与领域方法论的反思,以服务于即将进一步扩展的法律大数据应用。

本文将在充分反思法律领域特殊性的基础之上,从本体论、认识论和方法论的角度出发,尝试构建法律大数据“领域理论”。具体任务主要有三个方面:(1)尝试构建法律大数据的基本知识谱系,探讨法律大数据的“3A”领域特征;(2)尝试更新法律大数据的知识表示逻辑,提出“轻量级理论驱动”领域认识论;(3)结合法律大数据的本体论与认识论,构建技术与法律深度融合的领域方法论。

   一、问题的提出:法律大数据“领域理论”的现状与不足

近年来,围绕法律大数据的研究逐步成为“显学”。在现有研究中,技术分析、实践观察、制度反思等相关主题较为丰富,结合法律领域特殊性而展开的“领域大数据”理论研究则相对有限。这就导致对法律大数据本体论、认识论与方法论的反思及建构不足,直接影响了法律大数据的实际应用效果。

(一)法律大数据领域本体论有待构建

大数据是具备海量性(volume)、高速性(velocity)、多样性(variety)、价值性(value)“4V特征”的数据集。国务院出台的《促进大数据发展行动纲要》就指出,大数据是以容量大、类型多、存储速度快、应用价值高为主要特征的数据集。由于对法律大数据的领域本体论反思还较为缺乏,因此学界一般认为,法律大数据就是在法律领域中使用的具备“4V特征”的数据集。实际上,“4V特征”并不完全适用于法律领域。

1. 海量性的再认识

数据规模的海量性并非法律大数据的根本特征。在当前法律大数据的开发过程中有一种主流声音,认为“海量性”就是要求数据样本的“大与全”。然而,从法律大数据的实际应用来看,该观点值得商榷。第一,不同时期数据存储能力不尽相同,人们衡量数据规模的尺度也存在差异。过度拘泥于体量“大”与“小”势必会给区分大小数据带来困难。第二,不同领域数据规模也绝不可等量齐观。“有些领域几个PB的数据未必算大,有些领域可能几十TB已经是很大的规模。”按照麦肯锡全球研究院的估算,各行业之间的数据差距悬殊,数据量最大的制造业是最小的建筑业的接近19倍。目前,我国法律大数据来源有两方面:一是法律活动(立法、执法、司法等)过程中直接产生的数据,比如执法视频、裁判文书等;二是法律活动中采集的数据,比如当事人基本信息。尽管我国法院已经公布了8778余万份文书,这也是绝大多数法律大数据研发主体的核心数据来源,但其体量为5TB左右。如果转换为文本文件(TXT)格式,则体量只有500G左右。即使算上中国庭审直播网公开的近636万件庭审视频,其原始体量大致为6PB的量级。与之形成鲜明对比的是,2018年度,全球制造、金融、零售、基建、娱乐和医疗保健行业的数据规模依次达到3584EB、2074EB、2212EB、1555EB、1296EB和1218EB。可见,法律领域大数据的规模与医疗、交通、金融、通信等领域比较起来有一定的差距。从域外的法律大数据应用平台来看,主要也是围绕文书展开,体量同样相对有限。第三,绝对意义的全样本并不存在。无论中外,现有法律数据公开与不公开往往并存。与过度追求全样本相比,对现有大样本的正确处理与使用才是关键所在。第四,“大量数据”(a bulk of data)不等于“大数据”(big data)。“大数据思维的核心是要具有利用数据的意识,无论量小还是量大。”法律大数据之“大”不在于“容量之大”,而在于可以“分析与使用”。无法处理的海量司法数据只是一堆结构或者非结构的数据集合。一个显著的例子是当前对于庭审视频的结构化处理就较为有限,使得上述视频的价值并未被充分挖掘。在2018年科技部发布的国家重点研发计划(司法专项)(下称“国家重点研发计划”)中就有专门针对庭审视频的项目,并要求开展对包括庭审视频在内的司法公开信息资源有效融合和探索式搜索技术。这是对庭审视频结构化处理的重要一步。

2. 高速性的再认识

尽管对于“高速性”的解读存在一定的差异,但一般认为,它是指数据增长和处理速度的显著提升。一方面,全球数据量以每年30%-50%的速度加速增长;另一方面,数据处理速度达到秒级、毫秒级。对于PB量级的数据处理耗时甚至可以做到完全实时——数据在到达时即被处理。比如在金融领域,一只股票在1毫秒内将经历大约500次报价变化和大约150笔交易,“毫秒意味着数百万”。因此,在通用领域乃至部分特定领域的分析框架中,高速性是大数据的核心特征,甚至有人认为,相较于规模性和多样性而言,高速性才是真正的关键所在。然而,数据挖掘的高速性并非法律大数据的根本特征。一方面,法律领域数据的增速与其他领域相比仍有一定差距。以数据规模较大的医疗系统为例,如果医疗过程完全数据化,那么一个三甲医院一天产生的数据增量就可以达到90-100TB。另一方面,由于前文提及的体量相对有限性,当前法律大数据常规应用中对于数据处理速度的需求在所有垂直领域中并非最高,甚至对于法律大数据而言,原始数据的信息抽取也并不一定要求是实时的,其对硬件的需求与金融等领域也不可等量齐观。举例而言,在判决结果预测的开发应用中,研究人员按照特定的知识图谱从文书中抽取案件情节,并基于不同情节的组合拟合为特定的量刑模型。在这个过程中,每个案由的训练样本从数万到数十万不等,对于情节的抽取通常并无实时性的需求。

3. 多样性的再认识

“进入信息时代之后,‘数据’这个概念的内涵扩大了,它不仅仅指代传统的数字,还包括文字、图片甚至音频、视频等。”从表面上看,当前法律大数据应用已经不仅仅限于传统司法统计报告中沉淀的数据,还包括裁判文书、案件卷宗、庭审视频、音频、图片等。然而,数据形式上多样性的实质是数据结构的多样性——结构化、半结构化与非结构化。对于大量结构化数据,小数据时代的工具便可高效处理。也正因如此,有学者直言不讳地指出“用现有数学方法处理的数据多不能算作大数据”。大数据技术的实质不在于对多形式数据的处理,而在于对多结构数据,尤其是半结构化与非结构化数据的自动、高速处理。现阶段,主流的法律大数据应用仍然主要针对法律文书。虽然在通用的大数据著作中将word等文档视为标准的非结构化数据,但实际上对于裁判文书而言,由于有相对固定的结构,如首部、正文、尾部,每部分的内容也大致相同,因此从技术处理角度来看,裁判文书应该是半结构化数据,这与国家公文类似。也就是说,除了半结构化的裁判文书之外,主流的法律大数据研发对于非结构化的图片、视频、音频的关注还较为有限。多样性往往只是停留在形式层面的话语表达。以图片的结构化处理为例,法律领域的相当部分卷宗以图片的格式存在,而受限于通用光学字符识别技术(OCR)在法律领域的准确性不足,对这些图片进行有效的结构化处理面临实质的障碍。

4. 价值性的再认识

大数据的“价值性”意指单体价值低、整体价值高。从这个角度来看,个体数据无足轻重,只有达到足够的数量才能呈现出整体价值。部分个体样本的失真或者错误难以对基于海量整体数据的挖掘结果形成实质影响。然而,从法律领域来看,无论是大陆法系或是英美法系国家,判例的存在都使得法律大数据不仅要关注整体,更要关注个体。具体来说,法律领域的判例通常是针对全新情形而做出的法律适用,具有一定的创新性。我国虽然并非判例法国家,但最高人民法院却通过发布指导案例来规范特定法律的适用。从指导案例的选择标准来看,以“社会广泛关注”“法律规定比较原则”“典型性”“疑难复杂”“新类型”为前提条件。可以说,每个指导案例基本都具有特殊性。尽管数量较少,甚至是孤例,但一经发布就会形成特定的裁判规则并对司法实践有指导作用。换言之,传统大数据的价值性来源于对海量历史数据的挖掘进而实现行为的预测,而此种路径实际上无法适应司法领域的“创造性演变”。从法律大数据的实践来看,对单个指导案例法律规则技术提取的价值实际上可能远高于基于海量文书归纳总结的规则。

综上所述,通用大数据的“4V特征”并不完全适用于法律领域。当然,对“4V特征”的反思并不意味着全盘否定。在法律大数据开发过程中数量规模、处理速度、样本形式、数据价值仍然是重要参考标准。实际上,反思的目标旨在避免那种片面强调大体量、全样本、高速度、实时性、多种类的观点,尤其要避免人为设定标准来固化地区分“大数据”与“小数据”,如PB量级才是法律大数据、没有全样本不是法律大数据等。更进一步,反思“4V特征”的目标还在于吸收其合理元素之后实现通用特征之上的领域发展。 

(二)法律大数据领域认识论有待更新

大数据是应用导向的技术。当我们提到“大数据”时,其指代不仅包括具备“4V特征”的数据集,还包括基于工具、程序而进行的大数据分析。有学者就认为,“大数据”的全称应该是“大数据分析”(big data analytics)。“大数据应用”的实质就是通过“大数据分析”,从海量数据中发现知识的过程。因此,在计算机科学领域,“大数据分析”(BDA)与“知识发现”(KDD)通常可以互换使用。尽管,大数据认识论可以一定程度上追溯到培根对演绎推理的反思和对自下而上归纳推理的强调,但在技术进步的话语表达中,它仍被视作对传统科学认识论的重新配置,是人类科学知识发现的“第四种范式”。

从科技哲学的视角来看,大数据分析在认识论上具有显著的经验主义、技术主义和数据主义特征。概括起来,这种认识论可以从三方面解读。(1)数据前置:大数据应用过程中的知识发现完全基于数据产生,奉行“无数据、无知识”的经验主义归纳逻辑。(2)技术驱动:对于大数据应用而言,重要的是支撑从大量数据中直接转换知识的复杂算法和统计工具。相较于技术而言,理论预设显得可有可无,甚至在相当部分大数据应用中基本实现了“假设中立”与“去理论化”。(3)去因果分析:大数据分析是对给定数据集中变量的相关性归纳。知识发现的过程由技术和算法驱动,没有因果关系的介入。因此,大数据最重要的思维特征就是“追求相关、放弃因果”。有鉴于此,《连线》杂志主编克里斯·安德森(Chris Anderson)就曾总结到,随着数据量的大幅度增长以及数据处理能力的显著提升,大数据的认识论似乎将接管一切,并且可以通过在没有先验理论的情况下从数据中提取知识或者见解。大数据认识论将带来理论的终结。大数据在认识论上的特征还直接引发了人工智能的范式转型,推动以深度学习为代表的人工智能应用的质变。可以说,近年来人工智能在语音识别、图像识别等感知智能场景中取得的突出成就大都与大数据技术密切关联。在大数据认识论的支撑之下,人工智能领域长期存在的符号学派与联结学派的认识论争议似乎开始暂时向联结学派倾斜。由此,人工智能的应用开始大比例地由“决定论”(专家系统)向“概率论”(数学统计)转型。

由于缺乏对领域认识论的充分反思,当前法律大数据应用较多采取基于大数据分析的知识发现范式。具体而言,就是借助数据挖掘技术从大量判决书、案件卷宗等非结构化、半结构化数据中发现法律规律并加以应用的过程。与之相关,法律人工智能也发生了由符号主义的专家系统向连结主义的概率系统转变。以量刑预测为例,符号主义的专家系统将该任务视为由计算机处理法律条文的三段论推理。因此,量刑预测就是将法律条文转换为计算机识别的规则系统,并在此基础上执行推理。推理结果具有决定论意义上的唯一性。与之形成鲜明对比的是,在联结主义的概率系统中,量刑预测是计算机通过对海量裁判文书自主学习之后总结的决策模型。每次决策的过程都是概率论意义上的数学统计。也正因如此,肇始于2003年前后的“电脑量刑”与近年来兴起的“智能量刑预测”虽然在任务和目标上具有共通性,但两者的认识论却有云泥之别。后者采用经验主义认识论,只是基于海量裁判文书训练出特定情节组合的量刑函数,并不知悉其背后的法律条文以及法学理论。

必须承认,此种认识论在大数据与大算力的支撑之下取得了一定的成效,但却与法律领域的特殊需求不完全匹配。这体现在:其一,演绎思维冲突。法律是一种社会规范,有不同于自然科学的应然追求。法律的施行,是在三段论的逻辑框架下进行的演绎。与之相反,法律大数据认识论则强调经验主义的归纳。其二,因果思维冲突。在法律思维和法律方法中因果性占据着十分重要的地位。这与经验主义的法律大数据认识论强调的“去因果分析”不相兼容。其三,说理思维冲突。司法过程通常被视为一种重要的凝结共识机制。任何决定都必须在证明、推理与审议的基础上作出。因此,法律思维强调解释说理。当前,在法律大数据中使用较为普遍的深度学习算法,尤其是神经网络算法就因为可解释性的不足而持续面临法律人的质疑。可见,为了避免在法律大数据应用中方法论与法律思维的冲突,就势必需要更新法律大数据的领域认识论。

(三)法律大数据领域方法论有待优化

由于在本体论与认识论上套用了大数据的一般分析框架,当前法律大数据在方法论上就表现为“通用技术+通用流程”的特点,也就是在数据获取、预处理、训练、解释、应用等的常见步骤中使用通用的大数据分析技术、算法与模型,没有考虑技术在法律领域的兼容性,更没有针对法律“领域知识壁垒”而进行专门的技术与流程优化。

实际上,有些在通用领域取得巨大成功的技术无法适应法律领域的特殊需求。以IBM开发的问答机器人Watson为例,它在2011年的美国知名节目“危险边缘”中一举击败两名人类冠军选手而名声大噪。Watson的原理是从海量的文本中提取关键信息,与问题进行比对,进而选择概率最高的答案。这可以用“知其然而不知其所以然”来概括。然而在法律领域中,用户的需求不仅仅是答案,更包括支撑答案的原因。对此,Watson的技术框架则显得无能为力。类似情况还包括文本自动生成技术。当前通用领域新闻文本的自动生成已经取得了重大的突破,然而在法律领域中,法律摘要的自动化仍然面临一些特有的领域困境。究其原因就在于其他领域,如体育新闻具有相对结构化和标准的格式,比赛之后通常只需要预先插入特定的短语,如运动员人名即可生成,而法律则要求一定的概念创造力和灵活性,尤其需要分析法律与事实之间存在的复杂相互作用。因此,法律领域的特殊性使得法律大数据遭遇了特定的技术障碍。

更令人担忧的还在于,方法论上的反思不足使得现阶段法律大数据应用领域已经出现了完全不考虑法学理论而进行的应用开发。典型的例子比如采用通用的文本相似度模型——“词频—逆文本词频模型”(TF-IDF)来计算案件相似度。TF-IDF模型的实际是将文本划分为词与词的组合,根据不同词出现的词频来计算两篇文本之间的相似度。比如某篇法律文书上共有1000个词,其中“孳息”出现10次、“债务”出现20次、“赔偿”出现150次,那么这三个词的“词频”(TF)就是0.01、0.02和0.15。按照该思路,每一篇法律文书都可以表示为由不同词频组成的向量。如果另外的法律文书中的词频向量具有较高相似性,那么则认为这两篇法律文书具有相似性。该模型的理念是认为相似的文本在用词上也近似,并且其在区分新闻相似度上取得了很好的应用效果。然而,这一通用模型几乎完全脱离了法学理论。一方面,法官、检察官对于相同的问题可以存在差异化的表述;另一方面,法律上认为的相似案例也绝非情节完全一致,而可能是法律关系相同。采用TF-IDF模型获得的相似案例只是两篇写法高度一致的法律文书,并非真正意义上的“类案”。正因如此,采用上述方法论进行的类案推荐开发在准确性上与实践需求有较大差距,可解释性更是无从谈起。有趣的是,随着2019年“基于Transformer的双向编码器表示模型”(BERT)在自然语义理解等领域取得的重大突破,部分研发主体又开始将该算法平移至法律领域,用以类案推荐的研发。BERT模型的研发思路类似于TF-IDF,仍然是把法律文本转换为向量进行表示,进而通过不同文本之间的向量计算相似度。所不同的是,TF-IDF只关注词向量,而BERT不仅关注词向量,还关注句子、段落、位置等信息——通过双向编码、三层嵌入等方式完成向量表示。尽管在特定样本上准确性有所提升,但仍然没有法律领域中专业知识的介入,其在扩展性和可解释性等方面的困境并未从根本解决。

 二、领域本体论的构建:法律大数据的“3A特征”

法律大数据是一个新兴的研究主题,在基本概念与领域特征等方面模糊不清。因此,法律大数据本体论的构建需要结合法律领域的特殊性,厘清法律大数据的基本概念,并以此为基础分析法律大数据的领域特征。

(一)本体论视角下法律大数据概念的厘清

“法律大数据”本体论的构建首先需要实现“法律领域中大数据”(big data in law)向“法律领域的大数据”(legal big data)转变。换言之,在本体论的视角下,“法律大数据”是指在立法、执法、司法等法律过程中形成或依法获取的,既在一定程度上具备大数据的通用特征,又满足适配性、正确性和易变性的领域需求,必须结合法律领域的特定算法与模型来实现辅助法律决策、优化法律过程目标的数据集。上述概念有三个关键点:其一,法律大数据是“领域大数据”而非“领域中的大数据”;其二,除了通用领域的部分特征之外,法律的特殊性使得法律大数据具有特定的领域特征;其三,法律大数据的领域特征决定了通用大数据分析工具也需要结合法律领域进行优化。

在明确“法律大数据”概念的基础上,我们还有必要对“法律大数据”与“法律人工智能”的概念作一个基本的界定。尽管两者确实存在一定的差别,但从技术逻辑来看,“法律大数据”与当前主流的“法律人工智能”具有相当大程度的承接性与一致性。究其原因则在于当前主流的“法律人工智能”实际上采用的是“大数据智能”的路径。所谓“大数据智能”是指从客观存在的全量超大规模、多源异构、实时变化的微观数据中,利用机器学习等技术抽取知识,转换而来的决策智慧的方法与过程。“大数据智能”由“大数据”驱动,没有大数据就没有人工智能。详而言之,“大数据智能”中最为依托的机器学习技术可以被视为数据挖掘的一个子集,其原理实质是通过观察大量数据来识别模式并建立连接的数据挖掘过程。一言以蔽之,“大数据”技术以数据挖掘为核心,通过海量数据获取潜在的规律,进而实现预测与预警。当数据挖掘采用传统的算法时,则属于单纯的大数据应用,而当人工智能的算法被嵌入数据挖掘的过程时,“大数据”就进化为“大数据智能”。也正因如此,本文的“法律大数据”采用广义的视角,既包括传统意义上的“大数据”,也包括实践中广泛存在的基于学习算法而实现规律挖掘的“大数据智能”。

(二)本体论视角下法律大数据的领域特征

法律领域的特殊性决定了法律大数据除了部分具有通用大数据的“4V特征”之外,还具备从属于法律领域“3A特征”。

1. 法律大数据的适配性(Adaptability)

与其他领域强调样本的“大与全”相比,法律大数据特别强调样本的适配性,而并不必然要求大量的全样本。举例而言,考虑到刑事案件,尤其是侵财案件标准的地域差异性,在刑事案件量刑辅助技术的开发过程中,全国数据的训练结果势必无法有效应对各省标准的多样性。基于此,在法律大数据的开发中通常并非直接使用全国的刑事文书,而必须对数据进行本地化处理。换言之,也就是将全国样本人为地分割为若干区域(通常按照省域)。更进一步,为了提升判决结果预测的精准性,在省域之内还需要再做次级区域样本的适配。此外,法律大数据的运用是高度主题相关的,不同主题的开发应用所使用的数据集也不尽相同。以“国家重点研发计划”发布的涉诉信访案件风险排查为例,其技术路径之一是将涉及信访的案件作为单独的数据集进行分析,挖掘其核心要素,进而形成风险提示的指标。同样的例子还有虚假诉讼预警系统的研发,其技术路径之一也是人为地将虚假诉讼的文书抽取出来,整合形成单独的数据集进而挖掘其中的要素,形成预警的指标。也就是说,对于涉诉信访风险提示与虚假诉讼预警的开发而言,重要的并非全样本,而恰恰是符合研发需求的适配样本。总而言之,对于法律大数据而言,没有最好的数据,只有最适合的数据。

2. 法律大数据的正确性(Accuracy)

众所周知,与商业领域相比,司法领域的容错率相当有限。民事司法可能涉及公民的人身与财产、刑事司法甚至涉及公民的生命与自由。错误的数据可能带来错误的关联,继而给公民权利带来直接损害。因此,与其他领域相比,法律大数据特别强调样本数据的实质正确性。在通用领域中,样本大数据质量的高低判断标准通常是纯技术的形式判断,比如数据缺失、数据重复、数据格式不统一等。一般而言,研发者并不需要对样本数据进行“对”与“错”的实质价值判断。以电商领域应用颇广的用户画像为例,网络运营者会根据用户在互联网上留下的网络足迹,分析不同主体的差异化爱好,进而进行个性化广告推送与差异化商品(服务)定价。在用户画像的过程中,研发者并不需要考虑何为“对”的兴趣/爱好、何为“错”的兴趣/爱好。与之形成鲜明对比的是,在法律领域中,作为各种算法训练基础的法院判决则很可能存在对错之分,法律大数据训练样本质量的高低判断除了借助技术逻辑进行形式审查之外,还需要依托专业逻辑——基于法学知识的专业判断。以现有的“同案不同判预警系统”的技术逻辑为例,其通过对历史海量判决的深度学习形成对法官在办案件判决是否偏离的评断。然而,若机器学习的历史判决中存在偏离法律原意的情形,那么“同案不同判预警”无疑会将历时性的“错误”进一步固化。同样,现阶段正在开发的起诉状自动生成系统的思路是通过海量历史起诉状的学习,形成特定的文书结构,并根据当事人的输入基础信息自动生成文书。在这个过程中,起诉状的训练样本质量极为重要。在我国的诉讼实践中,相当部分的起诉状由原告自己撰写,质量参差不齐。此时,摆在研发者面前的突出问题就是如何从中遴选出质量高的文书作为深度学习的样本。可见,在法律大数据中,基于法学专业知识对数据正误的价值判断是需要优先考虑的问题。

3. 法律大数据的易变性(Astability)

对于通用领域而言,数据的价值是相对稳定的,可以通过多次挖掘进行深度的运用,而对于法律领域而言,部分数据具有易变性,情境一经调整,原有数据将失去挖掘价值。这里可以举两种情形。其一,法律需要面临不同频率的修订与创制,相关法律更新与调整可能带来原有规则的彻底改变。换言之,法律调整之后,基于旧法而作出的相当部分法律判决将可能失去挖掘价值,或者说失去对未来法律决策的指导意义。其二,法律条文具有高度的概括性,其内涵并非完全明确。这就使得即使在条文未修订的情况下,特定法律的适用也可能随着社会环境或是司法政策的变化而变化。以“醉驾入刑”为例,司法实践中对入刑尺度的把握与特定时期的司法政策紧密相关。这也就决定了即使在相关法条不变的情况下,针对不同时期量刑大数据的挖掘也可能得出完全不同的量刑模型。概而言之,通用领域中,数据储存的量越大、时间越长,从中获取的信息往往就越多。然而,法律大数据则具有“保质期”,其效用可能随着法律和政策的调整而迅速地降低甚至失效。

   三、领域认识论的更新:法律大数据的知识发现逻辑

前文已经提及,大数据认识论所呈现出来的数据前置、技术驱动与去因果分析虽然在通用领域取得了良好的成效,然而,却不可避免地与法律领域形成演绎思维、因果思维与说理思维等方面的冲突。因此,在法律大数据基础理论的构建过程中,需要对其认识论进行更新,打造“轻量级理论驱动”的法律大数据领域认识论,进而形成符合法律领域需求的知识发现逻辑。

(一)轻量级理论驱动的法律大数据认识论

科技哲学的思想渊源流长,在此过程中,科学知识的生产方式一直面临大量的认识论挑战,因为如何获得知识的普遍基础从未出现,每种认识论都会受到来自不同角度的批评。大数据技术的应用本质上是建立在大数据分析基础之上的知识发现,是一种没有理论预设、基于数据驱动的经验主义认识论。该认识论产生之初,在技术进步话语的加持之下一度受到各界的追捧。“理论已死”“追求相关、放弃因果”“传统科学的重新配置”等论调开始进入人们视野。然而,随着大数据技术的发展,科学界对于数据驱动的经验主义认识论的反思也逐渐丰富起来。论者认为,尽管大数据提供了令人难以置信的知识和信息,但是却缺乏哲学基础,其在认识论上容易陷入经验主义的陷阱。

大数据认识论排除理论预设、以数据分析为前置,相信只要拥有足够数据,数据本身就能够说明问题。然而,数据产生于更广泛的知识生产操作,每个学科都有自己数据想象的规范和标准,就像每个领域都有自己被接受的方法和实践的演进结构一样。完全脱离理论的大数据挖掘势必会在数据到结构化知识再到因果推断之间形成鸿沟。图灵奖获得者朱迪亚·珀尔就认为,大数据分析和深度学习都在因果关系之梯的最低层级,没有任何智能可言。理论支撑与因果分析在大数据应用于社会科学界的过程中显得更加重要,因为在社会科学中,观察和数据收集更多依赖于研究者的世界观,而世界观又深受理论知识的影响。事实上,随着数据量的增加,在高度专业化的细分领域中,理论在大数据分析中的角色越发重要。在此基础上,科学界提出“轻量级理论驱动”(lightweight theory-driven)的大数据认识论,优化单纯以数据驱动的认识论。具体而言,“轻量级理论驱动”认识论是指将特定领域的理论结构映射到大数据的知识发现过程中,指导数据选择、参数设定、架构设计、结果分析。它试图超越单纯定量分析的经验主义范式,实现大数据与理论的协同。在协同过程中,理论支撑领域本体构建,而领域本体又形成了大数据挖掘与解释的结构、关系和边界。

作为社会科学的重要领域,法学有鲜明的领域特殊性。考虑到通用大数据认识论与法律领域因果思维、演绎思维等方面的不相兼容性所造成的负面影响,结合法律领域特殊性的法律大数据认识论反思就显得至关重要。笔者认为,这就需要更新通用大数据数据驱动的经验主义认识论,构建结合法律领域特殊性的“轻量级理论驱动”法律大数据认识论,将法学理论结构映射到法律大数据的知识发现过程中。具体而言,可以从三个方面展开:首先,通过法学理论构建法学领域知识本体,明确法律大数据挖掘的结构、关系和边界;其次,通过法学理论确定适合特定目标的法律大数据子集;最后,将法学理论作为法律大数据挖掘结果的解释性框架。需要特别强调的是,“轻量级理论驱动”的法律大数据认识论中的“轻量级”是指新的认识论是以大数据经验主义的认识论为基础,是对现有认识论的更新,而非从根本上颠覆。它主要是借助法学理论提供数据挖掘和结果分析的框架,对于法律大数据认识论中数据训练与模型生成等关键环节仍然依据经验主义的认识论。

(二)新认识论驱动下的法律大数据知识发现逻辑

在“轻量级理论驱动”的法律大数据认识论的指导下,法律大数据知识发现的逻辑也会产生相应的调整。所谓法律大数据的“知识发现逻辑”是指针对法律领域的特殊需求而专门设计的、围绕法律大数据展开的知识表示、知识抽取与知识输出。在技术领域长期存在着“道”与“术”的区分。具体的做事方法是“术”,做事的原理和原则是“道”。技术的更新迭代往往日新月异,而原理则具有一定的稳定性。从这个角度上说,法律大数据的“知识发现逻辑”实际上是法律领域大数据分析的“道”,它虽然也关注具体的技术点,但并非以技术点为核心,而是将技术点放置到法律大数据的认识论中去理解。“轻量级理论驱动”认识论指导下的法律大数据知识发现就是结合法学理论,对符合“3A特征”需求的法律大数据进行知识表示、知识抽取和知识输出的过程。具体而言,就是针对不同的主题(如类案推荐、办案证据辅助)进行知识本体构建,在知识本体构建的基础之上从各类大数据集抽取信息、训练模型、形成法律知识、装载到法律大数据仓库中并根据用户需求输出的过程。因此,法律大数据应用通常就是一个从某种法律数据中获取实质性的、有意义的知识(见解)的文本/数据挖掘过程。

1. 法律大数据的知识表示

借助法律领域本体的知识表示是法律大数据新认识论在知识发现过程中与传统大数据认识论最大的区别。原有经验主义的认识论以数据为前置,遵循去理论化的思路,其数据挖掘框架缺乏法学理论的指导,也就容易导致数据挖掘失去领域针对性。在此背景下,将法学理论与大数据分析相结合,构建领域“本体”(ontology)就成为应对这一挑战的重要方式。因此,法律大数据分析的第一步便是通过本体的构建来实现法律知识表示。本体原本是一个哲学方面的概念,后被运用到计算机科学领域,用以指代某一领域的概念定义以及概念之间的关系。本体使特定领域(如法律、医疗、金融)中的概念变得明确,以便计算机程序可以对它们进行推理。因此,“法律领域本体”是指在通用本体的基础上,以法律领域为描述对象的本体,它为计算机提供法律领域概念、定义、原理、理论与活动,其实质是以一种计算机可以理解的方式构建法律领域的概念体系。如刑事司法领域的罪犯特征、从轻情节、从重情节、犯罪地点、累犯情况等。实践中,法律领域本体由相互关联的“法律要素”构成,“法律要素”则通过“维度”表示。举例而言,盗窃罪的领域本体由“盗窃金额”“盗窃地点”等法律要素构成,而“盗窃金额”这一要素又可以通过不同维度表示,如“较大”“巨大”“特别巨大”。只有完成本体构建,计算机才知道法律文书大数据中什么需要读取,什么可以不必关注。法律大数据应用开发的有用性很大程度上取决于法律本体的构建质量。如果法律领域本体构建中出现问题或偏差,那么即使面对高质量的法律大数据也无法得出高质量的法律知识,基于知识之上的大数据智能应用便成为无源之水、无本之木。也正是在这个意义上说,法律知识的正确表示才是法律大数据应用开发过程中需要最优先考虑的问题,它搭建了从数据到知识的技术桥梁。

2. 法律大数据的知识抽取

领域本体并非法律知识本身,此时还需要借助信息抽取技术从每个个案中抽取领域本体框定的信息进而装载到法律知识仓库中。其中,信息抽取技术是数据挖掘领域对半结构化、非结构化的文书数据进行预处理的关键技术,旨在从文本中抽取指定的事件、事实等信息,并形成结构化存储。结合法律领域的特殊性,法律大数据的信息(知识)抽取过程可以概括为法律数据获取、法律数据标注、法律数据训练和法律模型生成四个环节。

第一,法律数据获取。法律大数据知识抽取的第一环节是获取相应的训练数据。正如前文提及的那样,法律大数据具有适配性,不同主题需要的数据样本不尽相同:判决结果预测的开发主要借助的是生效判决文书;证据有效性审查则更多需要卷宗中证据的支撑;起诉状自动生成则需要海量的起诉状作为训练样本。数据的获取使得法律大数据的开发具备了“原始数据”。考虑到法律大数据的“正确性”和“易变性”的特征,在选择训练数据时需要选择正确的样本集并特别关注法律更新与政策调整所带来的样本变化。

第二,法律数据标注。前文已经提及,法律大数据绝不能简单等同于大量数据,大量数据也不必然产生高质量法律知识。法律大数据的实质在于对海量非结构化数据的结构化处理进而形成法律知识。理论上,法律大数据分析的重要一步是将海量非结构化、半结构化的数据转换为法律大数据应用所需要的变量。这是因为非结构化、半结构化的数据并不适合用于数据挖掘与预测。此时,就需要根据知识表示环节建构的领域本体对“原始数据”进行标注。标注是大数据开发的关键环节,其实质是“原始数据”向“训练数据”的转换。目前实践中普遍采取自动标注与人工标注相结合的模式。以半结构化判决书大数据为例,对其分析与使用的前提是通过信息抽取技术按照领域本体自动挖掘案件被告人、案件起因、经过、结果、证据等关键要素及其维度,进而满足后续精准检索、类案推荐、量刑辅助的应用需求。其中,信息自动标注遵循“篇章分析→句级抽取→词级抽取→标注”的过程,难度逐步提升。具体而言,首先需要自动识别判决书的篇章结构,准确分割为首部、正文、尾部,并细化各部分的次级结构。在识别了篇章结构之后,进一步根据符号进行句子分割。然后,按照法律领域的专有词典进行分词,进而识别、抽取关键信息。由于缺乏面向分词的专用法律词典,实践中连篇章结构划分都无法达到100%的精确性。更为重要的还在于法律文书表述具有高度多样性,以“自首”为例,可能表述为“被亲友扭送至公安机关”。此时就势必需要借助自然语言处理技术(NLP)识别文字之下的真实含义。令人遗憾的却是,目前法律领域的专用NLP技术仍较为匮乏、功能有限,这就使得文书挖掘技术中自动抽取信息的精准性较低,往往需要大量人工标注予以校正。

第三,法律数据训练。在获取足够样本的、经过标注的训练数据后,就可以根据不同的主题对数据进行训练从而发现相关性。比如判决结果预测是发现各种案件情节与判决结果之间关联的过程;再犯风险预测则是发现被告人各要素与再犯风险之间关联的过程。从数学角度来看,法律数据的训练实质是在不同法律要素的维度之间拟合出特定的函数关系。当然,法律领域中,法律规律挖掘的准确性固然重要,但正如前文强调的那样,数据训练的过程还需要特别关注可解释性,这就需要对机器学习的技术进行优化进而形成可解释性的数据挖掘过程。在当前的模型训练实践中,既有采用传统的算法,也有采用深度学习算法,两者的关键区别在于算法是否具有“自我适应性”。不过,随着人工智能技术的不断发展,深度学习的诸多算法已经日益成为法律大数据挖掘中模型训练的主流选项。

第四,法律模型生成。将训练过程中发现的相关性进行固定,就可以形成各种预测与预警类模型。由此便完成了由数据到知识的转换。以量刑预测模型为例,其涉及的“法律知识”实际上就是不同情节与不同结果之间相关性的模型化函数表达。也正因如此,法律大数据主要是一种监督学习的模式——从已知结果中训练出特定的函数模型。

3. 法律大数据的知识输出

在完成了知识抽取之后,海量的法律大数据就完成了从“数据→知识”的转换。此时,就需要将这些知识装载到法律大数据仓库之中,便于后续的知识输出。知识输出实际上是法律大数据分析结果的应用过程。它又可以被区分为预测性分析(predictive analytics)与指示性分析(prescriptive analytics)两大类。前者关注将要发生什么、后者关注如何使其发生。无论是类案推荐、结果预测还是风险预警,均系将发现的法律知识依据需求进行输出的过程。以类案推荐为例,“类案类判是当前法律大数据与人工智能在司法领域最为热门的一项实践尝试,司法实务部门对类案类判抱持强烈的需求与期待”,类案推荐应用的技术逻辑围绕“领域本体构建→法律文书抽取→类案模型生成→类案推荐”四个步骤展开。首先,研发者根据每个罪名构建领域本体。其次,根据领域本体从法律文书中抽取相应的情节。如果我们将每一个案件视为一个单独的数据条,那么领域本体构建就是给数据条添加维度(变量),而信息抽取则是在维度中填充属性值。在前两环节的基础之上,将目标案件的属性标签与原有法律大数据仓库中所有案例的属性标签进行比对,计算相似度之后反馈给用户便实现了类案推荐。

尽管法律大数据的原始体量不大,但是经过知识表示和知识抽取两个环节的结构化处理之后却呈现出维度多、属性多、要素多的复杂性特点。由此按照维度抽取的数据信息存储在法律大数据仓库中就会造成数据量呈几何级增长。因此在法律大数据的运用过程中,保障数据仓库知识输出的高效性才是关键所在。具体而言,就是法律大数据仓库的索引体例必须满足法律知识属性多、要素多、复杂性高的特点,可以保障数据仓库的高可扩展性和高可用性进而实现大数据仓库法律知识的高效输出。

   四、领域方法论的优化:法律大数据的知识壁垒及其应对

法律大数据基础理论构建的重要方面还包括方法论的优化,尤其是需要明确法律大数据在知识获取过程中各种方法论的挑战与需求。从技术视角来看,大数据的方法论主要关注知识发现的详细步骤及其可能面对的技术困境。一般而言,大数据分析包括目标定义、目标数据创建、数据预处理、建模、测试、解释、评估、应用等步骤。在每个步骤都可能面临各种平台伸缩性、数据可用性、算法精确性、模型拟合性等诸多技术挑战。尽管上述技术瓶颈确实也在法律大数据应用中存在。然而,它们却不是本文方法论优化关注的核心内容。实际上,除了技术瓶颈之外,法律大数据的“3A特征”以及“轻量级理论驱动”的知识发现方式相结合,形成了法律大数据在方法论上面临的“领域知识壁垒”。把握“领域知识壁垒”的成因与表现,进而有针对性地提出应对之策才是本部分领域方法论优化的题中之意。

(一)法律大数据“领域知识壁垒”的表现

对于法律大数据开发面临的困境,许多学者站在通用技术角度,探讨了数据孤岛、数据难以互联互通等难点,但鲜有围绕法律领域特殊性,从方法论角度思考其面临的领域难题。实际上,在技术进步话语所凸显的技术瓶颈之外,法律大数据分析的每个环节还面临明显的“领域知识壁垒”。

首先,在法律知识表示中法律领域本体的构建需要大量法律专业知识的支撑。在技术人员的视角中,法律领域由规则构成,而规则的逻辑表达便于计算机进行演绎推理。因此,有人认为法律领域本体构建的难度低于其他领域。然而,实质的情况却是,法律通常是模糊的,句法及语义有时模棱两可,并且受到结构不确定性的影响。这些都导致了法律本体构建具有不同于通用领域建模的复杂性。对此,我们可以从三个方面展开。其一,法律大数据的知识表示通常是在法律专家的知识之上建立的专家规则。由于本体的构建是面向一线司法应用的研发展开的,因此不仅需要有丰富的理论知识指导,更需要有充足的实践经验支撑。其二,不同主题的知识本体有着不同程度的差异。量刑辅助系统开发过程中的知识表示主要关注罪犯特征、从轻情节、从重情节、犯罪地点、累犯情况等与量刑密切相关的情节体系构建,而“统一证据规则”的知识本体则主要是构建待证事实与不同证据之间的关联结构。基于法条的法律推理建模方式也不同于基于案例的法律推理建模方式。其三,法律的领域本体还具有维度多、属性多、要素多的复杂性特点。由是观之,即使面对具备“3A特征”的样本数据,但如果在法律领域本体构建时未能进行慎重考虑与筛选,就不可能形成完备的本体框架,数据挖掘方向将可能偏差,造成“失之毫厘,谬以千里”的结果。实际上,当前法律大数据研发面临的核心障碍就是法律领域本体的构建。尤其考虑到各类诉讼案由众多,每种案由的领域本体不尽相同,同案由不同主题应用的领域本体也存在差异。

其次,在法律知识发现的数据获取和数据标注环节也离不开专业知识。前文已经提及,法律知识发现分为数据获取、数据标注、数据训练和模型生成四个环节,其中前两个环节是后两个环节的基础。没有合适的训练数据就无法进行有效的数据训练,也就更无法获得准确的法律大数据模型。诚然,教育、金融等垂直领域的大数据技术开发在数据获取方面也面临一定困难,比如数据量不足、过程数据未完全记录、数据标准不一、数据质量不高、数据系统分散、数据获取方式单一等。这些问题,法律领域也一定程度上存在。然而,本文提及的数据获取难更大程度上是由法律领域大数据“3A特征”所导致的。具体而言,法律大数据具有适配性和正确性的特征,这使得对于训练样本的选择需要法律专业人员提供知识支持,由此无形之中提升了样本获取的难度。此外,前文已论及,当前法律大数据标注环节受限于NLP技术的准确度不足,因此需要人工辅助标注,在此过程中同样需要专业知识的嵌入。在通用大数据领域,常人使用常识就可以实现高质量、高效率的样本标注,比如无人驾驶研发时对图片中各种人、车、路等元素的识别,或者图像识别开发中对物品、动物、颜色、大小、形状、产地、价格等日常生活熟悉对象的标注。而在法律领域中,标注就变为动产、孳息、过错、物证、书证等专业术语和专业的法律关系。以近年来名声大噪的法律问答机器人的研发为例,其技术路径重点关注如何为用户的提问寻找最合适的答案。在技术开发过程中,这一工作通常需要分为三个环节。第一个环节确定问题的实质。如果用户询问“工商局什么时候可以吊销营业执照?”那么问题关注的实体是“工商局”“营业执照”,实体间的关系是“吊销”。第二个环节需要从已有的知识库中寻找可能相关的答案。第三个环节是为可能相关的答案计算相似度,从而获得最佳答案的概率。在此之前,要通过神经网络进行有监督学习,即法律专家将特定的问题与特定的答案进行对应,从而形成问题与答案之间的大数据(问答对);在此基础上通过深度学习的算法对海量问答对进行训练,得到相应的问答模型,以实现更加精准的对应关系。考虑到人类语言表述的多样性以及法律领域中日常用语与法律用语的“语义鸿沟”,这一工作面临极大的难度。有专家就无奈地指出,很难想象能够将法律领域的数据标注工作分解成足够简单的任务,以供人工注释者在没有一定程度的法律专业知识或培训的情况下从事标注。在很多时候,标注者实际上需要了解案件的整体事实和法律背景,从而做出准确的标注。这无疑进一步强化了标注工作的“领域知识壁垒”。因此,在实践中,开发主体通常需要聘请资深的律师负责数据的标注。国外的法律技术应用研发中,已经开始安排法学院学生参与数据专业标注。同时,将法律知识标注与法学教育结合的探讨也开始出现。更为重要的还在于法律领域的标准还面临标准统一性的难题。法律知识表示过程由于推论的间接性和文本来源的分散性,使得多人标注标准难以统一。不同标注人员,即使都具备深厚的法学专业知识,其对同一标注对象也可能会形成不同的判断,比如对裁判文书争议焦点的判别。也正因如此,法律领域的标注中标准统一性至关重要。这也决定了法律大数据的标注不能仅仅通过通用领域的众包标注的方式。概而言之,数据标注的可靠性是后续研发成功的关键,法律领域的特殊性使得数据的获取难度和成本要大大高于通用场景。

最后,在法律知识应用环节也存在着专业知识障碍。在通用领域大数据应用的过程中,通常会面临“单向度”的认知障碍——需求者有时候不清楚技术能够解决哪些问题,缺少对于技术能力和实现逻辑的理解,但是对于技术者而言,理解需求者提出的通用诉求并无根本障碍。然而,在法律大数据的应用过程中却出现了典型的“双向度”认知障碍:一方面,法律人,尤其是实务部门一线工作人员由于技术知识背景的缺乏,对技术逻辑十分陌生,不清楚技术能够解决哪些业务问题,也就无法向研发主体提出准确的大数据需求;另一方面,法律人提出的同案同判、财产保全风险预警等诸多业务需求对于技术人员而言也往往具有一定的理解障碍。横亘在法律大数据技术研发人员面前的鸿沟往往并非技术的瓶颈而恰恰可能是法律人的“常识”。

(二)法律大数据“领域知识壁垒”的应对

面对法律大数据的“领域知识壁垒”,需要在领域方法论上予以应对,通过推动法学与技术的有机融合,提升法律人在法律大数据研发中的地位。与此同时,结合法律大数据的领域特征,开展专有的法律大数据技术创新。更为重要的还在于,要转变法学人才培养的模式,打造法律知识工程师的培养体系,以形成破除法律大数据“领域知识壁垒”的有生力量。

1. 强化法律人在法律大数据研发中的地位

法学理论与技术研发的对话合作,是破除法律大数据“领域知识壁垒”最基本的方式和途径。对于法律大数据行业而言,需要强化法律人在大数据研发中的角色与地位,树立法律人与技术人共同主导的理念。长期以来,法律大数据的研发奉行技术主义的路径,计算机技术人员占据主导地位。法律人在这个过程中常常游离于核心环节之外,无法实质介入法律大数据的研发过程。随着法律大数据本体论的构建以及“轻量级理论驱动”的法律大数据认识论的形成,法律大数据研发不仅要充分考虑技术障碍的解决,更要关照“领域知识壁垒”的突破。由此,法律人的角色就应该由“游离”转向“嵌入”,不仅关注理论研究、伦理规制、实践观察与成效评估,还要实质参与技术研发,扮演法律知识工程师的角色。当然,笔者对法律人在技术研发中地位的强调并非以“专业主义”来构建一种“法律人保护主义”。从域外法律大数据开发的过程来看,法律人扮演着极为重要的角色,比如斯坦福大学法学院就孵化了一系列的法律大数据创新项目。不少法律科技公司也采用“法律人+技术人”的双创始人结构。可以说,法律大数据的开发离不开法学与计算机科学的深度融合。具体而言,法律人需要在以下环节中结合专业知识扮演积极角色。(1)法律需求分析:从专业角度分析法律大数据的实际需求,确定大数据开发的目标与方向;(2)法律领域本体构建:根据不同主题建构差异化的法律领域本体,为法律大数据分析提供基本框架;(3)数据训练集确定:法律大数据具有适配性的特点,法律人需要结合专业知识为技术人员选定合适的原始数据集;(4)法律数据标注:法律大数据的模型训练需要借助高质量的数据集,这就需要法律人通过专业知识完成高质量的数据标注,将非结构化、半结构化的原始数据转换为结构化的训练数据;(5)法律模型的校验:法律大数据的训练过程需要借助各种算法,训练结果也可能形成差异化的模型,此时法律人还需要借助专业知识对模型准确度进行校验,为技术人员优化算法与模型提供方向。同样以类案推荐为例,当前对于案件相似度的计算采用多种不同的算法。对于算法推荐的准确度,则需要法律人员结合专业知识来判定两个案件之间的实际相似度。当然,必须承认的是,法律人远离技术的现状也在逐步改变。在2018—2019年两年间,东南大学、中国社会科学院大学、清华大学、四川大学、西南政法大学等高校法学院都成功申报了科技部发布的国家重点研发计划(司法专项),获得1000—3000万元不等的科研经费支撑。这一现象具有里程碑式的意义,它既体现了传统法学学科对于前沿科技的重视,同样也体现了科技界对于法律人主导部分技术研发的认可。

2. 推动法律领域专属大数据技术的创新

法律领域大数据的“3A特征”及其技术路径,决定了法律大数据应用的研发需要面临更高的专业门槛、技术需求和成本投入。因此,就需要结合法律专业知识着力推动法律领域的专有技术创新。通俗而言,就是要做“创新者”而不是“搬运工”。

第一,推动法律领域本体的半自动化构建技术。前文已反复提及,法律领域的本体构建与主题高度相关,差异化的业务需求对应不尽相同领域本体,由此也就不存在法律领域的通用领域本体。也正因如此,现阶段的法律领域本体通过分主题人工构建的方式推进,大大限制了法律大数据应用对案由和业务需求的覆盖程度。从技术路径来看,法律本体构建分为“自顶向下”和“自底向上”两种模式,前者是指事先人为设定好的知识框架、后者则是事先不设定案件知识结构,通过对海量裁判文书的深度学习自主获得领域本体的框架。目前,由于法律领域高度的专业性,“自顶向下”的模式成为主流,因此法律领域的知识本体构建主要是人工构建。尽管随着NLP技术的发展,自动化的标注方法可以识别语料库中看似重要的概念和关系。然而,当前自动化仅可以标记候选概念和关系,以供人类专家考虑。换言之,仍然需要大量人工的介入。未来的发展路径看,不解决“自底向上”的自动化/半自动化构建的瓶颈,那么将极大地限制法律大数据应用的覆盖面。因此,下一阶段需要着力推动法律领域本体的半自动化构建,通过“机器学习+法律专家校验”的方式提升构建效率与准确性。

第二,推动法律训练样本的质量控制技术。“垃圾进、垃圾出”是大数据领域的共识。数据质量直接决定着训练的结果和模型的准确性。然而,正如前文强调的那样,法律领域大数据的质量控制与通用领域截然不同,前者需要进行价值判断(对与错、优与劣),而后者通常只需要形式判断(数据格式、完整度等)。因此,摆在法律大数据研发面前的重要技术瓶颈就是如何将“对”的文书从海量的文书中遴选出来进行模型训练。这一技术瓶颈恰恰是由“领域知识壁垒”所形塑的。当前,不少研发主体采用了“鸵鸟政策”,比如告知实务部门虽然样本可能有“错误”的文书,但由于数量较少,不会影响模型的训练。应该说,此种解释值得商榷。从机器学习的训练路径来看,其采用的是情节与结果拟合运算的方式,任何量刑与结果的组合都会不同程度影响到量刑模型。因此,从法律领域的特殊性出发,势必要求独特的样本质量控制方案,诸如将被上诉的一审文书剔除或提高资深法官判决的权重。

第三,推动法律知识库的自动更新技术。法律领域的知识可能随着法律修订而改变,因此对于业已构建的法律大数据知识库就必须慎重对待法律制度的变迁。这就需要结合深度学习和注意力机制,从最新的法律法规、裁判文书、用户数据中抽取新的关系与属性,同现有知识库进行比对替换,从而实现法律知识库的更新。

第四,推动法律领域大数据模型的可解释性迭代。由于机器学习中神经网络的特殊结构,导致数据训练和模型构建过程中缺乏可解释性。这一技术瓶颈阻碍了大数据在法律领域的深度运用,因为对于法律从业者而言,量刑预判过程的透明性可能比预判结果的准确性更为重要。换言之,在法律人工智能的研发进程中,需要斟酌的不仅是技术上的障碍,还应该考虑法官等法律人的接受度。故而,面对一线干警对算法可解释性的高度关注,研发人员也决不能用“神经网络天生不具备可解释性”而一带而过。值得关注的是,可解释性的神经网络已然成为技术研发的全新方向。其主要思路包括特征可视化、在特征粒度理解模型决策、将深度模型进行可解释性优化等。

第五,推动法律领域专有大数据支撑技术的研发。首先,大力推进法律领域自然语义处理技术研发。当前法律领域的自然语义理解技术平移运用通用领域的相关技术,与法律领域需求不完全适应,尤其无法回应法律领域中法言法语与日常用语的语义鸿沟。同时,法律领域的自然语义理解技术是法律知识自动抽取过程中提升准确性与效率性的关键所在。该技术若无法得到有效突破,法律领域的数据标注就要依赖大量人工的介入。同样,法律领域自然语义理解技术还潜在地对法律文书生成等应用领域形成制约。因此,在下一步要推动法言法语与日常用语在语义空间层面的协同映射与对齐。其次,大力推进法律领域光学字符识别技术(OCR)的研发。对卷宗材料中图片的准确OCR识别是实现非结构化数据向结构化数据转换的关键一步,也是批量产生训练大数据的关键环节。当前,通用领域的光学字符识别技术在面对通用领域识别需求时已经有着极高的准确率(尤其是面对标准的打印后扫描件)。然而,在法律领域中,OCR技术则面临极大的挑战:一方面,案件卷宗,尤其是证据中有大量手写体文件、非规范文件的扫描版;另一方面,案件卷宗文件中还包含大量下划线(如讯问笔录)、指纹按印、加盖公章与文字重叠等问题。面对上述特殊的领域需求,OCR技术的准确率急剧降低。因此,下一步还需要针对法律领域的特殊需求,推动OCR技术的优化迭代,尤其要突破手写体、重叠体、下划线、指纹覆盖、公章覆盖等图像识别的技术瓶颈。

3. 打造法律知识工程师的培养体系

法律大数据应用的研发离不开大量“既懂业务、又懂技术”的法律知识工程师的参与。不具有计算思维的人难以意识到怎样的法学问题是可计算的问题,而没有法学思维的人根本就提不出有法学研究意义的问题。因此,摆在法学院校面前的重要任务还包括建设人才培养平台,构建“大数据+法学”学科建设与复合专业人才培养体系。考虑到法学院学生的专业知识背景,复合人才的培养并非要求其实质掌握算法、模型的开发方式,而是要对法律人工智能的技术逻辑有整体的把握,对前沿技术有基本了解。举例而言,法律知识工程师只需要知道类案推荐中相似度的计算可以采用基因算法(GN)、最近邻算法(KNN)等方式,并且知道各种算法的优劣即可,至于如何开发上述算法则不在其关注之列。尽管法律知识工程师需要重点掌握的是法律大数据的“道”,而非“术”,但数学、统计学的基础知识同样不可或缺。唯有真正意义上构建交叉学科人才培养模式,法律人才能更好地成为一线实务部门与技术研发主体之间的沟通桥梁。一言以蔽之,法律人应该更多地参与到法律大数据的研发之中,贡献应有的力量,而不是敬而远之、置身事外、听之任之。

上述培养模式的改革与当下如火如荼进行的“新文科”建设不谋而合。2018年10月,教育部等部门决定实施“六卓越一拔尖”计划2.0,“新文科”的概念正式浮出水面。在此背景下,各地高校法学院也开始探索“新法科”的建设。一般认为,当今时代科学技术迅猛发展,社会需要更多高素质的复合型人才,“新法科”建设的重点内容之一就是推进法学与其他学科,尤其是自然科学的真正交叉、融合。由此,法律知识工程师培养中注重的“法律+大数据”“法律+人工智能”的理念也就顺应了“新法科”建设的整体要求。尽管如此,新法科建设仍然面临不小的障碍,尤其是法科学生较为普遍的文科背景。因此,下一阶段,如何设定符合法科生实际的培养方案与课程体系,组织合理的师资力量和充足的制度支撑就成为新法科建设中各高校法学院需要共同面对的问题。

结语

目前,法律大数据的开发与应用尚处于起步阶段。相当部分研发主体并未充分意识到法律领域的特殊性。在实践中,表现为借助通用大数据技术分析法律大数据,并将法律大数据视为通用技术在法律领域的平移运用。更有滥竽充数者将传统信息化技术包装成法律大数据与人工智能技术制造噱头、博取关注。任由上述现状的存在最终将不利于法律大数据的发展。大数据道路尽头法律行业的终极样貌固然值得眺望,但从当前法律大数据真实现状出发的反思同样重要。因此,识别法律大数据的真实特征、把握其技术逻辑,进而从实践中去伪存真就成为推动法律大数据健康发展的重要前提。本文正是在这个意义上展开的一次有限尝试。法律大数据“领域理论”的构建并非为了给大数据技术的应用设置障碍。相反,领域大数据理论的构建恰恰是从优化法律大数据应用、提升成效的思考出发,推动“通用”与“领域”的有机结合。具体而言,“3A特征”是在“4V特征”之上的扩展;轻量级理论驱动是在大数据认识论之上的优化;“领域知识壁垒”的破除有利于技术障碍的扫清。当然,本文对法律大数据基础理论的构建只是“领域大数据理论”的开端。未来,还可以在法律领域内不同细分场景中进一步深化法律大数据本体论、认识论与方法论的相关研究,以期为法律大数据的应用与推广提供充足的理论支撑。

END

中国金融服务法治微网祝您劳动节快乐!

封面正文图片来源于网络。
为方便阅读已省去参考文献。

好书推荐
中华人民共和国证券法新旧条文对照与适用精解 作者:邢会强书号ISBN:9787521608441中国法制出版社(点击文末“阅读原文”获得此书购书链接)


长按识别二维码

本微信公众平台依托“中国金融服务法治网”而运作,并与网站形成互补,旨在宣传金融服务法治理念,传递金融服务法新鲜资讯,推动金融服务法学科的建设。欲获取更多金融服务法学科资料,欢迎登录中国金融服务法治网:

http://www.financialservicelaw.com.cn.

敬请长按识别二维码,关注微信公众号.

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存