曾经发问卷办座谈，大数据时代的法律实证研究有什么新玩法？

原创 2017-09-18 侯晓焱 元典法律大数据

截至今年9月，中国裁判文书上网总量已达3300多万份，刑事裁判文书日增成千上万篇，如此海量的、动态的、多样的数据，不免让每一个热爱法律检索与实证研究的人，心怀憧憬，跃跃欲试。

笔者是法律实证研究的铁粉儿，十几年的检察实务研究工作中，曾经跑看守所询问在押人员、发放问卷、翻阅案卷、召开座谈、查找法律年鉴、检索案件管理系统，几乎穷尽各种途径，想去发掘某个领域的法律实施效果，服务法律的解释与完善。

记得十几年前，我写了一篇关于检察官审查起诉裁量权的论文，分析了几组不起诉数字的变化背景，发表在《Hong Kong Law Journal》,美国纽约大学法学院Jerome Cohen教授读后，曾经好奇地问我是怎样搜集到那些数据的。如今，大数据来了，不仅法院裁判文书上网，打开“元典智库”，检察机关的起诉书、不起诉决定书也查询得到，实证研究爱好者们的未来已来！

如果要为大数据下的实证研究描绘出一个实现路径的话，那就是“知识+数据+算法”。

传统的实证研究有时体现为个案分析，解读立法或透视个案折射的问题；有时体现为收集一定样本，进行全样本分析，发现特点和趋势，针对同一问题，可以不断丰富样本，从实证分析角度进行多次研究，将结果进行综合、对比，促进实证研究的发现日益全面和精确。

同时，实证研究通常遭遇样本数量不完整、样本质量缺乏保证的质疑。笔者看来，一方面，不能将这些绝对地视为问题，因为实证研究方法本身的优势可以使我们超越这些问题获得重要发现；另一方面，随着大数据时代的来临，实证研究获得了升华的时机。法律大数据蕴含着重要的价值，算法又可以实现大量数据的关联和聚合，增强对数据的分析处理能力，为传统实证研究赋予了开创新空间的可能。

以非法证据排除专题为例，可以具体看一下学术研究包括实证研究的状况。

2010年两高发布关于证据的两个规定，带有一定超前性的规定引领了非法证据排除的司法实务探索；2012年我国刑事诉讼法修订，正式确立了非法证据排除的立法制度，由此，在刑事诉讼法修订前后，非法证据排除这一话题始终是研讨热点，2011年至2016年我国期刊中发表的相关论文数量每年均超150篇。

另一方面，理论分析类论文居多，实证研究占比微小，按照关键词中包含“调查”“实施”等来缩小查询范围，得到相关文献篇数每年都是个位数。而且，实证研究的样本数量少则几十件，多则几百件。

笔者与同事曾于2015年分析了2013年和2014年北京市审判机关实施非法证据排除的情况（参见《人民检察》2015年第10期），筛选后纳入分析的案件为三十余件；再如，有研究者研究了“非法证据排除规则实施背景下的庭审翻供问题研究”，样本选自“北大法律信息网”2011年到2013年公布的庭审阶段翻供的刑事案例共655个。

上述研究，所得结论的启发意义毋庸置疑，不过，样本都经过了人工筛选，都是对于局部状况的描述。随着我国裁判文书公开的推进，公众希望勾勒了解研究领域全貌的意愿日益强烈。人们想知道：

全国有多少刑事案件涉及了非法证据排除申请？
其中有多少有辩护律师参与辩护？
申请时能提出相关线索或材料的有多少？
法院真正启动非法证据调查程序的案件有多少？
控方对排除申请的举证情况如何？
最终法院决定排除非法证据的有多少？
因排除非法证据而判决无罪的案件有多少？

公开的刑事裁判文书已多达数百万份，如果能比较准确地回答上述问题，将有助于立法机关掌握法律的实施效果，有助于司法机关了解自身个体角度的司法情况在司法全景图中的位置，更助于发掘问题提供给学者加以深度分析，输出观点和建议，对数据富矿处理分析，将数据驱动纳入国家决策之中，使大数据分析成为国家的智库担当。

前大数据时代，我们主要使用关键词检索，如以“非法证据排除”或者“非法证据”等关键词去查找匹配文书，再对文书进行人工审查，手动建立Excel数据库，分析、统计，同时也会发现关键词检索的不精准：用“非法证据排除”、“非法证据”作为关键词，会遗漏那些没有如此表述的裁判文书，还会把一些实际没有申请、启动非法证据排除程序的案件误纳入研究对象，难以准确搜索专题需求。

大数据时代，在元典，面对海量文本，我们将法律与技术融合，尝试一种有别于关键词检索的文本挖掘方式。我们用“法律要素”代替“关键词”，在更大的范围内尽可能准确地匹配检索需求。

如果想检索提出非法证据排除申请的文书，就将“申请非法证据排除”作为一个要素，它由几组概念组成：

一是“申请”，在文书中的表现丰富，如“提出”、“认为”、“辩称”、“指出”、“申请”、“提交”、“请求”等；

二是“非法性”，在文书中体现为刑讯逼供、殴打、强迫、恐吓、引诱、非法证据、非法取得、瑕疵、伪造、来源违法等；

三是“证据”，在文书中体现为鉴定意见、鉴定结论、证据、供述、口供、笔录、取证、证言、体表、视听资料等。

可见，体现我们查找目标的词语是纷繁复杂的，这些词语经机器处理后就形成实现“申请非法证据排除”这一要素的规则，这种规则在浩如烟海的文书库中运行，挖掘出的结果比单纯的关键词匹配出来的覆盖面更广，文书检索效率大幅提升。

人工审查阅读文书与计算机自动匹配分析文书，二者各有所长。

人工审查文书的优势在于：人脑阅读文书时可以迅速调用储备的专业知识，精准地统计研究对象，还可以在阅读文本过程中，迸发灵感，发现预先没有纳入思考范围的研究重点，丰富研究框架，这是机器难以比拟的；劣势在于人类会疲惫，处理成百上千的文书尚可勉强应对，而面对数以万计乃至更多的文书时脑力面临极端挑战，不仅会失误，而且容易因结果未知而放弃。

数据挖掘的优势在于：在规则正确的情况下，机器可以在无限丰富的数据库中不舍昼夜、不知疲倦地运行，根据既定程序去匹配目标文书，还有机会通过数据关系的客观呈现发现预设问题之外的关注点以及不同要素之间的关联关系，为研究打开新视角；劣势在于，挖掘算法的确定需要以人工观察文书的效果为前提，人工观察海量文书永远不会穷尽一切情况，以此为前提的算法在结果上也就不可能实现百分百精准度，而是在研究者可以接受的精准度范围内发挥作用。

所以，我们务必重视人工审阅与机器分析之间的相辅相成关系。在法律实证研究的某些领域，无法完全依靠机器，而是必须通过掌握精深专业知识的人士的分析。最初由人类观察分析后发现规律，制定规则，教给机器学习，在此过程中人类通过检测和纠错去监督机器学习，而且，在解读数据结果时专业人士也不能缺席。著名的《牛奶可乐经济学》一书中，探讨了许多生活中蕴含着经济学原理的有趣事件或行为，例如，“为什么医生倾向于开过量的抗生素”，“为什么平均分摊账单使人们在餐馆里花钱更多”，这些问题的提出需要一定的数据积累为前提，而对数据结果的解读却非大数据所能胜任，需要运用传统的访谈、调查来解决，在这些环节中人脑的智慧依然不可替代。

除了挖掘因果关系时需要专业人士的投入，在研究逻辑关系复杂的法律问题时，计算机算法当前也遇到挑战。例如，在非法证据排除研究中，如果希望通过前述的要素式研究挖掘刑事二审案件中非法证据排除规则的适用情况，鉴于知识图谱构建的难度，当前的计算机程序算法尚需跨越障碍。所以，一个公允的态度是，从事法律大数据研究，需要理念开放，头脑冷静，我们在笃信科技作为先进工具的神奇力量的同时，也必须坦诚面对当下法律人工智能面临的困难，它呼唤法律人士与程序工程师在专业方面的深度融合。

作者：侯晓焱

华宇元典法律专家

法学博士，留美法学硕士

2015年获评“北京市检察业务专家”

清华女神，34岁的美女博士县长，辞职了

薄公子低调成台湾女婿 23日已在台举办婚礼

警察殴打打人学生，舆论撕裂的背后

你手放哪呢，出生啊

故宫蛇年限定款藏书票，错过再等12年！