查看原文
其他

当提及司法大数据,我们在谈论什么

2017-06-13 李斌 法律读库

今天大家都在谈的大数据、人工智能、机器学习,其实都离不开海量数据的接入,无论是阿尔法狗对决围棋冠军还是谷歌的在线翻译,都是基于对数据的大量输入+复杂运算,从而得出类人工智能的产品输出。由此,有专家预言,在工业4.0时代,数据相当于生产资料,互联网相当于基础设施,云计算相当于生产工具,三者共同组成了信息时代的生产关系。

对于数据的掌握和分析,将使人类第一次脱离自然能够创造出独立的生产力,触目可及的广告精准投放、新媒体的定向新闻推送等等都让人置身于一个数据不断产生又不断复用的新时代。与此同时,作为坚守社会底线的司法机关,应当如何应对数据化、信息化的机遇,解放司法一线办案人员的生产力,提升司法质量,“让人民群众每一个司法案件中都感受到公平正义”,这就需要从司法数据本身以及司法数据的利用开始谈起。

注:本文数据,如无特殊说明,均采集截止至2017/6/5

司法数据应当如何定义


对于司法数据的分类可依不同标准,如根据司法机关的不同分为法院数据和检察数据,或者根据主体的不同分为案件数据和管理数据,甚至还可以根据不同的业务条线进行详细的划分。这里,我们更想强调的是聚焦在“司法”本身,以办案为圆心,定义分布在办案周围的各种数据。

按照前两天传遍朋友圈的一份“江苏清单”对于什么是检察办案种类进行了详细列举,涉及10个条线138种案件清单。虽然其科学性和合理性还存在一定争议,但总体上将案件的范围、办案的界限进行了框定,由此也决定了在这些案件办理过程中,就会有相应的办案数据产生、同时也会有相互关联的数据会对办案产生影响。如参与办案的人员数量、能力情况、办案工作时长等都会成为分子,在办案量既定的情况下,影响办案效率和办案质量。由此可见司法数据应包括以下几种:

1.案件本身的数据

这是最为常见、也是最能为人理解的司法数据种类。以刑事公诉案件为例,案件从立案、侦查、审查批捕、审查起诉到最后审判、执行,整个过程中,物理形态从证据材料到电子卷宗、系统数据、法律文书等等,但其中涉及的数据种类无外乎案件实体数据,如犯罪人主体身份数据、犯罪行为数据、犯罪结果数据等,以及根据案件流程不同产生的案件程序数据,即在办案过程中产生、沉淀的案件数据,如诉讼经过、侦查监督等。

数据存在的形式刚开始可能是一份份笔录、证言、书证、物证,最终经过办案人员整理,形成终结性的办案文书,载明上述数据的内容和明细,同时将相关数据进行结构化处理,输入或者上传至办案系统,从而在实体和线上都留存了相应数据。实体数据多以文本的形式体现;线上数据,尤其是检察院统一案件管理系统、法院智能办案辅助系统的广泛适用,更多的表现为结构化的字段以及电子文本。

当这些案件数据沉淀下来、汇集起来的时候,又可以产生趋势性或者预测性的司法判断,以案例集、数据报告等形式存储,为当下以及未来的案件提供数据支持。

2.办案主体相关数据

这方面的数据往往不被司法一线人员重视,因为他们作为数据的使用者,往往忽视了自己也是数据的生产者。但在员额改革的今天,主体相关数据就显得尤为重要。例如统计年鉴中经常会涉及的政法事业编以及现在所提及的员额法官、检察官数量,都是办案主体总体上量的规模统计,但对于每名主体质的评价,也应该是司法数据应该涵盖的范围。

如可以根据每名法官的结案数量、结案率、结案周期、卷宗册数、案由类型、文书说理占比(判决中“本院认为部分”字数占全部判决书字数的比例)、保护力度(判决书裁判结果中的裁判金额/当事人诉请金额)、案件平均开庭次数、论文报告、案件第三方评价等多个维度对每个法官的能力情况进行立体展示,甚至可以通过团队平均值来计算每名法官的偏离度情况,以更好的识别优秀办案能手,做到能者就列,真正发挥员额制的作用。正如周强院长在东盟大法官论坛中指出的“通过行政事务、人事管理、决策支持等方面的信息化建设,切实提高司法政务管理科学化水平”。

3.办案相关物质保障数据

与上面两个数据相比,这项数据更不容易与司法数据进行关联,但所有的办案行为都需要借助一定的物质基础,比如提讯犯罪嫌疑人,因为看守所一般都离检察机关办案场所较远,来回的在途时间以及车辆保障就是确保案件能否按时、高效完成的重要因素,甚至有的单位车辆不足的情况下,会采取每周发车一次的做法来变相限制办案的及时性,在移送法院审查起诉、退回补充侦查等过程中也会遇到类似问题,由于案管部门人力、物力保障不足,会与办案部门口头约定每周几次的送案时间,这也导致了办案期限的人为延长。

由此,也需要用科学数据或者技术的方法来化解这些人为设限,比如可以通过远程提讯的方式解决在途的问题,通过电子卷宗传递的方式解决流程衔接的问题,通过对司法机关整体物质保障情况进行梳理,建立动态、实时的人员、车辆调配体系,切实保障一线办案部门的需求。

4.上述几种司法数据进行相互关联、激活,可以产生更大的生产力

既往大数据强调的是以数据为核心,现在随着区块链技术的成熟,数据应用强调是以人为核心,打破传统数据条状化所带来的单维相关率问题,在数据自由流动的前提下,以司法主体、组织等不同主体为起点,通过历史数据与实时数据的融合、线上数据与线下数据的融合、文本数据与结构化数据的融合,寻找办案之间、办案与非办案行为之间的关联关系,通过每一个数据元的激活和释放能力,让司法系统乃至司法系统之外的每一个人都根据自己的自由联想和思维逻辑表达想法,相互启发,以达到新思维的碰撞、创新。

司法数据的开放是司法公开的应有之义


1.司法公开已经从司法信息公开迭代到司法数据开放阶段

政府信息公开,抑或司法信息公开是上个世纪末提出的,基于当时的窄带网络技术水平,政务公开只能进行政策法规、办事公开等网页式的信息发布,目的是基于互联网的手段将政府的能力边界、办事要求等进行无边界的公开;十年之后,随着宽带技术乃至5G社会的到来,互联网带宽及大数据处理能力的提升,政府采集的数据量已经越来越多,而且用户已经不满足于直接看到政府的分析结果,而是希望对政府数据进行创造性的开发,从而创造更大的价值。以裁判文书公开为例,裁判文书从线下公开到网上公开是对原司法公开范围的一次扩大,同时也引发了各种商业企业的介入,利用爬虫等技术获取到原始裁判文书数据,进行后台文本结构、加工后,可以针对裁判文书数据进行深度挖掘和探索,如针对某一地区某类案件的发案情况、某一地域的法官裁判情况等进行深度解读,可以更方便的了解案件处理趋势和应对策略。但这种文书公开还不能算作数据开放,数据开放更强调的是原始数据、可机读数据的开放。

2.数据开放已经成为政府治理的重中之重

2013年6月份G8峰会召开并签署开放数据宪章,约定了开放数据的5大原则、14个重点开放领域和三项共同行动计划。力图推动政府更好地向公众开放数据,并且挖掘政府拥有的公共数据的潜力和对经济增长的创新,同时也可提高政府的透明度和责任。其中犯罪与司法犯罪统计、安全作为14个重点开放数据领域之一也被纳入其中,各国均已开始了数据开放的进程。

序号

数据集实例

1

公司公司/企业登记

2

犯罪与司法犯罪统计、安全

3

地球观测气象/天气、农业、林业、渔业和狩猎

4

教育学校名单、学校表现、数字技能

5

能源与环境污染程度、能源消耗

6

财政与合同、交易费用、合约、招标、地方预算、国家预算(计划和支出)

7

地理空间地形、邮政编码、国家地图、本地地图

8

全球发展援助、粮食安全、采掘业、土地

9

政府问责与民主政府联络点、选举结果、法律法规、薪金(薪级)、招待/礼品

10

健康处方数据、效果数据

11

科学与研究基因组数据、研究和教育活动、实验结果

12

统计国家统计、人口普查、基础设施、财产、从业人员

13

社会流动性与福利住房、医疗保险和失业救济

14

交通运输与基础设施公共交通时间表、宽带接入点及普及率

如美国自2009年设立的data.gov数据公开网,截止目前(2017/6/5)已经公开了193455个数据集,涵盖联邦、各州、市镇、大学、NGO、公司等166个机构、639个主体。以司法部公开的数据情况为例,总计涉及1058个数据集,涉及美国犯罪报告(2014年度)、监狱再犯罪报告、校园性犯罪等,涉及数据从1970’s-2016年。

3.国内政府开放数据的示例

国内出现最早的省级政府数据开放平台是2012年先后上线的上海、北京政府数据开放平台,2015年9月发布的《促进大数据发展行动纲要》明确提出,中国将于2018年前建成国家政府数据统一开放门户。2017年5月举行的贵州数博会上,复旦大学与“提升政府治理能力大数据应用技术国家工程实验室”联合发布了国内首个地方政府数据开放指数《2017中国地方政府数据开放平台报告》,共评估全国19个地方政府数据开放平台,最终,上海以83.4的数据开放指数位列全国第一,贵阳、青岛、北京、武汉名列前五。以上海市政府数据服务网(http://www.datashanghai.gov.cn/)为例,其汇集了经济建设、资源环境、信用服务、公共安全等多个领域,提供机动车驾驶证计分信息、电子警察违法未处理情况信息、交通事故记录等251类数据接口,并提供1978年以来住宅投资和竣工建筑面积 、体育设施对外开放学校名录等919个数据产品,以及统计年鉴查询、公共信用信息查询、工商不良记录、一手房、二手房成交、出租、出售信息查询等60个应用软件以及上海公交、上海空气质量、住房公积金等24个移动app下载链接,最多的数据集获得了4万余次的查看和下载。

4.数据开放是数据资源充分利用的必由之路

可以说数据开放,是将政府数据资源转化为生产力的必要手段。如上海交通部门开发的“上海公交”APP,对上海主城区内公交运营实时数据的整合,乘客可以便捷查询公交到站时间、规划线路,可以大大节省乘客等待时间、提高运力。

同时,在做开发数据的同时,也要打破各个政府部门、数据来源之间的“信息孤岛”。不仅要做到接口数据格式的统一化、标准化,而且也要给各个相关部门之间数据打通预留相应的空间、留存共享通道。作为一级政府而言,需要在基础数据积累方面给予各个分子数据库、分支机构更多的数据汇总支持,如上海市政府建立的法人库、人口库、空间地理库等,可以供各个部门、区县进行调用。正如国家信息中心信息化研究部副主任单志广在解读《促进大数据发展行动纲要》时所言,“解决政府对大数据的开放和共享,是中国真正释放政府掌握的80%的数据资源的重要切入点。”

以最高法院的司法公开看开放数据的应用和生产力


从周强院长2013年开始推广的文书公开、庭审公开已经进行了3年多,其核心就是以公开促公正,通过技术来倒逼司法质量的提升。

1.首先是文书公开,从结果公开来倒逼判决质量提升

2013年11月27日裁判文书网正式上线,4年不到的时间里,已经跃居法律类网站第一梯队。从过去一年的情况来看,一年中访问量1.01亿人次,相当于全国13个人中就有一人使用了裁判文书网,同比上涨2倍之多,页面浏览量更是高达2.78亿页面,同比上升将近3倍,平均每名用户浏览2.74个页面,停留3分25秒,而且新用户占比超过八成。

文书公开不仅倒逼了审判人员更加重视裁判文书的写作和说理,也催生了大量商业公司的进入,对裁判文书进行结构化处理,使文书的检索更加方便,先例、类案的使用更加唾手可及,大大推进了裁判质量的提升,甚至变相促进了原有裁判文书网的改版,使其易用性、便利性增强。

2.其次是庭审公开,通过过程公开来促进裁判结果的更可接受性

最高院的庭审公开网自2016年9月正式开通以来,共计直播161052件案件,累计访问17.08亿人次,还通过数据公开的形式,对各地法院(包括最高院)接入直播平台的法院数量、累计直播数量予以公示、公开,这种小黑板机制对各地法院也是一种督促和鞭策,促使其在榜单上的数字不至于太难看以及更好的赶超。以最高法院自己的庭审公开情况来看,总计公开庭审574件,其中本部公开数量约占七成,巡回法庭中二巡庭审公开数量最高,达到71件。

庭审公开,借助各种先进的视频播放渠道,使公众可以非常便捷的获取庭审资料、旁观庭审,进行法制教育,也为评价法律服务人员提供了便捷方式,同时也对法官的庭审质量进行了督促和提升。笔者日前参与了浙江高院组织的第三方庭审评价活动,对随机分配的案件从庭审准备、庭审程序、庭审技能、庭审形象四个部分进行打分,涉及20余个细致的打分项,并要求专家给予不少于200字的案件点评,公开在庭审页面。通过第三方的视角对真实的庭审进行评判,而且是通过在线的方式、匿名的方式进行,减轻了参评人员的心理负担,也为评价数据的客观、真实、全面奠定基础。

3.知识平台(法信)的建立,注重内功,为一线办案人员提升办案水平提供了现代化的辅助手段

如果说裁判文书公开、庭审公开是从技术的角度倒逼司法人员提升裁判质量,法信这一航母级知识平台的搭建,则是利用技术的优势来提升司法人员的办案能力。之前我也曾提到,作为一名工作十多年的公诉人,当我离开检察院的时候发现我的同事们还在用十年前的办案手段在工作,还是一样的翻阅纸质卷宗、查阅纸质的法条书、案例书,对于司法实务的掌握还停留在老师带徒弟、口口相传的年代。我们也会面对庭审中,辩护律师拿着手机搜出一个最新的法规、一个最新的案例,向法庭举证的时候,公诉人受制于无法实时更新的法规、案例系统,无法及时对内容进行核实,只能尴尬的提出休庭申请,在外网上利用度娘进行各种查询。相比之下,法院的小伙伴就幸运的多,最高法院很早就重视一体式知识平台的搭建,于2012年立项开发,由人民法院出版社和国双科技共同承建的法信平台,在四年磨一剑后,自2016年3月投入使用,目前已经有三分之二的法院进行了接入,是中国目前规模最大(法律分类条目达到13万条)、体系最全(我国七大部门基本法全部搭建,涉及200万件法律文件)、覆盖最广(所有民事案由罪名细分)、分层最深(分类层级最深达到20层)、串联最多(串联法律知识元达20万)的法律知识体系,不仅有法律人最常用的法律法规、案例检索,还涉及到法律文献观点、法律电子图书、期刊35万余件,由国双科技公司开发的法信独有的裁判剖析引擎(LD)、同案智推引擎(SP)功能,通过多维度、聚类分析,精准识别同类案件,有助于统一裁判尺度,促进类案同判和量刑规范化。正如孟建柱书记所述,“最高人民法院通过建设“法信”系统、智慧法院,自动提供各地类似案件裁判结果,既让法官运用好以往工作中积累的经验,统一裁判尺度,防止出现类案不同判问题,又让当事人对裁判结果形成理性预期,以提高司法公信力。”

4.技术和数据的应用在提升案件质效方面还有很大的作用空间

如智慧法院项目中还涵盖了智能办案辅助系统,如文书自动生成、类案推送、类案预警等,实现简单案件快速处理、复杂案件精细处理,向一线办案人员进行技术支持、能力加持。

另一方面,远程庭审、语音转录等科技手段的嵌入,可以大大减少当事人应诉的诉讼成本、减轻法官诉累、减轻庭审书记员的工作负担,大幅提升审判效率,技术对于司法过程、司法效果的推进作用明显。

通观法院所有信息化、数据化改革,种种做法,最终的受益者是一线办案人员和司法行为的受众(包括当事人和老百姓),这才是数据开放和数据交互带来的应有之义。

检察机关司法数据应用应该注意的几个问题

相比法院而言,检察院的信息化走的更早一些,早在2012年在最高检的统一领导下,全国检察机关统一部署了案件管理系统,四级检察机关在统一系统中实现了信息数据填录的统一标准、统一维度,在统一系统中已经沉淀了大量的案件数据,如何将这些案件数据与司法主体数据以及物质保障数据进行有效的关联、使用,从而发挥解放检察生产力、提升检察工作质量的作用,是当下检察机关信息化应用应当重视的问题。

1.检察机关的司法数据应用应该具有后发优势

检察院和法院的信息化的出发点虽然有一定的区别,但都更加重视科技对一线办案质量、效率提升的作用,进一步解放人力、发挥技术的优势、充分发挥人的作用,让法官、检察官的工作更加有尊严、有质量,从而真正实现司法为民。

一方面,法院的信息化虽然早一点,但也是一个培育市场的阶段,各项比较成熟的方案,可以复制、移植到检察院体系,并进行升级改造。而且,法院的业务种类比较多,分摊到每个业务种类的信息化资源就比较少,精细化程度不够高,如果检察院就刑事检察业务开展信息化,相应的精细程度就会很高,产生的激活作用也会更好。

另一方面,在大数据应用阶段,检察机关由于数据格式更为统一、数据标准化程度更高,对于机器学习、构建各种算法模型,都更加方便、易行。

同时,从数据的流动情况来看,法院是一个数据的最终汇集地,对前续数据没有把控能力,而检察院作为一个承上启下的环节,是可以做到将前续数据进行疏导进入最终的监狱行刑环节,做好司法数据应用作用会更加明显。未来司法大数据发挥作用应该是延伸整个司法办案流程,让数据流动起来。

2.司法数据应用产品应该更加注重实效

市面上有各种智慧法院、智慧检察、人工智能类的法律大数据产品,需要对各种产品质量进行合理评估,防止游戏式的办案产品上线。真正有生命力的司法数据产品,应该是能够切实解决一线问题、提升效率,实际效果不能只看宣传效果,而要深入一线,看一线办案人员到底用不用、效果好不好。

一方面,要确立司法数据应用中业务主导的模式。既往信息化建设中一个问题就是外行指导内行,如果司法机关的信息化主管单位不是业务部门,如果信息中心、技术处的负责人也非业务背景,就会导致在业务数据搭建、业务模型构建中与一线的业务实践有一定的偏离。司法数据应用产品应该是产学研创一体化进行的过程,通过业务需求的明确、业务规则的提炼、汇集,利用技术优势,来实现人工不能解决的一些问题,从而提升检察工作质效。

另一方面,要注意识别伪人工智能产品。目前市面上很多产品都号称是人工智能产品,如建立一个语音问答系统,就称之为人工智能诉讼服务,建立一个垂直领域的搜索引擎,就可以称之为智能数据检索服务平台等等。甚至我们还面对某地招商机构吐槽所招募的法律大数据公司完全就是靠人力堆积、缺少技术价值,业务拓展要增加数千名人手。人工标注虽然是人工智能时代的前身,但如果一直是人海战术,就不得不怀疑这种大数据公司是否具有真正的技术。识别伪人工智能产品的方法也很简单,看一下产品制造者对该类型产品享有多少项核心技术、享有多少项专利,其技术含金量也就一目了然了。

在具体试点方案设计上,可以采用类巡回法庭设置的模式,对检察院线进行大区制信息化试点划分,一方面避免各地试点带来的产品线混乱、重复建设问题,一方面可以充分集中资源和力量,进行产品孵化和落地。

3.司法数据应用应该做好开放数据

裁判文书网的全国网站排名是2000多名,检察院信息公开网的全国排名是40000多名,相较之下,检察信息公开网中的检察文书公开工作,在页面设置、检索功能、文书公开时效性等各个方面都有较大提升的空间。

以北京市东城区人民检察院起诉的刑事案件为例,经检索裁判文书网,裁判日期自2013/9/10-2016/8/25,可得案件裁判文书2806件,同样采用“北京市东城区人民检察院”关键字在人民检察院案件信息公开网进行检索,起诉时间自2016/8/17-2017/2/10,可得115件,二者案件信息公开数量相差20多倍。

而且检察院案件信息公开网中各个模块设置,主题区分度不大,检索途径单一(只支持关键词检索,不支持高级检索、分类检索),结果展示和排序不能进行多元化处理,不方便检索,也给使用者增加了难度和使用时长。

利用目前业界领先的用户行为监测(WD)系统,可以很好的解决用户需求查明和网站功能模块设置情况。如针对裁判文书网通过WD系统,可以看出看出大部分点击量集中在站内搜索,分类检索中,民事案件的检索远高于刑事案件的检索,对高级检索的需求也不及直接检索。如采用类似方法对检察信息公开网进行监测,可以有效识哪类公开信息是用户最为关心、甚至可以发现用户最为关心的个案、裁判文书,对于舆情识别、检务公开等都能起到关键作用。

同时开放检察文书数据,能够打通刑事案件公诉、审判两个流程,尤其是公诉意见、抗诉书等检察说理更充分文书的适度公开,可以很好展现公诉机关的作为,加大刑事案件中公诉舆论监督和舆论引导,更好树立公诉权威。

作者:李斌,前检察官/连续创业者/司法大数据从业人员/法学博士&后/俩娃妈。

文章图片来自网络,内容仅代表作者观点。

法律读库 欢迎原创文章来稿

  1751490@qq.com

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存