【智能数据】第二届司法大数据研究与应用研讨会丨学术精要
会议图集
2017年11月11日,由最高人民法院司法大数据研究基地主办,东南大学法学院承办的“第二届司法大数据研究与应用研讨会”在江苏南京隆重举行。东南大学党委书记易红教授,江苏省高级人民法院党组副书记、副院长周继业,东南大学党委常委、副校长周佑勇教授,最高人民检察院技术信息研究中心刘品新副主任,最高人民检察院技术信息研究中心数据处缪存孟处长,最高人民法院信息技术服务中心原副主任王岚生等领导,四川大学法学院左卫民教授、江西财经大学副校长邓辉教授以及中国社会科学院法学研究所《环球法律评论》副主编支振锋研究员等专家学者莅临大会发表真知灼见,《法制日报》《江苏法制报》等新闻媒体与会报道。此外,来自最高人民法院、最高人民检察院、江苏省高级人民法院、江西省高级人民法院、江苏省司法厅等数十家实务部门,来自北京大学、浙江大学、上海交通大学、南京大学、四川大学、东南大学、厦门大学、同济大学、天津大学、湖南大学、中南财经政法大学、西南政法大学等数十所高等院校,以及部分司法大数据企业与律师事务所的大数据研究人员,共200余人参加了此次会议。
第一单元:主旨发言
图片丨支振锋研究员
第一单元为“主旨发言”,由《环球法律评论》副主编支振锋研究员主持;四川大学法学院左卫民教授作了题为《司法大数据研究的限度与可能》的发言,东南大学副校长周佑勇教授作了题为《智慧法院建设的技术路线与阶段方案》的发言;由最高人民法院信息中心原副主任王岚生和江西省高院司法大数据中心主任赵乘勇担任与谈人。
主题发言
图片丨左卫民教授
司法大数据研究的限度与可能
我长期从事实证研究,实证研究就是数据研究。中国司法界对司法大数据的关注与迫切需要,标志着司法大数据时代的到来。大数据的时代,有两个标志性因素:第一个是裁判文书的公布使法律数据变成现实。在这之前,没有出现过如此多的数据,研究者仅仅是个体收集、独自收集,不成规模化,所有数据的总和都没有裁判文书网多且丰富,所以建设裁判文书网可谓是中国司法大数据元年。第二个是大数据使得裁判文书有了用武之地,中国面临案多人少的境地,迫切需要大数据的应用推动公正与效率问题的解决。中国的迫切性比美国的需求更加强烈,但对目前司法大数据的热度过高,对中国大数据短期的快速推进,我持着一种谨慎的态度。理由如下:
一是数据理由:首先,公布的裁判文书是真正的大数据吗?目前的司法大数据不具有同步性,没有充分的数据支持,不具有全面性,不是全样本公布。大量的数据缺失以及数据本身的缺陷没有得到充分解释,中国的大数据实质是大量的数据;其次,数据是不是裁判文书里的数据?数据没有系统化,对司法数据记录没有公布,如庭审笔录等,仅仅依据裁判文书能作出高质量的大数据吗?上海模式、贵州模式等是区域性的,没有历史性数据研究和分析,如何构建全国准则?最后,数据就代表决策者真实的意思表示吗?裁判者真实意思与裁判文书表达呈现二元化、背离化,对数据的万能主义我持怀疑态度。
二是算法问题:算法问题谁来确定和建立,基于什么标准?算法问题最主要的是权重问题,人界定的都带有主观性,算法的标准具有隐含的歧视性——“黑箱”,标准是不透明的,缺少好的人工、好的智能、好的数据。
因而秉持着对数据和算法的谨慎态度,对于司法大数据我们还有漫长的路要走。
图片丨周佑勇教授
智慧法院建设的技术路线与阶段方案
“智慧法院”是在法院信息化建设的格局之下,充分依托法院数字化与网络化的成果,利用大数据、云计算与人工智能的技术,将网络化、阳光化与智能化贯穿人民法院全业务、全方位和全流程,主动为人民群众、审判执行、司法管理、国家治理转型、经济社会发展服务的新型现代化人民法院。在“智慧法院”建设中,网络化是基础、阳光化是保障、智能化是核心。
(一)“智慧法院”建设的初级技术方案
大数据技术是智慧法院建设最为基础的技术,它的核心是聚、通、用,即数据的汇聚、联通和应用。初级技术路线图正是按照大数据技术的基本逻辑展开的,具体可以分为四个步骤:1.内外司法数据的汇聚;2.内外司法数据的联通;3.内外司法数据的融合;4.基于国家司法审判信息资源库的应用。
初级技术路线的基本目标有两方面:1.大幅度提升法院在简单事务方面的自动化水平;2.大幅度提升公众,尤其是当事人获取法律服务的便捷程度。
(二)“智慧法院”建设的中级技术方案
与初级路线示意图形成明显对比的是,中级技术示意图增加了“知识层”,从而由两层结构进阶为三层结构。中级路线图分为三个步骤:1.法律知识图谱的建构;2.知识融合;3.基于国家司法审判信息知识库的应用。
中级技术方案的基本目标有两个方面:1.大幅度提高法院在复杂工作方面的辅助化程度;2.大幅度提高诉讼服务和司法公开的定向化程度。
(三)“智慧法院建设”的高级技术方案
中级技术方案的应用只是采用过滤、查询、对照等简单技术对国家司法审判信息知识库的开发。高级技术方案将采用人工智能中计算、推理、预测、预警技术对知识库进行深度开发并形成“智慧法院建设”的高级应用。
基于人工智能技术所开发的智慧法院应用的智能化水平将大大提升。1.大幅度提高法院在决策工作方面的精确化程度;2.诉讼服务与司法公开的定制化水平将进一步提升。
与 谈
图片丨王岚生副主任
法院的司法大数据受到了在座各位以及社会的高度关注,我非常赞同刚才左教授和周教授的发言,说得非常透彻,划分也非常合理、科学。智慧法院是未来的发展方向,人工智能是重中之重,智慧法院建设已列入我国的信息化发展战略,法院要借助人工智能技术推动智慧法院建设,实现跨越式发展。
关于数据的应用,我们以往都是在做基础设施网络的连通,这也非常重要,但是没有用到数据。2011年我们开始构思建立一个立体运行模式的“信息球”,收集人、案、时间等数据信息。2014年最高法院提出数据要集中管辖,但是遇到很大的难题,因为我们国家太大,法院太多,最突出的就是我们的信息系统不统一、数据格式不一样,缺乏数据标准和规范,因此建立了“人民法院数据集中管理平台”,这个系统自动汇聚31个高院的所有的数据,形成数据库。特别希望大家关注法院内部原始数据的规范,这是最基础的工作,请各位专家、学者更多的研究法院内部数据,我们的数据量相当大,涉及9层数据结构、3万多个数据项。
图片丨赵乘勇主任
司法审判领域对数据的认知发生了颠覆性的根本变化:
第一,司法数据的宽度大大扩充。传统的司法数据仅仅是一个个的数字,而在大数据时代,法院办案的所有流程和步骤直至整个案件卷宗都已经信息化和数据化,形成了全量数据,这个载体涵盖了流程信息、法律文书、庭审视频等等,这些都可以随时还原我们司法审判办案的过程。
第二,司法数据的深度越来越深。传统的司法数据更多的是简单地堆砌,基于描述性的分析,往往是分析解说在先,然后以数据来支撑观点。而在大数据时代,我想是通过对数据的挖掘来进行关联性分析,通过详实的数据以及算法来印证,然后展现一种趋势,得出结论。传统的没有大数据人工智能支撑的描述性数据,与其说是用数据对审判运行态势进行分析,不如说是对最后的审判权运行结果的总的展现,这种数据是回答不了影响案件质量和效率的深层次问题的。
第三,司法数据的维度越来越广。在万物互联模式下,数据互联互通,使得传统的司法数据维度不断扩大。法院内部案件的数据、人事数据、政务数据,还有财务数据等等都会对接。探讨每天案件的人力资源成本和财务成本等,有利于更加精准地服务于法院的管理。电子诉讼的广泛开展以及网上诉讼服务中心的建设,使得当事人或者代理人在使用法院提供的各种诉讼服务的同时,其自身参与诉讼的各种信息记录被存储,将这些数据再一次与这个案件自身的数据相结合,将有助于我们在动态过程中去预测诉讼行为的走向,或者是从某一个方面去审视人民群众在每一个司法案件当中是否感受到公平正义。
第二单元:大数据与智慧司法
图片丨刘坤主任
第二单元研讨的主题为“大数据与智慧司法”,由江苏省高院审管办主任兼技术处处长刘坤主持;东南大学法学院院长助理王禄生副教授作了题为《司法体制综合配套改革与案件权重大数据测算》的发言,江西省高院技术处处长匡华作了题为《收转发E 中心:智慧法院探索的基石》的发言,江苏省司法厅12348 协调指挥中心副主任郁奇作了题为《牵手人工智能 推动“智慧法务”》的发言,上海市检察院侦查监督处陈漫卿检察官作了题为《上海刑事案件智能辅助办案系统的介绍和思考》的发言;由西南政法大学法学院高一飞教授、最高检信息中心数据处处长缪存孟和江苏省高院研究室主任孙辙担任评论人。
主题发言
图片丨王禄生副教授
司法体制综合配套改革与案件权重大数据测算
十九大报告中习近平总书记明确提出,深化司法体制综合配套改革,全面落实司法责任制,努力让人民群众在每一个司法案件中感受到公平正义。之前通过员额制、人员分类管理、省级统管人财物、司法责任制、跨行政区设置司法机关等一系列改革的推进,司法体制框架性、支柱性的制度已经建立。但是,司法改革在较短时间内对众多体制问题进行重大调整后,需要“精装修”与“细化施工”来巩固改革成效。举例而言,员额的动态调整、员额比例的省内调剂、人财物的分配标准、司法绩效评价都共同指向工作量评价。我们对工作量评价经历了以下三个阶段。
我们研究基地基于自然语义识别和人工智能技术开发出一套案件权重的大数据测算系统,它有以下三个特征:一是覆盖全样本即基于所有数据;二是实体与程序结合即实体数据与程序数据的结合;三是推行综合配套改革包括员额动态调整、省级人财物精准分配、智能化法官绩效评价等。
案件权重智能分析的基本流程共有四步:第一步是构建一套覆盖实体与程序的体现法官工作量的指标体系;第二步是给每个指标赋以差异化的权重,即权重量值确认;第三步是通过自然语义识别技术对指标进行自动挖掘;最后是对每个个案权重进行精准的实时计算。
案件权重系统的具有五大核心优势。
最后我来介绍并演示一下案件权重系统的功能。它的搜索框能提供不同的搜索维度,包括法官、部门、法院、地市。它可以对比不同维度上的各项指标、展示出各级法院样本案件数最多的五个案由,包含其案件数量,案由系数和审理程序以及展示出高级法院的水平,中级法院的平均水平和基层法院的平均水平之间的指标对比。同时,它也拥有法官比较功能,支持法官详细数据对比,能够刻画分析法官大数据肖像。
图片丨匡华处长
收转发E中心:智慧法院探索的基石
智慧法院是人民法院一种新的运行形态。江西法院针对当下法院如何从原有的运行状态向智慧法院的新状态转型,主要有两种观点:一种观点认为,目前全国法院都处于探索阶段,虽然路径各异,但总体功能目标趋于一致;还有一种观点认为,未来智慧法院这种新的运行形态出现不适单纯靠理论研究、制度设计来推动,在当今大数据时代,应该是以大数据为牵引或者说是基于数据驱动。
然而要基于数据驱动法院工作模式的创新,前提是法院现有运行形态要可数据化描述。遗憾的是,当前法院的运行形态还做不到完全可数据化描述,特别是审判辅助性事务领域,可数据化的程度非常低。
以江西智慧法院建设为视点,诉讼材料“收转发E中心”是江西法院2017年重点推进的项目,也是在全国范围内创建的一个信息化品牌。中心着眼于诉讼材料的接收、流转、送达事务的集约化、智能化管理,目的就是实现可数据化描述,从而实现数据驱动的运行形态创新。其基本路径在于以下两点:
1.由各承办团队负责诉讼材料的全部工作,案件审理工作以接收诉讼材料开始,以送达判决书结束,占审判团队大量的工作时间和精力;
2.以信息化系统为抓手,由专人负责材料的收转发工作,将诉讼材料类审判辅助性事务从承办法官手中剥离出来。
然而纵观当前电子送达全国的实际效果,以重庆法院为例,结果并不理想(2016年重庆法院成功送达160万次,其中直接送达54.9%、法院专递送达41.9%、公告送约占1.3%、电子送达0.2%、其他送达1.7%),其原因在于,大部分法院都是在技术上寻求送达突破,而没有深刻认识到电子送达的革新本质上是要实现法院传统送达方式的变革。
通过以收转发E中心为轴,强调案卷材料的多种流转方式间的统筹兼顾,收转发E中心能够通过数据分析规范法院内部部门材料的流转;由诉服中心到承办法官手中的流转时间可以通过数据分析不断优化并同步公开给当事人,深化了司法公开的内容。
未来,中心将进一步通过数据来推动法院上下级之间的材料流转模式变革,在对当事人提交的任何一份材料可查阅、可追溯的基础上,围绕电子卷宗展开数据驱动;与此同时,提升法院自身文书材料的生产和处理效率,进一步优化格式化文书的自动生成和实体文书的辅助生成;最终提升材料在法院部门之间、上下级法院之间、法院与诉讼参与人之间高效流转的能力。
图片丨郁奇副主任
牵手人工智能 推动“智慧法务”
2013年起,江苏司法行政系统充分运用现代化的信息技术手段,创新“互联网+法律服务”的全新服务模式,开发了为群众提供即时性、一站式公共法律服务的新平台---12348公共服务平台。
2014年11月,12348平台正式在江苏上线,提供12348电话热线和网站、12348手机App和微信平台等多种渠道,并在全省设立了市、县、乡、村四级实体服务中心和司法行政服务站。2017年江苏省司法厅启动12348公共法律服务平台2.0版建设,通过与南京擎盾公司等法律智能领域前沿科技企业的对接合作,将人工智能技术和互联网思维应用在公共法律服务建设中,形成了以江苏公共法律服务机器人“智慧小司”为代表的一系列新型服务产品,使公共法律服务具备了更多的“智慧元素”。
一是法律咨询智能问答。12348平台开发了智能法律问答模型,实现常见法律问题的智能解答。同时,利用法律知识图谱和裁判文书大数据技术,为用户提供基于历史案例的法律咨询分析。
二是法律服务智能导航。公共法律服务机器人作为司法行政提供服务的智能中枢,在解答群众法律咨询的同时智能分析用户服务诉求,精准匹配和推荐用户需要的法律服务,降低司法行政各项服务门槛,打通互联网律师、互联网法律援助等线上法律服务的快速通道。
三是典型案例智能推送。将行政审批、信用信息、政策法规、典型案例等司法行政大数据向社会公开,并运用语义分析、模糊查询、分词适配等技术手段建立数据模型,推动群众语言、机器语言、法律语言之间的无障碍沟通,帮助群众找到最适合、最准确的问题答案。
四是法律风险智能检测。针对企业运营过程中的法律风险,12348平台依托历年法律服务过程中汇聚的500余万例数据资源,建立企业法律风险检测模型,为社会企业提供免费的法律风险体检服务。
五是服务热点智能感知。通过大数据挖掘,准确了解民生需求和社会热点,排查重大隐患苗头,为加强社会综合治理提供信息支持。
图片丨陈漫卿检察官
上海刑事案件智能辅助办案系统的介绍和思考
上海刑事案件智能辅助办案系统建设是推进“以审判为中心的诉讼制度改革”信息化发展的重要技术支持。目前已经形成以“上海刑事案件大数据资源库”、“办案应用软件”、“办案网络平台”为主体的框架,基本实现公安、检察、法院信息的互融互通,提升了各个主体履行职能的效率。
智能辅助办案系统主要利用多证据关联比对、语义抽取及分析、图文识别、图像特征检索、大数据分析及逻辑推理技术,知识图谱等人工智能技术,在刑事案件中实现了以下功能:
1.证据录入功能,通过网络平台与公安卷宗目录对接,以“自动导入”、“自动识别采集”、“自动关联”三项技术实现证据实时录入。
2.证据标准指引功能,通过大数据分析,对每一类案件通常应当收集的证据种类以及每一种证据收集、固定的程序、形式、内容等要件进行规范,制定公、检、法统一使用的证据标准,为办案人员提供清单式证据指引。
3.“证据校验”功能,将办案业务规则“翻译”为计算机规则,运用计算机技术自动识别证据中程序性瑕疵,对承办人进行提示。包括系统自动识别的单一证据审查功能,以及对证据链完整性和全案证据审查判断功能。
4.类案对比功能,主要包括两个方面:一是类案推送制度,根据在办案件的特征,通过语义识别、大数据分析,为办案人员自动推送同类案例,提高适法统一度;一是量刑参考制度,运用大数据技术分析,形成同类案件量刑参考数据,为检察官提出量刑建议及为法官量刑提供参考。
5.文书自动生成功能,将系统资源有机整合,根据文档批注自动识别、生成刑事案件办理过程中所需的各类文书。
6.监督功能,首先是办案程序监督,自动警示不符合规定的诉讼流程;其次是实体性监督,包括将音频自动转换为文字的录音录像审查,以逮捕基准为基础的逮捕条件审查和以危险性标签为参考的社会危险性审查。上述功能仍然存在完善空间,下一步将完善对派出所的监督和执行程序的监督。
评 论
图片丨高一飞教授
首先,高教授认为王禄生副教授提到的跨地域、跨层级、跨部门的案件权重测算系统对当下法院法官的工作量计算具有极大意义,特别是对解决分案不均衡问题具有实践价值。这对司法员额制改革大背景下如何解决困扰我们许久的“案多人少”的问题具有变革式的借鉴意义,对地方和中央层级的案管决策提供了重要的技术基础支撑。
其次,对于匡华处长提到的“收转发E中心”,高教授从实践角度举例对此项技术研发进行充分肯定。个案上为当事人节约了大量的司法程序时间,但大大加快了整个司法程序流程系统的诉讼效率。
再次,对于郁奇副主任谈到的电子公共法律服务平台,高教授从律师职业的实务视角,对平台如何从真正意义上解决老百姓的麻烦,如何实际提高时间经济效率保障当事人得到法律服务提供了有益借鉴。
最后,高教授指出,在案件数量不断增加、科技日新月异的背景下,电子数字化管理方法经历了美国的“案卷电子化”到我国的“电子法院”数字化发展,再到现今的智慧法院三个发展阶段。我们应当抓紧机遇,应对挑战,同时呼吁司法系统进一步进行信息公开化,同时加快电子信息公开法的立法工作。
图片丨缪存孟处长
四位老师的精彩发言对我们来说都是很好的、难得的学习机会,借此机会想给大家介绍一下检察机关在推进大数据人工智能方面的工作情况,有兴趣的可以关注人民检察院信息公开网。回顾检察信息化的发展历程,大致经历了四个阶段。2017年9月,最高人民检察院在苏州组织召开了智慧检务工作会议,曹建明检察长在会上明确要求全国四级检察机关要在电子检务工程已有建设成果的基础之上推进智慧检务,包括确立智慧检务四梁八柱的总体架构,全业务的指挥办案、全要素的智慧管理、全方位的智慧服务和全领域的智慧支撑,正式开启了检察机关智慧检务建设的大幕。另外,我们也正在积极推进前沿技术在检察机关特别是在检察办案工作中的应用,下一步我们将按照高检院党组的决策部署,大力推进大数据、人工智能等新技术在检察机关的深度应用,希望各位专家、学者更多的关注和支持检察机关的智慧检务工程建设。
图片丨孙辙主任
第一点关于司法大数据的运用,过去搞技术的人不懂审判,而搞司法的人不懂技术。而现在大家逐步认识到,司法大数据的应用和研究必须要融合,技术和司法审判必须要融合,所以江苏高院在机构整合是走在前列的,刘坤主任负责技术机构的整合,并且东大的司法大数据研究中心,把法学院和计算机系的人才整合起来。过去,为什么我们很多研究出来的东西大家不愿意用?是因为技术公司在为你服务的时候,强调的是客户体验,而不是用户体验。我们现在的大数据软件开发的目的不仅要为法官审判服务,还需要便捷、易学、好用,能够减负。
第二点对于大数据的研究,数据本身特别是司法审判的大数据运用,左卫民教授认为需要全面、充分的数据,而且更重要的是数据不能够成为一个个孤岛,而是要互联互通。过去法院是从上到下建立一个金字塔形的连接网络的模型,但是我们会发现各法院之间的联通是非常困难的。这种困难会造成数据收集的不全面,数据分析的缺陷。与此同时,我有一些担心,特别是各位专家学者认为法院的文书公开是非常好的一件事情,但是我始终对文书公开有担心,主要是在于它的安全性问题。这个文书不仅仅是数据,它隐含着很多情报,可以分析出很多东西来,所以说文书公开本身我不反对,但是它应该有一定时限,不是说实时公开,而是应该有一定时间的滞后性,就相当于解密。
第三点对于今后法院的数据应用和数据发展,大数据的应用以及智慧法院建设,我们应该是一个什么样的期待。我认为应该是利用数据而不是迷信数据,对建设智慧法院而言,以大数据云计算为依托的智慧法院只能是辅助而不可能成为主角,因为机器无法体会情感,为什么AlphaGo赢了李世石和柯洁,是因为它没有情感,它很冷静,以至于冷酷。但是人类的情感,永远会在司法裁判当中发挥作用。
第三单元:大数据与法学研究
图片丨陈柏峰教授
第三单元研讨的主题为“大数据与法学研究”,由中南财经政法大学法学院副院长陈柏峰教授主持;东南大学计算机科学与工程学院张柏礼副教授作了题为《司法文书大数据的非结构化特征与智能化处理》的发言,美国加州大学伯克利分校司徒蕾助理教授作了题为《中国法院判决书的大数据化:如何把文本作为数据》的发言,华中科技大学法学院院长助理熊琦教授作了题为《人工智能生成内容的著作权认定》的发言,东南大学法学院杨洁老师作了题为《自动驾驶的科技、伦理与法律治理》的发言;由江西财经大学法学院院长杨德敏教授、郑州大学法学院张嘉军教授和北京大学法学院江溯副教授担任评论人。
主题发言
图片丨张柏礼副教授
司法文书大数据的非结构化特征与智能化处理
(一)大数据的特征
1.量大。这是大数据的一个显而易见的特点,从大数据的应用层来说,比如市场估计大家可能更多关注的是大数据的应用;从大数据的技术层来说,我们更加关注数据的计算。到2020年,全世界所产生的数据规模将达到35ZB,是2009年的44倍。
2.多样。大数据类型特别杂、多样,主要包括结构化数据、半结构化数据和非结构化数据。结构化数据很规整,可以放在数据库里很轻松地进行精确的匹配和查询。在整个大数据里面,非结构化数据增速迅猛,比重越来越大,占有比例达到整个数据量的85%以上,这个问题也没有办法避免。
3.快变。人类产生的数据量正在呈指数级增长,在整个人类文明所获得的全部数据中,有90%是过去2年内产生的。而且不仅仅数据刷新快,数据模式,规律变化也快。
4.质差。很多数据来源纷繁杂乱,真伪难辨,一致性差,可信度低。虽然大数据量大,但有效信息含量少,密度低、挖掘难度大。同时“错误发现”的风险也在增长。
(二)司法大数据的特征
司法大数据的数据量还不足以对我们大规模的计算产生影响或者威胁。然后变化也不是很快,相对于互联网来说,质量还可以,虽然有些文书里存在很多重复的空文件,但处理起来还是比较容易的。我们认为司法大数据具有非结构化特征,存在大量的非电子化信息,大量手写的案件记录、内庭卷宗、实物证据、辩论信息难以电子化。
(三)非结构化数据之智能化处理
1.非结构化数据的结构化。自然语言处理NLP(Natural Language Processing)是用机器处理人类语言的理论和技术,又可以称作自然语言理解或计算语言学。NLP大致可分为基础研究和应用技术研究,基础研究包括词法分析、句法分析、语义分析和篇章理解等;应用技术研究包括文本挖掘、自动问答、信息检索IR、信息抽取、机器翻译等。
2.非结构化数据的存储。对于当前的大数据应用来说,关系数据库的很多主要特性非但没有用处反而成为瓶颈:数据库事务一致性需求,很多系统并不要求严格的数据库事务,对原子性、读一致性的要求很低,因此数据库事务管理成了高负载下数据库一个沉重的负担;数据库的实时性需求,对关系型数据库来说,插入一条数据后立刻查询,是肯定可以读出来这条数据的,但是对于很多应用而言,并不要求这么高的实时性。
图片丨司徒蕾助理教授
中国法院判决书的大数据化:如何把文本作为数据
最高人民法院为了提升工作透明度,让地方法院在互联网公布判决书,目前,中国裁判文书网已公布了超过3600万个案件,起步于2009~2010年,特别是在河南。
我们研究的第一步是建立一个数据库,包括1058990份的法院文书,目标包括:数据库里包含什么,漏洞是哪些,法院文书大数据适合哪些研究方法,以及大数据将如何影响针对中国法律和法律体制的学术研究。
选择河南省作为研究对象,有以下几个原因:河南省是先行者,最早就把文书公开,作为与最高人民法院网站进行对比的基准线 ,而且在中国河南是很有代表性的一个地方,李本教授之前在河南做过研究,所以他这当地的状况比较熟悉一些。河南数据库有一些遗漏,这是我今天来参加这个会议的原因之一,这个问题很复杂,原因一共有两方面,一是最高人民法院不允许公开的判决书,比如未成年成年人犯罪的案件,另外是应当公开,但是还没有公开,这个发现带来新的研究问题,漏洞在哪里?法院之间的差异应该如何建设?
如何分析我们河南数据库的内容,也就是如何把法院判决文本作为数据? 可以采用主题模型的研究方法。一个主题是一组词,这些词经常在一起出现,我们对每一主题中出现频率最高的语词及最具代表性的文件进行检验后,手动为每个主题进行标注 ,如果研究员有一个巨大的数据库主题模型,这个研究方法会帮助我们提出一些重要的主题。即便在数据漏缺的情况下,主题模型仍可能在发现案件的趋势和模式方面发挥作用。
图片丨熊琦教授
人工智能生成内容的著作权认定
(一)人工智能著作权问题的关键是什么?
无论是民法上的意思表示和责任承担,还是著作权法上的作品创作和权利归属,都离不开人工智能法律地位的认定。
在作品判定要件中,著作权法要求作品必须是文学、艺术或科学领域内的独创性表达,其中所谓“表达”,指须以文字、语言、符号、声音、动作、色彩等一定表现形式将无形的思想表现于外部,使他人通过感官能感觉其存在。
在权利归属条款中,著作权法也明确否认自然人以外的的对象能够实施创作行为,所以明确规定“创作作品的公民是作者”,特定情况下法人或其他组织只能“视为”作者,而视为作者的原因,还是因为作品体现出了法人的意志。
(二)现行《著作权法》失灵了吗?
法律人将人工智能生成内容纳入法律体系,首先是将人工智能纳入“主体-客体”的法律关系框架之内。也就是说,法律人对人工智能生成内容的分析,在前提上是不可动摇的,那就是人工智能不允许被视为主体,其生成的内容也当然无法被归属于人工智能本身。
1.人工智能生成内容的特殊性,美感能够通过算法实现吗?
人工智能生成内容和以往计算机生成内容道德本质差别在于人在内容生成中的作用不同。计算机生成内容将生成行为划分为数据输入和结果输出两个阶段,独创性部分体现在数据输入和算法设计上,著作权可明确归属于计算机软件设计者或使用者。
人工智能基于机器学习和深度学习,已经能够自行判断、收集和学习新的数据,最终实现脱离既定的算法预设来解决新问题独立生成新的内容,省去了计算机生成内容时人在数据和算法规则上的参与,这使得人在算法规则上的事先设定和数据输入上的人为选择作为独创性来源的做法无法继续适用。
2.《著作权法》如何从解释学上回应?
所谓“智能”,简言之是在进行数据挖掘的同时实现价值判断和推理。从创作行为的角度和数据本身的取舍来看,取舍需要具备一定的价值评判标准,才能在之后内容生成时体现出最低限度的创造性,该取舍标准需要由人类在机器初期的学习过程中向其提供。
(三)人工智能创作的幻象与私法传统的坚守
将人工智能视为著作权主体的直接后果就是肯定机器与人一样成为权利主体,那么如何认定机器的真实意思,如何考量机器在侵权行为中的主观过错,都是现行法律体系无法完成的任务,也完全是对现行私法原理的颠覆。
基于上述认知,人工智能生成内容在著作权法上可视为是设计者或训练者意志的创作行为的结果,可参照《著作权法》拟制投资者或组织者作为著作权人的制度。
图片丨杨洁老师
自动驾驶的科技、伦理与法律治理
自动驾驶,汽车至少在某些具有关键安全性的控制功能方面(如转向、油门或制动)无需驾驶员直接操作即可自动完成控制动作。 一般使用机载传感器、GPS和其他通信技术设备获得信息,针对安全状况进行决策规划,在某种程度上恰当地实施控制。
无人驾驶,驾驶员不介入的情况下汽车可以完成全自动控制动作,指向自驾驶汽车技术发展的最终形态。
智能驾驶,搭载先进的智能系统和多种传感器设备(包括摄像头、雷达、导航设备等),具备复杂的环境感知、智能决策、协同控制和执行等功能,可实现安全、舒适、节能、高效行驶,并最终可替代人来操作。
★立法三问:
Q1:谁可以合法地在道路上“驾驶” 车辆?
Q2:如何确保自动驾驶汽车比人类驾驶更安全?
Q3:如何判定侵权责任?
立法领域对车辆自动化层级的划分不能沿用技术领域的划分方法;围绕驾驶安全、生命保护、人格平等、个人决策自由以及数据主权等内容,出台国家层面对自动驾驶技术研发及应用的指导意见;细化自动驾驶车辆道路测试的技术标准与管理规范;关注自动驾驶服务提供商的义务和责任;关注智能汽车产品缺陷的判定方法、认定标准、产品自损的法律救济、非损害赔偿请求权行使等问题。
评 论
图片丨杨德敏教授
我的评议将从两个方面展开,首先我将简要评述前面四位发言人的发言,接着我想谈谈我今天学习的一些感受。
张柏礼教授首先为我们介绍了如何把握大数据特征到司法大数据特征的不同,这无疑给我们对数据从结构化到非结构化的梳理,提供了一个很好的视角。在大数据时代,数据本身固然很有价值,但也存在着泥沙俱下的问题,如何从浩如烟海的数据中提炼我们所需要的数据,张教授的发言无疑给我们以启发。
司徒蕾助理教授从数据模型出发,介绍了如何对我国司法裁判文书进行数据化研究,并且,针对数据研究中不可避免的数据漏洞,提出要通过主题模型来构建真正的数据研究。而这种研究思路,与国内相关的研究思路是基本一致的,这也说明当前在司法大数据领域的发展,国内与国际是接轨的。
熊琦教授讨论了人工智能与著作权的一系列新问题,熊教授认为人工智能与大数据的发展,无疑对传统著作权形成了挑战,尽管由于传统著作权源自于自然人的智力型创作的主体在短时间内难以逾越,但从客体出发来对著作权进行创新和保护同样是十分重要、迫在眉睫的。
杨洁老师立足国家政策层面,从法律规制的角度,讨论了在伤害无法避免时,如何考虑相关制度构建的问题,例如如何确定谁是合法驾驶员,侵权责任由谁承担?
以上四位发言的发言可以说十分精彩,令我受益颇多。对于今天的讲座,我也有一些自己不成熟的见解:
首先是数据与智慧的问题。尽管数据量很大,非结构性比例越来越明显,给研究带来的难度也越来越多;但与此同时,给我们提供的视角也越来越多。在司法大数据背景下,我认为海量的数据给我们的研究提供了挑战,但同时也提供了前所未有的良好机遇;
其次是裁判文书的公开率不足的问题。我的看法是,是不是要通过推动法律职业共同体的构建来为解决这个问题提供平台,从而平衡与协调理论与实践的研究中不断出现的问题;
最后是对我们传统法学教育的一点反思。在司法大数据时代,传统的法律人才与数据人才的分离已经不能很好的适应研究与探索的需要,未来的法学教育应该促进两者的融合,培养应用型的复合人才。
图片丨张嘉军教授
这一主题发言是关于人工智能与大数据方面的探讨,我就着重对司徒蕾助理教授针对河南的研究作出一些回应:第一点,2014年裁判文书上网的数量问题,2014年裁判文书网刚上线,需要一个发展过程。第二点,针对裁判文书网量的研究意义不是很大。第三点,关于立案登记的实证研究,其实我们对法、检、律所做了大量调查。
★几点思考:
(一)什么是司法大数据?
由司法机关内外快速产生和流转的案件、数据、视频、音频等多样数据类型组成的超越常规的成熟和分析能力,且能够分析和预测未来的海量数据。其具有以下几点特征:1.类型多样性;2.产生的快速性和数据的海量性;3.外联性;4.预测性。
(二)司法大数据怎么获取?
司法大数据包括上网的司法文书、司法运转产生的数据、司法人、财、物管理产生的数据。但有些内部数据不公开,又该如何获取?
(三)司法文书怎么转化为大数据?
1.四千四百多万份海量文书用什么分析,分析什么?
2.分析类案,以民事为例,有四百多个案由,如何分析?
3.目前技术和法律是两条线,培养既懂数据又懂法律的复合型人才是司法大数据未来发展的重大课题。
4.有了复合型人才,怎么将非结构化、半结构化的司法文书转化为可视的、可利用、可分析的大数据?
★初步结论:
(一)司法大数据的研究只是初步阶段,研究成果有限。
(二)从数据获取的角度,裁判文书是公开的,官方的,不能说是黑箱。
(三)大数据研究前途光明,道路曲折。
(四)大数据的研究固然重要,但只是法学研究的一种方法和视角,不能替代其他的法学方法。
图片丨江溯副教授
首先,张柏礼老师报告中研究的问题对于我们讨论司法大数据问题具有根本意义,它涉及到我们讨论司法大数据的基础,即数据化问题,其主要特征是将大量的非结构性的数据转化成结构性的数据,即将那些文本图像转化成计算机可以处理的数据。
其次,司徒蕾教授讨论的问题是我们目前研究司法大数据时经常忽视、甚至是无视的问题,即数据遗漏问题。司徒蕾教授报告的价值在于告诉我们哪怕是数据残缺、遗漏,但并不意味着我们无所事事,并不意味着我们没有办法。我们仍然可以通过科学的研究方法,比如说她提到的主题模型模式,仍然能够帮助我们从事一定的研究。
再者,熊琦教授对人工智能所带来的著作权法挑战分析路径显示了法律人特有的逻辑严密性,但也显示出法律人特有的保守性。我个人认为对于这样的前沿问题,首先我们当然要从现有的法律去进行思考,但是面对这种前所未闻的问题,我们法律人可能需要转换视角,我们不能仅仅从人类的角度出发思考,我们可能今后还要从机器人的角度来思考这个问题。
杨洁老师讨论的自动驾驶汽车对法律和伦理带来了冲击,高度自动化的自动驾驶汽车中,人的参与越来越少,如何界定划分责任归属是非常和紧迫的问题。
晚近以来,大数据、人工智能已经成为人人关注的话题,但是什么是大数据,什么是人工智能?大数据又存在哪些问题?人工智能又给我们带来哪些挑战?这些问题至少在我们国内,我觉得讨论还是不够深入的。
第四单元:大数据与社会治理
图片丨孙辙主任
第四单元研讨的主题为“大数据与社会治理”,由江苏省高院研究室主任孙辙主持;南京市公安局栖霞分局张练警官作了题为《传销人员与传销组织的大数据预测》的发言,南京市公安局栖霞分局王政昱警官作了题为《基于快递信息的数据比对模型体系》的发言,徐州市检察院副检察长兼反贪局局长陈海鹰作了题为《基于大数据思维的反腐探索与思考》的发言;由浙江工业大学法学院院长于世忠教授、中南财经政法大学法学院副院长陈柏峰教授和上海交通大学凯原法学院副院长杨力教授担任评论人。
主题发言
图片丨张练警官
传销人员与传销组织的大数据预测
传销活动作为一种违法行为,既扰乱了正常的经济秩序,又破坏了传统的道德观念和信用体系,影响了国家和社会的稳定。而且传销人员一旦漏管失控,容易带来群众报警投诉传销扰民,传销人员之间群体纠纷,传销引发的盗窃、械斗、聚众闹事等一系列问题。另一方面,传销组织往往人数众多、发展蔓延迅速,住址不固定且较分散,流动性较大。传销人员还善于伪装,白天一般不在家中,会选择在外与组织中其他人员进行交流。每一个传销组织都有着很强的纪律性和反查意识,对传销人员的管控方面存在一定难度。因此,急需建立相应的数据模型对传销人员、住址等相关信息进行批量分析比对,形成情报产品,支撑对传销人员的管控和打击工作。而这样的科技化的手段无疑包括大数据相关的技术。
(一)传销人员预测模型
针对传销人员,模型主要利用了两类数据,一类是已查获的传销人员信息,作为训练集的负样本。一类是来源于各个我们称作白名单的人员信息,包括本市车辆登记信息、从业人员信息、上网住宿信息等,这些数据作为训练集的正样本。利用对传销人员和各类人员信息历史数据的分析挖掘,可以通过机器学习出一个未分类的人员是传销人员的概率。
(二)传销组织预测模型
针对传销组织,模型主要利用的是公安内部所掌握的传销人员数据,诸如银行卡、航班、铁路、汽运、手机通信等信息在构建传销的组织网络方面都发挥出极大的价值。
(三)传销人员模型的算法思路
最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
(四)传销组织模型的算法思路
1.聚类出号段集团
传销集团喜欢用集团号来蛊惑群众,期待给人一种正规、有实力的印象。通过截取传销人员的前7位号码,并统计出它们的频数,成一定规模的号段显然就是传销组织用来蛊惑人心的集团号;
2.分析集团内部组织结构
集团内部的成员并不是平等关系。因此算法利用对成员间的相似度和暂住证的登记时间的先后来确定他们的上下线关系。最后将集团划分出了层级和结构图,包括所有集团的层级概览和某一个集团内部的结构图。
图片丨王政昱警官
基于快递信息的数据比对模型体系
我国发达地区迅猛发展的快递行业已成为我国社会生活必不可少的“实体媒介”,但我国物流寄递体系庞大,业务数据信息海量,犯罪分子利用其中的管理漏洞,进行违法犯罪活动的情况日益突出,目前其已成为涉毒、销赃、管制物品贩卖运输等违法活动的重要渠道,基于人工劳动的传统侦查模式难以发挥应有的效能。对于公安机关而言,快递信息在采集和利用方面有实时性好,反映最新变化;准确性高,便于精准使用;关联度广,便于拓展分析;归集度高,便于集中采集;规范性高,便于运算处理等优点,对其进行系统分析将有可能获取大量有价值的情报线索,为有效打击犯罪、推动公安警务实战化建设提供助力。
(一)使用数据类型、结构
基于快递信息的数据比对模型使用的数据来自于警务平台系统内部,以及公安机关从相关快递企业数据库获取的信息,涵盖字符型、数值型、逻辑型、文本型等各种类型的数据。
(二)基于快递信息的数据比对模型体系
以寄递物品信息为数据源,对敏感物品(汽车后视镜、金银饰品、光学器材等)设定关键词进行过滤。对于收寄人员、地址高频率重复的情况,通过相应指标设定积分条件。对于达到既设分值的信息条目,抽取其中的人员信息和地址信息进入后续比对程序。将抽取的人员、地址等信息与工商登记信息、人员职业信息等进行比对,排除其中的合法商户后将数据分别与盗窃、销赃、涉毒、涉枪等前科(高危)人员及其地址信息进行比对,进而发现其中关联度较高的情况,作为线索推送给办案部门重点核查。鉴于实际工作中发现,犯罪分子经常会利用其关系人的身份进行掩护,所以比对中同时包含其关系人相关身份、地址等信息(后文同理)。
以收寄人员(包含其关系人)信息为源头,对盗窃、销赃、涉毒等前科(高危)人员的物流信息进行比对。对于达到既设分值的人员,推送给办案部门进行重点核查。
以收寄人员(包含其关系人)信息为数据源,与铁路、民航、高速公路信息进行比对。过滤出频繁往返云南、广西等边境地区者,并比对出多次出现由上述地区重复快递物流收寄货物者,进行相应的积分管理,进而排查涉毒违法犯罪活动。
图片丨陈海鹰副检察长
基于大数据思维的反腐探索与思考
大数据很美好,但是很遥远,难以引入到日常工作中去,主要是大数据思维问题如何抓,从哪抓?我将结合自己的工作和经验,从以下几个方面展开:
(一)跨界思维盘活数据价值
大数据越大越好,但对基层办案人员很难拥有海量数据,因为过分强调“大”,使得办案人员感觉大数据非常遥远。所以我认为数据量是相对的,挖掘数据才是最重要的。大数据不仅在于“大”,更重要的是其价值维度。而大数据将如何盘活?我认为办案人员要精于业务,善于思考,超于业务,用跨界思维把数据应用和解决业务结合起来。
(二)数据关联促进侦查方式转变
徐州市检察院对社会各方面数据和信息进行采集,根据检察院办案需求和经验,开发自己的平台。该平台也获得了国家著作权,在办案过程中发挥了很大作用。不仅能减少查找数据的工作量,也能为科学决策和审讯突破提供良好基础,这就是数据关联的作用。在犯罪越来越隐蔽、法治要求越来越高的背景下,大数据的关联思维可以改变侦查方式,通过多种数据挖掘各种事物的相关关系,找出隐蔽性的一些联系,依据逻辑判断形成间接性证据。
(三)在线流动提高数据使用效率
数据不会自己发挥作用,数据要流动,才能发挥威力。数据要落地,但数据怎么落地?我认为有以下三个要素:“云+网+端”,发展路径是:数据汇聚—通过网络—通过终端。徐州市检察院的智能办案系统恰体现了数据的落地。
(四)数据治理推动反腐从治标转向治本
将涉农领域不同类型的业务数据进行业务汇聚,通过建立预警模型,尽早发现苗头性问题并及时制止,既实现精准扶贫又避免村干部从违纪走向违法。大数据平台的监管功能起到了“重遏止、强高压、常震慑”的作用。
★观点归纳:
1.思路决定出路,切实树立大数据思维和跨界思维。
2.知行合一,在业务实践中促进大数据理论和应用水平螺旋上升。
我认为大数据的未来在于积极探索,今后好的单位不是拥有数据最多的单位,而是数据应用最好的单位。
评 论
图片丨于世忠教授
我想和大家探讨的两点:什么是大数据?它的本质特征是什么?大数据应该是对海量的信息进行处理,包括概括组合,也包括间接地认识形成新知识或者发现有价值的法则而形成系统信息。大数据的本质特征应当是新知识的背后所蕴含的有价值的法则,它应当是规则的范畴。
下面我谈一谈这一单元三篇论文的共性。它们都有以下几个亮点:第一,信息来源及价值取向清晰;第二,对信息有一定的组合;第三,经组合后信息已经产生了积极的成果;第四,技术性的展示占满整篇论文;第五,认识是有高度的;第六,观点明确,层次感高。但也共同存在一些需要提高的地方:首先,技术的理论支撑还要多做一些交代。其次,最好加上规律揭示及其展望描述。最后,问题的揭示不是很多。
图片丨陈柏峰教授
三位来自实务界的警官、检察官,讲到的一些问题我很有同感,让我想到了数据经验和理论之间的关系,以及下午有学者谈到说我们做这方面的东西做了很多,但是成果没办法以现在学术体系认可的方式呈现出来,可以把原因归结为数据的保密性,我觉得我们受到司法大数据的限度的限制,法院、检察院的同志觉得这个数据不好用,是因为数据口径不同,对于我们学者来说,碰到数据的口径不统一是常态。每个系统它在自己做数据的时候,它的问题意识都是不一样的问题,意识不一样,就不可能有统一标准。
当然数据的标准是可以协调的,但是对于做研究来说,一切的痕迹都可以被数据化,这些数据都可能用来做研究,但标准都不可能是预先设定的标准,而我们对量性数据的利用不能够创新,往往认识没达到一定的高度,因为你怎么样去搜集数据,或者说未来运用大数据的关键就在于提取数据。提取数据的关键除了有技术环节以外,还有理论认识本身的问题。你怎样提取数据?为什么这样提取而不是那样提取数据,这取决于你的理论认识,那么如果是在工作部门的同志去看的话,取决于有没有工作经验,所以对于我们的研究来说,这方面更重要的不一定是统一数据的规范的问题,而是我们的理论、经验如何面对数据的问题,这是一个很大的挑战,因为未来社会是个数据社会,未来做研究利用数据甚至可以做量性的研究。
大家知道定量研究和定性研究在社会学领域长期以来处于竞争状态的,而大数据给我们的感觉主要是用来做定量研究的,但是也可以做定性的研究。不仅仅是数据的统计才有意义,互联网上有我们每个人,那么我们所有的信息在互联网上都留有痕迹,将来你去研究一个人可能都是去研究里面的痕迹,这也是大数据的问题。
图片丨杨力教授
今天的研讨从理论研究到实务应用,内容十分新颖、丰富,有很多我是闻所未闻的。在此,我想把我们以后大数据值得关注的一些重点和难点,以及今天我仍然没有找到最终答案那些问题展现给大家,希望有更加深入的交流。
之前王禄生副教授提到司法改革的综合配套议题,我觉得有以下问题可以探讨:
第一个问题涉及案件的固定权重和浮动权重如何进行更精准的设计。对于固定权重的设定,除了裁判文书外,我们还可以通过其他渠道获取能够计算法官工作量的一些权重吗?而浮动权重变量多,如何设计出适应司法实践的精准而有弹性的制度至关重要。
第二个问题涉及司法大数据系统的核心问题,即案由模型建构。目前的模式主要是自动识别、自动裁判,我对此真的不乐观。案由模型建构涉及面广、领域专业,耗时耗力还耗财,而且并非所有程序都可以交由人工智能判断,我参与上海206工程的建构,对此深有感触。
第三,综合配套司改还涉及到权力的再配置问题以及对权力的监督。比如我们如何以审判为中心重新构建,背后涉及十分敏感的问题,需要有效数据为决策提供支撑。
第四,涉及对“全数据”的理解。我觉得不要去责怪大数据不全、不大,数据是任何时候我们都无法穷尽的一个概念,我们讨论的目标是在现有条件下探寻尽可能逼近真实值的方法。此外最重要的是内部数据的获取,这些数据本身存在,但却无法研究,我觉得推动内部数据的公开研究是今后的一个推动点。
第五个方面涉及大数据研究对人才的要求。我们知道,现阶段,机器还无法完全取代人工。既然人如此重要,需要具备什么技能呢?学大数据法律、计算机、统计毫无疑问,但我特别希望学认知心理学。我们的研究成果不仅要让法律职业共同体可接受,也要让普通民众喜闻乐见,这离不开心理学方面的知识。
最后,大数据结论本身是一种引导性规范,如何在大数据推广过程中让法律职业共同体接受、让企业能够承担起社会责任?这也是我们需要认真研究的。
编辑部
编辑:刘双阳 郭雪雯 管玲玲 王梦瑶 丁 鹏
马文博 邹 星 胡 昊 刘丽萍 方 玥
摄影:刘文利