上海市黄浦区人民检察院专项数据治理团队:大数据视角下醉驾案件的可视化分析
萨日娜 上海市黄浦区人民检察院第六检察部干部;
陈立峰 上海市黄浦区人民检察院检务保障部干部;
赵丹妮 上海市黄浦区人民检察院检务保障部干部;
张 璐 上海市黄浦区人民检察院第二检察部干部。
在大数据语境下,借助技术手段进行数据挖掘,不仅能够描绘案件画像、展现案件特征,而且还可以帮助建立联系、揭示问题、发现趋势、提出对策,为办案提供专业化、精深化数据支持,为提升检察机关法律监督的质效与精准度提供新路径。本文以醉酒型危险驾驶罪为切入点,利用可视化分析方式定位数据异常波动原因、还原案发现场、以法律规定为标准审视公检法在其中的执法、司法尺度与偏离度,以数据为视角提示检察机关在类案中可重点关注的内容,以期为模式化的大数据分析路径提供可持续、可复制、可借鉴的经验。
关键词:大数据 分析研判 法律监督 可视化
在大数据时代不断深入发展的今天,数据成为一项重要的社会资产,如何挖掘其中隐含的价值并加以应用,是当前的热点课题。基于此,我们在6532起公诉案件数据的基础上,通过自主研发技术工具、构建算法模型,探索在大数据语境下如何进行数据挖掘,以可视化展示传统方式难以形象表达的维度层次和关联关系,所完成的作品荣获2019年上海市检察机关数据分析展示应用竞赛的一等奖。本文就是对这次业务数据可视化实战分析的回溯与研究,试图为办案提供专业化、精深化的数据支持服务,为探索模式化的大数据分析路径提供可持续、可复制、可借鉴的经验。
一、数据整合与技术处理
1.统一系统。自2013年推行全国检察机关统一业务应用系统以来,统一系统中积累了丰富的传统结构化数据,例如案件基本情况、犯罪嫌疑人(被告人)信息、案件受理情况等,这是从宏观的角度展现了检察工作的重要数据库。但是,由于案卡项目与填录规则设置具有普适性,从统一系统中获取的案件数据存在不够全面、具体、缺乏个性等方面的问题,例如,妨害公务案件中被害人人数以及被害人受伤程度、盗窃案中的案发地点等,这些数据都需要从个案中逐一查看获取。
2.起诉书文本。作为检察机关行使公诉权的重要载体,起诉书是最具代表性的检察法律文书,起诉书不仅包含了被告人工作单位、具体前科情况等基本信息,而且还有对于案件详细情况、重点细节的凝练。以本文研究的醉驾案件为例,众多案件要素,诸如事发地点、酒精含量、驾驶机动车类型、查获方式等在起诉书中均有记录,因此,起诉书能够弥补统一软件数据缺乏个性的不足,这是从微观角度对类案进行剖析的最佳样本。但是,想要有效地利用该数据,目前还存在缺乏可使用的提取工具的问题等待着被解决。
1.数据清理。经从统一软件中导出的黄浦区院起诉书(含不起诉书)共计6532份,为了能够更高效率、更高质量地对该类非结构化数据进行处理,相关部门的技术人员搭建了SQL文书处理数据库,设计、开发了文本提取工具,使得系统能够自动提取起诉书中的案件要素信息到数据表中,完成了数据的结构化转化,进而形成了公诉案件数据库,为数据重构打下了坚实的基础。
2.数据整合。将统一软件数据与起诉书数据进行有效整合,能够产生优势互补的效应,但是,二者在内容上存在一定的重复,比如,统一软件中关于被告人的性别、户籍、受教育程度、文化程度等信息,实际上在起诉书中也同样存在,属于重复记载的信息。因此,就需要对数据进行反复的清理、重构,才能够得到更为全面和准确的案件数据表。(见图1)
图1 数据整合流程图
3.建立模型。为了增加研究的广度与深度,除了还原案件画像、描绘案件的特征外,本文还结合公检法的实践操作,对相应主体的执法、司法尺度以及偏离程度进行了分析,即根据现有的法律法规的规定、司法解释等,建立起计算模型、完成数据计算,例如,将酒精含量划分为不同的区间,在不同含量区间与适用取保候审及应处刑罚之间建立起相应的逻辑关系,在此基础上加入实践中的办案数据,以进一步剖析公检法实际的办案情况与法定标准之间的偏离状况,为后续的处理提供更为明确的方向。
4.可视化呈现。在完成技术处理并且建立起不同数据之间的逻辑关联后,利用永洪BI工具,结合业务需求以及关注点,本文借助动态图表等形式,呈现出公诉案件的整体情况,同时建立类案全景视图,充分发挥可视化所独有的操作性强、交互性优、信息传递接收效率高等优势,多维度地展现出深度数据分析的成果。
二、以全部公诉案件为基础的宏观数据分析
(一)公诉案件整体数据状况
1.采用数据说明。通过导出所得的以“起诉书”命名的数据数量总共有6802个,去除重复文书、补充文书、无效文书、文件夹等冗余、无效的数据后,最终,能够实际使用的有效起诉书的数量达到6532份。(见图2)
图2 起诉书数据说明
2.数据分布情况。将有效的数据可视化,可以得到全部的罪名数据分布统计汇总表以及它的透视图,其中,数量排名前十(不含不起诉)的案件分别为:刑法第210条盗窃罪(2797件),刑法第347条走私、贩卖、运输、制造毒品罪(652件),刑法第133条交通肇事罪、危险驾驶罪(529件),刑法第234条故意伤害罪(293件),刑法第293条寻衅滋事罪(289件),刑法第242条妨害公务罪(234件),刑法第196条信用卡诈骗罪(222件),刑法第266条诈骗罪(100件),刑法第205条虚开增值税专用发票、用于骗取出口退税、抵扣税款发票罪(100件),刑法第183条职务侵占罪(69件)以及刑法第348条非法持有毒品罪(63件)。(见图3)
图3 全部罪名数据分布透视图及汇总表
(二)定位数据异常波动原因
1.发现异常。本文以时间为维度,对总件数排名前十的案件重新进行排布,将案发时间与案件数量的关系进一步进行放大,经过处理,我们发现相比其他案件的小幅度浮动,涉及刑法第133条的案件数量在2019年有了明显峰值,历月件数几乎都少于10件,但是,在2019年4月案件数量却高达72起,这一异常情况非常值得进行深入研究。
图4 数量排名前十案件数量与时间分布图
2.定位原因。刑法第133条包括交通肇事罪和危险驾驶罪,根据检察机关的办案实务,酒后驾驶行为可能会伴随妨害公务行为,在引发严重后果的情况下也可能构成交通肇事罪,因此刑法第133条还可能存在与刑法第242条妨害公务罪同时出现在同一份起诉书中的情况。根据这一特点,我们着重对于文中出现刑法第133条的起诉书进行了识别,提取到文书中所涉及到的全部罪名,经过进一步的分析、比对,最终确定了引发数据异常波动的原因,即醉酒型危险驾驶罪。(见图5)
图5 涉及刑法第133条文书中的全部罪名概要
三、以醉驾案件为切入点的微观数据分析
(一)案件基本画像
1.时空维度。为了更加直观地呈现出案件发生地点的分布情况,我们根据实际地图建立了简化地图模型,除了标注案发地点外,我们还利用热点图突出显示相应地点下的案发数量的方式,借此建立案发地点与案发数量之间的联系。除了案发数量以外,地图还关联了其他的关键数据,当选定某一地点时,可以实现动态查看该地点下的整体案件数量、不同案发时段下的案件数量以及相应查获方式下的案件数量等等,以地点为基础,全面反映了各要素之间的关系。
图6 醉驾案件案发地图、查获方式与案发时间组图
经过数据关联以及可视化处理后,我们可以得到醉驾案件案发组图。从图片中我们可以观察到,醉驾案件的案发地点较为集中,查获的方式以设卡为主(占比达到80%),案发时段与年月均有峰值特征。据此,我们可以初步还原最多的案发场景:即2019年1月至9月,晚23时至凌晨4时,在徐家汇路鲁班路、西藏路宁海路等几个路口。(见图6)同时,通过提取案发地段,我们进一步发现,除了城市道路(占比达到87%)以外,发生在停车场的案件也占有一定比重(占比达到7%),这一数据带给我们积极参与社会治理的新启示,也就是说,应当针对停车场案件,探索开展普法宣传、教育工作,以此预防、减少其发生。(见图7)
图7 醉驾案件案发地段
2.人物维度。借助数据描绘嫌疑人的画像,发现醉驾案件的犯罪嫌疑人呈现出“好人”特征——基本无前科(占比达到88%),学历偏高(大专以上学历占比达到50%),特别是在职业上,还存在11%的企业高管(含法人、董事长、合伙人、经理、总监等)。这一系列数据可以为检察机关开展服务保障优化营商环境工作提供宣传教育的素材,以巩固宣传教育的效果。
图8 醉驾案件犯罪嫌疑人(被告人)信息组图
3.原因维度。结合案发时间,醉驾案件在数量变化上存在两个峰值:2015年的“小峰值”与2019年的“大峰值”。进一步将醉驾案件查获方式细分为设卡、接警、巡查这几种类型,将其与案发数量联系,发现设卡查获是导致出现两次峰值的主要原因,联系上海市公安近几年的交通执法情况,可以得知小峰值的出现是因为交通大整治,大峰值的出现则是因为集中设卡执法行为,这一数据也印证了公安在交通整治方面的工作成效。(见图9)
图9 醉驾案件数量与查获方式、查获时间分布图
(二)办案情况审视
1.取保候审适用情况。根据业务关注点以及起诉书的内容,我们确定了酒精含量、行驶道路、是否发生事故、是否抗拒执法、是否逃逸等与决定是否采取取保候审措施相关的重要情节,并且建立了醉驾案件数据表。(见图10)在此基础上,我们结合检察机关的办案实务,建立起计算模型,将实际的取保情况与通过计算模型推导出的取保情况进行比对,以探索公安适用取保措施的偏离度,为检察机关更加有效地利用在检察阶段变更强制措施、与公安协商签署相关协议等法律监督手段提供了详实的数据支撑。(见图11)
图10 醉驾案件数据表
图11 公安适用取保偏离情况
同时,为了满足承办人的不同需求,实现多维度的灵活分析,本文还将各项数据连接在一起,制作出能够联动操作的可视化图表。例如,通过勾选取保候审从提出申请到决定适用的间隔时间,可以查看相应的条件下,嫌疑人的信息、案发情节、涉案车辆状况、查获方式等详细的内容(见图12);选取嫌疑人前科、是否逃逸、是否抗拒执法等案件要素,可以查看公安机关适用取保的状况(见图13)。此类图表操作便捷、内容更为直观,能够为案件承办人开展分析研判工作提供极大便利。
图12 不同取保状况下案件构成要素分布情况
图13 不同案件构成要素下取保候审适用情况
2.实刑量刑建议情况。通过字段提取,汇总整理出检察机关实际量刑建议刑期与法院最终宣判刑期数据表。同时,结合相关法律规定与本院醉驾案件的历史量刑情况,我们建立了实刑量刑建议计算模型,也就是以酒精含量来确定基准刑,再叠加其他情节,借此能够推算出理论上的参考刑期。(图14)将实际数据与参考数据相结合,为考量检察机关提出的量刑建议是否统一、规范提供了依据,为提高量刑质量、规范量刑标准提供了支撑。
图14 检察机关量刑建议刑期与法院一审宣判刑期情况图
3.缓刑适用情况。利用同样的方法,我们将检察机关建议适用缓刑数据、法院判决缓刑数据与推算所得缓刑数据进行对比,查看检察机关缓刑量刑建议与法院量刑建议采纳情况之间的关系。同时,由于醉酒驾驶案件中适用缓刑的问题可能还掺杂了权力滥用的人为因素,这一部分不仅拘泥于审视法检在缓刑适用上的吻合度,还特别引入了公安机关适用取保候审的数据,以探索公检法三个司法主体在缓刑适用上的行为联系,借此发现一类问题,运用数据分析来实现法律监督由个案向类案的转变。
图15 公安取保候审与法检缓刑情况图
大数据可以表征过去、揭示未来,从历史向度展示出更为清晰、更为量化的经验世界的同时,还应当从未来向度预测、捕捉情势发展,为决策提供重要的参照。本文既展现了醉酒驾驶案件深入精致、生动形象的特征画像,又透过数据建立联系、揭示问题、发现趋势、提出对策。大数据分析既能够使检察机关聚焦主责主业,实现精准履职,优化法律监督能力,而且还能够推动参与社会治理,延伸检察服务职能,在强化检察权的同时,提升检察工作的信息化、智能化水平。大数据既是一种工具,更是一种理念,检察机关应当审时度势,主动去探索更多的大数据应用模式,以回应时代的要求和人民的需求,切实提升法律监督的质量、效率与精准度,增强检察工作的前瞻性、适应性与主动性。
请读者朋友关注上海市法学会官方微博,转发+关注,参与抽奖,我们将于2021年9月24日上午9:30微博公布抽奖结果。如中奖,请在微博平台及时与我们取得联系。大家都来关注上海市法学会官方微博,积极参与抽奖活动,#微博学法律#,#分享有好运#!
扫描二维码,参与抽奖
责任编辑:魏广萍 金惠珠
柯明:侵犯公民个人信息罪保护法益的检视
唐守东|社会治理新视角:网络时代个人信息保护的公益诉讼模式构建
陈凯明:网络环境下企业侵犯公民个人信息涉罪风险问题研究
时磊 刘德营:论网络空间个人信息安全的公益诉讼检察保护
史永升 范玮娜:侵犯公民隐私权民事判决实证研究——以2017年—2019年243份生效判决为样本
上海市法学会微信公众号欢迎您的投稿
fxhgzh@vip.163.com