查看原文
其他

这才是靠谱的大数据辩护率好不 | 14%是彻头彻尾的错误 | 数说司法 | 第119期

2016-12-13 王禄生 数说司法

好吧,这期推送真是来“打脸”和“砸场子”的。


昨晚一篇叫做《全国刑事案件律师辩护率约为14%》刷爆了法律人的朋友圈。小伙伴们纷纷震惊地表示:原来我国刑事案件辩护率才14%。这么LOW!司法改革都白改了吗!


推送出来后,众多朋友询问小编的问题主要有两类:(1)是不是你们大数据基地推出的数据;(2)这个数据到底靠谱吗?


小编十分高兴有越来越多的单位加入到司法大数据的研究中。不过很遗憾,这篇推送虽然用到了基本的挖掘技术,但在方法论上却有三大不可原谅的错误,导致数据基本不具参考意义


▌辩护率以案件数为分母是根本错误

该文最大也是最不可饶恕的错误就在于居然以案件总量而不是被告人总量作为统计辩护率的分母。原文截图如下:


注意,某平台(就不点名道姓了~~)原文表述大致是他们挖掘372万份文书后,发现有律师代理的案件数量为53万,由此算出辩护率为14%——公式为逆天的:辩护率=律师代理案件总数÷总案件数……


稍微有点刑事诉讼常识的人都知道,刑事案件中有大量的共同犯罪。被告人超过十人的案件也并不少见。我们举个极端的例子,某地某年只有1件刑事案件。该案件有8名被告人,其中1人有辩护人。按照该平台的算法,该地的刑事案件辩护率是100%,而实际上辩护率只有12.5%。虚高了8倍!


小编随便找一个(2016)鄂0116刑初639号的案件截图,大家一看便知。


该有4个被告人,2人有辩护人,辩护率为50%。不过按照某平台的算法,该案的辩护率为100%。


因此精确的大数据挖掘辩护率应以被告人总数为分,而不是以案件数。


只是,对大数据挖掘而言,挖掘案件数比挖掘被告人数省时省力得多!所以,这种“偷懒”所算出的数据会大大提高真实的辩护率水平


看到这里各位看官可能会不淡定了,该平台算出的辩护率为14%,难道我国真实辩护率比这个还低!?大家先不要激动,请继续往下看。


▌未公开的文书才是辩护率的主力军

尽管最高人民法院推动的司法公开改革已经取得阶段成果,但离全样本还有一定的差距。目前刑事裁判文书的公开比例在70%-80%之间。也就是说,有两到三成的案件没有公开


未公开的案件主要是未成年人犯罪和部分重刑、敏感案件,而这些案件其实基本都是有辩护人的!


以未成年人犯罪为例,我们知道,这类犯罪在整体犯罪中的比重不低,而根据《刑事诉讼法》的规定,未成年人犯罪(庭审时)属于法定必须提供援助的情形。所以,遗漏了这30%案件才基本是辩护率的主力输出单位。


忽视这部分数据而匆匆得出14%的“偷懒”结论”又大大降低了真实的辩护率水平


▌未排除130万量刑文书使结果不可挽回

好吧,其实有前两条,真的没有必要再说了。不过既然写了,就说完吧。


该文的第三个重要的错误在于对372万份文书进行整体挖掘,而没有排除高达130万份的量刑文书。这种做法要么是“偷懒”,要么就是在建库时发生了重大错误。大家可以直接原文的截图:


上图描述说选取一审文书217万份,二审文书155万份大家不觉得很诡异吗!!!


小编长期做司法数据,一眼就发现了不妥。中国刑事案件的上诉率大致是10%上下,而按照该文的样本,刑事案件上诉率居然超过超过70%……这个数据估计要吓死多少一线工作的公检法宝宝们了!


导致这种“乌龙”的真正原因在于该平台解构文书的时候把130多万份的刑罚变更文书都解构到二审文书中了……这……哎……小编把最高法院的文书库贴出来,大家一眼就明白了:


上图显示,最高人民法院裁判文书网的刑事二审案件+刑罚变更案件的总数其实大致就等于某平台宣称的“
二审”案件数。


现阶段的司法大数据研究平台基本都是通过爬取最高人民法院裁判文书网的数据建立自有的大数据库。文书爬取的同时还要解构入库,分别添加诸如一审、二审、再审的标签。仅从这篇推送来看,某平台很可能在解构文书入库时忽略减刑、假释类文书的标签添加与分类。这类文书可是高达130万!130万!130万啊!


有看官会问,解构错误和辩护率有什么问题?问题可真很大!因为这130万以上的案件并非传统意义上的刑事案件,对其统计辩护率没有必要,也没有可能。因为文书上基本没有辩护人的信息。某平台把这132万的文书纳入到统计辩护率的基数之中,一不小心又大大降低了我国的真实辩护率


当然,其他的小错误诸如提取律师代理的时候要充分避免刑附民原告代理。这些都是些高度技术化的细节,我们就不一一分析了。


最后,小编还想吐槽的是,原文的那个所谓的律师辩护意见采纳率……哎……我相信朋友们都会知道那个是明显虚高。其实小编已经大致猜到他们是提取法院审理意见中出现诸如“不予采纳”类型的关键词。对这个,有机会再开专版吐槽吧。


▌我国的真实辩护率究竟如何

好了,说了这么多,有人会说You can you up。这次小编还真就要CAN UP了。


其实小编所在的最高人民法院大数据研究基地无讼科技合作在几个月前就完成了《刑事诉讼法》实施效果的全局评估。我们的数据挖掘是开发专门的工具,对300多万刑事裁判文书中的指标进行自动、实时、批量地提取,几乎不用人力统计


之所以吐槽某平台,是因为他们犯的错误我们也经历过一些。司法大数据尚处于起步阶段,有许多坑要亲身跳过,才能够有效避免。希望未来有更多的群体加入到大数据的研究中,实现经验共享、避免弯路。


原来小编准备在大数据基地正式揭牌之后陆续通过本公众号(数说司法)对外发布。借着吐槽我们就把大数据发布提前一个月吧~下面放送的是经过校正后的,以被告人而不是以案件为分母的一审刑事案件辩护率,供大家参考。


造谣容易辟谣难!转发辟谣,手有余香~咱们国家辩护率的清白就靠大家积极啦~


对小编不点评批评的某平台原文,可点击左下角“阅读原文”获取。

◆ ◆ ◆

快来评论区吐槽“大数据”吧

往期精彩文章  点击图片可阅读

人类死刑简史

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存