查看原文
其他

【评论】用大数据统计阐释刑事司法中无罪推定的意义

2017-02-09 Raymond Sakura 刑事法前沿推介

投稿和联系邮箱:

xsfqytj@163.com


编辑按:本文为作者在爱瞒日报上的三篇连载,用平实的方式从统计学角度探讨刑事法中的无罪推定问题,引起了诸多讨论。刑事法前沿推介把三篇连载原文同时推送,随后会推送读者对这篇文章的几篇商榷。


一、为什么无罪推定原则是重要的


判别是非黑白,有四种可能情况︰一、判有罪者有罪;二、判无罪者有罪;三、判无罪者无罪;四、判有罪者无罪。你希望一个社会能够彰显公义,你必须要令第一种及第三种情况发生的概率非常高,同时令第二种及第四种情况发生的概率非常低,否则就只能沦为食人族层次的文明。如何能够达到高度文明的境界,并没有固定答案,但要判断我们的社会与此境界相距有多远,却是有明确的方法。

 

设事件A代表“判有罪”,事件B代表“有犯罪”,又假设某种犯罪的盛行率,为平均每一万人有一人犯罪︰P(B) = 0.01%。很正常吧?又假设法院以往识别有罪者的成功率,为P(A|B) = 90%,又假设法院以往识别无辜者的成功率,为P(A’|B’) = 99.9%,很不错吧?可是实际上,当法院判定一个人有罪时,此人真的有罪而非被冤枉的机会率有多大呢?

 

此问题问的是P(B|A)等于多少,故我们用一般高中数学课程所教的贝氏定理 (Bayes theorem)︰

 

P(B|A) = P(A|B)P(B)/[P(A|B)P(B)+(1-P(A’|B’))(1-P(B))]

= (0.9)(0.0001)/[(0.9)(0.0001)+(1-0.999)(1-0.0001)]

= 0.0826 = 8.26%

 

结果令人非常失望︰当法院判定一个人有罪时,此人真的有罪的机会率,只有8.26%,即是说,此人其实是被冤枉的机会率,有91.74%,高得恐怖。

 

可能你会认为,那是因为法院以往识别有罪者的成功率P(A|B) = 90%,其实是太低,应当99%才合格,那么贝氏定理会如何告诉我们这结果呢?

 

P(B|A) = (0.99)(0.0001)/[(0.99)(0.0001)+(1-0.999)(1-0.0001)]

= 0.0901 = 9.01%

 

结果仍然令人非常失望︰当法院判定一个人有罪时,此人真的有罪的机会率,只有9.01%,即是说,此人其实是被冤枉的机会率,有90.99%,仍然高得恐怖。

 

可能你又会认为,P(A|B) = 99% 仍然是太低,应当99.9%、甚至99.9999%才合格。可惜,即使是99.9999%,你尝试重新运算一次,结果仍然是一个失望的9.09%,毫无显著改善。

 

真正的问题,其实并非在法院识别有罪者的能力,而是在法院识别无辜者的能力︰法院以往识别无辜者的成功率P(A’|B’) = 99.9%,其实太低。假如把法院以往识别有罪者的成功率维持在P(A|B) = 90%,但把法院以往识别无辜者的成功率P(A’|B’)提升至99.99%,贝氏定理又会如何启示我们呢?

 

P(B|A) = (0.9)(0.0001)/[(0.9)(0.0001)+(1-0.9999)(1-0.0001)]

= 0.4737 = 47.37%

 

明显大幅改善,但仍未令人满意。假如把P(A’|B’)提升至99.999%,又会如何呢?

 

P(B|A) = (0.9)(0.0001)/[(0.9)(0.0001)+(1-0.99999)(1-0.0001)]

= 0.9000 = 90.00%

 

明显更加理想。而如果你再把P(A’|B’)提升至99.9999%,则答案变成98.9%,亦即是制造冤案的机会率只有1.1%,效果十分理想。

 

所以识别无辜者的能力,其实比识别有罪者的能力重要很多倍。换句话说,一个社会的法治有没有失控,看的应当是政府及法院识别无辜者的能力,而不是识别犯罪者的能力,市民应当多加监察前者。增强政府及法院识别无辜者的能力,就等于减少政府及法院冤枉无辜者的机会率。

 

如何做到这一点呢?方法很简单,就是无罪推定原则、除刑化。政府及法院是人类的聚合体,而人类是会犯错的,不管其犯错的原因是自身还是外部引诱。但透过无罪推定及除刑化,则能使身为人类的政府及法院在有可能冤枉无辜者的时候及时临崖勒马,体现出的结果,就是有效地把政府及法院识别无辜者的能力提升至99.999…%之高。但今日的动保加刑、毒品使用加刑,乜都加刑,完全是反其道而行,对无罪推定嗤之以鼻,结果导致冤案无数。贝氏定理看在眼里,不禁摇头叹息。这种加刑社会,澳门有没有人喜欢,我不清楚,但食人族层次文明的人,就一定不会反对。

 

二、什么情况下不应高举无罪推定原则


上文提到,识别有罪者的成功率P(A|B),对于法院将来正确判罪的机会率P(B|A)只有微小影响,但识别无辜者的成功率P(A’|B’)却有非常巨大的影响力,我们在上篇的几个运算例子中已经确凿看见此结论。因此必须有一个有效防止失控的措施,以增加政府及法院正确判罪的机会率P(B|A) (亦即减少冤枉无辜者的机会率P(B’|A))。而无罪推定原则就是此措施。

 

但是,为什么具有影响力的,是识别无辜者的能力P(A’|B’),而不是识别有罪者的能力P(A|B)呢?我们先重温一次贝氏定理︰

 

P(B|A) = P(A|B)P(B) / [P(A|B)P(B) +(1 – P(A’|B’)(1 – P(B)]

 

为了简化数学符号以便观察,我们设︰

 

1. 该犯罪的盛行率P(B),称为θ;

2. 法院 (或社会) 识别有罪者的能力P(A|B),称为ψ;

3. 法院 (或社会) 识别无辜者的能力P(A’|B’),称为ζ;

4. 法院 (或社会) 将来的正确判罪机会率P(B|A),称为π。

 

则贝氏定理可以写成︰

 

π = ψθ / [ψθ + (1 – ζ)(1 – θ)]

 

为方便起见,我们把分子分母同时除以ψθ并化简之︰

 

π = 1 / [1 + (1/ψ)(1 – ζ)(1/θ – 1)]

 

要知道社会识别无辜者的能力ζ对于社会将来正确判罪的机会率π影响力有多大,就等于要知道ζ对于π的改变率大小。谈到改变率,就即是指一般高中微积分课程的第一阶导数。故我们先对ζ取π的第一阶导数︰

 

dπ/dζ = (1/ψ)(1/θ – 1) / [1 +(1/ψ)(1 – ζ)(1/θ – 1)]²

 

同样地,我们对ψ取π的第一阶导数,即为社会识别有罪者的能力ψ对于将来正确判罪率π的改变率︰

 

dπ/dψ = (1/ψ²)(1 – ζ)(1/θ – 1) / [1+ (1/ψ)(1 – ζ)(1/θ – 1)]²

 

哪一个改变率较大呢?我们将两者相除︰

 

(dπ/dζ) / (dπ/dψ)

= (1/ψ)(1/θ – 1) / (1/ψ²)(1 – ζ)(1/θ– 1)

= ψ/(1 – ζ)

 

那即是说,如果分子ψ比分母大,则社会以往识别无辜者的成功率ζ,对于社会将来正确判罪的机会率π有较大影响力,代表社会识别无辜者的能力较重要;相反,如果分母 1 –ζ 比分子大,则社会以往识别有罪者的成功率ψ,对于社会将来正确判罪的机会率π的影响力比较大,代表社会识别有罪者的能力较重要。

 

而上篇的运算例子已清楚可见情况属于前者︰分子的ψ = 90%,远比分母的1 –ζ= 100% – 99.9% = 0.1%要大得多。当你直接相除,90% / 0.1% = 900,代表社会识别无辜者的能力比识别有罪者的能力重要900倍!

 

分子的ψ,是社会识别有罪者的成功率;而分母的1 –ζ,即是P(A|B’),却是社会把无辜者当成有罪者的“成功”率。换句话说,当一个社会判有罪者有罪,多于判无罪者有罪,也就是分子大于分母时,你反而应该更重视自己识别无辜者的能力,多于识别有罪者的能力。只要你识别无辜者的能力稍微有变化,就已经可以大大影响你正确定罪的机会率。所以,社会识别无辜者的能力必须非常稳定,不能容易变化,否则会连带你正确定罪的机会率非常不稳定,即是失控。所以你必须要有无罪推定原则去稳定化社会识别无辜者的能力,以防失控。而很违憾,动保加刑、毒品使用加刑等,都在走相反的路。

 

可是,这一切结论的前提都是分子大于分母︰这个社会判有罪者有罪,多于判无辜者有罪。如果情况相反呢?

 

假如这个社会判无辜者有罪,多于判有罪者有罪,那结论就相反了︰你反而应该更重视自己识别有罪者的能力,多于识别无辜者的能力。只要你识别有罪者的能力稍微有变化,就已经可以大大影响你正确定罪的机会率。

 

怎样的社会环境会导致这个情况出现呢?最简单的例︰社会过度高举大爱包容,变成无条件纵容包庇破坏本土文化与生活的居民,却反而把捍卫本土文化与生活的无辜居民不分青红皂白地贴上“你才是破坏者”的标签。那就是“社会判无辜者有罪,多于判有罪者有罪”的体现了。分子小于分母,批斗义人的频率还要多于审判恶人,社会变得相当反智,指鹿为马。

 

举一些具体的数字说明。设θ = 90%,即是平均每10个居民就有9个会破坏本土文化与生活;又设ψ = 1%,即是平均每100个破坏本土文化与生活的居民只有1个能被社会正确识别出来,其余均会被社会识别为没有问题,是为纵容及包庇的典范;然后又设1 –ζ= 99% (即ζ = 1%),即是平均每100个捍卫本土文化与生活的无辜居民只有1个能被社会正确识别出来,其余均会被社会识别为“你才是破坏者”、“你在搞分化撕裂”之类,是为不分青红皂白的典范。使用贝氏定理可得︰

 

π = ψθ / [ψθ + (1 – ζ)(1 – θ)]

= (0.01)(0.9) / [(0.01)(0.9) + (1 –0.01)(1 – 0.9)]

= 0.0833 = 8.33%

 

结果相当令人失去信心︰当社会判定一个人“你才是破坏者”时,此人真的在破坏本土文化与生活的机会率,只有8.33%,即此人其实是捍卫者,却被错怪成破坏者的机会率,有91.67%,令人难以接受。

 

如果把社会辨别捍卫者的能力ζ提升至10%又会如何呢?使用贝氏定理︰

 

π = ψθ / [ψθ + (1 – ζ)(1 – θ)]

= (0.01)(0.9) / [(0.01)(0.9) + (1 –0.1)(1 – 0.9)]

= 0.0909 = 9.09%

 

结果仍然令人非常失望︰此人其实是捍卫者,却被错怪成破坏者的机会率,有100% - 9.09% = 90.91%,仍然令人难以接受。

 

可是如果把社会辨别哪些居民会破坏本土文化与生活的能力ψ提升至10%,而ζ仍然维持1%,又会如何呢?再使用贝氏定理︰

 

π = ψθ / [ψθ + (1 – ζ)(1 – θ)]

= (0.1)(0.9) / [(0.1)(0.9) + (1 –0.01)(1 – 0.9)]

= 0.4762 = 47.62%

 

明显大幅改善,但仍未令人满意。假如把ψ提升至50%,又会如何呢?

 

π = ψθ / [ψθ + (1 – ζ)(1 – θ)]

= (0.5)(0.9) / [(0.5)(0.9) + (1 –0.01)(1 – 0.9)]

= 0.8197 = 81.97%

 

明显更加理想。而如果你再把ψ提升至一个比较正常的水平,例如90 %,则答案变成89.11%,亦即是把捍卫者错怪的机会率只有10.89%,相当不错。

 

所以在这种指鹿为马的社会环境之下,你辨别哪些才是破坏者的能力,反而比你辨别哪些才是捍卫者的能力更重要。俗一点说︰我宁愿你把我当成是坏蛋,也不想你把真正的坏蛋当成是好人。故此,本土主义看来丑陋,其实不然,反而那些非本土的人才是真正破坏本土文化与生活的机会率,还要高出很多倍,这是运用贝氏定理的重要启示。而这种分子小于分母的环境下,社会辨别真正坏蛋的能力必须非常稳定,不能容易变化,否则社会彰显公义的能力会非常不稳定,即是失控。在这种环境下滥用无罪推定原则,反而会滋生细菌,情况与动保及毒品使用是完全相反的。至于澳门有没有滋生这些细菌,我不清楚,但食人族层次文明的人,是很喜欢与细菌为伍的。贝氏定理看见细菌在滋生,仍然是会摇头叹息的。


三、大爱包容与儆恶惩奸


到底应该重视多一些社会识别无辜者能力、抑或应该重视多一些社会识别奸佞的能力,要视乎何者对于日后正确判别奸佞 (或错判无辜) 的准确率有较大影响力 (即较高敏感度)︰


(dπ/dζ) / (dπ/dψ) = ψ/(1 – ζ)


如果社会以往识别奸佞的频率ψ,比社会以往错判无辜的频率1 – ζ高 (下称社会环境A),就代表社会识别无辜的能力ζ对日后正确判别奸佞 (或错判无辜) 的准确率π有较大影响力 (dπ/dζ > dπ/dψ),社会应当对自己识别无辜的能力ζ要求更严格,例如透过无罪推定原则协助达成此目标。而相反,如果社会以往识别奸佞的频率ψ,比社会以往错判无辜的频率1 – ζ低 (下称社会环境B),则反而社会识别奸佞的能力ψ对日后正确判别奸佞 (或错判无辜) 的准确率π有较大影响力 (dπ/dζ < dπ/dψ),社会应当对自己识别奸佞的能力要求更严格,例如减少以大爱包容作为纵容及包庇的借口。这些都是中篇的主旨。


不过以社会环境A而言,要求社会提高识别无辜者的频率ζ,就会同时降低社会识别奸佞的频率ψ,即是说,分子的ψ与分母的1 –ζ会同时减少。除非你增加社会资源去同时提高这两种识别能力,例如提升教育、花费资源提高搜证的充份程度等,方能使ψ增加却同时使1 –ζ减少,否则就避免不了两者一同减少。道理如同你希望减低酒精测试仪误判无辜的频率,若你没有加拨金钱与人力等资源去改良酒精测试仪的性能,你就免不了会同时减低酒精测试仪准确捕捉醉驾者的频率。

 

所以在社会环境A之下,如果ψ与1 –ζ同时减少,那很自然下一个问题就要看谁减少得快一些。如果是1 –ζ减少得快一些当然没问题,但如果是ψ减少得快一些,那即是有可能会使情况逆转成ψ比1 –ζ低,变成了社会环境B。在这种环境下,社会浸淫在大爱包容的气氛里,逐渐滋生出纵容与包庇。这时候,社会就需要重新拨乱反正,加强识别奸佞的准确率ψ,比加强识别无辜的准确率ζ来得更重要,不能再继续一味高举大爱包容,必须加强儆恶惩奸的能力,情况与社会环境A相反。

 

但同样地,在社会环境B之下,若没有增加任何社会资源,那么要求社会提高识别奸佞的频率ψ,就会同时降低社会识别无辜的频率ζ,即是说,分子的ψ与分母的1 –ζ会同时增加,也即是会避免不了同时增加错判无辜者的频率。道理如同你希望增加酒精测试仪准确捕捉醉驾者的频率,若你没有加拨金钱与人力等资源去改良酒精测试仪的性能,你就免不了会同时增加酒精测试仪误判无辜的频率。

 

又所以,在社会环境B之下,如果ψ与1 –ζ同时增加,那很自然下一个问题就要看谁增加得快一些。如果是1 –ζ增加得快一些,那即是社会仍然处于环境B之下,儆恶惩奸的能力仍需继续改善;但如果是ψ增加得快一些,那情况就会逆转成ψ比1 –ζ高,反而又变成了社会环境A。这时候,社会不再浸淫于大爱包容的气氛之下,但就回到了社会警惕自身对识别无辜的能力ζ要求是否够严格的状态,不能再继续一味高举儆恶惩奸清算罪人,必须加强识别无辜的能力ζ,情况与社会环境B相反。

 

如是者,很容易可以想像到,人类社会将会不断在环境A及环境B之间轮回,身在环境A,社会就需要多一点大爱包容,太多大爱包容就会变成环境B,社会就需要多一点儆恶惩奸,儆恶惩奸得太严格又会回到环境A,然后重新轮回。换句话讲,这是一场没完没了的交互更替。Again,除非增加资源,方能同时提升社会提高识别无辜者的频率ζ以及社会识别奸佞的频率ψ,这是最文明的做法,否则,这场互相更替的华尔兹会一直跳下去,是很自然的事。

 

实际上,类似的互相更替我们看见过很多。在校园,过度维护弱者,会滋长扮无辜的无赖学生,校园需要多一点儆恶惩奸;而儆恶惩奸过度时,又会滥杀无辜,校园则需要多一点大爱,如是者不断互相更替。在美国,共和党执政,过度强调打击恐怖主义维护美国自身利益,结果过度滥杀无辜平民,这时候的美国需要多一点大爱,结果出现了一个奥巴马;而民主党执政时,又过度强调大爱和平,过度包容难民,结果过度破坏美国本土文化与利益,这时候的美国又需要多一点儆恶惩奸,结果出现了一个特朗普。类似的更替还有很多,小至家庭、大至全球,纵使具体背景不一,但大爱包容与儆恶惩奸的互相更替却是共通点。可以说,更替是必然的,因为人类有道德观念,道德观念使人类身处环境A时能以大爱包容修正社会,又使人类身处环境B时亦能以儆恶惩奸修正社会。


【近期推送精选】

【中国】技术侦查证据认定研究:以证据能力为切入的分析

【德国】2016年德国刑法典修订选译(附刑诉法选译)

【死刑】听听台湾法官判决死刑时的内心挣扎……

【新年好书】《当代德国刑事法研究》推荐

【新書连载之三】 加重结果、罪名从属性、过失犯|郑逸哲

【新書连载之二】原因自由行为、过失致死构成要件、不能犯|郑逸哲

【新書连载】《刑法七不思议适用事件》|郑逸哲

【美国】统计发现死刑犯的临终遗言充满正能量

【美国】美国2016年刑事司法发展状况速览

【来鸿】司法基层人员观点下的刑事司法改革

【德国】德国联邦最高法院刑庭庭长:如果这就叫反叛,我乐于反叛!

【德国】法益保护与规范效力的保障:论刑法的目的|陈璇译文

  刑事法学与实证研究的新近发展



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存