秦裕林、葛岩、林喜芬 | 波斯纳写错了贝叶斯公式吗?
编者按:本文原载于《交大法学》2016年第4期,为方便阅读,推送时删去了注释,如有需要请参见原文。感谢作者慷慨授权!
作者简介:秦裕林* 葛 岩** 林喜芬*
* 上海交通大学凯原法学院,上海交通大学社会认知与行为科学研究院(筹)
**上海交通大学人文艺术研究院,上海交通大学社会认知与行为科学研究院(筹)
…
在决策与判断研究中,贝叶斯(Bayes)理论起着十分重要的作用,对于法律决策,司法判断的量化研究,也莫能例外,因为法官判案的过程可以视为在特定的证据条件下,对被告刑事责任(是否定罪、如何量刑)、民事责任(是否归责,如何赔偿)的判断和决策过程。在《法官如何思考》一书中, 波斯纳举了一个无陪审团且证人是原告本人的关于性别歧视诉讼案件的例子。他在这个例子中,按照贝叶斯理论分析了法官判别证人是否讲真话的过程。这个例子表明贝叶斯理论能够帮助我们看到,在法官判案的过程中,法官本人的意识的是如何起作用的,进而能够帮助我们去探讨有哪些“非法条主义的因素“可能潜在地影响着法官的判决 (第61~62页) 。
用贝叶斯决策理论的术语去说,法官的任务是判断假设 H (Hypothesis) 为真(在本例中是证人讲真话)的概率大小,执行这个任务的过程有三个阶段:
(一)形成先验概率。在证人开始作证以前,有理由相信,法官对这个证人讲真话的可能性(概率)的大小,便会有一个估计。影响这一估计的因素非常多,从证人的背景介绍,证人在现场的态度、情绪,甚至证人宣誓作证时站立的姿势,到法官本人的经验和素质,等等,都可能会产生或多或少的影响。其中,很多影响是无意识的。因为这个概率估计发生在证人作证以前,通常被称为假设H(证人讲的是真话)为真的先验概率(prior probability), 或者译为事前概率,记为p(H)。如果用~H表示假设H为假(证人没有讲真话), 因为H和~H两者必居其一,~H的先验概率为p(~H) = 1-p(H)。
(二)估计假设H与证人证言的关系。 如果把证人的证言带来的信息记为E(Evidence), 有了E以后,就需要知道联系证据E与假设H的两个条件概率: (1)在证人讲真话(假设H为真)的条件下,观察到E的概率, 记为p(E|H); (2)在证人讲假话(假设H为假)的条件下,观察到E的概率, 记为p(E|~H)。很明显,这两个概率的估计,也与法官的经验密切相关。
(三)计算在有证据E的条件下,假设H为真的概率,记为p(H|E)。这是法官的主要考量。由于这个概率是法官在获得证据E以后产生的,通常又称为在有了证据E的条件下,假设H为真的后验概率 (posterior probability),或者译为事后概率。按照贝叶斯定理,在有了(一)和(二)的信息以后,后验概率p(H|E)为:
P(H|E)=p(E|H)*p(H) / (p(E|H)*p(H)+p(E|~H)p(~H)) (1)
用波斯纳例子中的数值将上述过程具体化:(一)假定一名法官看到这位证人时产生的先验概率 p(H)=0.25,即,在听取证人证言前,法官相信证人讲真话的概率为25%, 于是H为假的先验概率p(~H) = 1-p(H)=0.75。(二)假定知道在证人讲真话(假设H为真)的条件下,观察到证据E的条件概率 p(E|H)=0.6; 在证人讲假话(假设H为假)的条件下, 观察到证据E的条件概率为 p(E|~H)=0.3。(注意, p(E|~H)通常不等于1-p(E|H)。 如果p(E|H)=p(E|~H), 由(1)可知,P(H|E)=p(H),证据E将对H是否为真,不提供任何新的信息)。 (三) 将这些数值代入贝叶斯公式(1),可以得到在有证人证言E的条件下,证人讲真话的后验概率p(H|E)
P(H|E)= 0.6*0.25/(0.6*0.25+0.3*0.75)= 0.4
换言之,在听了证人的证言后,法官断定原告,也就是证人,在这个性别歧视诉讼案件中讲真话的概率不到50%。以此去看,那位原告兼证人很可能败诉。
假定审理这个案件的是另一位法官。在见到这位证人时,他认为证人讲真话的先验概率是 p(H)=0.67,则p(~H) = 1 – p(H) = 0.33。或许和许多人的直觉判断相悖,即使他如同上面的那位法官,也认为p(E|H) = 0.6,p(E|~H) = 0.3,按照贝叶斯公式(1),计算的结果是:
p(H|E) =0.6*0.67/(0.6*0.67+0.3*0.33)= 0.8
即,法官断定原告,也即是证人,在这个案件中讲真话的概率达到80%。以此去看,那位原告兼证人很可能胜诉。
通过这个例子,波斯纳试图说明,基于贝叶斯决策理论,法官的主观先验概率不同,可能导致相同案件得到不同,甚至是完全相反的判决。
这里, 有一个有趣也有意义的问题:法官的判断真的是基于贝叶斯决策理论吗?表面上去看,这不大可能。且不说大多数法官可能从未听说过贝叶斯公式,即使知道贝叶斯公式,在判案中,他们也很难去估量出p(H), p(E|H),和p(E|~H)等概率的准确数值。那么,贝叶斯决策理论对法律实证研究有何意义?
我们相信,至少有两方面的意义。一方面,作为一种决策与判断的理论框架,如上面的例子所显示的,贝叶斯决策理论把法官的决策过程掰开来,指出了先验概率和两个条件概率决定着法官的最终判决。这就为探讨司法过程中影响法官判案的非法条主义因素提供了研究进路,尤其是为探讨各种可能的直觉和认知偏差(Heuristics and biases) 对法官判案的影响提供了考察的方向。另一方面,从更深层的机制上看,认知心理学的研究表明,人们有外显的和内隐的两种知识。外显的知识是人们能够知道自己所知道的知识,例如 3+2=5是我们知道的我们所具有的知识;内隐的知识是人们不知道自己知道(或者说不明白)的,但却能够从行为中反映出来的知识。例如,有经验的驾驶员很难向新手讲明白怎样才能流畅地驾驶一辆汽车,因为,这些驾驶知识主要是靠不断练习形成的内隐的知识。虽然在外显的判断中,人们经常显示出不符合贝叶斯理论的地方,但是在实际的决策和判断过程中,人们常会不知不觉地(内隐地)遵循贝叶斯决策理论。在这里,认知心理学的研究结果与波斯纳的观察---在广义上“法官都是(遵循)贝叶斯定理的”(第67页),殊途同归。
事实上,贝叶斯决策理论还可以用来理解公众对法律事件的判断。例如,在不久前发生,目前尚未有定论(本体意义上的结论可能永远无法获知)的雷洋案件中,究竟雷洋是否嫖娼,究竟警察执法程序是否合规,究竟雷洋的死亡是疾病带来的猝死,还是不当暴力执法的后果,每当警方公布相应的消息,都会激发舆论的激辩。从贝叶斯理论去看,很可能是因为,对于这一系列问题,警方和不同社会群体的先验概率存在很大差别。因此,与先验概率密切相关的后验概率,即,知道警方通报之后,对上述问题的回答,也会出现差别。最终导致社会舆论在案情判断中的分歧,乃至严重分裂。
需要指出的是,波斯纳在《法官如何思考》(第61页)中给出的下面这个贝叶斯公式和常见的贝叶斯公式看上去有明显不同,这可能会给读者带来困惑:
W(H|E)=(p(E|H)/p(E|~H)) * W(H)(2)
按原文的解释,“W是概率”,即,对于假设H,W(H)是H为真的先验概率,W(H|E)是在E出现的条件下,H为真的后验概率;“P是概率”,p(E|H)/p(E|~H)是(如果H为真时观察到E的概率)与(如果H为假时观察到E的概率)的概率之比。据波斯纳说,“这就是最简版的贝叶斯定理”。然而,它与前面给出的常见的贝叶斯公式(1)看上去很不一样。而且,如果因为它们都是“概率”,把W(H)当成p(H), W(H|E)当成p(H|E), 将波斯纳给出的贝叶斯公式(2)改写成p(H|E)=(p(E|H)/p(E|~H))* p(H), 则显然是错误的。
难道波斯纳错写了贝叶斯公式?
问题在于,虽然书中在此把W和p都叫做“概率”,它们却有各自不同的表述。P的定义遵循常规的“概率”表达方式,事件A发生的概率p(A)为:
P(A)=事件A发生时可能出现的基本情况的数目/所有事件可能出现的基本情况的数目
它的分母可以进一步细化为:
所有事件可能出现的基本情况的数目=事件A发生时可能出现的基本情况的数目 + 事件A不发生时可能出现的基本情况的数目
举个例子来讲,在掷骰子游戏中,每掷一次的结果,从1点到6点,有6种可能的基本情况。假设每种情况出现的可能性相同,那么掷一次骰子,出现的点数N小于3的可能性(概率)有多大? 通常的回答是 p(N<3) = 2/6。 这里,等式右端的分子2是指事件“点数N小于3”发生时可能出现的基本情况的数目,(无论出现1点或者2点,由于它们都小于3,故都属于这一事件)。分母6则是指掷骰子中所有可能出现的基本情况的数目。事实上,这里的6等于事件“点数N小于3”发生时可能出现的基本情况的数目,即2(点数为1,2等两种情况),加上事件“点数N小于3”不发生时可能出现的基本情况的数目, 即4 (点数为3,4,5,6等4种情况)。
与p(A)不同,W(A)的定义是
W(A)= 事件A发生时可能出现的基本情况的数目 /事件A不发生时可能出现的基本情况的数目
回到上面掷骰子的例子,按W(A)的定义有,W(N<3)= 2/4 (或2: 4),这里,等式右端的分子2是指事件“点数N小于3”发生时可能出现的基本情况的数目,等式右端的分母4是指事件“点数N小于3”不发生时可能出现的基本情况的数目。附录A中我们给出了按照这样定义的P(A)和W(A),等式(1)和(2)相一致的证明。
明白了p(A)与W(A)的定义后,如果把上面的第一个法官的例中的 p(H) = 0.25 = 1/4 = 1/(1+3)换成W(H)=1/3,然后与p(E|H)=0.6, p(E|~H)=0.3一起代入(2), 可以计算出
W(H|E) = (0.6/0.3)*1/3 = 2/3
再按照p(A)的定义, p(H|E) = 2/(2+3) = 2/5 = 0.4,与我们上面提供的结果相同。这样,《法官如何思考》中关于贝叶斯决策理论的例子中的具体计算过程(第62页)也就比较容易理解了。
这篇短文有两个目的(1)通过介绍波斯纳的工作,引起法律实证研究者对贝叶斯决策理论的重视。已经有许多研究表明,无论是把贝叶斯决策理论作为理论框架,还是作为人在经验中实际遵循的规则,都可能导致新的研究进路;(2)澄清一个可能困扰《法官如何思考》读者的数学问题,因为波斯纳把他的贝叶斯公式中的W和p都叫做“概率”,却没有直接指明的它们的定义是不同的,也没有显式地给出它们的定义。
关于波斯纳的贝叶斯公式(2)与常见贝叶斯公式(1)的一致性的证明
记A事件发生时可能出现的基本情况的数目为 n(A), A事件不发生时可能出现的基本情况的数目为 n(~A)。按照定义,我们有W(A)=n(A)/n(~A);p(A)=n(A)/(n(A)+n(~A))。同时,p(~A)=n(~A)/(n(A)+n(~A))。注意到p(A)与p(~A)的分母相同,于是有
p(A)/p(~A)=n(A)/n(~A)
按定义,等式右边就是W(A)。由此,可将上式改写为:
W(A)=p(A)/p(~A) (3)
按常见贝叶斯公式(1),我们有
P(H|E)=p(E|H)*p(H) / (p(E|H)*p(H) + p(E|~H)*p(~H))(4)
P(~H|E)=p(E|~H)*p(~H) / (p(E|~H)*p(~H) + p(E|H)*p(H))(5)
其中,(5)利用了等式 ~(~H)=H(相当于负负得正)。
将式(3)中的A用 H|E 代入,并且注意到(4),(5)的分母实际上相同,有
W(H|E) = p(H|E)/p(~H|E) = (p(E|H)*p(H)) / (p(E|~H)*p(~H))
= (p(E|H)/p(E|~H))*(p(H)/p(~H))
= (p(E|H)/p(E|~H))*W(H)
这就是公式(2)。最后一步成立是因为W(H)=p(H)/p(~H)。
因此,(1) 和 (2) 是一致的。
…
编辑:Ceci_Zhang, lanceguin, Zj_hsy,泡豇豆二