社会何以可能?合作的机制与惩罚的规则
摘要
自利和合作策略博弈带来的社会困境是社会科学研究中的普遍性问题,利用制度激发合作是人类突破社会困境的基本出路。社会认知神经科学近二十年来的发现表明,人脑在演化过程中形成了处理合作、公平、惩罚等创造和适应社会(制度)的特定机制。这使与个体心智结构-功能相匹配的制度环境能够有效维护合作,反之,则会削弱合作。因此,法律在介入市场对市场实施再调节时,需充分考虑演化而来的心智特征,如此,才可能使市场做出合适的社会选择。
关键词
社会困境 合作机制 同侪惩罚 集中惩罚
引言:社会困境
为了应对周遭不断变化的信息环境,基于混合动机的行为选择具有较强的演化适应性。一方面,漫长的人类生活史所演化出的理性分析模块是我们重要的行为思考工具,尤其在资源匮乏时期,亲自我偏好(又称理性自利偏好)下的理性决策过程被认为是个体面对竞争时的主要行为选择。许多经济学家、生物学家都试图用亲自我偏好来解释世事 ,认为人类“明显的”利他行为背后是自利,例如亲缘选择、互惠利他、间接互惠或有成本的信号理论(costly signaling)等等 。Kahneman与Jack等人试图对此进行修正,他们意识到亲自我机制所需考量的行为约束不仅过于复杂,并且这种非公义(nonfairness)的行为假设缺乏现实基础,故而延拓传统经济学的市场假设,认为个体具有内部化市场正义的心理需求,它是个体幸福体验的重要组成 。现代经济学又将这种内在的“快乐感”引入效用函数,把亲自我偏好下的个体理性选择解码为更具逻辑可操作性的“偏好函数最大化”选择 。
然而,另一方面,现实中的行为选择与数理程序依然有别。在资源稀缺条件下,人们的行为方式不是完全理性,而是有限理性的 。这意味着无论行为分析还是具体决策,个体的理性水平与认知能力不仅使之无法做出“偏好函数最大化”选择,甚至不能让其行为朝着帕累托效率的方向发展,从而导致了社会困境的出现:假设双方的合作收益远高于非合作,但只要对方不合作,自己也不愿付出成本合作,具有互动特征的低效率情境常被称为“社会困境”,便可能出现 。
已有文献大多集中在对该困境的理论分析与实验模拟上,并将划分为以下几种情形:第一,囚徒困境。在囚徒困境的基本假设下,单次博弈的纳什均衡解唯一,且有悖帕累托效率 。这是因为在该模型中行动者之间没有交互的可能,甚至无法取得与对方相关的过去任何行动信息,从而限制了行动者的合作性选择,一方面使贪婪的诱惑占优,另一方面激活行动者对他人非合作选择、以及对自己利益受损的担忧 。第二,公共物品困境。在公共物品困境中,待分配的资源直接来自于博弈参与者的自愿贡献,并且这些资源不会随着时间的延长而自我消耗 ,甚至会按照某个比例放大,因此,该博弈集体理性的结果是大家都贡献出自己的所有资源,但此时个体理性、纳什均衡的选择可能会在他人都贡献的前提下搭便车。第三,公共资源困境 。公共资源困境意味着所有潜在的参与者都可以使用该资源,直到被完全耗尽。这种资源的排他消耗性(subtractability)是困境的重要诱因。例如公地悲剧、大气污染等。公共资源困境出现的原因在于没有进行时间维度(time dimension)的深入考察,如果附加时间考量,理性个体便不会永远选择搭便车 。第四,信任困境。信任困境假设委托人(trustor)拥有一定的资源禀赋,并且可以转移给代理人(trustee)一部分资源。代理人实际收到的支付会被第三方加倍,之后允许代理人回赠委托人 。与公共物品困境相比,信任困境的设计扩展了被试的互动过程,允许代理人通过拒绝返回的支付来实现个人利益最大化的预期。而且,由于博弈参与者数量的减少,信任困境更能体现出被试的心理过程。在信任困境下个体理性、纳什均衡的结果是不做任何交易(给予和回赠数量均为零),而集体理性选择却是双方都最大化贡献,以期待从第三方处取得最高收益。拒绝交易确实能够避免了交易成本的损耗,但却失去了效率改善的所有可能机会。
从理论角度来看,社会困境与阿罗不可能定理密切相关。在传统经济分析所限定的个体选择视角下社会困境永远存在,这种观点曾被阿罗提出的“阿罗不可能定理”所论证 。阿罗指出,即使我们能够对所有个体偏好进行排序,个体理性、个体偏好也永远无法加总出集体理性、集体偏好。这意味着,在基于亲自我动机的个体理性与固定偏好假设下,经济学家们永远无法在逻辑上推导出社会总体福利函数,因为个体真实的心理评价与客观的社会选择之间存在着不可逾越的鸿沟。如果可以加总,其制度演化的结果不是强制,便是独裁。阿罗真正想告诉我们的是,只要博弈参与者坚持方法论个人主义、个体理性,社会困境就必定会发生,由此产生的负外部性便在所难免。
由亲自我偏好所产生的逻辑困境不仅是个体选择的困境,也是社会的演化困境(evolutionary puzzle):因为自利在群体中具有演化适应性,利他却有显见的成本 。尽管在亲自我偏好下,个体理性是自然选择的结果,但由于它最终会产生社会困境,因此必须设法克服。事实上,人类漫长的演化史在形成亲自我偏好的同时,也形成了具有利他特征的亲社会偏好及其表现——合作,而后者作为群体演化的结果,承担着挣脱社会困境枷锁、维护合作秩序的使命。
合作:人类生命演化史的结果
(一)关于合作的三大基本假说
众所周知,基于亲自我偏好假设下的自利选择是具有极强社会适应性的纳什均衡选择,但它是以一定的群体利益损失为代价的 。本世纪初,在欧洲由宗教家和哲学家共同发起了一项极具影响力的科学运动,其争论的焦点是对“新达尔文演化理论”(neo-Darwinian)科学性(scientific solidity)的探讨。参与者一致认为,我们正步入并构建一个基于合作、自组织(self-organization)、高复杂度(complexity)与互利共生(symbiosis)的全新理论 。诚然,我们不该也不能够否认现实社会残酷的竞争关系,但现实中不含任何合作因素的竞争也是极为罕见的。如果换一个视角看世事,或许我们生活在一个社会合作网络之中 ,例如,从细胞内部结构到国家战略、治霾策略的实施,都是各类行动者(actors)紧密合作的结果,且这种合作性倾向似乎有种“与生俱来”的性质。那么,这种具有演化特征的合作倾向是如何发生的,又因何而发生?除了达尔文给予我们的洞见之外,学术界主要还存在以下三种理论假说:
1. 大错误、误匹配假说
大错误理论认为现代人的大脑具有某些远古人的思维模式,继而认为当代的人类合作源于远古时期小型亲缘群体已经形成的心理倾向,即当代与远古时期的个体在心理层面所具有的“连续性”成为现今社会合作的重要原因。但过去具有适应性的心理倾向在当代依然具有,这本身就是历史演化史意义上的“大错误”(big mistake) ,尤其是演化适应环境(Environment of Evolutionary Adaptedness, EEA)中所形成的同情、合作性本能冲动会导致一种无选择性、无条件的利他行为(indiscriminate altruism, unselective altruism)在现代社会中具有某种“不适应性”(maladoption) 。
许多学者认为,古代与现代生存环境的差异是人类行为发生的根本原因 。但另一方面,历史的连续性意味着当前社会生活必然有一部分与先祖的生活环境相似,那些相似的生活环境导致了我们现代人的某些行为与古人类似,或者说,这部分行为在过去的环境中是具有适应性的,但在当前的某些社会环境(与远古的社会环境或决策环境)中也同样具有适应性,这就导致了当代人同时也具备某些远古人的思维与情感模式 。虽然人类的生存环境、活动范围、生活团体在不断扩大,但合作的本能、情感早已经在演化适应时期(EEA时期)形成了,它形成于那个时期的亲缘、小群体内部,即认为当前社会中的大部分亲社会倾向形成于EEA时期亲缘小群体(small groups of close relatives)的生活史 ,继而成为个体社会心理的一种“启发式”或“偏见”(heuristics or biases) ,从演化的视角来看,这种“偏见”也是一种“不适应”。
大错误理论的核心贡献在于它从基因与环境互动的视角提出了现代家庭(或以家庭为核心)合作、群内合作与群间冲突(inter-group emmity)的原因 ,但当代与远古社会的根本差别,并且占现代生活的主要部分是社会生活而非家庭生活,那么此时的社会匿名合作又如何解释?我们不能简单地认为社会生活是家庭生活的扩展,就标签化地认为现代社会的合作可以由家庭为核心的合作秩序直接扩展到非亲缘、陌生人的合作中去。这是大错误理论的主要局限。
2.道德互惠与声誉网络
与其他社会性动物相比,人类具有更强的认知与语言能力,这使得我们能够构建并经营基于互惠的大型合作网络,而且,内嵌于该合作网络中的人们有真实表达并传播自己合作意图的动机,这种合作的意图、动机被称作“良好声誉”(good-reputation)。对个体真实合作意图、动机的探索成为是否与其合作的重要考量指标,合作信号的真实性越强,越利于合作行为的发生、合作关系的维护 。因此,合作信号的传播与获取成为合作的重要激励。具体来说,人们可以通过具有合作特征的各种社会性信号(social cues signaling trust)来衡量对方合作的可信性。主要合作信号类型有以下三种:
第一,社会距离(social distance)。Hoffman发现,社会距离越近,合作信号越强烈、越容易激发合作 。在最后通牒博弈中,社会距离越短,个体对他人不合作行为的容忍越强 ,这是因为社会距离能够利用情感给予对方更加稳定的合作预期。
第二,个体之间的相似性(demographic similarity)。交易双方越相近,越容易诱发合作。例如,两人之间的年龄越相似,其合作程度越高 。甚至两人的长相越相似(facial resemblance),合作的可能性越大 。这种相似关系像是一个连续体,一端亲缘关系,另一端是电脑或动物,显然,与后者的合作可能非常之小 。
第三,双方之间的交互程度、熟悉程度。彼此间的社会交往是交流合作信号的主要方式与途径,交流越顺畅,越容易促发合作。其中,有效的沟通是熟悉的主要途径,Balliet对此类研究的元分析(meta-analysis)发现,沟通能够促进合作,彼此陌生的行动者之间合作的可能性越小 。
需要指出,以良好声誉信号为核心所构成的道德互惠网络包含了对非互惠者的各种声誉惩罚,包括社会排斥(social ostracism)、降低社会地位、更少的朋友与求偶机会等等 。声誉网络的这种功能有助于锁定其他非合作者,在后续的人际行为互动中提高惩罚的准确性,从而维护社会合作,不过,随着互动群体扩大,成员流动性增加,声誉信息发生失真或变形,这一惩罚机制的有效性便会减弱乃至消失。
3.受控假说
受控假说认为,人们合作的原因在于受到了外部、他人的胁迫(coercion),而这种来自外部的强制作用直接影响个体的合作选择 ,这里控制意味着在违背自己意愿的情况下做出不符合自己利益而符合他人利益的选择。受控理论还可以推导出阶级论。例如Harpending发现年长者会胁迫年轻人合作。年长者通过投资建立公司招收青年人为其卖命,甚至宣扬各种工作激励以延迟青年人的结婚时间。如果年轻人不这么做,在客观上会受到来自老年群体的各种惩罚,尤其是拥有资源、权力的老年人阶级的惩罚,包括非自愿失业等 。Strassmann则刻画了社会中女性受到男性控制、压制的情况,主要指女性在现实社会中或多或少会受到男性意志的影响与胁迫 。
受控理论是一个有待修正的理论假说,因为它能够进行多阶推导:甲的合作行为受到了乙的胁迫,乙的合作行为是丙胁迫的结果,……,通过如此无穷阶的推演,最终会得出宿命论、阴谋论等缺乏科学实证的观念与断见。并且,受控理论完全可以通过互惠、强互惠、群体选择等其他合作理论来替代,这是该理论需要解决的主要问题。
(二)合作行为的神经机制
在认知科学时代之前的行为时代,传统社会科学不研究人类大脑,而只研究行为本身,因此,学者们通过自己的时代体验与行为观察不断进行群体想象,试图据此得出人类行为可能具有的“利己或利他”的行为目的 。而当认知神经科学出现以后,神经科学家们对脑机制的研究使得社会科学家们能够开始反思社会科学对行为的传统解释——对行为的事后理性解释——是否具有与之对应的生理基础,并以此超越经验例证可能产生的谬误。
合作性大脑(Cooperative Brain)、合作的神经机制是人类为摆脱社会困境所进行的漫长历史斗争的直接证据,是长期历史演化的结果。我们知道,模块化是合作性大脑的基本特征 ,但这并不意味着相关神经元在空间上彼此相连、具有简单的链式因果。事实上,它们更像是一种功能上的结构划分,只有在这样的认知结构下,大脑才能对某项外部刺激进行并发处理,即某种外部环境信号会同时激活位于不同脑区的神经元组合,最后由被激活的神经元子集协同发出行动指令。从行为的视角来看,大脑的这种结构功能构成了以行动为核心、彼此间相对独立而又内部功能一致的神经系统。
人类的合作性大脑主要由以下三部分组成,包括认知控制系统(cognitive control system)、社会认知系统(social cognition system)与奖励系统(reward system) 。这三大部分并非彼此孤立,就本文所关注的社会合作问题而言,认知控制系统与社会认知系统拥有两大基本功能:认知控制部分有助于个体压制自我内心的短期利益(或个人目标)以实现个人的长期利益(或集体目标),从而做出合作行为;社会认知部分则帮助人们捕捉、分析、处理与强化社会生活中的各种合作信号,继而促进个体做出合作选择。而无论推迟满足感的认知控制系统还是处理社会信任信号的社会认知系统,都必须得到奖励系统的分析与评估。事实上,奖励系统不仅能够分析外部的各种经济回报,还会对其它社会信号进行神经编码,两者共同构成了个体有效的奖励激励。简言之,奖励系统能够将各种内部与外部的奖励激励统一转化为个体内部满足感与愉悦评价(相当于对外部与内部激励进行心理打分)。这种评价的心理结果又成为认知控制系统与社会认知系统最终推动行为决策的重要考量标准。
1. 认知控制系统
个体在面对不确定的社会环境时,需要权衡眼前的短期收益与长期的循环收益(long-term, iterated benefits) 。一般来说,短期收益的沉淀成本与心理成本较低、当期折现价值也较低,因此所放弃的机会成本非常高;而长期收益的沉淀成本与心理成本较高,当期的折现价值更高。在外部信息环境较为稳定的社会情境下(或行动者具有较为稳定的收益预期假设下),理性人应该推迟当期满足、注重长期效率。具体来说,负责认知控制系统的神经机制主要由以下两部分组成:
第一,冲突控制机制。个体意欲做出收益最大化的选择时,首先需要面对眼前收益与未来收益的冲突,而当选择冲突、竞争性动机出现之时,前扣带回皮质(anterior cingulate cortex,ACC)就会被激活,并且这种利益冲突越强,ACC脑区的激活程度也越强。ACC如同一个决策中枢,ACC的激活程度能够最终决定个体是否选择长期回报 。ACC受激的另一个表现是痛苦感增强。当个体被社会或周围群体所排斥时,这种痛苦感直接导致了ACC的刺激 。这也意味着个体在面对社会困境的选择时,真实的感觉是痛苦的。
第二,利他惩罚。利他惩罚能够有效维护社会公平与正义,但由于自利依然是自然选择的结果,因此利他行为要求个体能够有效控制自我的利己动机。参与利他惩罚的认知控制过程主要包含以下几个脑区:⑴额叶皮质腹中侧(ventromedial prefrontal cortex,vmPFC)与位于其中的前脑岛(anterior insula)。在最后通牒博弈实验中,vmPFC脑损伤的被试不但不会惩罚利己者,甚至更容易接受不公正的分配规则 。位于vmPFC之中、与中脑边缘奖励系统相连接的前脑岛负责加工、处理价值信号(value signal),让个体更容易对不公平策略产生厌恶感并提高逐渐拒绝的概率 ;⑵背侧纹状体(dorsal striatum,DS)与位于其中的尾核(caudate nucleus)。DS脑区的激活能够有效提高被试在博弈实验中对公平境况的预期,从而有助于正向情感(positive affect)的修复与重塑 。这是因为惩罚过程中的DS脑区能够产生快乐感(sweet taste),并且这种“精神奖励”与惩罚力度正相关。如此,利他惩罚者不必仅从外部获得行动激励,只要中脑系统中的DS脑区及其内部的尾核受激便可实现行动补偿。并且惩罚的实际成本越高,尾核的刺激也越大 ;⑶背侧前额叶(dorsolateral prefrontal cortex,DLPFC)。DLPFC脑区是抵制眼前自利诱惑、推迟满足感的重要神经基础。首先,DLPFC有助于个体对自利动机的控制 ,DLPFC脑损伤的个体则经常出现各种有违社会规范的行为 。其次,DLPFC能够帮助个体拒绝不公平方案 。Spitzer利用fMRI的方法发现,惩罚不仅导致了DLPFC脑区的刺激增强,而且会引起外侧眶额叶皮质(lateral orbitofrontal cortex,LOFC)、腹外侧皮质(ventrolateral cortex,VC)同时受激 ,这是因为LOFC参与了惩罚激励的评价(evaluating punishing stimuli) :LOPFC促进了尾核刺激,而尾核受激使得被试对外部的惩罚信号更加敏感 。
2.社会认知系统
社会认知系统是一种与“他人”相关的心智处理过程,主要负责搜集、识别、分析他人或社会群体中的合作信号,该系统又被称为“情感脑区”,主要由三大部分构成:
⑴颞上沟(superior temporal sulcus,STS)与扁桃体。颞上沟主要参与决策情境的识别。Rilling与Sanfey等人利用fMRI脑成像技术发现,真实的社会条件(social conditions,通过给被试观看其它参与者的照片来模拟)能够有效激活STS脑区,但非社会条件(asocial conditions,通过给被试观看其他自然图片来模拟,如轮盘图片)却不能 。而且社会距离越短、与自己关系越密切的社会情境对STS脑区的激活概率与强度也越大 。因此,大脑能够通过颞上沟从社会情境中识别、遴选出未来可能的合作者。与其相对的扁桃体则负责非合作者的面孔识别 ,而且扁桃体可以直接参与合作行为的心理计算,迅速将面孔所表达的各种非信任信号转化为内部的心理评价,这种对威胁情境的感知与判断过程是扁桃体的主要功能 。其中非合作、非信任面孔信号的心理隐含评价(implicit evaluation of untrustworthy faces)越强烈,扁桃体的刺激越强烈 。
⑵尾核(caudate nucleus,CN)。尾核有助于个体从偶发事件中学习(contingency learning),并处理与他人连续合作行为相关的各种情感性反馈(feedback)信息 。这里的“后续性”主要指尾核参与合作信息的判断,尤其对那些他人可能在未来合作、自己报以合作回应的情境。例如,重复信任博弈实验中投资者提高投资额,受托人的尾核刺激增强,且这种受激状态能够在序贯的重复信任博弈中得以延续。即在第二轮实验中,假设某投资者在第一轮中表现合作,受托人便认为第二轮中该投资者会继续选择投资(合作),所以下次当受托人看到投资者出现在博弈游戏中时,其尾核即会显著激活 。尾核的另一个重要作用是接收并计算各种公平、互惠信息,尤其当个体需要仔细核实、权衡时,尾核的激活程度会更高。在信任博弈实验中,Delgado与Frank等人发现当外部环境信息的不确定程度高、信任信号不明确时,被试需要耗费更高的心智成本来探寻对方的历史信息并据此计算、推断出自己行动的可能结果,尾核活动尤为剧烈 。
⑶催产素(oxytocin)。外部环境中的信任信息会刺激催产素的分泌 ,催产素又可以有效促进人际信任 。这是因为,个体在催产素下更容易相信对方合作,从而提高自己合作的可能。相关研究还发现催产素与尾核刺激之间的替代作用有助于注射催产素的被试“误认为”外部环境的不确定性降低,省去了对情境信息的计算,从而提高合作的可能 。
3.奖励系统
认知控制系统与社会认知系统都必须通过中脑边缘的奖励系统对价值“重新评估”才可付诸行动 :认知控制系统需要对某些行为赋予更高的预期回报,以此抵制短期的利益诱惑;社会认知系统要求个体“放大”某些外部的合作信号,并迅速将其转化为内部的心理信号。从合作结果的角度来看,这种信任的强化机制能够有效节约理性资源,提高奖励系统对人际合作的计算效率 。除此之外,奖励系统会对结果出现的可能性与预期回报进行神经编码,一旦编码与现实结果不同,奖励系统便会不断调整个体的分析结果,继而改变行为预期,最后通知大脑的决策中枢修改行动。关于奖励系统的神经结构,主要由以下两大部分构成:
⑴前额叶皮质背侧(dorsolateral prefrontal cortex,DLPFC)。互惠计算要求个体能够对行为进行长期记忆,DLPFC可以同时并行处理多组行动的记忆与执行,并且DLPFC中的右侧DLPFC、前额叶皮质腹右外侧(right ventrolateral prefrontal cortex, rVLPFC)与眶额皮质背右侧(right lateral orbitofrontal cortex, rLOPFC)脑区能够协同认知控制与社会认知系统帮助个体抵制眼前自利诱惑、推迟满足感 。
⑵腹侧纹状体(ventral striatum,VS)与多巴胺神经传导路径。VS脑区通过中脑边缘的多巴胺神经传导路径(mesolibic dopaminergic pathway)最终引起前额叶皮质腹中侧(ventromedial prefrontal cortex,VMPFC)受激。该传导机制能够同时对外部环境与内部心理的合作的信号进行神经编码,继而参与互惠计算。
外部奖励(extrinsic types of rewards)预期的神经回路、表达的神经回路(brain circuitry)与内部社会奖励(intrinsic social reward)的神经回路之间部分重叠 ,这意味着合作的外部牟利奖励(extrinsic lucrative rewards)与内部快乐奖励(intrinsic hedonic rewards)具有一定的替代性,具体来说,上述的“重叠路径”就是由腹侧纹状体、中脑边缘的多巴胺神经传导路径和前额叶皮质腹中侧所组成的神经回路 。其中,多巴胺神经元(dopamine neurons)能够对预期偏差进行神经编码,但并不具有分析偏差的能力。多巴胺神经元可以发出新指令,使行动更加合意:多巴胺神经元能对正预期偏差(positive prediction error)、高于奖励预期的偏差信号编码,也能对负预期偏差(negative prediction error)、低于(或失去)预期奖励的偏差信号编码。该神经元在重新编码后会对大脑发出新指令 。
人脑对奖励回报的分析过程由腹侧纹状体(VS)与前额叶皮质腹中侧(VMPFC)协同完成。由VS与VMPFC所组成的神经脑区能够处理外部各种具有社会特征的奖励信号,尤其是对其它个体的互惠、奖励预期等信息的计算与分析 。不仅如此,该神经系统还能够处理来自个体内部的奖励信号并形成满足感、愉悦感等,只要合作产生的心理奖励高于竞争所带来的心理与市场收益,VS与VMPFC所组成的神经结构便会发出合作指令 ,并且策略越公平,个体的内部愉悦感越高、该脑区的刺激也越强 。如果提供者能够对自己曾经不公平的方案做出额外补偿,也会增强接受者VMPFC和VS的脑区刺激 。而VMPFC脑损伤的被试由于缺乏对外部信任信号的分析处理能力,因此无法做出包括慷慨、信任等亲社会行为 。
人与社会的共演化:惩罚制度的作用
上一节对于相关合作的脑区功能颇为冗长的梳理,旨在说明一个为多数认知神经科学研究者认同的主张:人类大脑具有“先天连接后天激活”的特征 。即是说,个体在出生之前提供合作潜能的脑结构在基因中携带,虽然外部环境信息的不确定性导致基因的最终表达具有不确定性。合作性大脑是人类生命史演化的物质结果,但合作行为最终能否实施还需要外部环境信息的辅助。因此,人类能够通过各种外部制度设计降低环境的不确定性风险,利用制度的激励作用解决社会困境、降低个体利益与集体利益之间的差距 。而且,制度能够有效降低未来行为的不确定性,基本原因之一是,制度拥有惩罚特征。
人类社会的核心制度是法律制度,而法律制度的主要功能惩罚,但惩罚制度本身具有两面性。一方面,许多学者认为在现实的互依情境(interdependent situations)中,只要惩罚者(或第三方惩罚者)所释放的惩罚信号可信 ,且群内成员之间策略沟通顺畅 ,惩罚便可以有效促进合作 。此时,惩罚不仅能够提高博弈参与者的总贡献量 ,且在重复博弈实验中,受罚者对惩罚的认可程度也在逐渐提高 ,这意味着,惩罚本身能够逐渐内化到个体心智中去,从而降低惩罚成本、提高惩罚效率,例如,以心理威慑而非物理行为的形式。另一方面,不仅诸多经济实验发现人们并不愿意惩罚他人 ,且这种普遍的惩罚原则甚至会降低合作者的亲社会行为强度 ,最终导致群体总收益降低 。造成该情形的原因在于惩罚制度本身削弱了个体内部的合作动机 。尤其在市场制度的假设之下,人们甚至认为其行为选择仅仅是一种“商业选择”,从而忽略行为本身所应有的某些亲社会性、道德性 。
以“坏人”(bad man)为基本视角的“去价值化”是传统法理学的核心,在此视角下,法律被认为是理性人假设基础上以自利为演化目标的人类制度建构 ,人们会对外部的环境刺激做出自利的理性最大化选择 。这种达尔文式的Holmes法理学视角看似很符合市场规则下的行为解释,但却无法摆脱“套套逻辑”(tautology)的苛责 ,并且与人类所具有的合作性心理特质相矛盾。作为对Holmes法理学的批判,Hoffman通过对人类演化史与认知神经科学的梳理与研究,提出法律是概率性行为的演化结果,法律决策是“当前情境”(the case at hand)与现实世界中“所有法官、陪审员和立法者头脑中概率性规则”互动演化的结果。并且,Hoffman提出法律决策的概率演化结果包含三个纳什均衡:⑴禁止破坏承诺;⑵公平意识与行为;⑶对破坏⑴、⑵的行为进行惩罚 。
现实中存在两种基本的惩罚方式与以上两种法理学相对应,即同侪惩罚(peer punishment,PRP)与集中惩罚(pool punishment,PLP)。同侪惩罚与内含亲社会的心理倾向的Hoffman法理学相契合,因为同侪惩罚要求惩罚者自身先要与对方合作。这种合作特征来源于个体在某些群体与社会观念影响下愿意付出成本惩罚对方的心理特质 ,具体表现为个体不仅愿意付出成本剥夺高收入者的财富,也愿意付出成本贴补低收入者。若将同侪惩罚作为一种法律制度选择,在一定程度上,群体演化所产生的亲社会性确实能够有效弥补法律惩罚的副作用,如降低因过度惩罚产生的复仇(counter punishment) 、反社会惩罚(antisocial punishment) ,以及与二阶搭便车者的威胁 等等。然而,同侪惩罚因需要同权个体直接付出成本,尤其当搭便车者在群体内的比重很大时,可能导致短期内惩罚成本远高于个体收益 。并且,由于同侪惩罚对惩罚者、群内其它成员、惩罚者的声誉等具有长期影响,因此同侪惩罚者在惩罚之前需要付出大量的信息搜寻成本 。这些负面的成本考量共同削弱了同侪惩罚机制的有效性。
集中惩罚内含理性人假设,是Holmes法理学的外延,认为人们都有卸责动机。为了避免大规模成员卸责行为,集中惩罚要求所有成员在行动之前首先支付一定费用以便补偿未来的惩罚成本 。Ostrom指出,在现实的经济演化过程中,群体能够内生形成维护群体目标的惩罚性规则 ,这种规则、制度的形成与实施可以有效降低过重的个体惩罚成本,并避免因产权空置所产生的价值耗散。Ostrom的这种制度演化观点令其荣获2009年的诺贝尔奖。该观点意味着为了降低同权个体所付出的零散的、随机的惩罚成本,群体能够内生出明确而统一的惩罚规则。这种惩罚规则的演化思想被经济学家借用,并提出了“集中惩罚”概念。与同侪惩罚不同,集中惩罚强调群体内的所有成员在行动之初必须向第三方(a paid third party)支付一定的惩罚成本,并由第三方来执行对非合作者的惩罚,以有效避免同侪惩罚机制的种种问题,提高整个群体的合作程度 。起初,群内第三方具有极强的自组织性,继之成为群内的核心领导者(central monitors),主掌惩罚或奖励的权力 。van der Heijden与Potters等人通过对公共品博弈实验研究发现,集中惩罚与传统的公共品博弈相比,参与者可以提高约73%的贡献,团队总收益提高37%。但由于核心领导者具有配置群体资源的最高权力,如果出现领导者寻租,便无法做出群体利益最大化的行为决策,从而降低团队的合作程度 。正因为如此,现实中的惩罚制度呈现同侪惩罚与集中惩罚共存的状态,因为在社会演化的过程中,两种制度的实施成本具有不同的变化规律:
图1惩罚制度的演化
如图1所示,同侪惩罚的边际成本与群体内搭便车者数量正相关,集中惩罚的边际成本与群内搭便车者数量负相关,两条曲线在 处相交。用搭便车者的数量表示社会演化过程中的不同形态 ,可以近似认为原始的狩猎采集社会处于 中:与现代社会相比,集体捕猎时期很少有搭便车者,例如某人修筑防御工事不利或投标枪不中,他会率先被猎物所擒 。而在个体理性的假设下,现代社会的搭便车者众多,故而处于 的右侧。两条曲线的交点 表示两种制度的边际均衡状态。一旦搭便车者的数量高于 (例如 点),此时同侪惩罚的成本高于集中惩罚的成本,两者差值 表示同侪惩罚假设下对二阶搭便车者实施的惩罚成本 ,它随着搭便车者数量的增加而增加。因此对大多数社会形态来说,同侪惩罚与集中惩罚这两种惩罚制度并存,从而形成了同侪惩罚与集中惩罚两种制度并存的社会困境解决方式。Putterman与Tyran等人提出,正如所预期的那样,起初具有较低合作意愿的被试会选择低效率的惩罚制度,但在许多轮有关是否应该惩罚的投票之后,大多数群内成员会建立完全有效的制度规则 。
我们知道,集中惩罚的力量要远高于同侪惩罚,然而,为什么同侪惩罚依然如此重要?
第一,在社会互动中尽管规则侵害者被逮捕和抓到的概率很低,但这丝毫不能降低集中惩罚的威慑力,继之损害其它个体对社会普世标准的接受过程,客观上削弱了个体的亲社会动机。同侪惩罚与集中惩罚共同演化的背后是个体内部亲自我动机(self-regarding)与亲他人动机(other-regarding)的共同演化。个体决策具有人际相互依存性,人们在追求自利的过程中要求最大化联合收益(jointgain)与最大化结果公平(maxinizing equality in outcomes) 。
第二,许多通过集体行动采取的惩罚成本太高。例如,Kamei与Putterman等人允许被试在集中惩罚制度与同侪惩罚制度之间做选择,集中惩罚有确定的成本(fixed cost)。研究者发现,该成本略小于从完全搭便车的均衡状态到完全贡献的均衡状态费用的40%。当集中惩罚的威慑力很高且惩罚成本较低时,集中惩罚更受欢迎;但当集中惩罚缺乏威慑力且成本很高时,会有一些群体偏好同侪惩罚制度 。Sebastian与Christian发现,若将VCM(voluntary contribution mechanism,自愿贡献机制)引入同侪惩罚,由于同侪惩罚的引入有助于弥补某些具有较低威慑力的集中惩罚,集中惩罚与同侪惩罚结合在一起的制度能够得到更多的贡献与回报 ,这是因为同侪惩罚包括广泛存在,且制度成本很低的社会惩罚机制,例如流言蜚语、批评、冷落、社会化摒弃等,进而能够弥补集中惩罚的不足,从而有效维护群体合作。
总结与启示
社会困境早已成为理论经济学甚至社会科学公认的基本问题之一。在经济学所构建的市场理论中,包括新制度经济学,该问题在其所信奉的完全理性框架下很难得到合意的解释。不少主流社会科学家相信,人类通过对外部环境的制度设计可以获得更加有效的行为激励。但心理学家却发现,在由制度引致效率时,我们会付出高昂的社会心理成本。如此,有效的制度设计应该降低这种损耗,遵循人类心智演化的客观规律,避免人类迈向社会达尔文主义的“丛林法则”,跳出完全理性的禁锢,最终摆脱社会困境的魔咒。即努力实现梁漱溟先生所谓人生生理心理——知、情、意——的和谐 。
由于外部的法律规则能够逐渐内部化为个体的心理特质 ,因此法律在构建过程中,为了最小化法律的执行成本,其重要原则之一是尽量降低外部的法律制度对个体合作心理的削弱,降低市场规范对社会规范的副作用 。传统法理学认为法律制度的重要功能是惩罚与戒示,该观点来自理性人假设的基本推论,而法律惩罚作用的核心考量标准则是外部制度环境与内部心智模式的相互适应性。这意味着,我们不能完全相信自律,有效的他律当然是人类合作的重要保证,但完全的自律与他律都是偏颇的。事实上,能够调动自律的他律约束执行成本更低、更加有效,其长远利益会高于当期收益,这正是经济演化始终强调的。
▲END▼
-------------------
推送有细微修改
原载于《法律和社会科学》第16卷第二辑
--------------------
了解更多关于#法律和社会科学#
关注我们的微信号获取吧