查看原文
其他

为何人们要互相伤害:基于多主体建模给出解释

郭瑞东 集智俱乐部 2022-04-08


导语


即便自己生活糟糕,也见不得别人过得好——这样的行为看似非理性,但在人类社会及动物群落中屡见不鲜。近日Nature Communications 在线发表的论文《惩罚行为在动态网络中可传播》,基于主体建模为上述行为的出现提供解释。

郭瑞东 | 作者

赵雨亭 | 审校

邓一雪 | 编辑



论文题目:

Spite is contagious in dynamic networks

论文地址:

https://www.nature.com/articles/s41467-020-20436-1





1. 囚徒困境和囚徒惩罚




人类社会在自我驯化的过程中,需要出现有个体愿意付出代价、牺牲自己来惩罚那些破坏社会规范或使集体利益蒙受损失的人——这是维护社会秩序所必需的。然而,从博弈论的角度来看,这样的行为显然非理性——类比囚徒困境。用数学手段,科研人员构建了图1称之为“囚徒惩罚”的博弈矩阵。


图1. 囚徒惩罚博弈的损失矩阵


上述博弈中,参与博弈的两人可选择惩罚(spite)或不惩罚(social),如果两人都选择惩罚,两人收益均为0;如果A选择惩罚,B选择不惩罚,则A的收益为c,B的收益为b——即b是选择不惩罚获得的基础收益,c是惩罚后他人后、带给自己的收益。若二人都选择不惩罚,则两人的都可以获得b+c的收益。


按照上图,双方都选择不惩罚的情况下,两人的收益比其它三种情况都多——这属于博弈论中的“纳什均衡”,应当成为理性人的选择。然而现实与此理论相悖。为此,科学家需要提出一个新理论来解释人类作为一个整体,为何会呈现出如此不理性行为的深层原因。





2. 静态网络和动态网络下两种解释




传统的解释基于静态环境下,当一个节点有r的比例与选择相反策略的节点互动,有b的可能性随机和网络中其它节点互动,当r>c/b时,该节点选择惩罚这一策略是理性的。即如果能够有效地标识出那些选择不惩罚的人,那么人们就会有动力选择惩罚。


类似的策略,可以解释为何牺牲自己来帮助他人的行为——即利他主义行为——会出现并传承下来。生态学中,这种现象被称为“绿胡须效应”,即如果是一个基因使其携带者生有绿胡须,而且该携带者又能对其他生有绿胡须的个体表现出利他行为,那么自然选择就会有利于该基因在种群中的传播。


然而,上述定义只能静态预测,假设人们如何在完全没有互动时,就标记出选择不惩罚策略的个体——这显然无法达到。这个解释,无法厘清惩罚这一策略是如何演化为群体的共识的。而借助动态网络,可以建模现实世界中,人们如何主动地选择交流对象,并根据之前互动的收益改变下次选择这一场景,从而给出更为合情合理的解释。


图2. 构建动态模型进行预测示意图


模型中,蓝色的点总是选择不惩罚,红色的点总选择惩罚,根据边的权重,选择与其它节点互动概率;之后根据互动的收益,更新和该边互动的概率;最后,该节点还会随机比对自身与其它节点未来累积期望的平均收益——如另一节点的收益大于自己的平均收益,则有一定概率模仿该节点的策略。





3. 动态模型中惩罚策略占据主动的四个阶段




图3. 动态网络下,不同参数对人群最终抉择的影响情况


由于该模型下,选择不惩罚的个体,会被选择惩罚的个体标记,从而更多的和这样的个体互动,这导致只要b/c足够大,即使最初选择惩罚的人很少,最后人群中也会趋向大多数人选择惩罚。如上图所示,当人群数目增加或模仿的概率降低到到最终稳定状态时,选择惩罚的人的比例会变低。


图4. 网络中惩罚行为出现的四个阶段


图3B对应该模型的四个阶段。初始阶段中,网络中两部分节点的连接是随机的,相对均匀的;第二阶段中,不惩罚的节点被标记,其边对应的入度增加(蓝色节点变大),同时红色节点边的入度降低,选择不惩罚的节点之间交互的概率增加(连边变粗);第三步,网络中选择不惩罚的节点聚在中心,选择惩罚的节点转移到网络边缘,最后模仿行为开始,网络节点逐步被惩罚选项所取代。


其中图a和图c分别展示了模仿概率与学习折现率的影响,相比图a中实线代表的模仿概率为1、虚线代表的模仿概率小于1的实验记录,惩罚者在第二阶段比例下降的幅度更低,但最终两种殊途同归。而当折现率——即过去的收益——在判定是否模仿的占比降低后,最终的结果会由全体选择惩罚变为全体选择不惩罚。


上述过程通俗的描述如下:最初人群中有些人愿意搭便车,有些人则选择付出成本来惩罚那些不劳而获者,之后搭便车者聚在一起,相对人数增加。再之后,那些选择维护社会正义的人,由于能够让那些不劳而获者仅得到越来越低的收益,逐渐使得搭便车者放弃原本策略,最终促成了社会规范的涌现。而如果人群过于短视,对未来收益的折现率过低,则无法完成自我驯化。





4. 模型的不足与未来展望




和利他行为类似,付出代价惩罚他人,其实是一种不利于自身利益、但对社会整体有利的行为。如果大家都不愿意惩罚坏人,那么一个社会就会呈现出无序的状态。传统研究中,需要假设人们能够标记出那些选择不惩罚策略的个体——其实这并不可行——而新提出的动态模型则弥补这一缺点。该模型通过动态的强化学习,指出标记他人的策略,可以捕捉短暂地、在网络中部分成员身上出现的现象。这意味着利他惩罚这一现象的涌现相比我们预想中的更为复杂,也为解释生态学基于基因的利他惩罚,提供了借鉴。


在该模型的参数设置中,没有考虑人为由于认知的复杂,可能改变动机(即使非理性也选择利他惩罚),也没有考虑其它决定是否更改策略的条件(例如不是未来多轮互动的平均,而是已有收益地总和)等因素,使之仍具有提升空间。在接下来工作中,可以更多考虑上述参数,在基于主体的建模下进行实现,从而使该模型更符合真实情况。



复杂科学最新论文


集智斑图顶刊论文速递栏目上线以来,持续收录来自Nature、Science等顶刊的最新论文,追踪复杂系统、网络科学、计算社会科学等领域的前沿进展。现在正式推出订阅功能,每周通过微信服务号「集智斑图」推送论文信息。扫描下方二维码即可一键订阅:


推荐阅读



点击“阅读原文”,追踪复杂科学顶刊论文

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存