为何人们要互相伤害：基于多主体建模给出解释

Original 郭瑞东集智俱乐部 2022-04-08

收录于话题 #复杂科学前沿2021 238个

导语

即便自己生活糟糕，也见不得别人过得好——这样的行为看似非理性，但在人类社会及动物群落中屡见不鲜。近日Nature Communications 在线发表的论文《惩罚行为在动态网络中可传播》，基于主体建模为上述行为的出现提供解释。

郭瑞东 | 作者

赵雨亭 | 审校

邓一雪 | 编辑

论文题目：
Spite is contagious in dynamic networks
论文地址：
https://www.nature.com/articles/s41467-020-20436-1

1. 囚徒困境和囚徒惩罚

人类社会在自我驯化的过程中，需要出现有个体愿意付出代价、牺牲自己来惩罚那些破坏社会规范或使集体利益蒙受损失的人——这是维护社会秩序所必需的。然而，从博弈论的角度来看，这样的行为显然非理性——类比囚徒困境。用数学手段，科研人员构建了图1称之为“囚徒惩罚”的博弈矩阵。

图1. 囚徒惩罚博弈的损失矩阵

上述博弈中，参与博弈的两人可选择惩罚（spite）或不惩罚（social），如果两人都选择惩罚，两人收益均为0；如果A选择惩罚，B选择不惩罚，则A的收益为c，B的收益为b——即b是选择不惩罚获得的基础收益，c是惩罚后他人后、带给自己的收益。若二人都选择不惩罚，则两人的都可以获得b+c的收益。

按照上图，双方都选择不惩罚的情况下，两人的收益比其它三种情况都多——这属于博弈论中的“纳什均衡”，应当成为理性人的选择。然而现实与此理论相悖。为此，科学家需要提出一个新理论来解释人类作为一个整体，为何会呈现出如此不理性行为的深层原因。

2. 静态网络和动态网络下两种解释

传统的解释基于静态环境下，当一个节点有r的比例与选择相反策略的节点互动，有b的可能性随机和网络中其它节点互动，当r>c/b时，该节点选择惩罚这一策略是理性的。即如果能够有效地标识出那些选择不惩罚的人，那么人们就会有动力选择惩罚。

类似的策略，可以解释为何牺牲自己来帮助他人的行为——即利他主义行为——会出现并传承下来。生态学中，这种现象被称为“绿胡须效应”，即如果是一个基因使其携带者生有绿胡须，而且该携带者又能对其他生有绿胡须的个体表现出利他行为，那么自然选择就会有利于该基因在种群中的传播。

然而，上述定义只能静态预测，假设人们如何在完全没有互动时，就标记出选择不惩罚策略的个体——这显然无法达到。这个解释，无法厘清惩罚这一策略是如何演化为群体的共识的。而借助动态网络，可以建模现实世界中，人们如何主动地选择交流对象，并根据之前互动的收益改变下次选择这一场景，从而给出更为合情合理的解释。

图2. 构建动态模型进行预测示意图

模型中，蓝色的点总是选择不惩罚，红色的点总选择惩罚，根据边的权重，选择与其它节点互动概率；之后根据互动的收益，更新和该边互动的概率；最后，该节点还会随机比对自身与其它节点未来累积期望的平均收益——如另一节点的收益大于自己的平均收益，则有一定概率模仿该节点的策略。

3. 动态模型中惩罚策略占据主动的四个阶段

图3. 动态网络下，不同参数对人群最终抉择的影响情况

由于该模型下，选择不惩罚的个体，会被选择惩罚的个体标记，从而更多的和这样的个体互动，这导致只要b/c足够大，即使最初选择惩罚的人很少，最后人群中也会趋向大多数人选择惩罚。如上图所示，当人群数目增加或模仿的概率降低到到最终稳定状态时，选择惩罚的人的比例会变低。

图4. 网络中惩罚行为出现的四个阶段

图3B对应该模型的四个阶段。初始阶段中，网络中两部分节点的连接是随机的，相对均匀的；第二阶段中，不惩罚的节点被标记，其边对应的入度增加（蓝色节点变大），同时红色节点边的入度降低，选择不惩罚的节点之间交互的概率增加（连边变粗）；第三步，网络中选择不惩罚的节点聚在中心，选择惩罚的节点转移到网络边缘，最后模仿行为开始，网络节点逐步被惩罚选项所取代。

其中图a和图c分别展示了模仿概率与学习折现率的影响，相比图a中实线代表的模仿概率为1、虚线代表的模仿概率小于1的实验记录，惩罚者在第二阶段比例下降的幅度更低，但最终两种殊途同归。而当折现率——即过去的收益——在判定是否模仿的占比降低后，最终的结果会由全体选择惩罚变为全体选择不惩罚。

上述过程通俗的描述如下：最初人群中有些人愿意搭便车，有些人则选择付出成本来惩罚那些不劳而获者，之后搭便车者聚在一起，相对人数增加。再之后，那些选择维护社会正义的人，由于能够让那些不劳而获者仅得到越来越低的收益，逐渐使得搭便车者放弃原本策略，最终促成了社会规范的涌现。而如果人群过于短视，对未来收益的折现率过低，则无法完成自我驯化。

4. 模型的不足与未来展望

和利他行为类似，付出代价惩罚他人，其实是一种不利于自身利益、但对社会整体有利的行为。如果大家都不愿意惩罚坏人，那么一个社会就会呈现出无序的状态。传统研究中，需要假设人们能够标记出那些选择不惩罚策略的个体——其实这并不可行——而新提出的动态模型则弥补这一缺点。该模型通过动态的强化学习，指出标记他人的策略，可以捕捉短暂地、在网络中部分成员身上出现的现象。这意味着利他惩罚这一现象的涌现相比我们预想中的更为复杂，也为解释生态学基于基因的利他惩罚，提供了借鉴。

在该模型的参数设置中，没有考虑人为由于认知的复杂，可能改变动机（即使非理性也选择利他惩罚），也没有考虑其它决定是否更改策略的条件（例如不是未来多轮互动的平均，而是已有收益地总和）等因素，使之仍具有提升空间。在接下来工作中，可以更多考虑上述参数，在基于主体的建模下进行实现，从而使该模型更符合真实情况。

复杂科学最新论文

集智斑图顶刊论文速递栏目上线以来，持续收录来自Nature、Science等顶刊的最新论文，追踪复杂系统、网络科学、计算社会科学等领域的前沿进展。现在正式推出订阅功能，每周通过微信服务号「集智斑图」推送论文信息。扫描下方二维码即可一键订阅：

推荐阅读

点击“阅读原文”，追踪复杂科学顶刊论文

逃出缅甸红莲宾馆

紧急呼救！上海报恩寺普渡众生身陷困境，恳请大家伸出援手共渡难关！

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

离婚当日约会新欢，瘫痪在床却想甩锅前妻，做人不能太嘚瑟！

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

为何人们要互相伤害：基于多主体建模给出解释

1. 囚徒困境和囚徒惩罚

2. 静态网络和动态网络下两种解释

3. 动态模型中惩罚策略占据主动的四个阶段

4. 模型的不足与未来展望

您可能也对以下帖子感兴趣

逃出缅甸红莲宾馆

紧急呼救！上海报恩寺普渡众生身陷困境，恳请大家伸出援手共渡难关！

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

离婚当日约会新欢，瘫痪在床却想甩锅前妻，做人不能太嘚瑟！

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

生成图片，分享到微信朋友圈

为何人们要互相伤害：基于多主体建模给出解释

1. 囚徒困境和囚徒惩罚

2. 静态网络和动态网络下两种解释

3. 动态模型中惩罚策略占据主动的四个阶段

4. 模型的不足与未来展望

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡