如何说服他人?靠的不是道理,而是“利处”|隐藏的博弈(笔记版)
本文字数5120,预计阅读时间15分钟。
阅读使人充实,分享使人愉悦。文章结尾附有思维导图,帮你梳理文中脉络精华。点击【阅读原文】获取高清思维导图。
今天分享的书籍是《隐藏的博弈》
这本书的两位作者,摩西·霍夫曼和埃雷兹·约耶里,分别在哈佛大学经济系还有麻省理工学院任教。
人们总是喜欢认为自己是理性的,这也是传统经济学研究的基本假设,但正如行为经济学所表明的那样,人类的很多行为其实是非理性的——这不禁让人怀疑博弈论在现实世界中的可信度。
这本书告诉我们,很多时候我们以为自己是被情绪、被喜好驱使着去行动,其实驱使我们的,是在漫长的人类演化过程中,早已种植在我们基因里的那些,隐藏的博弈策略。比如我们说话时为什么会拐弯抹角,到斯德哥尔摩综合征的发生,以及我们为什么会愿意帮助陌生人。
在博弈论中有三个最基本的概念,也就是思维工具。了解这些工具,能帮我们理解很多现象背后的逻辑。
1、纳什均衡
作者强调,它是整个博弈论中最重要的概念。它的提出者是数学家约翰·纳什。纳什均衡描述的是博弈当中呈现的一种特定的均衡状态。在这种状态下,所有的参与者,都不能单独改变自己的行动策略。因为谁改变,谁就会遭受损失。
简单来说就是,参与博弈的每一方都找到了针对另一方的最佳对策。数学家纳什对这个均衡的解释,是一套数学语言。在《博弈论与生活》这本书中,有一个案例。
美国有两大橄榄球联盟,一个强势,一个弱势,这两个联盟分别组织自己的比赛,强势联盟在秋季比赛,因为秋季市场最大,但是弱势联盟也想在秋季办比赛,把对手挤到春季去,那么,弱势联盟究竟该不该这么做呢?我们假定秋季有1亿人观看橄榄球比赛,而春季只有5000万人看比赛。如果两大联盟同时选择一个季节,强势联盟将得到70%的收视率,弱势联盟只有30%的收视率。
也就是说,如果两大联盟同时在秋季比赛,只有3000万人会观看弱势联盟的比赛;而如果弱势联盟继续选择在春季比赛,他们还会有5000万观众。面对强势联盟,弱势联盟没有一个优势策略,它只有一个均衡选择,就是永远在强势联盟停赛期间比赛。
也就是说,在各方都选择了同一策略的情形下,没有一方能够通过独自改变策略而获益,此时的策略搭配和后续结果,就构成了纳什均衡。在生活当中,经常会出现各式各样的纳什陷阱。
比如,一个小城市里,有几家汉堡店,都扎堆开在市中心,竞争很激烈。有人好奇,为什么不分散开店呢?一人占据一块地方,不好吗?但是,如果我们从某一家汉堡店的角度来看,就会发现,他是不可能去别的地方的。为什么呢?我们想,假如你是第一个开店的,如果你不开在市中心,而是开在城南边,那这个时候如果有竞争者来了,直接把店开在市中心,那他的客源就会比你多。所以,第一家开店的,肯定会开在市中心。
那后面来的呢?他们想的其实也是这样。只要他没有在市中心开店,那肯定就有一部分的市场要让给别人了。他怎么能让自己还没开始竞争就输了呢?所以最后,所有的店都开在市中心了。这就是纳什均衡。
表面上看,在哪里选址,好像是自由的。但是,在一个多方参与的博弈格局里,每个人都要以其他人的行为为前提,去做出对自己来说最好的选择。人人都这样,最后就会形成纳什均衡。这个时候,只要有人改变策略,他就会遭受损失。
那么,我们这里说的“损失”,指的是什么呢?博弈论里所有讨论的“损失”“收益”,指的都是初级奖赏的变动。
2、初级奖赏和次级奖赏
初级奖赏指的是那些深深刻在人类基因里的,我们生来就喜欢的东西。比如食物、安全、健康,另外还有一些社会性的东西,比如信任、名望和权力。但是,这里并不包括金钱。因为金钱不是我们生来就喜欢的,而是我们长大以后知道了,金钱能换来很多我们前面提到的初级奖赏,我们才会喜欢金钱。
为什么在生活中,有时候金钱激励会失效就是这个原因。比如有的时候,没有报酬我们也会努力地去做一些事或帮一些人。很可能我们想要的不是钱,而是一些初级奖赏,比如信任、名望。
有一项研究,在一家幼儿园里,颁布一条新规则,说以后家长接孩子如果迟到,就按时间来收罚款。结果,迟到的家长更多了,到得也更晚了。这是为什么呢?原因就在于,原本接孩子迟到,对于家长的惩罚是一种社会谴责,但是,引入罚款之后,家长就会想,虽然我迟到,但我交了钱,罚款就相当于托管费了;他们就不再担心迟到了会让幼儿园的人不高兴,会让其他家长觉得自己不称职。这就让金钱抵消了社会谴责。
除了金钱,还有哪些东西属于次级奖赏?比如,爱好;或者,很多人都努力追求职称。这些,都属于次级奖赏。而这些,都不是博弈论所关注的对象。博弈论,是一种分析初级奖赏的工具。在博弈论中,一切“收益”或者“受损”,指的都是初级奖赏的增或减。
3、近端解释与终极解释
为什么印度菜的香料味很重?近端解释是,印度人就爱吃这种口味。这关注的是次级奖赏——口味偏好。而终极解释是,香料能抑制和杀死那些会让食物变质的细菌。这在气候炎热的地区很有用。这关注的就是初级奖赏——健康和安全。
在斐济这个地方,女性在怀孕和哺乳期间,要严格遵守一些饮食禁忌,不吃某些特定的鱼类,比如鲨鱼、梭鱼和海鳝。但她们平时经常会吃这些。对于这件事,如果你去问一位女性为什么,她很可能会说,是我妈妈嘱咐我的,我们这儿都是这样的。
但是生物学家不满足于这一层,发现了终极解释,那就是,那些鱼里面含有危险的雪卡毒素,过多的雪卡毒素会让人生病。而女性在怀孕和哺乳期间更容易受到毒素的影响,毒素还会伤害到孩子。
这就是近端解释和终极解释的区别。虽然,近端解释有时会很有趣,或者能解决一部分问题,但这绝对不是结束,也算不上一个令人满意的答案,我们需要找到终极解释。
“高成本信号”的逻辑,就是不管发送者是什么类型,发送这个信号都是一件高成本的事情。但是,对某一些特定的群体来说,成本要相对低一些,发得起这个信号。所以,这个博弈里最重要的纳什均衡是这样的:当且仅当发送者是“高级”时,它才会发出高成本信号。所以,追溯全球历史,人们追逐的审美、口味、偏好在不断变化,这背后的逻辑,很多时候就是高成本信号模型。
比如,食物的口味。从中世纪和文艺复兴初期的食谱里,我们其实可以看出,当时各个阶层的欧洲人都是糖和香料的重度爱好者。那个时候糖和香料是进口的,很贵。普通家庭只能在隆重场合用,而商人和贵族经常这么吃。但是后来,随着欧洲与印度贸易的发展,糖和香料的价格下跌,所有家庭都用得起了。原本的高成本信号坠入了凡尘。所以,在法国路易十四统治期间,又流行起了一种新的烹饪风格,保留食材的原味,简化调味。这就是在非常明确地对外发送高成本信号。
有些人会刻意去隐藏一些高成本信号。比如,作者说,在美国,有些哈佛大学的学生并不会直接说自己是哈佛的,别人问他在哪里上学,他会回答,“在波士顿那边”。为什么会有像这样的,隐藏优势信号的行为呢?
书里讲到一个故事,有个叫老李的有钱人,给当地一家美术馆捐了一个新的展厅。他去参加落成典礼,看到自己的名字在展厅门口,觉得很满意。可是一转身,发现美术馆的另一个展厅的捐献者,居然是匿名的。他马上就高兴不起来了。他跟爱人说:“好嘛,现在显得我像是为了名声才捐的了。”
后来,情况更糟了。参加典礼的人都想知道匿名的人是谁,后来大家打听出,原来是老谭。老谭正是老李的死对头。老李听着大家都在夸老谭,生气地走了。回家路上还跟爱人吐槽:“没人跟我说可以先匿名,然后再告诉大家呀!不然我肯定也这么干。”
那在这个故事里,可能老谭就是想通过先隐藏信号,再暴露出来,加强人们对他这个信号的印象,还能额外地释放一个“我很谦虚”的信号。
还有一种更大的可能性是,老谭并不是很在意,是不是所有人都知道他捐赠了。
为什么呢?有可能老谭已经是一个特别有名的企业家了,还做过很多慈善,不需要用这一笔小小的捐赠来给自己贴金。在现实中,也有很多这样的时候,就是一个人已经有很多优势了,他就不需要特意主动展现其中的某一项来博取别人关注。
还有一种可能,就是他不想对所有人都发送信号,只想把信号发送给特定的人。
比如,一些顶级富豪并不会穿奢侈品牌的衣服,而是会找特定的设计师定制,这些衣服外表看起来很朴素,但是懂行的人却能识别出,这是花钱也买不到的顶尖设计师作品。而这些懂行的人,大概率也是身家不凡。
所以,隐藏,其实本身就是一种高成本信号。它表示你能承担得起有人看不到你的一些优势信号的后果。换句话说,低调、谦逊、匿名,这些“不炫耀”,恰恰是最贵的炫耀信号。
1878年,在美国,有两个大户人家,哈特菲尔德家族和麦考伊家族。这天,他们因为一头猪闹上了法庭。原来,这头母猪在哈特菲尔德家族的地盘上下了崽儿。哈特菲尔德家族就说,这些猪都是我的。但是麦考伊家族说,这头母猪耳朵上有我家的标记,这些猪应该都是我们的。他们在法庭上吵个不停。
经过了漫长的审判,最终,猪被判给了哈特菲尔德家族。事情到这里就结束了吗?并没有。在这之后的10年里,这场争吵逐渐升级成了一场只能用“屠杀”和“斗争”来形容的全面战争。这10年里,双方一直在变本加厉地相互报复:打架、绑架、闯进家里打人、悬赏抓人、放火烧屋、枪战,事情不断恶化……两个家族就这么一步步地,一起走向了毁灭。
从事后结果的角度来看,两家的行为是很不理性的。表面上看,我们让情绪代替了理性思考。但是,博弈论学者们发现,这只是一种近端解释。而终极解释是,这种“以牙还牙”的策略,其实是一种动态博弈中的子博弈完美均衡。这种看起来不够理性的行为,其实是“隐藏的博弈”之中的理性选择。
1、以牙还牙
说的是两个囚徒,虽然从全局角度来看,两人都不招供是最好的,但是如果设置的惩罚是,你被对方单方面指认了,就会受重罚,那么两个囚徒从自身的利益考虑,都会选择背叛对方,把对方供出来。
囚徒困境的解法就是,增加博弈的次数,把单次博弈变成重复博弈。比如,如果这两个囚徒都是一个组织里的,即使暂时坐牢了,出来以后肯定还会再见面的,那他们互相背叛的概率就会降低。
其实,到这里,事情还没有结束。如果我们构想这么一个多轮的动态博弈,每一轮,博弈双方都可以自由选择是合作还是背叛。那么其实,选择在每一轮里都合作,并不是对个人来说最优的策略。
那最优的策略是什么呢?学者们经过数学计算和计算机模拟,得到的是这么一个策略,就是在每一轮双方都同时做出选择的情况下,你作为其中一方,第一轮你先选择合作,之后的每一轮,都复制对方的上一步——他合作,你就合作;他背叛,你也背叛;他改正重回合作,你也改正。这个策略,名字就叫“以牙还牙”。
要在现实中使用这种策略,我们记住三件事就可以了:第一,要先亮出合作的、友善的态度,不主动伤害别人;第二,不要忍气吞声,如果对方背叛了你,你也背叛他;第三,如果对方改正,你也继续合作,而不是咬住不放,不停地背叛。
但是,你可能会注意到,这种策略应用的前提是,双方每一轮要同时做出选择。那如果是双方轮流出招,最优策略是什么呢?
2、重复惩罚博弈
在这个博弈里面,每一回合,都是第一个人先行动,选择合作还是背叛,然后第二个人再行动,不过第二个人选择的就不是合作还是背叛了,而是要不要惩罚第一个人。
那么我们想想,在这样的重复惩罚博弈里,子博弈完美均衡是什么?子博弈完美均衡,不仅要求全局上是纳什均衡,在每一个回合(也就是子博弈)里,也要是纳什均衡。
我们来想,如果第一个人的策略是每次都合作,那么第二个人在设想第一个人有偶尔一次背叛的时候,还有动机去惩罚他吗?如果惩罚是要付出成本的,要耗费人力物力,那可能第二个人就不去惩罚了,因为下一轮第一个人还会是合作,惩不惩罚就无所谓了。而如果第一个人也知道这一点,那么他就有动机去背叛,这一套想下来,就会破坏纳什均衡。
所以,这里的关键就在于,要能保证,只要第一个人背叛,第二个人就一定会选择惩罚。怎么实现这一点呢?我们要在前面的策略里面加上一个条件,变成:
只有当第一个人看到,之前所有的背叛行为都得到了惩罚,他才会选择合作。否则,他就背叛。这样的话,第二个人如果不惩罚背叛行为,之后就会承受损失了。那他一定会对背叛行为做出惩罚。这才能构成子博弈完美均衡。
其实在重复博弈中,必须要让过去的事情变得重要,这才是能维持合作的唯一途径。博弈论告诉我们的是,有条件的合作要好过无条件的合作,“以直报怨”要好过“以德报怨”。那种无条件的合作,会鼓励不守规矩的人去欺负守规矩的人。而对背叛有惩罚,至少是有可以惩罚的威慑力,才更有利于长久的合作共赢。
所以,看起来不够理性的“以牙还牙”,其实正是“隐藏的博弈”中的理性选择。
点击【阅读原文】获取高清思维导图
往期推荐