查看原文
其他

走进课堂 | 课堂实录:混合策略

通识联播 通识联播 2022-06-09

今天博雅哥为大家推送的是本学期通识核心课程“社会博弈论”的课堂实录,授课教师为北京大学社会学系陶林老师。


陶林老师在课堂中介绍了混合策略。从简单策略到混合策略,陶林老师结合简单而具体的例子由浅入深地介绍了不同情境下的博弈选择,最后用形式化的语言概括了混合策略的具体指向。


Vol.1218.2

课堂实录



混合策略


北京大学社会学系 | 陶林


我们今天第五讲介绍混合策略。在这讲最后我们会顺便介绍到纳什定理,这是一个非常有名的定理。在很多情况下,你分析一个博弈,总能发现一个纳什均衡。当然这首先要求你把纳什均衡稍微拓展一下,这就要用到我们今天讲的这种混合策略。


如果你只考虑我们之前讲的单纯策略,就会发现在很多的博弈里面,包括非常简单的博弈里,可能根本就找不到纳什均衡。我们举一个非常简单的例子,比如说经常玩的一种游戏,叫做石头剪子布。双方都可以出石头、剪子或者布。如果石头碰上石头、剪子碰上剪子或者布碰上布的话,大家就打平了,双方收益为0。但是如果石头碰上剪子,博弈者1就得到了1的收益,而对方就得到-1的收益。如果石头碰上布的话,石头就被布包住了,所以石头就输掉了,他的收益就是-1,而布的收益就是1。所以我们按照平时玩的石头剪子布的规则,写出这样一个博弈,把它写成这样一个收益矩阵的形式呈现在表格里面,就是这样。

顺便说一句,这种博弈你会看到很巧的是:在每一栏里双方的收益加起来都等于一个固定的常数,在我们这里固定常数就是0,所以这种博弈有的时候叫零和博弈。零和博弈的特点就是:要么你赢了,要么我赢了。如果我赢了,一定是你输;如果是你赢了,一定是我输。所以双方的收益之和是固定的。有的时候它不一定就是固定为0,不固定为0的话,其实减掉固定的常数之后,还是零和。加起来只要是一个固定常数。这种博弈里,往往你会发现,不存在单纯策略下的纳什均衡。像在石头剪子布里你就可以想象,给定对方的策略,如果我现在出一个正好能胜过他的,我是不想变了,可是他就肯定想变;反过来说,如果他不想变,意味着他现在出的能够压过我了,我就肯定想变。


所以在这种零和博弈里面,往往你找不到一个单纯策略的纳什均衡。我们还可以试着看看能不能用画圈法来找纳什均衡。从博弈者一的角度来看,当对方是石头的时候,他在0、-1和1之间选,显然它的最优反应是1,所以对方出石头,他的最有反应是布,能够胜过对方。对方出剪子,他在0、1和-1之间选,显然它是选1,对方出剪子,它显然是出石头.......对方每出一个策略,你就有一个制胜的策略,那就是你的最优反应。


所以将双方的最优反应函数画出来,画出来之后,你看没有任何一栏是被双方都圈中。这就说明这两个最优反应函数,没有交点。就像我刚才讲的,它不可能交在一起。根据游戏规则,如果这一方胜了的话,他是不想变的,可是输掉那一方它就有动力改变。如果是双方都打平了的话,其实还是有动力改变。比如说我们都出这个石头,打平了我当然想变到一个能够战胜石头的策略上。所以你会看到在这样的一个零和博弈里面,没有一个单纯策略的纳什均衡。


所以如果只考虑单纯策略,很多这样的博弈都分析不出一个纳什均衡。纳什均衡作为一个博弈的解,它可用的地方就太少了。之所以纳什均衡很有名,一是因为它定义得很清晰而且很好用,第二就是因为它证明了很多的博弈里都能找到一个纳什均衡。但这就要求考虑不仅仅是所谓的单纯策略,还得考虑行动者可能使用一种所谓的混合策略,叫做mixed strategy。


什么叫混合策略呢?我每一次肯定还是只能要么出石头,要么出剪子,要么出布。但如果你问我的策略是什么,我的策略就不是说每一次都一定出石头或者是剪子或者布,而是以一定的概率随机把某两种或者某几种策略混在一起来使用。所以我可能以一定的概率出剪子,以一定的概率出石头、以一定的概率出布。随便给个例子,我可以以1/2的概率会出石头,1/3的概率会出剪子,1/6的概率出布。这构成了我的一个可能的混合策略。用这样的一个概率把这三种行动混在一起,从里面随机来出。具体怎么混,是用概率分布的形式确定下来的。这就好比有一个随机装置,出之前我偷偷摇一摇,看这个随机装置告诉我应该是出石头、出剪子还是出布。这个随机装置是预先设定好的,比如以1/2的概率会出石头,1/3的概率会出剪子,1/6的概率出布。所以这是一种混合策略的方式。


我们现在用形式化的语言稍微勾勒一下混合策略。那么怎么用形式化的语言来表达呢?博弈者的行动集Ai里面包括的这些还是单纯策略,从ai1到aim,这代表了m个不同的行动。这都属于i个可选的。比如在石头剪子布里头,就有三个行动ai1,ai2和ai3,分别是石头、剪子、布,这是它的单纯策略的集合。而它的任何一个混合策略是记为αi。所以任何一个αi写出来的话是这个样子,它是pi1,pi2一直到pim.这其中任何一个pik对应的是刚才单纯行动集合里头的 aik的行动的概率。所以一般来讲pik就是选择使用aik行动的概率。这样一组概率当然是要求所有这些概率加起来应该等于1的,这是概率分布的一个基本要求。这样给出来的一组概率就形成了一个概率分布,那么它就是一个i的混合策略。比如我们刚才说1/2出石头、1/3的概率出剪子,1/6的概率出布,这里的1/2、1/6、1/3,就是给出的一组概率,这一组概率就构成了我石头剪子布这个游戏里的一个可能的混合策略。这其实很直观的,形式化语言大家稍微熟悉一下后,也会发现没有什么神秘的地方。


用概率论的语言,那就是说:任何一个混合策略就是你的行动集的一个概率分布。你的行动集上每一个行动,都分配给它一个概率,加在一起等于1,那么你给出的这样的一个概率分布,它就是你的一个混合策略。我这顺便说到,单纯策略可以看作是广义上的一种混合策略。也就是说他给某一个行动指定的概率是1,给其他的行动指定的概率都是0,这也是一个概率分布。在这个点上它也属于混合策略。所以以后我们为了方便起见,有的时候就不是特别严格的区分单纯策略或者混合策略。但有的时候我们讲混合策略又特指好几个策略混在一起。你要根据上下文情境比较灵活地理解。但是从定义的角度说,混合策略的定义里面包括了单纯策略。所以有的时候在某些教科书上,单纯策略被视为是一个退化了的混合策略。它的混合策略所对应的概率分布是比较特别的,它只有某一个元素的概率是1,其他的元素的概率都是0。



在这种混合策略的语境下,每一方选了自己的混合策略之后,这就构成了他们的一个策略组合。一个策略组合就规定了行动的一个结果。这个策略组合(strategy profile),它的记法和之前是类似的,只不过现在用的是一个向量α,这个α包含一共n个元素,对吧?每一个元素指的都是相对应的行动者所使用的混合策略。这和我们前面说行动组合a的定义是类似的,只不过a都是指的是单纯策略,当我用α的时候,它原则上讲的应该是混合策略,当然广义的混合策略其中也可能有一些单纯策略。所以到这里为止,我们讲的是混合策略在形式化语言的对应。


之杨 编辑 / 婷婷 校对


通识联播



精彩依旧继续

来稿请寄:tongshilianbo@163.com


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存