“社会研究的理论创新与范式反思”专题 | 刘世定严俊刘玉照：“利益-规范”双重博弈 ——一个基础性探讨

Original 刘世定等社会学评论杂志 2023-03-26

来源 |《社会学评论》2022年第2期

作者 | 刘世定；严俊；刘玉照

本公众号为《社会学评论》杂志2022年最新推出的官方账号，欢迎订阅、关注。

作者简介

左一为刘玉照、左四为刘世定，右一为严俊

刘世定，上海大学经济社会学与跨国企业研究中心（IESM）研究员，浙江大学社会学系讲座教授，主要研究方向为经济社会学；

严俊，上海大学社会学院副教授，主要研究方向为经济社会学、艺术社会学；

刘玉照，上海大学社会学院教授，主要研究方向为经济社会学、组织社会学。

内容提要: 社会规范与利益激励如何影响人类行为是经济社会学研究的核心问题。区别于既有的两种主流思路，本文尝试发展一种新的研究范式，在人们的利益和规范双重互动或双重博弈中考察其利益格局和规范格局的形成与变迁。基于对“利益-规范”双重行为假定下效用函数的重新界定，我们在博弈框架内探讨了不同行动策略与策略组合的运用特征及其引发的均衡或非均衡后果，并就该范式在推动社会学基础理论、方法与经验研究发展方面的潜力做出初步展望。

关键词：

经济社会学；博弈论；“利益-规范”双重博弈；均衡稳定性

一、引言

在经济社会学有关规范与行为的研究中，一种流行范式的特征是，将社会规范作为外生给定的环境条件，考察被这种规范所约束的主体的行为及后果。这一范式在社会伦理与经济行为关系的一些经济社会学经典研究中被采用（泽利泽，1985/2008）；在产权、正式制度与非正式规范的联合运作及变迁等研究中，也有一定的体现（刘世定，1996/2006；王汉生等，1997）；组织社会学的新制度主义的合法性机制理论更是遵循这一研究范式（迈耶、罗恩，1977/2007）。

事实上，这一范式有相当久远的研究传统。熊彼特在考察经济分析史时曾指出，经济理论图式是在一定的制度框架内发生作用的，而这种制度的框架则来源于经济史。这样，他把制度（规范）作为历史给定的前提来处理，也就排除在分析之外。当然，他随即指出，将历史中的社会事实作为一种普遍化、典型化或类型化的经济史来处理时，其内容已经属于社会学而不是经济史，在这个领域中的努力已进入经济社会学的领域（熊彼特，1954/1996:40-41），但对于经济社会学如何把制度处理为类型化的社会事实，则语焉不详。

这种将社会规范作为外生给定的环境条件的范式能够解释在稳定的制度环境下的一系列现象，但对于制度变迁则无力解释。面对制度变迁，该范式所能做的是考察变迁前后的制度特征，并结合其他非制度因素考察相应的行为及活动后果，而鲜有对变迁机制本身的深入分析。

在制度变迁研究中，则流行着来自经济学的一个范式。该范式假定，当人口、技术乃至观念的变化导致资源的相对价值发生变化，行动者意识到新的制度安排将给他们带来更大收益的时候，变迁的激励便产生了。更深刻的研究还要考虑与变迁伴生的交易成本以及变迁所依赖的对集体行动中搭便车行为的克服（诺斯，1990/1994）。该范式承袭了经济学中基于资源占有量的效用最大化行为假定，在运用博弈论分析工具的时候考虑基于资源占有量的利益博弈，但是对行动者间的规范博弈则未投放注意力。

本文将考察的是正在经济社会学领域中发展的与上述两种范式不同的另一种范式。这种新范式在人们的利益和规范双重互动（以下简称双重互动或双重博弈）中考察其利益格局和规范格局的形成与变迁。也就是说，它既关注人们之间的利益互动，同时也关注携带不同规范的人们之间的规范互动。

就思想而言，新范式与古典经济社会学者韦伯提出的社会经济行动概念有一定的关联。在此后的研究者中，彼得·布劳关于公平交换的理论不仅注意到了利益互动和规范互动共存，甚至有了初步的双重均衡思想。但他在分析上只是简单地假定规范互动已经完成，社会形成了一致的公平交换标准，用这一标准可以从诸多利益交易均衡点中挑选出公平交易均衡点。这使他在很大程度上回到了外生给定社会规范（制度）的范式，与新范式的建构失之交臂（布劳，1956/1988:202-203）。托马斯·谢林在《冲突的战略》中对现实博弈过程的诸多富有洞察力的考察，有些已经涉及利益博弈与规范博弈的交织，特别是他对于谈判中的任责（commitment）行为及类型的分析，对双重博弈做了有启发性的、值得发展的研究，但他并没有将这个问题做一般化处理（谢林，1960/2019）。宾默尔关于生存博弈与道德博弈的研究对新范式具有概念明确的开创意义，但他将道德博弈仅仅视为生存博弈的一个子博弈的处理方式，却使新范式的研究潜力受到限制（宾默尔，1994/2003: 55）。王水雄对结构博弈和镶嵌式博弈的研究涉及了利益和规范双重博弈及均衡，对新范式的开创和扩展做出了重要的、富有启发性的贡献，但因研究主题的差异，对有关利益博弈和规范博弈、有关双重博弈均衡等基础概念，尚未给出令人满意的界定（王水雄，2003、2009）。结合中国的经济、社会变迁，一些社会学研究者的经验研究已经涉及了利益博弈与规范博弈并存、交织的现象，并进行了某些理论探讨（刘世定，2001/2003；张静，2003、2005；刘玉照、金文龙，2013；严俊、林伟挚，2019），但基础理论的探讨尚欠缺。本文的探讨，也得益于这些经验研究。

本文试图对双重博弈涉及的几个基本概念加以探讨。我们首先说明双重博弈内含的基本行为假定，以此为基础界定“利益-规范”综合效用函数和子效用函数，继而在博弈论框架下对“利益-规范”效用函数做进一步的阐述，进而讨论双重博弈的均衡与非均衡概念以及均衡的稳定性问题，最后是总结和对双重博弈研究的展望。

二、行为假定与“利益-规范”效用函数

在本节中，我们首先讨论双重博弈研究架构中对人的行为的基本假定。我们假定，互动参与人是既讲利益又讲规范的人；同时假定，他们在互动中各自携带的规范可能存在差异。人们携带不同规范参与互动的假定，是经济社会学中对人做出有限社会化假定的一个具体表现。有限社会化假定摒弃了传统社会学中对人的完全社会化假定，它在肯定社会规范形塑着人的心智结构的同时，也承认个人独立倾向与社会规范间的张力，承认不同个体内化的行为规范的差异（刘世定，2011:26-27）。

既讲利益又讲规范者的行为特征可以用效用函数表达如下：

公式（1）中，Ui 为主体i 的效用，Xi 为i 拥有的物质资源，Ri 为i 遵循的行为规范。现实中影响个人效用的因素无疑更多，但出于本研究的目的，我们仅做此限定性的假定。

把主体拥有的物质资源处理为影响效用的变量，是经济学中的常规做法，在经验直觉上也没有什么疑问，无需再言。但对于将行为规范处理为直接影响效用的变量，则需做一点说明。在有的分析架构中，行为规范被作为行动者们共同面临的约束条件，是人们不能选择的，因而不是作为分析中的变量来处理。在贝克尔的违法行为研究（贝克尔，1976/1993:69-74）中，虽然将规范处理为可以选择遵守或不遵守的二分变量，并且在不同选择的收益权衡中多少隐含着规范对效用的直接影响，但其主要关注的是人在规范遵守中的机会主义行为，而不是对不同规范的选择及其相应的复杂效用后果。公式（1）则假定，人们遵守规范，从遵守规范中直接获得效用，而且有不同的规范可供选择遵守，这是讲理者的特征。当然，遵守不同的规范给主体带来的效用可能不同。

我们将公式（1）称为主体i 的综合效用函数。在某些时候，可以把综合效用函数分解为两个子效用函数：

我们将公式（2）称为主体i 的利益子效用函数，将公式（3）称为主体i 的规范子效用函数。

有必要指出，当我们采用“利益博弈”和“规范博弈”这两个术语来指称两类不同的博弈时，由于“利益”用语在日常使用中存在歧义，以及“利益”用语使用的歧义性导致了“利益”与“规范”关系的歧义性，因此需要对“利益”概念在本研究中的使用方式给予特别说明，以避免误解而影响进一步的分析。

对“利益”的一种使用方式，是将其视为物质资源给人带来的好处。例如，亚当·斯密在《国民财富的性质及原因的研究》（斯密，1776/1972）中论述分工推动物质财富生产，市场影响分工发展并以“看不见的手”的机制实现私人利益与公共利益的协调，就是在这种方式上使用“利益”概念。

而对“利益”的另一种使用方式，则是将之等同于当代经济学中的效用概念，即表示人获得的满足感。效用增加，便是利益增加；效用减少，便是利益减少。凡是增大效用的因素，便是使利益增加的因素；凡是降低效用的因素，便是使利益减少的因素。由此来看，只要假定博弈参与者是追求效用最大化的，也就意味着假定他们是追求利益最大化的。顺此用法，如果将参与者追求这种利益最大化（即效用最大化=利益最大化）的博弈称为利益博弈，那么，我们要讨论的任何博弈都是利益博弈。如此说来，所谓规范博弈不过是利益博弈的一个子类。在我们看来，当宾默尔把道德博弈视为生存博弈的一个子博弈时，接近于这里讲述的使用方式（宾默尔，1994/2003:55）。

将这两种对“利益”的使用方式与公式（1）、（2）、（3）对比，不难发现，后一种使用方式（即将“利益”等同于效用概念）对应着公式（1），即综合效用函数。换言之，由于把利益概念等同于效用概念，因此，事实上是把综合效用函数等同于利益函数；而前一种对“利益”的使用方式，则对应着公式（2），即本文所谓的利益子效用函数，该函数不能覆盖规范效用函数。“利益”是本研究的一个基本工具性概念，我们将在“物质资源给人带来的好处”这一意义下，即以第一种方式使用它，对这种使用方式的更精确表述是公式（2）。

对于公式（2），当存在多个资源选择方案，行为主体i 对每两个方案都能做出排序，且排序能够满足可传递性，并试图在选择中最大化其效用时，即 MaxUi(Xi) ，我们就称i 具有利益理性。

同样，对于公式（3），当存在多个规范选择方案，行为主体i 对每两个方案都能做出排序，且排序能够满足可传递性，并试图在选择中最大化其效用时，即 MaxUi(Ri) ，我们就称i 具有规范理性。

在公式（1）以及公式（3）中，当我们把规范（Ri ）作为影响效用（Ui ）的自变量时，强调其影响是直接的影响。这种对效用的直接影响根源于社会规范内化在人的心智偏好中的状态，而不是来自对规范如何影响资源获取的考量。在后一种情境下，规范对效用的影响是间接的。这种间接影响可以用公式表示为：

从公式（4）与公式（2）的关系中可以看到，社会规范 Ri 是先影响了i 拥有的物质资源量 Xi ，再通过 Xi 影响到i 的效用。换言之，i的效用是其选择的社会规范 Ri 的复合函数。这和我们在公式（1）和公式（3）中表达的意思是不同的。罗尔斯关于只有在“无知之幕”下才有真正的公平的观点的另一面就是说，如果不存在“无知之幕”，则“公平”不过是行动者获取利益的幌子（罗尔斯，1971/1988:10）。如果将公平视为一种社会规范，那么在罗尔斯的视角下，非“无知之幕”下的伪公平规范实际上就属于公式（4）所表达的意涵。我们之所以将规范影响效用的两种不同路径分开，除了使理论概念更为精确化的考虑外，也是因为在某些场合，二者会导致不同的后果。

相应地，在对效用的间接影响方面还有另一种情况，即：

公式（3）和公式（5）表示的是，i拥有的物质资源 Xi 并未直接影响其效用，而是间接地通过 Ri 影响i 的效用。韦伯刻画的通过不断获取财富实现救赎的新教徒的行为（韦伯，1920/1987），在理想状态下可以说就符合公式（3）和公式（5）的复合函数关系。这和我们在公式（1）和公式（2）中表达的意思也是不同的，在概念上需要注意区分。

在现实中，物质资源和社会规范直接影响效用和间接影响效用的情况往往同时存在。尽管如此，在概念上加以区分，对于深入分析将是有帮助的。

三、博弈论框架下的利益效用函数与规范效用函数

在上一节中，我们在舍去博弈因素的条件下界定了利益效用函数与规范效用函数。在本节中，我们将在博弈论框架下对利益效用函数与规范效用函数做出进一步的界定。

在博弈论框架下，每一个参与者的预期效用是自己的策略与其他参与者策略组合的函数。我们首先采用一般标准式表述如下。

在一个n 人博弈G 中，参与者排序为1，2，…，n，其中任一参与者的序号为 i。Si 表示参与者 i 的可选择策略集合，其中任意一个策略用 si 表示， si ∈ Si 。令 (s1,⋯,sn) 为每个参与者选定一个策略时形成的策略组合，则参与者i 的预期效用为：

在利益和规范双重博弈 Gxr 中，参与者i 的策略集合 Sixr 中的任何一个策略都存在着两个维度，即利益维度策略 six 和规范维度策略 sir ，用 sixr = (six,sir ) 表示，sixr ∈ Sixr 。所谓利益维度策略，是指直接以物质资源为互动媒介的策略；所谓规范维度策略，则是直接以行为规范为互动媒介的策略。为了在用语上与两个维度上的策略既对应又区分，我们将同时包含了两个维度的策略 sixr 称为综合策略。

在对利益维度策略和规范维度策略概念的界定中，我们都采用了“直接”二字，这意味着我们把间接以物质资源为互动媒介的策略排除在利益维度策略之外；把间接以行为规范为互动媒介的策略排除在规范维度策略之外。当然，我们并不否认间接策略概念在某些条件下的分析中有其作用。我们之所以如此处理，是出于如下两点考虑。

第一，避免对利益维度策略和规范维度策略的混淆。对于利益维度策略和规范维度策略的分类，有人可能会提出这样的质疑：当博弈参与者采用一个规范维度策略的时候，不仅会考虑对方采用的规范维度策略及规范维度策略组合带来的效用，而且会考虑规范维度策略组合对物资资源获取的影响；同样，当参与者采用利益维度策略的时候，不仅会考虑对方采用的利益维度策略以及利益维度策略组合带来的效用，也会考虑利益维度策略组合对规范的影响。因此，可以说规范维度策略也是利益维度策略，利益维度策略也是规范维度策略。这种质疑的特点是不区分直接影响和间接影响，并进而否定了双重策略的相对独立性。我们的研究不打算停留在博弈策略既有利益指向又有规范指向的泛泛之论上，而试图更深入、清晰地考察双重策略如何通过不同的交织产生不同的后果，因此双重策略的相对独立性成为必要的分析技术安排。故而在两类策略概念的界定中，强调“直接”二字。

第二，一些看似间接的策略，从动态博弈的角度看，可以从多轮直接策略的序贯中得到理解。如果间接策略是指在当下的策略互动中上一轮策略的影响，比如当下的利益维度策略互动受到上一轮规范维度策略组合的影响，那么其影响已经在当下的直接策略中得到体现；如果间接策略是指当下的策略互动对下一轮策略的影响，那么完全可以通过下一轮直接策略来体现。总之，我们将利益维度策略和规范维度策略界定在“直接”范围内，丝毫不影响对各轮博弈中策略关系的分析，还避免了一些干扰分析可能带来的繁复想象。

由于 s1xr = (s1x,s1r ),⋯,snxr = (snx,snr ) ，因此，参与者i 的预期效用公式（6）可表示为：

公式（7）表示，i的预期效用是其自身的利益策略和规范策略、其他参与博弈者的利益策略和规范策略的函数。

事实上，公式（7）把博弈参与者的利益策略和规范策略与预期效用结合起来的时候，隐去了中间环节。结合第2 节的讨论，更严格地说，i预期获取的物质资源与自身达成的行为规范，均是其自身的利益策略和规范策略、其他参与者的利益策略和规范策略的函数；进而，i的预期效用是通过博弈获得的物质资源与行为规范的组合的函数。可以用公式表示如下：

因此，公式（7）可以看作公式（8）、（9）、（10）的简化表述。需要指出的是，公式（8）、（9）、（10）不仅展现了在公式（7）中隐去的“利益-规范”策略与效用的关联，而且同时展现了利益维度策略和规范维度策略之间的联结性质。表示利益和规范直接影响行动者效用的二元效用函数，即公式（10），内含着在个人心智结构中相对稳定的有关利益和行为规范的关系，这是行动者的利益维度策略和规范维度策略被联结考虑的最深刻基础。在这样的基础上，行动者将能动地使其策略具有利益和规范两个维度，以便在博弈中获得物质利益和协调双方的规范，即公式（8）和公式（9），并进而获得效用公式（10）。至于行动者如何在不同条件下，面对不同的博弈对手，能动地组合其利益和规范维度策略，而对手又如何组合其策略，并在双方形成不同的博弈格局，这是“利益-规范”双重博弈需要展开分析、建构不同模型的进一步工作。我们在这里仅仅给出了最一般的框架。

采用博弈论的标准式，我们可以将博弈参与者的双重策略和其预期效用间的关系简化为如图1所示的矩阵1。

在矩阵1 中，假定存在两个参与者。参与者1 有两个综合策略：s1xra 和 s1xrb ；参与者2 也有两个综合策略：s2xrc 和 s2xrd 。每个参与者的每个策略都有利益和规范两个维度，例如，参与者1 的策略 s1xra 有着利益维度策略 s1xa 和规范维度策略 s1ra ，参与者2 的策略 s2xrc 有着利益维度策略 s2xc 和规范维度策略s2rc ，如此等等。参与者1 和参与者2 的一个策略组合对应的各自收益标注在行与列交叉的栏中，例如，综合策略组合 (s1xra,s2xrc) 对应的二者收益为(U11,U21) ；利益维度策略组合 (s1xa,s2xc) 对应的收益为 (U1x1,U2x1) ；规范维度策略组合 (s1ra,s2rc) 对应的收益为 (U1r1,U2r1) ，等等，以此类推。

在矩阵1 中还有若干错维组合，即不同参与者间的利益维度策略和规范维度策略的组合。(s1xa,s2rc) 、(s1xa,s2rd) 、(s1xb,s2rc) 、(s1xb,s2rd) 、(s1ra,s2xc) 、(s1ra,s2xd) 、(s1rb,s2xc) 、(s1rb,s2xd) 都属于这种错维组合。在博弈双方都能完全识别对方策略的规范和利益意涵的条件下，则双方的利益维度策略、规范维度策略以及综合策略能实现完好对应，因此，错维组合不会发生，即使在矩阵中出现也没有意义。矩阵1 中出现的错维组合收益，如 (U1xr1,U2xr1) 、(U1xr4,U2xr4) 等，只不过是纯粹的形式。但是，当博弈参与者中至少一方不能完全识别对方策略的规范或利益意涵的时候，错维组合就可能发生，它就具有现实意义。事实上，现实生活中的“利益-规范”双重博弈，其利益维度和规范维度常常被有意无意地搞得并非泾渭分明，这恰恰是双重博弈的微妙之处。比如，甲方想与乙方做特定货品的买卖，期待在互动中获取经济回报；乙方虽然参与互动，但将这种货品视为宗教神圣物，回报甲方以其他宗教神圣物。在这个例子中，甲没有看清乙不能理解其策略意图，而乙也没有读懂甲的策略。这种错维组合会影响到双方的博弈路径和收益。

矩阵1 的标准式表示的是静态的双重博弈，其中各个参与者的利益维度策略和规范维度策略是同时提出的，不存在先后的调整。这是一种比较单纯的情况。而动态的双重博弈的情况则更加丰富。从双重策略运用方式的角度，可以将动态的双重博弈分为以下3类。

（1）博弈参与者依次采用综合策略，即同时包含利益维度和规范维度的策略。例如，参与者1 首先采用综合策略 s1xra ，参与者2 观察到参与者1 的策略后采用综合策略 s2xrc ，其中，s1xra =(s1xa,s1ra) ，s2xrc =(s2xc,s2rc) 。

（2）博弈参与者将双重博弈分两个阶段进行，每个阶段只进行单一博弈，在前一阶段的单一博弈获得“解”之后，再进行后一阶段另一单一博弈。例如，参与者1 先采用规范维度策略 s1ra ，参与者2 继而采用规范维度策略 s2rc 应对，参与者1 再采用规范维度策略 s1rb ，如此继续下去，直到达成规范共识。然后，两位博弈参与者转入序贯的利益维度博弈，参与者2 采用利益维度策略 s2xc ，参与者1 以利益维度策略 s1xa 应对，如此等等。

（3）参与者相机采用利益维度策略、规范维度策略或综合策略进行博弈。这一类博弈中包含两个维度不对称博弈子类。一个子类是参与者一方采用单维策略（单纯的利益维度策略，或单纯的规范维度策略），另一方采用两维度综合策略。例如，参与者1 采用利益维度策略 s1xa ，而参与者2 则以综合策略 s2xrc 应对。另一个子类是参与者双方都采用单维策略，但策略是错维的。例如，参与者1 采用规范维度策略 s1ra ，而参与者2 则以利益维度策略 s2xc 应对。

前面我们已经对在静态双重博弈中，策略的错维组合在何种条件下有意义、在何种条件下无意义做了一点讨论。值得注意的是，在动态博弈中，错维策略有时却会对转变博弈形势产生不可忽视的影响。以两维度综合策略应对单维策略，有时也会对博弈形势产生影响。

谢林曾举例子说明谈判博弈中的以规范自我任责的作用，其中就包含着动态双重博弈中以两维度综合策略应对单维策略。我们把他的例子加以整理，得到这样的过程：

双方就一栋房屋的买卖进行谈判，双方都希望成交。卖方出价19000 美元，买方则试图把价格压低。按一般的讨价还价模式，买方会策略性地出一个比自己可接受价更低一些的价格，比如16000 美元，然后卖方再把价格提高一些，最终在16000 美元到19000 美元之间的价位成交。显然，在这种模式中，双方都是采用单维的利益策略进行博弈。然而，谢林却发现了一个不同于通常的讨价还价模式的规范任责模式。按这个模式，买方采用了一个把利益策略和规范任责策略捆绑在一起的两维度综合策略，从而使谈判向自己的目标倾斜。规范任责的方式依社会环境条件的不同而可能有所不同。比如，在重视宗教训诫的社会环境中，买方在出价16000 美元（这是利益策略）的同时，“向上帝发誓”（这是规范策略）这是他可接受的底线价格。当卖方相信他的发誓时（规范博弈实现均衡），不再具有继续讨价还价的余地，双方将在16000 美元价位上成交。又如，在重视履约声誉的社会环境中，买方“与某个第三方打了一个赌，该赌约不可撤销且可强制执行，并已充分记录及公证，据此赌局，他为该房屋支付的金额不会超过16000美元，否则将被罚 5000 美元”。在这样的条件下，希望成交而又不愿破坏对方履约声誉的卖方便只能就范（规范博弈和利益博弈均实现均衡）。当然，对卖方来说，在这样的价位成交比不卖房更有收益，但相比更高的收益而言，结果更向买方倾斜了（谢林，1960/2019:24-25）。

从上述例子中可以体会到，维度不对称策略在动态博弈中可能有其特殊的作用。

四、双重博弈均衡与非均衡

在上一节中，我们考察了双重博弈的策略组合，在本节我们将分析双重博弈均衡。

概括地说，“利益-规范”双重博弈均衡是指利益维度博弈和规范维度博弈都达到均衡的状态。具体而言，利益维度博弈均衡是指这样一种状态，即该博弈的任何参与者都没有激励单方面改变其利益策略；规范维度博弈均衡则是指博弈的任何参与者都没有激励单方面改变其规范策略的状态；而利益博弈和规范博弈双重均衡是指博弈的任何参与者既没有激励单方面改变其利益维度策略，也没有激励单方面改变其规范维度策略的状态。

我们可以在矩阵1 的基础上，对博弈双方诸策略组合的收益具体赋值，以直观地说明双重博弈策略的均衡与非均衡（如图2 所示的矩阵2）。在这里，我们没有考虑错维组合这种更复杂的情况。

在矩阵2 中，参与者1 有两个综合策略 s1xra 和 s1xrb ，参与者2 有两个综合策略 s2xrc 和 s2xrd 。他们的每个综合策略中都包含一个利益维度策略和一个规范维度策略。

如果单就利益维度子博弈而言，参与者1 和参与者2 的均衡策略组合是(s1xb,s2xc) ，相应的收益为（5，4）。这是因为不论行动者1选择策略 s1xa 还是s1xb ，行动者2 都以 s2xc 为优；而当行动者2 如此选择时，行动者1 将选择 s1xb 。

如果单就规范维度子博弈而言，参与者1 和参与者2 的均衡策略是 (s1ra,s2rc) ，相应的收益为（6，4）。何以在此均衡，读者可以根据矩阵中的策略组合收益自行推论，不再赘述。

可以看到，对参与者1 而言，利益维度子博弈的均衡策略与规范维度子博弈的均衡策略分属两个不同的综合策略。这意味着，不论是在单纯的利益维度子博弈均衡时，还是在单纯的规范维度子博弈均衡时，双重均衡都未实现。在矩阵2中，“利益-规范”博弈的双重均衡要通过综合策略均衡实现，均衡策略组合是 (s1xra,s2xrc) ，相应收益为（11，10）。

在矩阵2 的假想例子中，“利益-规范”综合策略均衡的实现，并不意味着单纯的利益维度子博弈和单纯的规范维度子博弈均衡同时实现。这是因为，在该例子中，利益策略和规范策略之间会产生综合效应（例如，社会学中的“情境定义”就是重要的产生综合效应的机制，即行动者在不同的情境定义中，可能对利益与规范的关系产生截然不同的理解）。这种综合效应在单纯的利益维度子博弈和单纯的规范维度子博弈中不能得到体现。如果假定不存在这种综合效应，那么“利益-规范”综合策略均衡实现时，必定意味着单纯的利益维度子博弈实现了均衡，单纯的规范维度子博弈也实现了均衡。换言之，只要有一个单纯的子博弈没有实现均衡，那就必定意味着“利益-规范”综合策略均衡没有实现，即双重博弈均衡没有实现。

矩阵2 是通过一个静态博弈的例子来说明“利益-规范”双重博弈均衡同时实现。这是最简明扼要地展现双重博弈实现均衡抑或未实现均衡的方式。不过，现实中的双重博弈均衡大都是经历动态双重博弈过程实现的。从动态角度看，双重博弈有可能序贯实现“利益-规范”双重策略均衡，而不是同时实现。

在上一节中，我们曾将动态双重博弈分成3 类。在第1 类，即博弈参与者依次采用综合策略的动态博弈中，如果存在均衡解，那么双重均衡将同时实现。而在第2 类，即博弈参与者将双重博弈分成两个单一博弈并分两个阶段进行的博弈中，如果存在双重均衡解，则它将序贯实现。在第3 类，即博弈参与者相机采用利益策略、规范策略或综合策略进行的博弈中，如果存在双重均衡解，则它既可能序贯实现，也可能同时实现。究竟以何种方式实现，取决于相机采用策略的具体情况。

从经验上直观理解双重博弈序贯均衡的一个常见例子是这样一种谈判博弈：谈判各方先就利益划分的基本规范达成一致，然后再围绕利益的分割讨价还价。当各方就利益划分的基本规范达成一致时，即实现了规范均衡；当围绕利益的讨价还价尚未完成时，他们之间的利益博弈便未实现均衡；当围绕利益的讨价还价完成时，伴随利益均衡实现，双重均衡也得以实现。

上面这个例子是先实现规范博弈均衡，再实现利益博弈均衡。先实现利益博弈均衡再进行规范博弈的也不乏其例。在跨文化援助中，双方先就投资额、利率、利润分配等达成一致，再就附加规范条件进行协商，就属于后一种情况。

双重均衡概念很简单。但在现实生活中实现双重均衡的路径却因条件各异而呈现出多样性。考察多种多样的博弈，建构不同的理论模型，是值得进一步开展的工作。

五、双重博弈均衡的稳定性：强化与弱化

对象为真实生活的博弈论研究，不仅关注一定条件下的博弈均衡解，而且关注均衡的稳定性，因为均衡的稳定性会对社会秩序、人们的生活状态等方面产生重要的影响。例如，一项协议（其达成就意味着实现了谈判博弈均衡）是长久有效的，还是只是权宜之计，其后果将非常不同。特别是在利益博弈、规范博弈格局都发生在变动的社会条件下时，博弈均衡的稳定性更值得关注。

托马斯·谢林2005 年在诺贝尔经济学奖颁奖会上以“惊情60 年：广岛的遗产”为题发表了与当今世界格局有密切关系的讲演。他在指出自1945 年以来的60 年中“核武器未在愤怒时引爆”后提出的问题，即“我们能够保持这一记录度过另一个60 年吗”，可以说是一个有关“利益-规范”双重博弈均衡稳定性的重大现实问题（谢林，1960/2019:321-336）。

按谢林的分析与判断，在过去的60 年中，核武器之所以没有投入使用，在很大程度上源于某种“禁忌”：核武器被认为和所谓常规武器不同，而这种区分“是一种建构性规范”。存在这种建构性的禁忌规范，并不仅仅是因为核武器有着巨大破坏力，事实上早在艾森豪威尔政府末期，小型核武器就被制造出来了，其爆炸力要小于最大型的常规炸弹。而在核武器禁忌规范和战争利益之间，有证据表明是存在张力的。“有军事策划者认为……‘小型’核武器不应该受此种‘禁忌’的玷污。”美国国务卿杜勒斯在1953 年10 月7 日表态说：“无论如何，我们必须设法移除不能使用核武器的禁忌。”谢林引述邦迪书中的资料表示，“在讨论使用原子弹来保卫奠边府的可能性时，杜勒斯和参谋长联席会议主席拉德福德司令的头脑里考虑的，不仅仅是原子弹的使用对于印度支那的当下价值，他们还试图用奠边府的范例来‘促使原子弹的使用变得可被国际社会接受’”。显然，这里存在着改变第二次世界大战后在诸多国家之间形成的关于禁用核武器的“利益-规范”双重均衡的企图。众所周知，这种企图没有变成现实，关于禁用核武器的“利益-规范”双重均衡得以维持至今。然而，谢林提出的“我们能够保持这一记录度过另一个60 年吗”的现实问题仍然存在。双重均衡的稳定性作为学术问题，仍然需要深入研究。

我们把目光从全球范围拉回到中国现实中的日常生活，可以看到，“利益-规范”双重博弈均衡的稳定问题也已被中国某些社会学研究者所关注。例如，中国自20 世纪90 年代中期至21 世纪初发生了重要的制度变革，即“企业改制”。研究这一过程的一些学者指出，“企业改制”中既存在利益博弈，也存在规范博弈，二者交织互动（刘世定，1995；刘玉照，1999）。从双重博弈的角度看，改制方案协议的达成意味着“利益-规范”双重均衡形成。值得注意的是，这种均衡形成后，仍存在稳定性问题。事实上，在不同的地区、不同的企业中，改制协议均衡的稳定性存在差异。蒋越的一项研究考察了某市企业改制后的“利益-规范”均衡的不稳定性问题。改制后，由于经营条件的变化以及相应的收益差异超出一些改制前企业员工的预期，出现了一些员工对合约反悔的现象，即质疑改制中达成的协议的合理性、公平性，企业股东和非股东、已转让股权的股东和其他股东、离开企业的员工和企业领导，围绕原来的方案协议展开了新的利益博弈和规范博弈（蒋越，2014）。

在一般意义上，从博弈均衡的分析中做逆向思考便很容易理解，当某些条件的改变影响到博弈参与者的策略集及策略效用，而策略集及策略效用的变化影响到他们各自的策略排序时，原有的策略均衡就可能发生动摇。对原有均衡产生扰动的因素可能很多，情况各异。尽管均衡的稳定是一个饶有趣味、值得深入研究的议题，但本文不打算就此做过多扩展分析。我们关心的仅仅是，较之单纯的利益博弈或单纯的规范博弈，“利益-规范”双重博弈在均衡稳定性方面可能具有的强化或弱化作用。

这里有关均衡稳定性问题的讨论涉及利益博弈和规范博弈之间的连带关系。我们将其间的关系简化为两类：一类是负向连带关系，另一类是正向连带关系。下面分别加以阐述和讨论。

（1）负向连带关系。所谓负向连带关系，是指在双重均衡形成后，由于某些条件的变化，博弈参与者i 发现了比其均衡策略更优的获取利益效用的策略，但采用这一策略会导致其规范效用的缩减；或博弈参与者i 发现了比其均衡策略更优的获取规范效用的策略，但采用这一策略会导致其利益效用的缩减。

以双重博弈间负向连带关系的存在作为参照，进一步思考可知，如果只进行利益博弈或规范博弈，那么当参与者发现了比均衡策略更优的策略时，原有的均衡会立即被打破。但双重博弈间负向连带关系的存在则使博弈参与者必须做出更多的权衡。他们需要比较进入另一重博弈后的新综合效用和原均衡策略效用：当新综合效用大于原均衡策略效用时，他们会打破原有均衡；当新综合效用小于原均衡策略效用时，他们会维持原有的均衡。不论是哪种情况，双重博弈间负向连带关系的存在对原均衡的破坏都起到了迟滞作用。换言之，在存在负向连带关系的条件下，“利益-规范”双重博弈较单一博弈具有强化均衡稳定性的作用。

可以用示意图对负向连带关系和强化均衡稳定性作用做直观的说明。在图3 中，横轴 Ur 表示博弈参与者i 的规范效用，纵轴 Ux 表示其利益效用。sixre 是i 在博弈均衡时的策略，简称i 的均衡策略。博弈均衡时i 获得的利益效用是a，获得的规范效用是b，假定综合效用是二者加总，即Uixr = a + b 。以sixre 为中心画两条相互垂直的线，将坐标图分为4 个象限。在象限Ⅰ和象限Ⅲ中，i采取的打破均衡的策略对应的利益效用和规范效用的变化具有负向连带性，即利益效用增加则规范效用减少，规范效用增加则利益效用减少。

图3 中第Ⅰ象限的 sixr1 是i 在博弈均衡后由于某些条件变化发现的较均衡策略能带来更多利益效用的策略，其利益效用增量为 Δa 。但是若i 选择策略，则同时会导致规范效用的减少，其减少量为 -Δb 。只有当 Δa - Δb > 0 时，i偏离均衡策略 sixre 选择 sixr1 才是明智的。在这里，与利益维度博弈同时存在的规范维度博弈起到了强化稳定原均衡的作用。在第Ⅲ象限中，sixr2 是可以为i 带来更多规范效用的策略，规范效用增量为 Δb ，但该策略同时造成利益效用的损失，减少量为 -Δa 。与第Ⅰ 象限内的情况同理，只有当 Δb - Δa > 0 时，i打破均衡选择 sixr2 才是明智的。这里是利益维度博弈起到强化均衡稳定性的作用。总之，在这里可以看到，当负向连带关系存在时，双重博弈均衡较单一博弈更具稳定性。

（2）正向连带关系。这里所说的正向连带关系是指，在双重均衡形成后，由于某些条件的变化，博弈参与者i 发现了比其均衡策略更优的获取利益效用的策略，而这一策略的采用会带来规范效用扩大；或博弈参与者i 发现了比其均衡策略更优的获取规范效用的策略，而采用这一策略也会带来利益效用扩大。

与单一的利益博弈或规范博弈相比，具有正向连带关系的双重博弈的参与者一旦发现了比原均衡策略更优的策略，会在利益效用和规范效用的双重推动下加速偏离原来的策略均衡。这意味着，在存在正向连带关系的条件下，“利益-规范”双重博弈较单一博弈具有弱化均衡稳定性的作用。

我们也可以用示意图对正向连带关系和弱化均衡稳定性作用做直观的说明。图4 的基本构成和图3 相同。不同的是，博弈参与者i 采取的打破均衡的策略将出现在第Ⅱ象限。

在图4 中，在均衡策略 sixre 的右上方第Ⅱ象限内存在点 sixr1 ，这是i 在博弈均衡后由于条件变化发现的较均衡策略能带来更多效用的策略。与图3的情形不同，在该策略点，不仅能够获得更多的利益效用，而且能够获得更多的规范效用。其利益效用增量为 Δa ，其规范效用增量为 Δb 。与单一博弈比较，双重效用同时增加的策略点的发现，使博弈参与者i 有更大的激励偏离原均衡策略，而去追求新的策略。从均衡稳定性角度来看，这恰恰产生了弱化作用。

均衡的稳定性是个复杂而有必要深入探讨的议题。利益博弈和规范博弈间的关系提供了一个值得关注的角度。

六、总结与展望

本文对利益研究和制度研究中正在发展的一个经济社会学研究范式进行了初步的概念性探讨。我们首先在既讲利益又讲规范的行为假定下，撇开博弈因素界定了利益效用函数、规范效用函数以及综合效用函数。其中强调并区分了利益概念与效用概念的差异，并对利益和规范对效用的直接影响与间接影响加以明确区分，以免混用有碍研究的扩展与分析的深入。接下来考察了引入博弈因素的效用函数，界定了利益维度策略、规范维度策略、综合策略等概念。从静态和动态方面，对双重博弈中利益策略、规范策略以及综合策略的运用特点也进行了一些探讨。在双重博弈策略的基础上，进一步讨论了双重博弈均衡和非均衡概念，对于双重博弈均衡的某些特点，如均衡实现的次序，也略做了讨论。最后讨论了双重均衡的稳定性。这是一个比较复杂的问题，为简化起见，我们仅从双重博弈间的负向连带和正向连带角度，探讨了它们对均衡稳定性的强化和弱化作用。本文对上述概念进行讨论，是为了便于在进一步的研究中使用歧义尽可能少的基础性工具。

“利益-规范”双重博弈的理论和经验研究都有待拓展。抱着谨慎的态度，我们在此对近期可能出现的研究前景做一粗略展望。

（一）推动经验案例与双重博弈理论模型的对话研究

本文是理论性的，但仅限于探讨双重博弈理论中的一些基本概念，尚未展开理论模型的讨论。双重博弈的理论建模将是未来需要开展的既有学术价值也有趣的工作。由于人们的博弈活动对条件、能动策略高度敏感，因此建构的理论模型也多种多样。虽然社会规范的存在会在一定程度上对人们的策略选择起到简化作用，但规范互动的引入也带来了一些新的复杂性。可以预见，在经历一段时间的发展后，双重博弈模型将以模型群的形态呈现于世人面前，其中有一些较为基础，有一些较为具体。此间有相当大的耕耘空间，当然，路只能一步步走。

到目前为止，博弈论研究呈现出多条路径，数学解析的博弈论研究、实验的博弈论研究、真实社会情境中的博弈论研究以及不同路径相结合的研究等各具特色（刘世定、张惠强，2013）。与此相应，双重博弈理论建模的路径也有多条。不过，由于人们各自携带并以之互动的规范总是在社会历史的演化中形成的，因此，就双重博弈的研究而言，真实社会情境中的博弈研究与理论建模占据了更重要的位置。在真实社会情境中的博弈研究方面，结合社会学的学科传统和长项，采用经验案例与理论模型对话的方法，可望有效推进双重博弈研究。谢林曾提示，在博弈论研究中，“某种程度上更普遍而言，过度抽象是危险的：因为，当我们大大地改变背景性细节的数量时，或当我们消除诸如参与人对彼此价值系统的不确定性之类的复杂要素时，我们也就改变了博弈的特性。通常正是背景性细节能够引导参与者去发现稳定的，或至少是，对双方无损的结果”（谢林，1960/2019:171）。深入的经验案例研究，是我们发现背景性细节和人们之间价值系统的不确定性复杂要素的重要途径，对于我们深入研究双重博弈是十分重要的。

（二）推动典型领域的经验与理论研究

双重博弈在社会生活中广泛存在，因而可以在诸多领域中进行经验研究并可望从中提炼博弈理论模型。然而，在开展这一研究的初期，选择双重博弈特征表现突出的典型领域进行研究，或许是明智的。我们认为，有着比较突出的规范差异的跨国经济活动领域、族群间互动领域，都属于相对便于进行双重博弈研究的典型领域。

我们注意到，费孝通教授在继1997 年提出“文化自觉”概念（费孝通，1997）后，进一步将这一概念中的思想扩展到国际关系研究领域时，已经涉及国际关系与秩序的双重博弈。他在1999 年召开的“中华文化与二十一世纪国际学术研讨会”上发表了题为“中华文化在新世纪面临的挑战”的文章，该文中写道：

进入二十世纪之后，居住在这个地球上的人们已经联系得休戚相关，如此密切，甚至可以在世界规模上用枪炮来对话了。战争固然出于对抗，对抗却也是一种难解难分的联系。利益上的你争我夺，决不会发生在互不相关的绝缘体之间。对抗不仅表示了联系，并且也总是以加强联系为终结而终于导致联合。联想到中国历史上也有过群雄争霸的战国时期，我曾经把二十世纪的人类历史比喻为世界范围的战国时期。也许这个比喻不太恰当，但是其中包含着的一个暗示我认为还是值得注意的，这就是：当今世界正在发生全球性的从分到合的运动过程。
在世界文化的发展过程中，不同的制度具有和平共处的可能性，可以出现对立面的统一。……不同的社会制度不仅能和平共处，而且在实践中越来越显示出它的互补性，具体地发挥出了互相促进的作用。（费孝通，1999：6）

可以看到，费孝通教授在这段透视国际关系的话中，既关注国家间的利益争斗，也关注不同制度规范间的关系建构。用本文采用的研究术语来说，这里强调了国际关系中“利益-规范”双重博弈的研究视角。可以说，费孝通教授的论述，为社会学者从“利益-规范”双重博弈角度进行国际关系和国际新秩序理论研究点了题。

上海大学“经济社会学与跨国企业研究中心”的研究人员，在其正在开展的跨国企业研究中，将“利益-规范”双重博弈作为重要的研究视角。他们的某些研究，开始展现出双重博弈研究在跨国经济社会研究中的潜力（Yan, Zhang ＆ Li, 2020；史征东，2021）。

（三）推动跨文化研究方法的发展

在对双重博弈进行经验研究进而在经验基础上进行理论模型建构时面对的一个基本问题是，研究者不仅要理解互动各方所持的规范（这些规范又常常和利益有不同程度和方式的缠结），而且要理解互动各方如何相互理解对方所持的规范。

人类学的民族志研究方法中的一个要领是跨文化理解。如果我们将行为规范放入“文化”范畴，那么，规范互动研究无疑涉及跨文化理解。不过，我们想要指出的是，通常所说的跨文化理解强调的是研究者携带着与研究对象不同的文化，研究者必须逐渐融入研究对象的文化中，才能有成效地进行研究。而双重博弈研究所特有的是，既存在研究者与研究对象间的文化差异需要跨越，研究对象之间也存在跨文化理解问题需要解决。这里会引出一些需要深入讨论的研究方法问题。

（四）推动对某些既有理论的再思考

引入一个与以往框架有所不同的分析架构是否值得，主要看它能否在依托原有框架的知识中带来某些增量。可以预见，双重博弈分析架构的引入，将会推动对人们所熟知的某些理论的再思考。

例如，在制度研究中，正式制度与非正式规范（制度）是一对重要的范畴。对二者关系的研究，常常停留在一些笼统的说法上，例如将非正式规范作为正式制度的“基础与补充”（诺斯，1990/1994:5）。更深入一些的理论目前主要是在功能分析的视角下展开。其代表性的思路是，指出二者都可以降低人们互动中的交易成本，或者考察二者在实现特定目标中的互补与替代作用。例如，诺斯曾写道：

正规规则能贯彻和增进非正规制约的有效性，它们可能会降低信息、监督和实施成本，因而使得非正规制约成为解决更为复杂交换的可能方式。正规规则也可能被用于修正、修改或代替非正规制约。（诺斯，1990/1994：63-64）

双重博弈提供了一种展现正式制度和非正式规范间关系的机制，通过这种机制的分析，我们可以看到笼统叙述和功能分析所难以看到和准确把握的二者间的某些关系。

例如，当博弈参与者援引的不同规范中既有所谓正式制度也有非正式规范时，可能发生参与者对各类规范的排序博弈。不论就理论逻辑的可能性而言，还是从经验案例的分析来看，正式制度和非正式规范的排序将多种多样。如果我们将前位排序视为后位排序的“基础”，那么，作为“基础”的既可能是非正式规范，也可能是正式制度。这里提供的信息不是笼统地说非正式规范是正式制度的“基础与补充”所能概括的。

又如，在通常看到正式制度与非正式规范发生替代或互补的地方，从双重博弈的角度可能看到一些更深刻的内容，它要求我们追问这是何种替代、何种互补。因为这些替代或互补既可能是利益博弈的结果，也可能发生在利益与规范权衡之间，还可能是规范博弈的构成部分，等等。其间的丰富性和机制正是有待开掘之处。

（五）推动对经典文献的再研究

就理论而言，现有的诸多经典文献都不是从双重博弈的角度进行研究的，这构成了双重博弈理论建构的批判性起点。不过，需要看到，这些经典文献中有的蕴含着对推动双重博弈研究有益的要素。例如，阿罗的社会选择理论虽然不是在双重博弈的架构中展开，但所面对的问题却是双重博弈所关心的。阿罗指出，“社会选择理论面对的问题是协调不同的利害关系和有分歧的价值观念”（阿罗，2000：中文版序言）。这也同样是双重博弈面对的问题。他对经验研究寄予的希望富有启发性：“在多准则的情况下，无论如何，各种经验法则导出的结论往往比社会选择所得到的更为可取。”（阿罗，2000：中文版序言）就经验研究而言，人类学的跨文化研究著作，有的直接涉及了利益和规范互动的描述，有的则隐含着与双重博弈有关的微妙细节，这些对双重博弈研究来说，都值得再研究。

（注释与参考文献从略）

责任编辑：王水雄

网络编辑：孙畅

网络审核：骆骁

欢迎关注《社会学评论》杂志公众号

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

亲密关系中，比“不爱了”更残酷的，是这3种相处模式

三联，刺痛了多少中国人

“社会研究的理论创新与范式反思”专题 | 刘世定严俊刘玉照：“利益-规范”双重博弈 ——一个基础性探讨

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

亲密关系中，比“不爱了”更残酷的，是这3种相处模式

三联，刺痛了多少中国人

生成图片，分享到微信朋友圈

“社会研究的理论创新与范式反思”专题 | 刘世定 严俊 刘玉照：“利益-规范”双重博弈 ——一个基础性探讨

您可能也对以下帖子感兴趣

“社会研究的理论创新与范式反思”专题 | 刘世定严俊刘玉照：“利益-规范”双重博弈 ——一个基础性探讨