【文章精选】陈国良、张书维、陈文娜丨公共管理研究中的联合实验: 文献回顾、基本原理及结果实现丨2023年第3期

Original 陈国良等公共管理与政策评论

2024-09-23

公共管理研究中的联合实验：文献回顾、基本原理及结果实现

◉ 陈国良张书维陈文娜

【摘要】近年来公共管理国际期刊上逐渐兴起一股联合实验研究发表热潮，显示出联合实验巨大的应用潜力。然而国内公管学者对联合实验方法关注较少，鲜见关于联合实验的公管论文，一定程度上制约了该方法的推广，也不利于和国际同行及相关学科进行更好的对话及合作。本文通过对公管主流期刊上的62篇联合实验研究（截至2022年6月30日）进行描述性文献回顾，揭示公管领域联合实验的发表趋势、研究主题、内容特征、研究者区域国别和研究技术细节。随后介绍了联合实验的基本原理、特色及在因变量类型与自变量数量和水平方面的适用条件。紧接着，本文结合两个实例演示如何通过R语言进行联合实验结果实现。最后，本文对联合实验在公管领域的应用前景进行了展望。

【关键词】实验法；调查实验；联合实验；联合分析；因果推断

【作者介绍】陈国良：中山大学政治与公共事务管理学院博士研究生，chengliang5@mail2.sysu.edu.cn；张书维：中山大学中国公共管理研究中心/政治与公共事务管理学院教授、博士生导师，zhshuw2@mail.sysu.edu.cn；陈文娜：中山大学中国公共管理研究中心/政治与公共事务管理学院助理教授、硕士生导师，chenwn27@mail.sysu.edu.cn。

【引用格式】陈国良,张书维,陈文娜.公共管理研究中的联合实验：文献回顾、基本原理及结果实现[J].公共管理与政策评论,2023,12(3):152-168.

—文章结构—

一、引言

二、公共管理国际期刊的联合实验研究回顾

（一）文献收集

（二）联合实验发表趋势统计

三、联合实验的原理及特色

（一）联合实验的基本原理

（二）联合实验的特色

四、联合实验的结果实现：两个实例

（一）移民实验与候选实验简介

（二）移民实验和候选实验主要结果的实现

五、公共管理联合实验的展望

一、引言

随着公共管理（后文统称“公管”）领域的“行为转向”成为一种潮流，公管学者对实验方法的兴趣与日俱增。众多实验方法中，调查实验被认为是公管领域最流行的实验方法，其中又以基于单独情景设计（single-profile vignette design）的调查实验使用最为广泛（后文统称为传统调查实验）。传统调查实验只需向研究对象呈现一段单独的情景描述，操作简单，不仅与问卷调查衔接度高，而且还具备一定内部效度。随着实验方法的不断演进，近来公管实验研究对调查实验的使用正迈入新阶段。特别是在有关公共部门和公民的偏好、决策与态度等关乎行为且强调现实性的公管议题上，一部分公管学者选择相对新颖的“联合”情景式调查实验，即联合实验（conjoint experiment）。

联合实验可追溯至20世纪60年代关于联合测量的开创性研究。Luce和Tukey提供了联合测量的概念基础及公理化证明，为联合测量用于研究两个及以上的自变量对一个定序因变量的联合效应奠定了基础。随后，一些数学心理学家开发了专门的算法和程序，联合测量从而演变为联合分析（conjoint analysis）技术并被广泛应用于市场营销领域的消费者偏好、需求和产品开发预测。作为测量消费者权衡（trade-offs）的技术，联合分析在操作上运用了联合设计，即在联合列表中嵌入一组产品属性（因素）及其水平的信息组成两个及以上相互竞争的概述（profiles），收集被试在不同概述中做出的选择或排序数据，使用算法分析被调查者的偏好。随着计算机技术的进步，各种与联合分析相关的算法及程序迅速发展并可通过软件实现，随即有学者提出联合分析在偏好及决策上的应用可拓展至包括公共部门在内的其他对象和相关群体。

以往的公管研究对于联合实验方法的关注度不高，大多数公管学者偏好使用相对容易理解和分析的传统调查实验。由于早期联合实验的原理和算法相对较为复杂，基于联合分析技术的联合实验在21世纪初才通过一部分经济学家正式引入公共政策分析领域，用于研究与政策相关的偏好及支付意愿。在2010年后，一些政治学学者（如Hainmueller等）结合因果推断的潜在结果框架进一步阐述了联合实验中的因果推断原理，并提供了可应用的算法技术和操作化步骤。近几年来，公管学者迅速跟进并将其应用于公共部门工作人员与公民的政策偏好、态度和行为等政策分析议题，掀起一股联合实验研究发表热潮。相比传统调查实验，联合实验能够在一次调查中嵌入大量干预因素并检验多个理论，通过迫选和评分题项的结合，其联合设计不仅有助于降低社会期望偏差，而且能够更准确地揭示研究对象真实的权衡结果，具备更高的内外部效度。

相较于国际公管同行对联合实验的关注与探索，国内对这一相对新颖且富有潜力的实验方法知之甚少，更是鲜有联合实验研究论文发表于公管期刊，一定程度上限制了国内公管学者应用前沿方法讲述中国故事。鉴于此，本文首先对公管领域国际期刊的联合实验研究进行系统性回顾；然后对联合实验的基本原理、相对优势及适用条件进行介绍，并通过两个实例具体演示如何在统计软件上实现联合实验的关键结果；最后从运用联合实验方法探讨本土议题、检验与发展公共组织行为学理论、开展混合方法研究以及开展跨学科对话等方面对其在公管领域的应用进行展望，以期加深国内公管学者对联合实验的理解，进而助推更多公管联合实验研究佳作出现。

二、公共管理国际期刊的联合实验研究回顾

联合实验是基于联合分析技术的实验方法，采用联合设计于联合列表中构建多个相互竞争的概述情景，收集被试的选择或排序数据，使用统计分析技术实现多个因素对同一结果因果效应的分析。由于操作上具有让被试于两个及以上内含不同属性的选项中做出选择的特色，公管领域的学者也将联合实验称为“离散选择实验”（discrete choice experiment）。为充分了解联合实验目前在公管领域处于何种状态及其应用潜力，我们对公管国际期刊上的联合实验研究发表现状进行了系统梳理。从中发现，联合实验方法虽在21世纪初即被引入公管领域，但直至2016年以前，使用该方法发表的研究成果非常零散。2016年以后，联合实验相关的研究迅速登上公管主流期刊的舞台，显示出强劲的发表潜力。我们从发表趋势、研究主题分布及内容特点、研究者地区分布和技术细节角度出发，对62篇公管联合实验文献进行了系统回顾。

（一）文献收集

为检索出公管领域的联合实验研究，我们通过四个步骤进行文献收集。

第一步：选择期刊。基于Web of Science（WOS）官网下载的Social Sciences Citation Index（SSCI）目录，以“public administration”为检索词在分类一栏进行检索，共获得49本SSCI公管期刊。剔除5本非英文发表的期刊，最终得到44本SSCI公管期刊。此外，考虑到行为公共管理学的兴起及其实验方法特色，本文将行为公共管理杂志（Journal of Behavioral Public Administration，JBPA）纳入检索期刊范围，最终将检索45本公管国际期刊。

第二步：设定检索关键词。为求准确、全面地囊括公管领域的联合实验研究，设定四个关键词（“conjoint experiment”“conjoint analysis”“conjointdesign”“choice experiment”）作为搜索联合实验研究的检索词。

第三步：检索文献。文献检索时间范围设置为起始时间不限至2022年6月30日，通过在WOS的检索栏分别依据“出版物/来源出版物名称”，输入44本期刊的名称，然后依次输入四个关键词作为主题词（Topic）进行检索，共获得144篇文献（JBPA的文献通过杂志官网进行检索）。为避免直接从WOS数据库中以限定词进行检索时，检索词未出现在标题或摘要中的文献可能被遗漏的情况，我们前往各期刊的出版商网站，运用出版商网站的高级检索功能以设定的4个检索词进行了复核，检索范围为期刊文章的所有字段，复核后额外获得15篇文献。

第四步：筛选文献。对各期刊上检索出的文献进行全文阅读，保留真正的联合实验研究。经过筛选，从159篇潜在的研究中排除97篇重复或无关文献，包括回顾性、方法介绍、定性分析和非实验类研究。最终筛选出22本公管国际期刊上的62篇联合实验研究，其中，按公共行政和公共政策两大类划分，公共行政期刊与公共政策期刊各有31篇。文献检索及筛选流程如图A1（见附录1）所示。

（二）联合实验发表趋势统计

1.各期刊联合实验研究发文量统计

整体而言，在以英文发表的SSCI公管国际期刊中，近一半的刊物发表过联合实验研究（21/44）。图1统计了22本公管国际期刊联合实验研究发文量趋势。目前各公管期刊在发文量上呈“三超多强”的格局。其中，JPART、CP和JEPP分别在公共行政和公共政策期刊中处于领跑地位，其发文量分别占22本公管国际期刊总发文量的9.68%、9.68%和12.9%。处于第二梯队的期刊为Gov、PAR、PMR、JBPA、JESP和JSP、CEP，每一期刊发文量占总发文量的比重约在5%～7%，余下12本期刊各自发文量占比均不足4%。结合22本期刊在公管领域的排名可以发现，属于公共管理类一区的刊物（前12名）共发表31篇联合实验研究，占总发文量的50%。综合来看，在近半数发表过联合实验研究的公管SSCI期刊中，一区刊物贡献了半数的发文量，充分说明联合实验方法在公管一区期刊上受到认可。

2.联合实验研究历年发文量统计

根据图1统计结果，公管领域的联合实验研究最早发表于2005年，见刊于Contemporary Economic Policy杂志。图2进一步展示了公管国际期刊上联合实验研究的历年（2005—2022）发文量趋势。联合实验研究历年发文量总体趋势可分为三个阶段。第一阶段为2005—2015年的“牛刀初试”期，该阶段十年内共发表8篇论文，平均每年发文约1篇，表明公管学者正逐渐尝试使用联合实验方法开展研究。第二阶段为2016—2018年的“再显身手”期，该阶段三年共发文12篇，平均每年发文约4篇，反映出联合实验在公管舞台开始展现出巨大的应用潜力。第三阶段为2019年至今的“跳跃发展”期，该阶段联合实验研究发文量出现跳跃式增长，2019—2022年上半年共发表42篇论文，平均每年发文超过10篇。

综合图1和图2的数据来看，从2016年开始，公管国际顶刊历年发表联合实验研究的数量迅速上升（如PAR、PMR、JPART、CP、JEPP和PS等），说明联合实验方法近年来不仅得到公管国际期刊（尤其是顶刊）的重视，更有迅速流行的趋势，应当引起更多公管学者的关注。

3.公共管理联合实验研究的主题分布与内容特征

表1对联合实验研究的主题和具体话题分布进行了分类统计。整体上看，公管期刊的联合实验研究所涉及主题可分为政府和公民两个层面，在研究内容上符合“政府-公民”双轮互动的行为公共管理学内容模型。在主题分布上，公共行政期刊中，偏好、态度和行为是政府与公民层面共有的主题，政府层面额外涉及政策和动机主题，公民层面还包括公民评估主题。公共政策期刊中，政府层面仅涉及行为与政策主题，公民层面则涉及行为与偏好主题。从具体数量看，有关偏好的主题研究占据绝对主导地位，共计47篇，约占总数的75.81%，充分说明联合实验方法是研究公共部门和公众偏好类主题的首选方法。此外，与制度和政策主题有关的文献共计5篇，约占发文总数的8.06%，表明联合实验不仅适用于研究个体微观层面的偏好，在涉及制度和政策的设计与评估等宏观主题上同样具备应用潜力。在两类期刊发表研究的具体话题分布上，公共行政期刊的研究话题更偏重于政府层面且较为分散，相关研究数量共计20篇，约占公共行政期刊发文总量（31篇）的64.52%。公共政策期刊的研究话题则偏重于公民层面且相对集中于各类具体政策或制度偏好，相关研究数量共27篇，约占公共政策期刊发文总量（31篇）的87%。

在研究内容上，当前的公管联合实验研究呈现出两大特点。其一是以微观个体偏好为主体，兼顾个体动机、态度与行为。从图3可以看到，在代表政府一方的大轮和代表公民一方的小轮中，大量研究内容集中于公共部门工作者和公民的各种偏好上，但公共部门工作者的公共服务动机、工作满意度与组织内外行为，以及公民的评估、态度与行为等经典内容并未被忽视。其二是以政民互动为主线，兼顾公共部门内部互动。当前公管联合实验研究的内容依然以政府行为过程与公民体验过程及其相互作用为主线，研究内容涉及的各类议题最终都将直接或间接影响政府输出（如政策合法性、官僚歧视、街头官僚的帮助偏好等）、公民体验以及公民对政府的反馈（对各类公共政策的偏好、对政府行为的评估、投票行为等）。在公共部门内部互动上，研究内容又围绕着政府与非营利组织（资助偏好）、政府与公职人员（问责偏好、违抗行为、工作满意度等）、公职人员与公职人员（对同事的偏好）之间的互动展开。

表1的主题分布和图3反映的内容特征表明，联合实验方法在研究与公共部门内部互动、公共部门与公民互动相关的行为公共管理学问题上有着很强的适用性，此类公管问题包括但不限于：与公职人员对组织、领导、同事、外部合作对象及服务对象的偏好、动机、态度和行为有关的问题；与公民对公共部门和公共部门输出的政策与服务的偏好、评价、态度及行为有关的问题。

4.发表联合实验研究的国家与地区分布

为探究联合实验研究的发表主要分布在哪些国家和地区，帮助国内同行更好地开展相关对话与合作，表2统计了62篇文献作者所属机构的国家和地区分布。剔除一位无归属机构且国别不明的独立作者后，现有研究的发表机构分布在22个国家，并可进一步整合为北美、欧洲和亚太三大地区。从单个国家发文数量看，来自美国的联合实验研究数量最多（18.6%），其次是意大利、瑞士和比利时（均达9.3%），丹麦次之（8.1%）。排名前三的5个国家发文量总和（52.3%）超过余下17个国家的发文量之和（47.7%）。将各个国家按地理位置进行整合后发现，来自欧洲的联合实验研究最多，其占比达总数的72.09%，北美地区的发文量（18.6%）次之。亚太地区的研究发表数量最少，总共8篇，仅占总数的9.3%，一个重要原因是目前整个亚太地区的公共管理实验研究尚处于起步阶段，开展实验的能力相对欠缺。由此可见，目前欧美地区属于发表联合实验研究的前沿阵地，其他地区还需进行更多学习方可与国际同行更好地对话。

5.联合实验研究的技术细节统计

表3统计了62篇联合实验研究在实验技术特征方面的信息，包括实验样本的国别与类型、样本量、抽样方式和调查方式等抽样细节，以及属性数、任务轮次、选项数、统计分析技术和假设诊断等实验设计与分析细节。在抽样细节方面，85%的联合实验研究采用单一国家的样本，但仍有相当比例的研究使用来自多个国家的跨国样本（15%）；近七成的研究使用来自一般公众的样本，近三成的研究使用来自公共部门的样本，仅3%的研究使用了来自一般公众和公共部门的混合样本；超过50%的研究样本量在1000以上，约40%的研究样本量在600～1000；近五成的研究采用非概率抽样选择样本，约两成的研究采用概率抽样，但仍有近三成的研究并未明确交代所采用的具体抽样方式；从调查方式看，基于网络的线上调查（69%）是开展联合实验的主要方式。

在实验设计与分析方面，52%的研究在联合设计中设置了6～10个属性，绝大部分研究（71%）只设定两个选项，仅小部分（10%）研究不设置选项，直接测量被试的评分，且现有研究主要采用2～10轮（76%）的任务设计收集实验数据；从采用的统计分析技术看，39%的研究采用了由Hainmueller等学者开发的分析技术，但仅有25%的研究在采用该技术后进行了基本假定的诊断检验；5%的研究只采用由Leeper等学者开发的分析技术（基于Hainmueller等学者的分析技术发展而来）；53%的研究根据其研究变量的类型差异采用其他各类线性和非线性回归（比如各类OLS和Logistic模型）进行分析；3%的研究采用了分层贝叶斯估计。以上实验技术特征方面的信息反映出联合实验的大样本与双选项联合设计偏好，以及具体分析技术灵活多样的特点。

总体而言，通过对公管国际期刊上已发表的联合实验研究进行检索与描述性统计分析，初步判断公管领域联合实验研究多点开花的发表现状与强劲上升的发表趋势。结合联合实验研究的历年发表趋势发现，自Hainmueller等学者提出基于随机联合分析的实验设计及其估计方法后，2014年以后发表的54篇联合实验中，已有约44%（24篇）的研究采用了该技术。如今，Hainmueller等学者提出的分析技术在政治学领域得到不断更新与发展，该技术在未来有成为公管领域进行联合实验研究分析的主要技术的潜力。我们有理由相信，随着公管学者对联合实验方法的熟悉，未来将发表更多且议题更广的联合实验研究。

三、联合实验的原理及特色

在联合实验的因果推断方面，Hainmueller等学者提出三个易于满足的基本假定，保证了潜在结果框架中因果推断的独立性假定得以满足，使得通过观测值估计感兴趣的因果统计量成为可能。相比传统调查实验，联合实验在限制社会期望偏差、研究情境真实性、检验多个理论及其相对解释力以及为公共政策及管理问题提供行为洞见等方面具备独特优势。

（一）联合实验的基本原理

联合实验实现因果推断的基本原理遵循Holland在潜在结果模型中提及的统计方案（statistical solution），即在研究设计中对概述进行随机化处理，保证潜在结果模型中进行因果推断的独立性假定得以满足，从而通过观测值估计各因素及其水平对结果的因果效应。通常情况下，联合实验采用被试内设计，要求每位被试完成多轮次的选择或评分任务，即对随机抽取的、由不同属性和水平随机组成的竞争性选项概述进行选择或评分。

为便于说明，后文将结合Hainmueller等学者的移民实验研究对联合实验的基本原理作具体介绍。移民实验关注具备哪些特征的移民更可能被准许入境，其采用的联合设计基本格式如图A2（见附录2）所示，即将9个属性嵌入联合列表并按随机顺序呈现给被试，9个属性取值组成的序列构成移民1和移民2的概述。具体地，Hainmueller等学者通过“知识网络”（Knowledge Networks）平台调查了1407位成年被试，要求每位被试完成5次随机呈现的如图A2所示的选择与评分任务。

1.联合实验因果推断的基本假定

假定1：稳定性与无延滞效应（stability and no carry over effects）。

假定1要求被试在不同轮次任务中的潜在结果保持稳定，并且在其他轮次的选择任务中给予被试的处理不影响其在当前轮次任务中的反应，即实验处理对每位被试在不同任务轮次间的影响相同。例如，假定1意味着若被试在某次（如第2次）任务中选择了如图A2所示的移民2，则在另一次任务（如第5次）中再次面对由相同属性取值（与第2次任务中移民2的属性取值相同）序列组成的概述时，仍会选择该概述。假定1是否成立，可根据任务次数对样本进行分组，例如，将移民实验的样本分为5组，使用不同任务的样本数据估计结果并根据各结果是否一致进行判断。

假定2：无概述顺序效应（no profile-order effects）。

假定2要求任务中概述的出现顺序不影响被试的反应，即只要概述的所有属性及水平保持不变，仅改变概述呈现顺序将不改变被试做出的选择或评分。同理，假定2是否成立，可根据概述数目对样本进行分组，使用不同概述（如移民1和移民2）的样本数据估计结果并根据各结果是否一致进行判断。

假定3：概述的随机化（randomization of the profiles）。

假定3要求每个概述的属性组合都是随机生成的（如图A2中移民1的属性顺序和属性水平），并保证每个概述中属性及其水平被随机分配给被试，潜在结果在统计学上独立于概述，即概述被选择的概率均等。此外，随机化方案必须为定义潜在结果的所有可能属性组合分配一个非零概率，如果出于现实考虑将一些属性的水平组合从概述集合中删除，则不能直接分析涉及这些组合的因果效应。假定3可以通过具备随机化功能的标准化软件实现，其是否成立的检验，与随机实验中常规使用的各种平衡性检验类似。例如，可将被试一个特征变量作为因变量，以概述中的属性作为自变量进行回归，根据综合F检验（omnibus F-test）结果是否显著判断概述各属性的平衡性。

2.联合实验的因果估计量

在前述三个基本假定的基础上，可对联合实验中的因果统计量进行分析。与传统调查实验关注平均处理效应（average treatment effect，ATE）不同，联合实验中的ATE存在解释与估计上的困难，因而更为关注某一概述（如图A2中的移民2）中的某个属性（如教育水平）的取值变化如何影响概述被选中的概率。

（1）联合实验基本因果估计量的局限。联合实验中最基本的因果问题是：显示一组（t₀）与另一组（t₁）相对照的选项概述是否会改变被试的选择。在满足假定1和假定2的前提下，对任意一对概述集合t₀和t₁，可根据潜在结果模型将单位处理效应（unit treatment effect）定义为这两个概述集合下两个潜在结果Y_i（t₁）与Y_i（t₀）之差。即

π_i（t₁，t₀）=Y_i（t₁）-Y_i（t₀）（1）

以一个简化的版本为例，假定被试i只需考虑三个属性，且每个属性只有两个水平（是否受过教育、性别、是否有工作）。如果移民1的概述为“受过教育、男、有工作”，移民2的概述为“未受教育、男、无工作”，被试选择移民1。则该情况下，t₀=，潜在结果Y_i（t₀）=。假定反事实情景下移民2的概述是“受过教育、男、无工作”，即t₁=，如果被试仍然选择移民1，即Y_i（t₁）=，则两位移民的概述集合从t₀变化至t₁对被试i的单位处理效应为0，即

由于存在因果推断的基本问题，无法同时观测到Y_i（t₁）和Y_i（t₀），且社会科学研究往往更关注实验干预在总体意义上的ATE，需遵循Holland的统计解决方案，通过物理随机化过程（physical randomization processes），使每一被试是否受到干预的概率均等，从而利用可观测数据估计ATE，即

式（2）中，期望值定义在总体P上，当Y_i（t）是二元选择结果向量时，表示向被试展示属性为t₁与相对照的t₀的概述时，选择概述的总体概率的差值。因此，在假定1、假定2和假定3都得到满足的前提下，对任意的t₁和t₀，是非参数识别的（证明过程与标准随机实验中ATE的可识别性证明一致，详见Holland的证明），通过足够数量的观测值可以实现的估计。

然而，ATE并非联合实验所关注的因果统计量。一方面在于直接解释的实际意义存在困难。例如，以移民实验为例，由于两对移民在9个属性上可能同时各有不同取值，难以对被试面对概述集合为t₁和t₀的选择概率差异结果进行实质性解释。另一方面是因为典型的联合设计中，选项概述由大量具有多个水平的属性组成，实际取得的观测值数量难以支撑ATE的估计。例如，如果不考虑属性组合的现实性，则移民实验中9个属性的所有水平集合包含1478400（所有属性水平数相乘）个元素，除非样本量足够大，否则属于t₁和t₀的条件集合（共18个元素）的观测值数量将非常少甚至可能为零。

（2）平均边际成分效应。相比难以解释实质性含义的ATE，联合实验更关注平均边际成分效应（average marginal component effect，AMCE），以探求概述中属性的取值变化如何影响概述被选择的概率。例如，移民实验中职业的变化会如何影响移民被准许入境的概率。AMCE表示某一属性（假定以l表示）在剩余属性（除l外的所有属性）联合分布上取均值后的边际效应，即AMCE等同于一个概述中属性l的水平值从t₀变至t₁时（例如性别从男性变为女性时）概述被选择的总体概率的增加量，通过在给定概述属性概率p（t）的联合分布上对其他属性所有可能的值进行平均求得。以图A2中的工作经验属性为例，如果求得工作经验的AMCE，则该统计量表示工作经验对移民被准许入境概率的平均影响，其均值是在重复样本除工作经验外剩余属性的联合分布上定义的。

在前述三个假定得到满足的条件下，可根据联合实验的观测数据识别并估计AMCE，计算与识别AMCE的相关公式化说明详见附录2。在AMCE的具体估计上，Hainmueller等学者提出两种可通过线性回归实现的估计策略，分别是条件独立随机化和完全独立随机化的AMCE估计。条件独立随机化是指选项概述中存在某属性的水平取值（如职业属性下的科学家）取决于其他属性的取值（如教育程度属性下的研究生学历）的情况，但受限制的属性水平独立于约束属性外的其他所有属性水平。完全独立随机化是指任何属性水平均独立于其他所有属性水平。若因变量为二元选择（评分）结果，则使用logistic（OLS）回归进行估计。

（二）联合实验的特色

1.联合实验的优势

联合实验是区别于传统单一情景式调查实验的联合情景式调查实验方法，其相对优势主要体现在以下四个方面。第一，联合实验可限制社会期望偏差，内部效度更高。传统调查实验因其实施载体为调查问卷，研究者对实验环境的可控性较弱，通过被试自我报告的数据进行分析，不可避免地面临社会期望偏差的干扰，可能导致研究推断与被试的真实偏好存在较大差距。尽管联合实验也通过调查问卷实施，但其在设计上不直接询问被试喜欢或不喜欢哪些属性特征，而是要求他们在特征被随机化的备选项中进行选择来揭示偏好。这种设计为被试提供多种理由证明任何特定选择或评分的合理性，能够减轻被试的社会期望压力并引出真实偏好，保证研究推断较高的内部效度。

第二，联合实验的研究情境更真实，生态效度与外部效度更高。传统调查实验在操作上通过构建单个仅能嵌入少量干预因素的情景描述，研究被试对因变量的观点和态度。限于传统调查实验的情景设计，研究者只能根据相对单一的信息分析被试对因变量的偏好，牺牲了部分真实性。此外，传统情景设计与人们在现实中需考虑多种复杂信息方可做出抉择的情况存在差距，让传统调查实验面临研究情境非真实性的质疑。与此不同，联合实验设计能够同时向被试提供大量不同干预信息，大大增强了研究情境的真实性，提供较传统调查实验更高的生态效度（更高的生态效度意味着获得准确而又普适的实验结果的可能性提高）。因此，联合实验的外部效度较之传统调查实验也更具优势。

第三，联合实验可一次检验多个理论及其相对解释力，经济实用。为保证情景材料篇幅适宜及避免统计分析的复杂性，传统调查实验实施干预的因素及其水平数量较为有限，不便在一项调查中检验多个理论。若需检验更多理论及干预因素，则需进行多个实验，造成较高的研究成本。联合实验却允许研究人员在一项研究中检验多个不同理论，并根据结果评估多种处理成分的相对效果，进而使研究人员经济有效地评估不同理论的相对解释力。

第四，联合实验可为公共政策及管理问题提供更具建设性的行为洞见。传统调查实验仅能通过操纵较少的因素分析强调现实性的公共政策与管理问题，能够为政策制定者提供关于政策设计、制定或抉择的行为洞见有限。联合实验则特别适合对政策偏好及管理权衡问题提供更真实的行为洞见，比如政策制定者需要在不同的公共政策、债务计划、政府改革或公共服务提供等方面做出选择时，联合实验能够提供决策者会优先考虑哪些因素及维度的关键信息；又如政策制定者想出台某些政策，可通过联合实验预先模拟公众的政策偏好，以灵活调整政策设计。

需说明的是，强调联合实验的优势并不意味着传统调查实验的过时或不适用，亦非对其否定或替代。相反，传统调查实验操作简单、与传统问卷调查衔接度高且适用面广，是公管领域当前最受欢迎的实验方法。我们认为，联合实验可成为传统调查实验的有效补充，在某些议题下应是公管实验研究的首选方法。

2.联合实验的局限及适用条件

尽管具备一些相对优势，但来自两个方面的局限是联合实验目前客观存在的问题。第一，面临使用陈述的偏好作为结果的批评。该批评担忧的是以“言”代“行”是否合理，即陈述的偏好能否充分代表实际行为决策中的偏好。近年来激增的调查实验表明，陈述偏好确实有助于理解现实世界的行为。因此，在研究资源有限的约束下，以“言”代“行”有其合理性。第二，无法打开偏好或决策结果的内部“黑箱”。联合实验虽能揭示被试的偏好或决策结果，却无法直接提供偏好或决策结果背后的内在机制，需结合其他研究方法（如定性访谈）方可进一步打开偏好或决策结果的机制“黑箱”。

除了注意上述两方面的局限，运用联合实验方法时还需留意两个基本适用条件。其一，研究问题是否关注与偏好和决策相关的因变量。联合实验的联合情景设计决定了该方法直接适用于探求个体层面的偏好与决策行为等方面的问题，尽管联合情景中可以嵌入团队、组织乃至更高层面的各种要素，但最终研究问题的落脚点是个体通过联合情景做出的选择，而选择直接体现为与偏好和决策相关的因变量。若研究的因变量满足该条件，即可使用联合实验。其二，是否同时考虑影响因变量的各种复杂因素，如果仅对三个及以下且不超过两个水平的影响因素感兴趣，则传统调查实验就可实现；如果研究目的是考察三个及以上多水平的影响因素对因变量的影响，则首选联合实验。

总之，经过Hainmueller等学者的发展，AMCE成为联合实验主要关注的因果统计量；联合实验方法也成为公共管理研究方法工具箱中不可或缺的一员。在使用联合实验时，研究者需要把控好联合设计中的随机化处理，从而满足用于估计AMCE的三个基本假定。至于是否使用联合实验，则需要研究者结合研究问题与目的，在综合考虑该方法的优势、局限及适用条件后进行权衡。

四、联合实验的结果实现：两个实例

随着Hainmueller等学者对关键技术的突破，研究者只需对数据稍加整理，通过一些代码即可在R或Stata上便捷地实现联合实验关键统计量的估计。自此之后联合实验法逐渐在政治学和公管领域流行起来，然而国内公管学术期刊相关的联合实验研究却凤毛麟角。在中国知网以“联合实验/联合设计/联合分析/离散选择实验”为关键词进行检索，截至2022年6月底，仅在《公共行政评论》发现一篇关于公众对助推型减碳政策的偏好研究采用了联合实验设计。鉴于此，有必要通过经典实例介绍联合实验的关键统计量AMCE如何使用统计软件实现，“授人以渔”启发更多学者使用联合实验研究中国特色的公管议题。具体地，本文利用Hainmueller等学者的移民实验（遵循条件独立随机化估计策略）和候选实验（遵循完全独立随机化估计策略）数据，通过R上的“cjoint”和“cregg”资源包，分别复现移民实验和候选实验的主要结果，展现联合实验关键结果的实现过程。

（一）移民实验与候选实验简介

联合实验基本原理部分已对移民实验进行了简要介绍。需注意的是，随机生成移民概述时，考虑到概述的现实性，Hainmueller和Hopkins对移民属性的可能组合施加了两个限制：第一，申请理由为逃离迫害的移民只能来自伊拉克、苏丹或索马里；第二，从事高技能职业的移民（金融分析师、计算机程序员、研究员和医生）必须至少接受两年的大学教育。因此，移民实验的结果估计遵循条件独立随机化的估计策略。候选实验则关注具备哪些个人特征的候选人更可能被选为总统，其联合设计基本与移民实验一致：被试在一对由8个属性（宗教信仰、大学教育、职业、年收入、种族/族裔背景、年龄、是否服兵役和性别）及相应水平完全随机组成的候选人概述中进行选择），然后在1～7的范围内对每位候选人概述评分，共需完成6次选择与评分任务。该实验与移民实验最关键的区别是在联合设计上不对候选人概述施加任何限制，在估计AMCE时采用完全独立随机化策略。

（二）移民实验和候选实验主要结果的实现

1.传统调查实验的实现方式

为呈现传统调查实验与联合实验操作上的差别，本文以候选实验为例，简要说明采用传统调查实验如何实现结果。假定候选实验仅涉及两个属性（是否服兵役和性别）且各有两个水平，采用传统情景式调查实验（假定采用组间设计），实现结果的步骤包括：设计4个情景描述具备不同属性的候选人；进行功效分析以选取合适的样本量；随机分配被试至4个情景进行干预；测量被试对候选人的偏好程度；数据整理与分析。假定所得数据均通过操纵检验及平衡性检验，传统调查实验只需对4组数据进行方差分析，比较组间均值差异是否显著，即可判断哪些属性对候选人被选为总统存在显著影响。然而，若研究属性增加为5个，且各属性分别有3个水平，则传统调查实验需构建3⁵（243）个情景，并将被试随机分入其中，随后方能进行后续分析。显然，研究与候选实验同类型的问题时，如所涉属性及水平较多，采用传统调查实验将极其不便甚至欠缺可行性。相比之下，采用联合实验，研究者能够通过软件快速录入多个属性及水平，随机生成多对竞争性概述，并随机分配指定的数对概述给被试进行选择与评分。获取数据后，只需在统计软件上输入分析代码，即可实现各属性及其水平对结果因果效应的分析。

2.移民实验的结果实现

移民实验中，因涉及对职业和申请理由两个属性的限制，研究者需创建一个自定义的含限制条件的联合设计赋值给design参数，其他选项均可保持默认设置。创建联合设计的属性及水平列表、设定联合设计的随机约束及估计AMCE的具体操作步骤见附录2。依据附录2中的步骤完成关键参数设置后，将相关参数输入“amce”函数即可估计AMCE结果，输入“summary（results）”即可查看结果的具体信息（见表A1），包括属性、水平、AMCE估计值、标准误、z统计量、p值、观测值数量（13960）、被试数量（1396）以及各属性水平的基线类别。输入附录2中的绘图代码即可将估计结果可视化，如图A3所示。

根据表A1和图A3，可对移民实验结果进行报告。例如，从工作经验看，具有5年以上工作经验的移民比没有工作经验的移民被准许入境的可能性高约0.11（P=0.000）；从工作计划看，没有工作计划的移民比入境后即将找工作的移民被准许入境的可能性低约0.16（P=0.000）。

注意，表A1和图A3展示的AMCE结果在解释时依赖选定的参照水平，如参照水平有变，估计的AMCE结果将在系数大小、方向或显著性上发生改变。若研究者对具有不同特征被试的移民选择偏好感兴趣，或者据特定属性将样本分为不同亚组后，对亚组间的AMCE差异感兴趣，则需提取相关样本子集，再计算各亚组AMCE结果。由于AMCE对参照水平的敏感性，使用亚组AMCE来描述亚组偏好的一致性的程度可能会产生误导，并导致对具有任意符号、大小和显著性的亚组偏好差异的推断。为此，Leeper等学者提出用未调整的边际均值（marginalmeans，MMs）衡量对给定特征的偏好程度（MMs不随参照水平的改变而变化），并建议联合实验研究除报告表示因果效应的AMCE外，还应报告MMs结果以实现偏好的描述性总结。该建议已被越来越多的公管学者接受，候选实验将对MMs的实现作具体介绍。

3.候选实验的结果实现

候选实验不涉及对属性的限制，无须创建约束条件。本文选取候选人的三个属性（是否服兵役、大学教育和收入）展示如何使用“cregg”资源包实现AMCE和MMs的详细过程，输出结果及可视化结果见附录2中表A2-A3和图A4-A5。据此可对结果进行报告，以是否服兵役为例：与未服过兵役的候选人相比，服过兵役的候选人赢得支持的概率将显著增加约0.09（P=0.000）；从边际均值看，服过兵役的候选人其边际均值为0.54（P=0.000），大于0.5，未服过兵役的候选人其边际均值为0.46（P=0.000），小于0.5，表明被试对服过兵役的候选人更有好感。

从两个实例的分析过程来看，实现联合实验的结果分析并不复杂，只需对一些代码加以熟悉，即使研究者没有深厚的R语言编程基础，通过适当修改核心变量的名称，并在估计参数中写入研究者需要的数据名称，即可对联合实验的基本结果进行分析与可视化呈现。

五、公共管理联合实验的展望

针对目前联合实验研究在公管国际刊物上的发表热潮与国内公管领域鲜有问津的反差，本文首先对公管国际期刊上的联合实验研究进行描述性统计，呈现了联合实验的发表趋势、研究主题分布、研究者地区分布和技术细节；然后对联合实验的基本原理及特色进行了介绍；最后结合两个实例展示了如何通过统计软件实现联合实验的关键结果。本文的主要发现是：联合实验正逐渐在公管的方法工具箱中占据一席之地，是一种极具应用潜力的实验方法，尤其适用但不限于与偏好、决策和态度相关的公管议题。简言之，联合实验采用的随机联合设计保证了进行因果推断的独立性假定，只需收集足够的联合数据，利用统计软件即可实现多因素对单一结果相对因果效应的分析；在方法学层面，联合实验是传统调查实验的有效补充，在某些议题中应成为公管实验研究的首选项，以便检验与发展公管理论知识并为实践提供建设性洞见。未来研究可以尝试从以下几个方面开展。

第一，充分运用联合实验方法探讨本土化的公管议题。表1和图3提供的证据已充分说明，联合实验方法在研究与互动有关的公共管理问题上有着很强的适用性。然而，处于快速发展时期、具备独特体制优势且具备丰富本土资源的中国，却鲜有学者使用联合实验方法研究中国公管问题。中国大地上每天都在进行的各种项目试点、政策实验与管理实践创新，无不体现出政府与公众的频繁互动，为中国学者采用联合实验研究中国特色的公共组织行为问题提供了宝贵的机会。例如，中国有关社会保障政策的试验、调整和出台，可能在公众中造成何种反应？公众更愿意支持具备哪些维度及相关属性的政策？中国的公共组织与其他类型组织互相选择以建立伙伴关系时有何偏好，双方分别重视哪些因素？可利用联合实验进行更深入和精准的探讨。

第二，利用联合实验方法检验并发展与公共组织行为学相关的理论。公共组织行为既是行为公共管理学的重要组成部分，也是组织行为研究在公管领域的延拓。在公共组织行为领域，有许多经典理论值得在不同情境下进行检验与发展，例如公共服务动机理论、自我决定理论、计划行为理论和行为决策有关的诸多理论等。联合实验的一个重要优势是可同时检验多个理论及其相对解释力，通过联合实验，采用联合情景设计，能够便捷有效地对一些经典理论在公管领域的适用性及解释力进行检验和发展。例如Battaglio等学者利用联合实验方法，检验了自我决定理论提出的三种不同类型的心理需求对公共卫生部门人员工作满意度的影响及其相对重要性；Piatak等学者也呼吁使用联合实验加深对公共服务动机和公共组织招聘及选拔过程的理解。

第三，基于联合实验开展混合方法设计的公管研究。联合实验尤其适用于一些涉及多维属性及其影响的议题，这既是该方法的突出优势，也对联合实验的应用形成了潜在的限制。例如，联合实验虽然能更巧妙地揭示被试的偏好或决策结果，却无法直接提供偏好或决策结果背后的内在机制。如研究者不仅追求因果效应的确定，还对产生因果效应背后的机制感兴趣，则仅靠联合实验并不适用。鉴于此，未来研究可在联合实验的基础上，辅以定性研究方法开展基于混合方法设计的研究，以最大化联合实验揭示因果效应的优点并获得对复杂现象更丰富的解释。例如，若研究者欲寻求某偏好的潜在解释机制，可结合联合实验发现对实验样本进行目的抽样（purposeful sampling），对抽取的子样本进行定性访谈，从而获取有关偏好形成的内在机制信息。

第四，加强跨学科合作与对话，促进联合实验方法在公管领域的进一步应用与拓展。公管领域使用的联合实验来源于市场营销领域的联合分析技术，而联合分析技术在市场营销和商业领域已经过半个多世纪的发展，其算法、模型和实现程序已相当成熟且多样化。他山之石可以攻玉。作为联合分析技术的使用者，公管学者可通过与市场营销、心理学、计算机科学等领域的学者加强合作与对话，共同促进联合实验方法在更多公管问题上通过更多样化的形式得到应用与拓展。例如，通过虚拟现实技术（VR），结合互联网便捷地呈现联合情景中的属性及水平，并设计一些可靠的心理检测，从而模拟出被试在公管问题中的更真实的反应；又如，为公共部门开发出一些专业且便于操作的模拟App，帮助公共部门以更低成本预测或模拟公民对各种政策或其他公共产品的需求与偏好。

总之，联合实验作为一种在公管领域相对新颖的研究方法，其基本原理并不复杂，借助标准化统计软件可简单快捷地实现因果估计，其应用价值与潜力已在公管国际期刊逐年增加的发文数量上得到体现。当然，本文也存在几点局限：首先，由于语言限制，本文排除了非英文发表的SSCI公管国际期刊，可能造成一些相关的联合实验文献被遗漏；其次，本文仅重点介绍了AMCE和MMs的估计，并未具体介绍涉及交互项的平均成分交互效应（average component interaction effect，ACIE）和亚组AMCE的估计及实现路径。再次，限于篇幅，本文对其他实现联合实验分析的渠道介绍不足，事实上除R外，Qualtrics平台和Stata软件均可完成联合实验的统计分析；而且本文对统计分析的前端——联合设计中的属性分布、属性数目确定及任务轮次确定等细节问题的讨论不足。最后，本研究重点介绍的是Hainmueller等学者提出的基于随机联合分析的实验设计及其估计方法，但对基于该方法的最新发展介绍不足，包括属性数量与任务数量的临界值确定、亚组（个体水平）偏好估计量的识别与估计、属性分布的选择、AMCE在个体层面偏好聚集中的作用、AMCE隐含的偏好聚合规则与解释、联合分析中多重假设检验的修正以及联合实验与眼动追踪技术的结合等。

工欲善其事必先利其器，工欲利其器必先谙其性。希望本文对联合实验方法的介绍能够进一步推动其在（国内）公管研究中的应用与推广。

扫描二维码免费下载全文

本期目录

更多精彩敬请关注

专题研讨：数字政府与电子治理

樊博、顾恒轩丨政府资源基础、注意力分配与政务微博绩效

韦吉飞、汪桠如、唐铃博丨“数字政府”何以影响新市民城市融入性——基于163个地级以上城市千份数据的检验

林建鹏、吕汶鑫丨互联网使用能否影响公共服务满意度?——基于信息偏好与把关机制的类型学分析

王叶薇、王杰丨电子政务能否提升 “本地邻地”政府治理效率?——来自 “县级政府政务公开和政务服务试点” 的证据

专题研讨：公共服务动机研究

王珏、马贤磊、石晓平丨工业化城市化进程中农村集体参与土地增值收益分成规则演变分析——来自土地非农利用的证据

于洋、万成伟、焦永利、叶裕民丨存量时代公共租赁住房供给机制创新——来自深圳水围村的启示