查看原文
其他

【文章精选】王思琦丨提高公共管理实验复制的适应性:一种贝叶斯实验设计框架丨2024年第4期

王思琦 公共管理与政策评论
2024-09-24

提高公共管理实验复制的适应性:一种贝叶斯实验设计框架

◉王思琦

【摘要】近年来,公共管理实验及其复制成为提高理论可推广性的一个重要途径。然而,实验复制仍然面临一系列方法论问题有待解决:如何有效建立复制与原始研究的相关性与可比性如何合理地设计并分析复制实验,并且允许进行灵活调整如何优化设计来降低样本量与成本,并提高效率与效果本文提出了一种基于贝叶斯实验的设计框架,为公共管理实验复制提供更具适应性的路径。与基于频率统计学的随机对照试验(RCT)不同,首先,贝叶斯实验可以将原始研究等背景知识作为先验概率,基于数据与似然函数进行贝叶斯更新。其次,采用后验概率而不是使用P值来检验研究假设,避免了根据显著性来报告结果等问题。在序贯情景下,可以基于先前结果快速调整后续设计,同时保证各实验臂结果的可比性。还可以基于结构性推测来确定进一步实验复制的地点、背景与样本。最后,贝叶斯实验通过将干预效果最大化问题转换为强化学习中的多臂老虎机问题使用汤普森采样等算法来确定性地分配样本,能显著降低样本量和实验成本,具有广泛的应用前景。

【关键词】 实验复制;可推广性;随机对照试验;贝叶斯实验;适应性设计

【作者介绍】王思琦:西南交通大学公共管理学院研究员,norsky@163.com

【引用格式】王思琦.提高公共管理实验复制的适应性:一种贝叶斯实验设计框架[J].公共管理与政策评论,2024,13(4):88-102.


—文章结构—


一、引言

二、公共管理实验复制的适应性问题

(一)理解公共管理实验复制的适应性

(二)复制与原始实验之间的相关性问题

(三)复制实验设计与分析的合理性问题

(四)复制实验的效率、成本与效果问题

三、贝叶斯实验复制的适应性框架

(一)贝叶斯实验与随机实验比较

(二)解决相关性问题:建立先验概率,进行贝叶斯更新

(三)解决合理性问题:得到后验概率,做出结构性推测

(四)解决效率、成本与效果问题:利用算法分配,发现最优方案

(五)一个贝叶斯实验复制的设计示例

四、结论



一、引言


近年来,与其他社会科学一样,公共管理研究方法出现了以实验和准实验为基础的因果推断转型。尽管实验方法具有较高的内部效度,但是仍需进一步验证理论的外部效度,即可推广性。这种背景下,复制(replication)成为公共管理研究的一项重要任务。复制研究的目标是在与原始研究相似或不同的条件下确认或拒绝理论,从而建立对理论的信心(或证伪),因此,实验条件或情景被认为是一个决定复制结果可信性的关键因素。目前,公共管理很多重要理论议题都开展了实验复制研究,有些甚至被多次复制,包括“期望失验(expectancy disconfirmation)模型”“满意度问题顺序”以及“公私绩效差异”等。


实际上,复制意味着进行一项新的实验。与原始实验相比,新实验在研究地点、样本量、被试特征、干预内容、随机分组等方面总会存在差异。如何从理论和方法论上理解这种无法避免的差异?由于实验的可推广性主要体现在理论的推广上。因此,需要深入理解这些差异,建立原始实验和新实验之间的理论联系,即充分利用原实验以及各种来源信息,开展一项有更高信息量的实验。需要在保证复制实验设计与分析的合理性基础上,基于理论框架来灵活修改时间、地点、样本、干预、解释等关键决策,提高理论的清晰度并强调边界条件。此外,在某种程度上,实验被复制的次数越多,我们对其理论推广性的判断可能就越有把握,然而,在多个地点开展实验、每个实验包括多个干预的条件下,必须优化设计来提高实验效率,降低样本量、时间与经费成本,以提高应用价值。


本文认为,以上有待解决的问题,本质上是实验方法的适应性或灵活性问题。这里的适应性和灵活性,指的是复制过程中能否对具体实验场景(地点、样本、干预等)进行灵活而迅速地调整以满足研究需要。由于传统随机对照试验(RCT)因其频率统计学特性,在适应各种复杂情景上存在不足。因此,实验复制可以采用基于贝叶斯统计学的实验设计,来提高复制研究的适应性水平。


贝叶斯实验在复制研究中的使用,一方面,具有一定的学术价值,可以有效地检验公共管理理论的可推广性;另一方面,也有一定应用价值,可以为政策试点复制和推广方案的优化提供可靠证据。当然,需要指出的是本文并非认为贝叶斯实验复制能够取代常见的随机实验复制,只是提供一种新的方法路径供研究者选择。


二、公共管理实验复制的适应性问题


(一)理解公共管理实验复制的适应性


如前所述,复制是在原始实验基础上开展一项或多项新的实验。由于研究条件的差异,研究者往往需要对与原始实验相关的地点、样本、干预等特征进行灵活而迅速地调整以适应各种限制。因此,一项具有较高适应性的复制实验,意味着在便于调整设计的同时,还能解决如下三个问题:


1. 适应性调整的相关性


这里的相关性是原始实验与复制实验在理论(概念)上的相关性,即新的研究在多大程度上是复制研究,而不是一项全新的独立研究。如果复制实验不能在新的实验场景中保持与原始实验的相关性,那么即使实验设计能够灵活调整,其结果也可能无法准确验证(否定)原始研究的结论。因此,适应性要求研究者在调整实验方法时,必须确保这些调整不会损害实验的核心概念和理论的相关性。


例如,本文作者在开展一项公共服务满意度的复制实验时,面临干预内容的概念选择问题。原始实验是基于网络调查平台进行的,样本来自多个国家和地区,因此服务地点中使用了“家乡”(hometown)一词,而复制是在中国一个城市开展的现场调查,因此使用城市名称“xxx市”,要求调查对象对该市的某项公共服务进行评价。在调整这一概念时,我们阅读了各种文献,咨询了该领域的资深学者,希望理解服务地点的这种差异是否会影响干预有效性,发现概念调整并不会导致理论框架(模型)中因果关系的变化,只是提高了干预的真实性。此外,为了增强干预的强度,保证干预效应的统计显著性,复制实验在保持与原始实验照片质量差异方向一致的前提下,选择了对比更加明显的服务结果照片,并且在照片旁边加上了说明文字,帮助调查对象理解照片内容。


2. 适应性调整的合理性


在复制实验调整中,设计和分析的合理性是另一个关键问题。复制研究者需要对原始实验设计进行必要调整,以适应新的实验条件。可能包括样本选择、随机分组、干预的实施方式等。同时,数据分析方法也需要适应新的数据结构和可能的变异,确保结果的可靠性和有效性。


例如,本文作者在开展一项满意度复制实验时,将原始实验中2×2=4组设计,改为4+1=5组设计,增加了1个没有任何干预的空白对照组,以便理解公共服务满意度在自然状态下的基准水平。这一随机分组数量的调整,是其他基于相同理论模型的复制文献都没有采用过的设计,具有一定方法论上的合理性。然而,作为一项随机实验的复制研究,需要与原始研究在分组上保持一致性,才能进行比较,因此在后来发表论文中,和其他复制研究一样,只报告了4组比较的实验结果,没有报告第5组的结果。


3. 适应性调整的效率、成本与效果


在资源有限的情况下,需要通过适应性调整来提高复制实验的效率和降低成本,同时保持实验效果。这涉及实验规模的调整、数据收集和处理方法的优化等。这种调整对于确保复制实验在不同环境下的可行性和实用性至关重要。


本文作者在开展多项复制实验的过程中发现,样本量和随机分配的灵活调整经常是一个随机实验有待解决的问题。在一项满意度研究中,我们先开展了现场的调查实验,再使用相同问卷开展了网络调查实验,两批次实验的样本不同,现场实验以社区居民为主,网络实验以在校大学生为主,在某种意义上,网络实验相当于现场实验的复制,目的是比较异质性样本条件下干预效应的稳健性,但由于成本限制,网络调查的样本量较大,现场调查样本量较小,因此后来发表的论文只使用了网络数据,将其视为一项独立实验研究,没有比较现场调查的结果,从而失去了复制实验设计的独特价值。


此外,经典的随机分配实验往往假定样本是从确定性总体框架中一次性抽取,然后进行批量(batch)随机化分组并干预。然而,现实中很多公共管理实验与复制,无论是在网络还是现场环境下,很多采用方便样本加顺序分配干预,并不符合经典随机分配的统计假定。例如,最近我们开展的一项测量工作特征偏好的在线随机实验,预实验的协变量平衡性有问题,既可能是变量取值范围变异性过大,也可能是样本量不足造成的。在后来的正式实验中,我们重新调整了协变量测量方式,增加了样本量,但是预实验数据却难以利用,增加了实验成本与时间。因为前后实验间隔较长,很难视为同一次实验随机分配,也缺乏相同的概念(变量)测量,类似实验复制的逻辑。


(二)复制与原始实验之间的相关性问题


按照测量和分析是否相同以及研究总体是否相同,文献将复制划分为四种类型:直接复制(direct replication)、概念复制 (conceptual replication)、实证推广(empirical generalization)、推广与扩展(generalization and extension)。基于理论相关性的视角,从直接复制到推广与扩展,离原始研究的距离越来越远,但结果(理论)的可推广性却在提高。


因此,与其他复制研究一样,实验复制面临着一种推广性与相关性之间的“权衡”(tradeoff)。如果复制实验想与原始研究的情景差异尽量的小,或者验证原始研究的可信性,那么就应当采用直接复制或概念复制,即使用从相同总体抽取的样本,以及相同或相似的测量分析方式,但这种复制无法验证理论的可推广性。然而,要验证理论的可推广性,就必须选择不同总体抽取的样本或不同的测量分析方式,即实证推广或推广与扩展。


从学术上看,复制概念本身的含义就较为宽泛,包括了一系列研究实践。最低意义上的实践如“复现”(reproduction),即其他人基于研究者公开发布的数据和代码,用统计软件进行分析,看能否得到与论文相同或相似的结果。最高意义上的实践则更为复杂,包括利用实证资料或者数据,修改、完善甚至推翻原有理论,建立一个新的理论体系等。在最宽泛的界定下,一切理论导向的实证研究都可以视为某种程度的复制,不管其采用的是什么方法,也不管作者是否明确提出了复制的主张,只要该研究是基于某个既有的理论框架。


此外,从逻辑上看,字面意义上完全或精确的复制是不可能的。因为即使是同一批研究者,基于同一个样本,采用同样的研究设计,先前的研究也不可能在每个细节上都被复制,总有一些细节不可能还原,例如由于时间变化导致样本的流失,之前参与经验导致的记忆效应等。这种情况下,即使平均意义上的复制结果与之前研究一致(或不同),也没有确定性的把握将其归结于实验干预本身。


既然精确复制实际上是不可能的,再加上学术发表对于创新性的要求,因此公共管理学者往往有一种强烈的倾向,即放弃精确复制,而试图扩展原始研究的结果或测试新的理论。然而,这种选择面临的一个挑战是,当复制偏离了原始研究的方法,包括其总体和测量,就更难解释与原始研究有关的结果了。在某种意义上,这种倾向会导致复制研究难以与一般的非复制研究区分,从而丧失复制的独特优势。


除了复制研究面临的一般问题,实验复制还面临多组比较这一特殊问题。众所周知,社会科学中提到实验,通常是指随机对照实验(也称为随机实验)。随机实验的统计基础是频率(frequency)统计学,按照频率学派的观点,总体参数是基于抽样数据得到的一个点估计值(以及置信区间),并且通过了统计显著性检验(如t检验)。然而,如果在复制中发现了不显著的实验结果,研究者就会面临双重困境,一方面,复制研究的发表本来就比较困难;另一方面,在普遍强调统计显著性水平的学术环境下,不显著的复制就更加困难。因此,除了与其他观察性研究一样,通过改变回归模型设定、增加控制变量等方法想方设法获得统计显著性以外,某些实验研究还可能会采用事后的亚组分析(subgroup analysis)来发现显著性结果。换句话说,即便从样本整体上看,某个干预组与控制组的结果平均值无显著差异,但如果发现其中某种特征的(如性别、年龄等)人群在两组之间有差异,也会有利于研究发表。但这种数据驱动的分析方式,更多是理论适用范围的缩小,无法提高理论的可推广性,不能帮助拓展理论的解释边界。


更重要的问题是,基于随机实验的复制研究,由于其频率统计学基础,没有明确而充分地使用先验等背景知识。这种逻辑对公共管理理论的验证与发展并没有好处。如果我们过于推崇公共管理实验研究中获得的信息,只采用实验方法来进行复制,相当于忽视了大量纯理论研究的洞见,以及问卷、访谈、参与观察等观察性研究的知识积累。长期来看,这种趋势如果继续下去,会使公共管理研究的议题变得越来越狭窄,只关心某些议题以便突出实验方法的优势,即所谓的“削足适履”。那些难以采用实验方法开展的研究问题,就会被排除核心领域,要么难以获得发表,尤其是顶尖期刊的发表,要么不是热点从而无人问津,在某种意义上也属于一种发表偏误(publication bias)。


因此,公共管理的实验研究及其复制,只有广泛吸取各种研究路径的知识,结合研究者的个人经验,充分连接原始与复制研究,才能获得有理论意义的结论,最终推动公共管理理论的发展。反过来说,从非实验研究设计中得出的结论,如案例研究和调查研究,也应该接受严格的复制和验证,因为这是科学研究的必然要求,否则就会出现大量采用循环论证,缺乏外部效度而只能内部“过度拟合”的研究。


(三)复制实验设计与分析的合理性问题


随着社会科学开放性与透明性规范的迅速发展,越来越多的实证研究在网上公开了其原始研究材料,供研究者核查、复现或复制。同时,实验研究领域也出现了预注册(pre-registration)和预分析计划(pre-analysis plan)等机制。这种趋势一方面限制了研究设计与结果分析的任意性,降低了学术不端,如显著性水平操纵、事后假设(Ad hochypothesis)等发生的可能性。但同时也限制了研究者合理的自由裁量权,影响了设计与分析的灵活性。


实际上,尽管可以很方便地参考原始实验的附录、补充材料、数据、代码、问卷等文档。但绝大多数复制实验的决策仍然是分散进行的,即独立于原始研究的学者出于研究兴趣来决定是否复制某项实验,以及在什么地方复制、样本量、随机分配、干预、结果测量等细节,这些细节很难与原始实验保持完全一致甚至可比性,因为复制者总会面临各种各样的实际困难,包括研究能力不同、对理论的理解不同、方法熟悉程度差异、研究经费限制、实施的方便性与可行性等。除非复制实验本来就是原始研究项目的后期拓展,即由原班人马来设计、实施与分析,或者复制实验的研究者能够邀请到原始研究的成员参与。因此,尽管某项研究在论文发表时宣称是对某原始研究的直接或概念复制,但可能更多的使用相同概念的推广与拓展,甚至检验的并非同一个理论框架。


一般来说,预注册机制有两个作用。首先,它建立了一个集中的、全面的实验设计和结果的数据库,不会受到发表偏误、文件抽屉偏误(file drawer bias)等偏误的影响。其次,导致研究人员致力于某个特定的实验,并且在实验过程中不改变实验设计。而预分析计划列出了所有感兴趣的实验结果,以及实验完成后分析数据的方式。理论上,在所有数据都是公开的、研究受众(audience)的认知能力不受限制的情况下,这些机制等同于一种外在的稳健性检验,来保证研究结论的可信性。


然而,预注册与预分析机制,在限制了研究者自由裁量权的同时,也导致实验设计失去了适应性与灵活性。复制实验的设计、实施与分析过程,是一个与社会现实环境密切互动的动态过程,而在一个动态的环境中,实验设计和分析应该在新信息到来后被更新,实现一种动态优化。


一项预先注册的复制实验设计在理论上可能是非常合理的,但是在真正实施中研究者可能发现由于实验环境的意外变化,因此必须对原始设计进行部分调整,否则可能会影响实验的开展,甚至必须中止,造成严重资源浪费。与实验室实验、调查实验相比较,这种情况在实地实验中体现得尤为明显。预分析也可能面临类似情况,有经验的研究者会发现,原始研究的理论框架本身也并非一成不变的,在研究过程中,由于数据越来越丰富,思考越来越深入,理论框架以及与之对应的分析计划也应当随之修改完善,以便作出新的贡献。


(四)复制实验的效率、成本与效果问题


尽管实验在公共管理研究中越来越被重视,但是相对于整个学科的研究数量来说,并没有占据主导地位。其中一个很重要的原因,就是相比于访谈、问卷、文本与管理数据的分析,实验研究,尤其是实地实验的实施难度与单位成本较高,从而限制了其广泛的应用。虽然有的研究者乐观地认为,随着实验资源的增长,更多的实验室和研究中心将开始运作,为更广泛的复制议程创造机会。当这些实验室相互联系并致力于共同的议程时,进展将会加快并变得更有效率。


然而,要实现这一美好的愿景,必须首先解决复制实验的效率与成本问题。相比原始研究,这一问题在复制研究中更为突出。如前所述,原始研究由于其理论上的创新性,被资助或发表的可能性相对较高,而一项明确宣称的复制研究,尽管对于理论可推广性的检验来说非常重要,但是由于其缺乏原创性,可能会被拒绝资助或发表,尤其是几乎所有的学术期刊与研究课题都将创新性作为核心标准的情况下。显然,这种学术激励制度会极大地影响复制研究的可行性。


因此,可能需要一种兼具复制性与创新性的实验设计模式,以便激励更多的研究者投入复制研究中。例如,在某个复制研究中,首先将一部分样本按照原始研究的设计进行随机分组、干预与测量,发挥理论检验的作用,然后将基于复制结果,对理论框架进行一定修改,将剩余样本用于验证新的理论框架。这种设计相比于纯粹的原创性研究,有了更大的外部效度,而相比纯粹的复制性研究,有更多的理论原创性贡献。


这种新的复制机制与模式面临的最重要问题,就是实施效率与成本问题,兼具理论验证与创新功能,意味着实验过程的延长与分组数量(样本量)的增加,对效率与成本均提出了更高要求。除此之外,即使是纯粹的复制研究,如果需要在多个地点、多个时间、多种总体、多种干预方式、多种结果测量等条件下来实施,为了保证统计效力,其所需的样本量以及相应的成本也是非常巨大的,但这却是进一步验证理论的外部效度所必需的。


假如一项复制实验发现实验结果不显著,可能是实际不显著,即自变量与因变量之间没有因果关系;也可能是样本量太小,达不到统计效力。这种情况下,复制实验的样本量一般来说要大于或等于原始实验,才能够保证复制结果的可信度。然而,随机实验这种对样本量较高的要求,会限制复制的广泛开展,尤其是对资源紧张的研究者来说,更倾向于选择全新实验而非复制实验。更重要的是,所谓“说有易,说无难”,在学术界普遍推崇显著性水平的氛围下,最终能够发表的复制论文中,证实原始结果论文的数量可能会大于证伪原始结果论文的数量。


复制实验面临的另一个方法问题是,在实践中,尤其是非学术的应用环境与政策背景下,随机实验最重要的环节——随机分配的可靠性往往难以保证。由于后勤问题或政治考虑,公共政策或者项目的实施者很难坚持随机分配,要么按照某种非随机的规则来分组,如姓名的首字母顺序,从而违反了因果推断的排除限制(exclusion restrictions),或者控制组发现了干预,想方设法从干预中受益(不遵从,noncompliance),或者某些人受到了干预的意外影响(溢出效应,spillover effects),或者无法测量部分样本的结果变量,即损耗(attrition)。这些随机实验中常见的问题,都会影响因果效应的估计准确性,影响实验复制的效果。


三、贝叶斯实验复制的适应性框架


(一)贝叶斯实验与随机实验比较


频率统计学和贝叶斯统计学是现代统计学中两种主要的推断范式,它们在处理不确定性和参数估计时有明显的不同。在频率统计学中,概率被视为长期频率,即在无限重复的实验中某个事件发生的比例。它不涉及对未知参数的概率描述,而是关注数据分布和假设检验。贝叶斯统计学将概率视为对不确定性的量化,包括对未知参数的概率描述。它允许在已有信息的基础上更新对参数的信念,即通过先验概率(prior)和似然即新数据(likelihood)来计算后验概率(posterior)。


由此,频率统计学通常使用点估计(如均值、方差)来描述参数,并且通过置信区间来表达参数估计的不确定性。频率统计学不直接处理参数的概率分布。贝叶斯统计学提供参数的完整概率分布,即后验分布。这允许对参数进行概率性的描述,并且可以更容易地表达和更新对参数的信念。


此外,频率统计学通常不考虑先验知识,所有的推断都基于数据本身。贝叶斯统计学明确地将先验知识(或信念)纳入分析中,这使得贝叶斯方法在处理小样本数据时可能更为有效。


在某些情况下,频率统计的计算可能相对简单,尤其是在使用标准统计软件时。由于需要计算后验分布,贝叶斯方法可能涉及更复杂的计算,尤其是在先验分布和似然函数复杂时,需要使用马尔可夫链蒙特卡洛(MCMC)等高级计算技术。


基于两种统计范式,贝叶斯实验(Bayesian Experiment)和随机实验(Randomized Experiment)在统计推断和决策制定中扮演着不同的角色,具体比较参见表1。随机实验强调通过随机分配来控制实验条件,以减少选择性偏误。实验结果完全基于观察到的数据。在贝叶斯框架下,实验设计更加灵活,允许实验者利用先验知识和实验数据来更新对参数的信念,得到参数的概率分布。贝叶斯实验继承了贝叶斯统计学的小样本特征,使得实验周期较短,成本较低,因为先验知识可以帮助实验者在设计和数据分析阶段做出更合理的统计决策。


表2是基于适应性问题的三个方面,对随机实验和贝叶斯实验进行的比较。尤其值得提出的是,如果按照复制的目标,即在不同时间、地点以及人群中验证理论,那么随着复制实验数量、规模和样本异质性的增加,贝叶斯实验在适应性方面的比较优势将越来越明显。一般来说,由于样本量(成本)的限制,随机实验的分组(干预)数量是有限(离散)的,通常只能估计在某些点上自变量取值与因变量取值的因果关系,难以直接观察自变量连续变化时,因变量的变化趋势。更不用说多个自变量与多个因变量之间的高维因果关系。然而,如果使用贝叶斯实验,一方面能够降低样本量(成本)要求,高效率地搜集更多样本点数据,得到更加精确的估计值;另一方面,还可以更加平滑地结合机器学习中的贝叶斯优化(bayesian Optimization)、响应面方法(response surface methodology)等,以便发现更加复杂的因果关系模式。


(二)解决相关性问题:建立先验概率,进行贝叶斯更新


如上所述,要解决公共管理实验复制中的方法论问题,可以采用一种新的实验范式——贝叶斯实验,一方面可以避免传统随机实验的缺点,另一方面能够提高实验复制的适应性水平。这里可以进一步将适应性分为两种类型:精细适应与扩展适应。精细适应意味着针对某个复制实验的局部环境特征,在原始研究相对比较粗略的设计方案基础上,不断对实验方案进行细化、优化,从而考虑得更加细致与完善,相当于“由外向内”。扩展适应则是在前期一部分实验方案基础上,对方案进行数量与功能上的不断补充,通过加入更多的干预分组,以实现更多的实验复制目标,相当于“由内向外”。精细适应可以针对高度复杂的情景,逐渐加强复制与原始实验之间的相关性,以及复制实验设计与分析的合理性;扩展适应可以针对高度变化的情景,逐渐加强复制实验设计与分析的灵活性,并提高效率、降低成本,扩大使用范围。


一般来说,典型的贝叶斯统计分析包括三个主要步骤:(1)通过在数据收集之前确定的先验分布来获取关于统计模型中给定参数的知识;(2)利用数据中可用的参数信息确定似然函数;(3)利用贝叶斯定理将先验分布和似然函数以后验分布的形式结合起来,进行更新。


与频率统计学认为概率是客观的不同,贝叶斯统计学认为,在某些情况下,应用贝叶斯方法时可能需要主观确定先验概率,即反映研究者看到数据之前对统计模型中参数的信念。因此,在开展实验复制时,我们可以将从文献来源(包括原始实验),以及从研究经验得到的背景知识表示为先验分布。先验分布在贝叶斯统计中起着决定性作用。先验分布可以有许多不同的分布形式,如正态分布、均匀分布或泊松分布等。先验分布还有不同程度的信息量,即一个从完全不确定到相对确定的连续体,研究通常使用的有:信息性、无信息或弱信息性、分散性等。


因此,在实验设计的意义上,贝叶斯统计比频率统计更加平滑、自然和有效。一方面,频率统计其实也必须使用先验信息,但通常以一种非正式和间接的方式进行。而在贝叶斯统计中,可以更好地利用原始研究(实验或非实验)产生的先验信息。另一方面,频率统计将复制实验中的被试视为从所有潜在被试群体(即研究总体)中随机抽取的,因此只有抽样不确定性。然而,贝叶斯统计认为,实验设计、实施与分析也是一种统计决策,未来的复制实验具有一种认知或决策的不确定性。可以通过最大化每个决策效用函数的期望来选择最优决策。


除了可以将原始研究等来源的信息正式整合到复制先验中,建立理论上的密切联系。贝叶斯统计还提供了一个统一的推断框架,来提高实验方法与其他方法的连接性。方法论文献从频率统计的角度提出了一系列两分法:定量与定性、实验与观察、多案例与单案例等。这些两分法通常认为,每对中的第一种方法具有更高地位或者在统计学意义上更加严格。但从贝叶斯统计的角度来看,无论分析什么数据,所有的推理都以相同的方式进行——即使用贝叶斯公式来更新先验概率。因此,贝叶斯统计通过将所有分类置于更加平等的地位,消除了社会科学方法之间的隔阂,有利于实验者更充分地利用原始研究中的数据与资料。


因此,众多复制实验、原始实验以及其他相关研究可以很容易采用贝叶斯元分析(bayesian meta-analysis)来进行整合。贝叶斯统计在处理多层次或混合效应模型上的灵活性比频率统计更大。例如,在对教育政策干预措施的元分析中,贝叶斯方法不仅可以将研究设计不同的多个研究结果整合起来,还可以同时评估学生、教室、教师、学校、地区、城市、州和国家等层面的信息。


然而,尽管贝叶斯统计学具有一定优势,但在一开始并没有得到广泛应用,因为贝叶斯更新的计算比较困难。但是,最近一些年随着计算机的发展以及一系列基于“马尔科夫链蒙特卡洛”(Markov Chain Monte Carlo, MCMC)算法的出现,使我们可以从任何具有概率密度的概率分布中抽取样本,来计算贝叶斯公式中作为分母的归一化因子,大大促进了贝叶斯统计学的实际应用,目前R、Python等软件平台上有多种包(PyMC3、Stan等)可以实现贝叶斯统计分析。


(三)解决合理性问题:得到后验概率,做出结构性推测


采用贝叶斯实验来开展复制研究,除了能与原始研究的理论结合得更紧密以外,还有助于减少追求显著性而导致的各种学术不端。众所周知,设计、分析和解释随机实验的频率统计学,其核心是零假设显著性检验(Null Hypothesis Significance Testing, NHST)及其最终输出结果,即P值。如果某种统计检验发现其P值低于一个约定俗成的阈值,如0.1、0.05、0.001,就意味着实验组结果之间有显著差异,换句话说,实验发现了有统计意义的因果效应。


在这方面,贝叶斯统计的逻辑刚好与频率统计相反。在贝叶斯统计的逻辑下,P值并不是一个合理的预测性概率,即使知道P值是多少,我们对实验的可复制性也一无所知。相反,贝叶斯后验概率是一个合理的预测性概率,可以不断地作为先验概率结合新的证据,为假设成立的概率贡献证据。或者说,当与先验相结合时,后验概率是对一项原始研究结果是否会在随后实验中被复制的适当估计值。因此,贝叶斯实验中使用后验概率而不像随机实验中那样使用P值,有助于减少由显著性水平导致的各种问题。包括检验统计量与估计量选择的主观性与任意性;不同的检验统计量可能在同一显著性水平下给出不同的答案(拒绝与不拒绝)等,从而让我们对实验及其复制结果有更大的信心。


此外,基于频率统计学的随机实验无法适应实验设计与分析方法的灵活调整,因为一旦进行调整,尤其是在实验进行过程中的调整,就会损害实验分组及其结果的可比性。正是因为频率统计的决策缺乏灵活性,使得预注册和预分析计划变成了一种必要的研究监督机制,因为我们无法分辨这种设计与分析方法的调整,究竟是研究所必要的,还是为了统计显著性的考虑。


相反,贝叶斯实验具有相当大的灵活性。在采用贝叶斯(适应性)实验设计的药物研究中,如果Ⅱ期实验发现某种新药的疗效非常明显(相比常规药物),那么研究者可以提前停止实验,直接进入Ⅲ期实验以节约研发时间与经费。在有多实验臂(组)的序贯设计实验中,可以根据前一批次的实验结果,重新修改分组设计,将更多样本分配到疗效好的臂,从而让更多的病人得到有效治疗。


由于采用了具有预测性质的后验概率,因此,贝叶斯实验可以更好地与结构性推测结合起来。所谓结构性推测,意味着原始实验的研究者应该系统性地推测其研究结果的外部有效性。例如,基于理论框架与实验结果,猜测在什么时间、地点、人群、背景、干预、测量等情况下复制的结果可能更高(更低)甚至没有。当然,结构性推测也可以用于随机实验研究,即采用效应量大小、正负以及显著性水平来表示。而且,为了突出其重要性,这种推测应当与论文的其他部分明确区分,例如,在主要的研究结果(包括稳健性、敏感性分析等)之后,结论(讨论)之前,增加一个名为“推测”的部分。结构性推测应该是精确的,并且是可以检验的推测,而不能是一些模糊的判断。


如果采用结构性推测,那么确定进一步复制实验方向的工作,就从复制实验的研究者转向了原始实验的研究者。原始研究论文必须公开且明确地提供可供复制的一些预测或设想,引导更多的研究者深入该领域,作出有价值的边际贡献。这样的话,复制研究与原始研究的联系将会更加密切,减少复制研究在进行设计、分析决策时的盲目性,从而可以系统性、全面性地推动该领域甚至整个学科的理论发展。


(四)解决效率、成本与效果问题:利用算法分配,发现最优方案


与观察性研究不同,实验需要对被试实施干预,在这一点上,随机实验与贝叶斯实验是相同的。除了实验设计与数据分析的统计基础不同以外,两种实验最大的差异,就是干预分配(被试分组)机制不一样。顾名思义,随机实验是采用随机分配(随机化)方法,而贝叶斯实验是基于一系列算法,如ε-贪婪算法(ε-greedy)、上置信界(Upper Confidence Bound, UCB)、汤普森采样(Thompson sampling)等来进行样本分配。


在统计学理论上,这些算法都是为了解决多臂老虎机问题(Multi-Armed Bandit, MAB),其也是强化学习中的一个经典问题,它模拟了一个决策者在不确定环境中进行决策的情景。这个问题的核心在于如何在有限的信息和资源下,通过尝试和学习来最大化长期收益。


在多臂老虎机问题的设定中,想象有一个玩家站在一排老虎机前,每台老虎机(臂)都有一个未知的概率分布,这个分布决定了每次拉动老虎机时获得奖励的概率。玩家的目标是通过拉动不同的老虎机来最大化其长期累积奖励。然而,玩家在每次尝试之前并不知道每台老虎机的具体概率分布,因此需要在探索(尝试未知的老虎机以获取更多信息)和利用(选择已知表现最好的老虎机以获得奖励)之间做出权衡。


多臂老虎机问题的关键挑战在于如何平衡探索和利用。如果玩家总是选择已知表现最好的老虎机(利用),那么可能会错过其他可能更好的选项;反之,如果玩家总是尝试新的老虎机(探索),可能会浪费资源在低效的选项上。因此,设计一个有效的策略,使得玩家能够在有限的尝试次数内找到最优的老虎机,是多臂老虎机问题的核心。


具体来说,ε-贪婪算法(ε-Greedy Algorithm)是以ε的概率随机选择一个老虎机,以1-ε的概率选择当前已知平均回报最高的老虎机。上置信界(UCB) 算法即是基于置信区间来选择老虎机,即选择那些回报值高且尝试次数较少的老虎机,以期望发现潜在的最优选项。汤普森采样是基于贝叶斯方法的策略,它使用随机抽样来估计每个老虎机的回报概率,并根据这些概率来选择老虎机。研究发现,在这几种算法中,汤普森采样往往具有最好的表现,因此目前少量的贝叶斯实验基本上都采用这种算法来进行分配。


众所周知,随机化实验是估计因果效应的“黄金标准”,因为随机化平衡了各组所有潜在的混杂因素(协变量)。然而,随机化中容易出现的一个问题是,尽管随机化可以平衡各组的协变量,但只是平均意义上,在任何一个具体实验中,协变量都可能是不平衡的,即干预组和控制组之间的可观察特征有差异。除非我们可以不断进行随机化(实验),然后将所有实验的数据汇总起来。然而,这种做法尽管更加符合频率统计学的思路,但在现实中尤其是社会科学中是无法完成的,意味着非常庞大的时间与经费等成本。社会科学的实验往往是一次性的,尽管某项实验的样本量可以很大。


一个实验如果有k个独立协变量,在显著性水平为α的情况下,在干预组和控制组之间,至少有一个协变量会出现明显差异的概率是1-如果有10个协变量,显著性水平为0.05,这个概率是40%。在一个特定实验中,如果能够提前测量干预前(pre-test)协变量,分析后发现随机化产生的分组在重要协变量上明显不平衡,是应该继续进行实验,还是重新随机化(或再随机化)并在平衡后的分组上进行实验?


基于统计决策理论,再随机化能提高实验的主观价值,但会降低实验推断的稳健性,即足够多次地再随机化会导致本质上的确定性分配。因为,随机化后如果发现实验组之间的样本特征(协变量)不平衡,只需再一次随机化,并一直这样做,直到看起来完全平衡为止,从失去了分配的随机性。


除了再随机化,随机实验中还可以采用分层随机化、区块随机化、配对随机化等方法,以便尽量平衡实验组之间的协变量特征,消除可能存在的混杂因素。但遗憾的是,目前公共管理实验及其复制研究中的随机化几乎都是简单随机化,以及实验完成后的协变量平衡性检验,因此可能很难避免潜在的不平衡对实验结果可靠性的影响。


除了随机分配本身的问题,随机实验面临的另一个问题是,实验者的研究目标可能并不是估计因果效应的大小、方向与显著性,而是公共政策或管理方案效果的最大化,即最优政策(方案)。因此,随机分配并不是研究希望实现的,而将更多的被试分配到最优政策组里某种确定性分配,才是实验的目标。


更进一步来说,随机分配并非平衡实验组协变量的最优方法,如果实验目标是实现干预和控制样本之间的平衡,根据实验对象特征有目的地将其分配到两个组会更有效,成本也会更低,从而消除纯粹随机化过程中偶然导致的样本之间不平衡的可能性。


基于统计决策理论,实验者的目标决定了实验设计的最优选择。如果实验者的首要目标,是产生干预效果的点估计值和相应的标准误,来检验平均效应为0的零假设,即检验干预是否有显著效果。那么,随机实验就是合理甚至最优的选择,因为随机分配基于反事实框架(或称为潜在结果模型)上原理的简单性与透明性,加上数据公开、预注册、预分析计划等学术机制,可以比较充分地说服怀疑的公众,实验得到的是一种可信的因果效应。


然而,如果实验者的目标是发现最优干预,即某个效果最大的干预组,那么贝叶斯实验才是最优的实验设计。特别是在公共政策与公共管理的背景下,如果政府或非政府组织用实验评估政策或项目,他们最感兴趣的不是估计每个干预的效果大小、方向与显著性,而是从几种可能的备选政策或方案中,确定并实施最好的政策。换句话说,他们想回答的问题是:哪个政策或方案效果最好? 如果得出结论后,就选择其中一种干预方案进行全面实施,即最大化这个全面实施后的整体平均结果,实现社会福利最大化。


因此,可以得出一种将贝叶斯和频率统计学统一起来的建议:对于小样本量的实验,或者如果决策者不太重视说服受众,最佳实验是确定性的贝叶斯实验,优化决策并使实验者的主观效用最大化。如果样本量很大,那么允许无先验的自由推断的随机实验就会成为最佳选择。


(五)一个贝叶斯实验复制的设计示例


为了更清晰地说明贝叶斯实验复制框架的结构,作者仿照Walker等人对实验复制最佳实践的建议,提供了贝叶斯实验复制的决策点(Decision Points),具体可参见图1。


图1中的第一个决策点是:是否采用贝叶斯实验复制?如果原始研究是随机实验,那么在样本量满足统计效力要求的情况下,采用随机实验复制是最直接的。如果由于资源限制,样本量难以满足要求,或者原始研究本来就是贝叶斯实验,那么可以考虑采用贝叶斯实验复制,或者随机实验+贝叶斯实验。图中的第二个决策点是:选择背景信息,建立先验分布。在这个决策点上,复制研究者将基于原始研究的结果,以及其他研究来源的信息,明确提出研究结果的先验分布。第三个决策点需要选择算法来进行实验分组与干预,然后更新先验,得到后验分布。目前汤普森采样算法由于其在众多应用情景下的良好表现,往往成为首选的分配算法。第四个决策点一方面选择与原始研究比较的逻辑:相同的发现,不同的发现以及拓展性理论假设。另一方面还需要做出结构性推测,为更多复制指出设计方向,这也是一个循环往复的决策过程。


除了决策点之外,表3还展示了一个贝叶斯实验复制的示意性例子。复制的原始研究背景来源于Bahety等人新冠疫情期间在印度进行的一项适应性随机对照实验。原始实验评估了基于短信(SMS)的信息对比哈尔邦农村地区人群采用社会距离和洗手的影响。实验一共测试了10个臂,这些臂在发送时间和信息框架(涉及家庭或社区的收益或损失)上有所不同。通过汤普森采样,在10轮实验中适应性地分配各实验臂的份额,来确定每个目标行为的最佳干预。基于对近4 000个家庭的电话调查,实验没有发现对预防性健康行为的知识或采用产生影响的证据,即基于短信的信息干预的效果可能有限。


将该短信实验作为原始研究的背景下,如果我们希望复制该研究(www.sciencedirect.com/science/article/pii/S0304387821001140),那么首先需要阅读期刊网站上下载的论文正文、在线附录,并获得Harvard Dataverse或作者主页提供的数据与代码,即表3中的步骤1。这个步骤中,在统计软件(Stata、R、Python等)环境下复现(reproduction)论文结果是必不可少的,只有这样才能深入理解论文的设计细节,初步评价原始研究的信度与效度。在此基础上,我们需要评价研究复制的价值与意义,即这种信息干预实验是否能对中国或者其他国家相似政策具有启发性?同时还要考虑可行性,如在经费、人员等研究条件上是否能够复制这一实验,是否符合中国的制度与文化环境限制?


步骤2是联系原始实验的通讯作者,针对原始实验的细节提出疑问,请求提供结构性推测,最好能够提供复制实验的大致设想,便于对方理解复制的目标。一般来说,这一步骤包含反复的互动过程,通过与原始实验作者的沟通以及阅读其他文献,复制者对复制的设计将会越来越清晰,即明确复制与原始实验的共同点与不同点。例如,原始实验时间是疫情期间,复制实验时间是疫情结束之后,原始实验地点是印度农村地区,复制实验地点选择中国什么地方的农村最合适?原始实验包括10轮/4000户/4条短信/早晚发送,复制实验的经费是否满足这一要求?短信内容的干预措辞如何翻译,是否需要调整框架?是否违反中国的手机通信运营规定?在骚扰与诈骗电话成为社会问题的情况下,能否继续使用电话调查来测量结果变量?各种设计上的差异必须有理论或者方法上的理由。


步骤3是基于文献、讨论与经验,建立先验概率,原始实验的结果是没有发现显著的干预效应。那么,这种干预效应的不显著可能由什么原因引起的,是否如原始研究论文的结论中提到的那样,来源于样本的特殊性?干预时间选择问题?还是短信干预内容框架的问题?相比于原始结果显著的复制,要复制不显著的实验面临的挑战将会更大一些。这种情况下,我们需要不断调整(迭代)实验设计,来增强复制实验在新环境下的适应性,即发现更加有效的政策干预方式。如前所述,包括精细适应,即不断修改原先的干预内容,以及扩展适应,加入新的干预内容。


步骤4是正式开展复制实验,建立后验概率。我们可以首先选择常见的随机分配,一方面是可以确定不同干预效应的统计显著性,为后续寻找最优干预提供基础数据。另一方面是能够与原始实验以及其他随机实验文献进行直接比较。更重要的是,可以随时修改干预臂,去掉验证无效的臂,增加可能有效的新臂。例如,如发现强调公共/收益的臂,其干预效应明显低于强调私人/损失的臂,那么在后续几轮实验中,使用算法,可以删除(减少)与前者相关的臂,增加后者的干预强度以及样本量。


步骤5是修改后的实验,经过多轮实验之后,最终可能发现最有效的政策干预方案,这种干预方案既可能是原始实验干预的某种组合,也可能是某种全新的干预。在预定的实验轮次之后,复制研究者可以发表研究结果,通过学术会议或期刊广泛听取意见或者建议,为下一批实验做准备,为其他研究者的复制或推广实验提供结构性推测与其他建议。


如前所述,在真实的复制研究中,从步骤1到步骤5的过程,一定是循环往复的。在这种意义上,复制实验与一般研究的区分并不是绝对的,二者共同构成了学术研究的内在发展机制。此外,需要说明的是,表3中提出的步骤并不是严格意义上的,仅仅是一种尝试性设计。不同学科与研究领域,不同学者在实验复制的过程中,可以灵活掌握具体的细节,但是适应性逻辑应该是共同的。


四、结论


西蒙提出,公共管理是一门“设计科学”,其设计了一些行动方案,旨在将现有结果改变为更理想的结果。如果按照这一定义,相比随机实验方法,贝叶斯实验方法更加适合开展公共管理的研究和复制。


尽管贝叶斯(适应性)实验设计已被开始用于医学研究中的临床试验以及人工智能研究中的在线实验等领域,但是在社会科学中应用仍然非常少。因此,作为一种新的实验设计方法,其在公共管理研究与复制中有广阔的应用前景。此外,如前所述,贝叶斯实验中进行样本分配的多种算法,恰好是目前人工智能的核心领域——强化学习的重要算法。强化学习的核心是研究智能体(agent)与环境(environment)的相互作用, 智能体需要在探索与利用之间进行权衡,通过不断学习最优策略,做出序贯决策并获得最大回报。强化学习具有广泛的应用空间,包括无人驾驶、游戏设计、机器人、广告推荐等领域。因此,在公共管理实验及其复制中使用贝叶斯实验,可以与医学以及人工智能研究无缝衔接,进一步增强公共管理与公共政策中决策的科学化与智能化。


此外,相比采用随机实验的复制,贝叶斯复制实验设计在某项领域与公共管理结合得更加紧密。例如,在某些公共管理实地实验背景下(如政务服务中心),我们往往很难获得具有明确界定总体的随机样本,很多时候只有少量的方便样本,而且接受服务的所有样本并不是同时分组和干预,而是序贯性(sequential)的。考虑到这些实验背景与样本特征,贝叶斯实验设计的适应性可以帮助我们更好地设计、实施与分析复制实验。因为对样本类型和数量要求更低的情况下,更多的研究者和机构能够开展实验复制工作。


在公共政策尤其是具有福利性质政策的背景下,贝叶斯实验还有研究伦理上的优势。在随机实验的框架下,尽管有“阶梯”设计等方法来确保每一个有资格的政策对象最终都能进入干预组以享受政策待遇,但需要一个较长的周期来维持控制组的规模,确保各组之间的统计可比性。而在贝叶斯实验的框架下,在最初一批实验结果得到之后,可以迅速调整分组,以保证绝大多数实验对象能够获得最大效果的政策干预方式,相当于提高了研究总体的福利水平。这种快速调整机制,有利于政策落地实施,可以提高各种公共组织对实验复制的接受程度。


而且,在贝叶斯实验的视角下,公共管理实验复制也不存在所谓的“最佳实践”。由于复制研究的时间、地点、背景、对象千差万别,在某种情况下合理的复制方案,在其他场合下未必合理。必须由复制研究者根据原始研究的理论框架、结构性推测以及个人经验来灵活决策,将理论可推广性(外部效度)作为最终的决策标准。


当然,贝叶斯实验复制并非灵丹妙药,也存在一定的局限性。由于使用人工智能算法来进行干预分配,其直觉上的简单性与透明性不如随机分配,在具有对抗性受众(adversarial audience)的公共环境下,难以获得他们的信任。同时,贝叶斯统计学在社会科学中的应用还处于发展阶段,很多研究者已经习惯于频率统计学的范式,难以很快采纳贝叶斯统计学的范式。此外,并非所有的公共政策与公共管理实验都旨在寻找最优政策,因此可能限制了其应用范围。


必须指出的是,贝叶斯实验并不是作为随机实验的替代品而出现的,二者同样具有重要的应用价值,可以相互配合,取长补短。例如,一种可能的实验研究与实验复制的方向,是随机实验与贝叶斯实验的结合。在研究初期阶段采用随机实验,以便检验干预的因果效应是否在统计意义上显著,然后将随机分配平滑地变成算法分配,以便尽快发现效果最好的干预方案。最终将最优政策与措施进行全面推广与复制,并基于各地情况“具体问题具体分析”,采用贝叶斯实验来修改完善政策方案,实现方案的适应性与本地化,真正实现试点政策的“可推广、可复制”。



扫描二维码免费下载全文

本期目录

更多精彩 敬请关注

深入学习贯彻党的二十大精神


李宝荣丨中国式现代化进程中推进公共服务的战略路径与理论创新


专题研讨:数字治理研究


梁海伦丨专题引论:数字治理研究

王翔 白劼丨公民参与的数字化“回声”:信息公开如何塑造意见表达

魏远山丨智能时代政府治理算法化的优势、困境与应对策略

宋锴业丨制造灵活性:数字治理的组织生态及其制度环境——基于M省A市的实证分析


专题研讨:实验方法研究


马亮 吴培熠丨专题引论:复制公共管理实验研究正当其时

姚洁 孙涛丨联合实验方法在法律威慑领域的复制推广——以中国“醉驾入刑”为例

方学梅 高煜辰 樊妍妮丨公众如何感知公共组织绩效?——基于两项大样本复制实验的证据

王思琦丨提高公共管理实验复制的适应性:一种贝叶斯实验设计框架


论  文


孟凡蓉 张润强 陈子韬国家创新体系整体效能:概念内涵与分析框架

施文凯 董克用丨中国基本养老保险制度激励约束机制研究

郑国丨《周礼》中的城市管理制度及其历史演进

陈纪东 易路平 张安录丨政府规划权力配置及启示——基于美英空间规划法规的研究

孙景冉 黄楚君丨共同富裕背景下财政支出对慈善组织公益支出的影响——基于我国慈善基金会的证据


微信推送·2024年第57期
编辑:任倩雯

继续滑动看下一个
公共管理与政策评论
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存