复制“成功的模式”，是个技术活 | 测量与评估

Original SSIR中文版斯坦福社会创新评论 2022-05-18

收录于合集 #测量与评估 26个

决策者需要不断面对普适化的难题：一个成功的模式如果放在别的环境中，能指望产生类似的效果吗?

本文阐释的普适性框架提供了一个实用的方法来综合各类证据，以评估特定政策是否可能在某种新情境下生效。

针对推广地的适用性问题，一种解决方法是利用全球证据库作为政策理念的来源，但在规模化推广之前，始终要在当地对该项政策进行一次随机化的评估研究检验。

议题编辑：林夕、姚森议题顾问：汪伟楠作者：玛丽·安·贝慈、拉切尔·格兰斯特译者：聂传炎

Abdul Latif Jameel反贫困行动实验室2003年创建于麻省理工学院，在全球拥有特聘教授和专业人员网络。2013年，卢旺达总统希望我们提供整个非洲大陆各类社会发展项目的评估结果，以便为其国内决策提供参考。我们首先想到了在肯尼亚做过的一个艾滋病预防项目，名为“小心干爹”（Sugar Daddies Risk Awareness），它显著减少了通过艾滋病毒传播的一条重要途径——少女与“老男人”之间的性关系，传播艾滋病。

一个随机对照试验发现，在给八年级女生和男生放映了十分钟的视频，并展示了年长男性艾滋病发病率较高的统计数据之后，这些学生的行为明显发生了改变：在随后12个月里，与“老男人”发生性关系以致怀孕的少女的数量下降了60％以上。卢旺达政府也想知道该项目在卢旺达是否能奏效。

这项研究之所以引人注目，部分在于其研究方法：哪些女孩参与这个风险告知项目，哪些女孩只是继续接受标准课程教育，是随机决定的。由此，我们的政府合作伙伴就能够相信，危险行为减少了，应归功于这个项目。但是，如果他们在别的环境中复制这种方法，能产生类似的效果吗？

决策者不断面对这种普适化的难题：特定项目的效果是否普遍适用于其他情境。对于如何才能做出正确的判断，决策者之间长期存在争论。但是这些争论常常被那些令人费解的无益的问题困住，例如：决策者是该依赖来自当地的不太准确的证据，还是该依赖来自其他地方的更精确的证据呢？在推广某个方案之前，是否永远需要在当地先进行一次新的试验呢？

这些问题本身就是伪命题。精准严格的影响力评估并非旨在替代对当地数据的需求，而是提高其利用价值。当地机构拥有的具体知识与关于普遍行为的全球性知识之间存在着互补性，这种互补性对于贫穷行动实验室的哲学原理和实践至关重要。

01四种可能产生误导的思路

为了阐明我们的工作理念，有必要先审视一下有关基于证据决策（evidence-based policy making）的四个常见的、但具有误导性的思路。我们的工作正是为了解决这些问题。

01是否一项研究只能为当地提供政策依据？

考什克·巴苏认为，一项在肯尼亚做的影响力评估绝对无法向我们提供任何关于在卢旺达应该怎么做的有用信息，因为我们不能确信评估结果是否适用于卢旺达。诚然，我们永远无法准确预测人类的行为，但社会科学研究的目的就是描述出能够成为指南的一般规律。比如，一般来说，价格上涨需求就会下降。对决策参考来说，描述出在各种条件和时间段中发现的普遍行为规律特别重要。最好的影响力评估就是为了检验这些关于人类行为的普适性命题。

02我们是否应该只使用从特定地点获得的证据？

为了确保方案或政策在当地有效，一些研究者，如兰特·普利切特和贾斯汀·桑德福认为，即使质量不太好，决策者也应该主要依靠本地提供的所有证据。高质量的本地数据当然非常重要，但如果因为来自其他国家、地区或城镇的证据可能在普适性上存在风险，就建议决策者们忽略这类证据，那就会浪费宝贵的资源。挑战在于，如何将本地信息与全球性的证据匹配在一起，并利用每个证据来帮助我们理解、诠释和补充其他证据。

03在规模化推广之前，是否一定要在推广地进行新的随机化评估研究？

针对推广地的适用性问题，一种解决方法是利用全球证据库作为政策理念的来源，但在规模化推广之前，始终要在当地对该项政策进行一次随机化的评估研究检验。鉴于反贫困行动实验室非常关注这种方法，我们的合作伙伴通常认为，我们一定会建议在当地重新做一次随机化评估研究——但我们并没有这样做。在资源和评估专业技术非常有限的前提下，我们无法严格地检验全球每个国家的每项政策。我们需要确定优先事宜。

例如，对于有条件现金援助（conditional cash transfers）带来的影响，我们在九个中低等收入国家中进行了十次随机化评估研究，并对此进行了三十多项分析。尽管对这些方案的最优设计还有待进行更多的深入研究，但是，在许多其他扶贫政策尚未经过严格检验的情况下，将有限的资金用在对有条件现金援助的每个新方案都做随机化影响力评估上，显然不是最佳选择。

04在规模化推广之前，对同一个方案或政策是否需要进行特定次数的重复检验？

我们被问得最多的问题之一是，一项研究需要在不同情境中重复多少次，才能让决策者信赖在其他情境下研究得出的证据。我们认为这一种考虑证据的方式是错误的。在某些案例中，同样的方案会在多个地点进行检验。例如，为帮助七个国家的赤贫者，我们对某个毕业强化项目进行了相互一致的七次随机化对照试验，结果表明，它们在大多数情况下都产生了积极的影响。我们在决策时应高度重视这类证据。但是，如果我们只采用已重复多次的研究结果，我们就丢弃了大量潜在的相关信息。

02机制是核心

在决定是否在卢旺达引入特定的艾滋病预防倡导方案时，以上四个误导性思路都有可能成为通往正确方向的阻碍。这是因为它们忽略了通过评估可以获得的关键洞察力：评估可能会揭示机制是如何运作的，即人们为何以如此方式做出反应。聚焦于机制，然后判断某种机制是否适用于新的环境，对决策来说具有许多实用价值。

首先，这种聚焦会促使人们留意更多相关证据。在考虑是否实施一个具体的政策或方案之时，我们可能没有足够的有关该方案的现成证据。但是，如果我们从一个更具有一般性意义的行为角度提问，就有了一个深厚的证据基础。例如，设想某个公共卫生机构希望鼓励医疗服务人员推广流感疫苗的接种，他们正在考虑是否告知这些服务人员，由他们负责的患者的流感疫苗接种率与其他同行的患者的接种率比较之后的结果。根据一篇文献综述几乎不可能做出对这一具体做法的准确评估。然而，如果提出概括性的问题，即人们在了解了其他伙伴的行为之后，会如何改变自己的行为，那么我们就敢言之凿凿。

其次，基本的人类行为比特定项目更具有普适性。例如，拉切尔·格兰斯特协助评估了非营利机构“寺庙义工”（Seva Mandir）在印度农村执行的某个项目。该项目定期举办流动的疫苗接种的现场活动，在随机选择的现场活动中，每当儿童接受免疫接种之时，其父母就能获得一公斤小扁豆，在最终完成免疫接种计划后，其家长会获得成套的金属盘子。结果，在采取激励措施的周边社区，孩子的全面免疫接种率飙升至36％，而受控对照社区则仅为6％。评估发现，问题并不在于家长对疫苗接种持怀疑态度。即使没有激励，78％的儿童至少都会接种一次疫苗。但激励措施有助于父母定期带孩子前来接种，直到完成整个免疫接种计划。

用小扁豆来鼓励接种疫苗的方案可能不适用于其他情境：在世界其他地区，小扁豆可能不是特别具有吸引力。然而，人们无法坚持有益未来身体健康的行为则是一种普遍现象：只要想想所有那些半途而废的节食计划和未使用的健身卡就知道了。我们也会发现另一个具有普遍意义的现象，即人们是否采纳预防性健康措施会受到价格的影响。一项在五个国家、对六种预防性保健产品进行了六次以上随机评估的结果显示，小幅降价可以大大增加人们对预防性保健产品的需求。上述免疫接种项目的激励措施可以延伸这个发现，因为流动免疫接种能够降低儿童就诊的总体成本，包括旅行和时间成本。

但有必要强调的一点是，尽管可能有违直觉，更多基于理论或“学术性的”影响力评估对于政策目的可能特别有用，因为它们旨在提供一般性的经验教训。某些研究人员认为，我们应该对那些仅仅适用于特定组织的问题做出更多的评估。例如，帮助“寺庙义工”了解小扁豆还是小麦面粉会对当地家长有更好的激励作用。但是，回答更理论化的问题，例如，预防性健康措施的采纳程度是否具备高度的价格敏感性，可以指导世界各地许多其他组织的实践活动。

最后，聚焦于各种机制可以让我们识别出具体的当地证据，可以帮助我们预测它在新的情境中是否能够产生同样的效果。常识表明，如果新的情境类似于最初考察该项目时的情境，我们更有可能在新情境下发现类似的结果。但是，“类似”是什么意思呢？是指地理位置相近、收入水平相同、人口密度相同或者识字水平相同吗？这个问题并没有绝对的答案。它取决于我们关注的行为，也取决于理论。

那么，“理论”又是什么意思呢？理论能够简化世界，帮助我们做出关于行为的预测和检验，并预测和检验哪些政策可能有效，以及它们可能在哪些地区有效。有很多方法可以对世界进行简化和概括。经济学理论有助于我们在各种简化的要素中找到优先事项。例如，在上面的例子中，小扁豆的重要性来自它们在当地深受青睐。行为经济学理论也表明，相对于急症护理的价格，人们对预防性健康措施的价格更为敏感。因此，如果我们想要归纳促使人们采取预防性保健措施的激励性经验，在新的情境下，人们更加注重急症护理而不是预防性健康措施，对此我们就应该保持一种更加谨慎的态度。

免疫项目的相关性理论也表明，只有当父母能够可靠地获取疫苗并且不强烈反对疫苗接种时，激励措施才会产生效果。因此，“类似”的情境可能意味着大量儿童至少接种过一次疫苗（这表明民众可以获得接种，且对疫苗接种没有强烈的反感），但他们的父母未能坚持完成全部接种计划。

03普适化框架（The Generalizability Framework）

在反贫困行动实验室，我们采用概括性框架来整合不同类型的证据，包括越来越多的社会项目随机评估的结果，以帮助各方基于证据进行决策。我们建议使用四步骤的概括性框架，力求在每个步骤中回答1个关键问题：

步骤1：这个项目背后的分解理论是什么？

步骤2：当地情况是否适合运用该理论？

步骤3：形成所需要的一般性行为变化的证据有多么可靠？

步骤4：如何证明整个干预过程能够很好地予以实施？

要了解这个框架的工作原理，我们不妨来观察现实世界政策困境的几个例子。在应用这种概括性框架时，我们的首个案例研究涉及到儿童免疫接种，这是已知的最为经济有效的健康干预措施。世界卫生组织估计，提高免疫接种率可以挽救150万人的生命。

我们上述在印度的研究结果表明，如果向家长提供小额激励措施，并在同时利用就近的流动诊所提供可靠的服务，就能够让全面免疫接种率增加为原来的6倍，从6％提高到36％。塞拉利昂的五岁以下儿童死亡率位居全球前列，该国可以采取这种方法吗？印度的哈里亚纳邦或巴基斯坦的卡拉奇市呢？

如果我们将评估视为一种测试“黑匣子”的方案——假定我们不能理解现有的机制——我们就会询问，目前已经进行了多少次影响力评估，以考察免疫接种激励措施和免疫接种率之间的关联度。由于仅有一次精确的影响力评估来估测这种关联度，我们可能得出的结论为，支持这个方案的证据相当薄弱。然而，对于该方案背后的不同理论因素的证据评估表明，这种关联度背后的证据可能比乍看起来要多得多。

步骤1：正如我们前面讨论过的那样，对印度疫苗接种项目的原始研究背后的理论是，父母希望让孩子接种疫苗，或至少没有强烈地反对接种疫苗。他们坚持完成该计划的意愿会受到小小的价格波动的影响。带孩子就诊的时间和交通等小额成本可能阻碍家长们坚持采取预防性健康行为。这种证据带来的信息比黑匣子方法的知识要走得远的多（参阅“免疫接种激励措施的普适性框架”）。

步骤2：反贫困行动实验室正在与塞拉利昂、巴基斯坦卡拉奇市和印度哈里亚纳邦等政府合作，以确定当地是否满足该方案所需的条件。要确定某些基本条件（如诊所是否定期开放，疫苗供应是否可靠），就必须了解当地机构。公开的数据也很有用。特别是，如果大多数儿童会接受至少一次免疫接种，但是随着接种计划的推进，接种率逐渐下降，就表明与印度原始研究中观察到的问题类似。塞拉利昂、卡拉奇和哈里亚纳邦都符合这种模式。

步骤3：接下来涉及行为条件的证据。大量证据表明，全球民众对高效预防性健康措施的投入不足，然而却花费大量资金用于急症护理。还有很多证据表明，预防性医疗保健价格的小幅变化可以大大提高（预防性健康措施的）采纳率。此外，小额激励措施对健康行为具有惊人的巨大影响。

步骤4：在最后一步，我们重点关注在当地实施的细节。我们找出解决方案，以便确保激励措施通过诊所和卫生工作者提供给让子女免疫接种的家长。而采取什么激励措施、如何提供、如何进行监督，可能需要根据当地情况加以调整。

在卡拉奇和哈里亚拉邦，由于可以直接向家长提供安全的电子付款，大大减少了妨碍推广免疫接种激励措施的物流问题。在塞拉利昂，贫困农村地区的流动资金渗透率低，这种做法不太可行。然而，由于塞拉利昂普遍存在营养不良的问题，众多机构都渴望向孕妇和哺乳期母亲提供强化食品。而当地的试验表明，这些强化食品备受青睐。因此，在塞拉利昂，接下来需要考察是否能够有效地将食物分发给带孩子接受免疫接种的父母？是否能将食物送到预期受益者手中？分发食物是否阻碍了免疫诊所的顺利运行？

如果分发食品以鼓励免疫接种的做法在塞拉利昂显得过于困难的话，我们不应该得出这样的结论说：原始研究不具备普遍适用性。我们能发现的只是这个方案在当地未能成功执行，而不是民众对激励措施的潜在行为反应模式存在差异。

04从肯尼亚到卢旺达

我们有时候并不执行概括性框架的每个步骤。让我们通过第二个案例研究来说明这个点。重新回到卢旺达政府关于预防少女怀孕的问题。我们如何判断，在卢旺达向青春期的女孩们讲解男性年龄与艾滋病毒之间的关联度有助于缓解这个问题呢？在这个案例中，我们仅仅采用了前两个步骤。

步骤1：首先，我们考量了肯尼亚艾滋病毒信息项目背后的理论（参阅“艾滋病风险意识方案的概括性框架”）。处于青春期的女孩会权衡性关系本身以及与不同伴侣发生性关系的利益和成本。女孩们能够通过与“老男人”发生性关系获得各种利益。特别是，如果她们怀孕，年长男性能够更好地照顾她们的经济状况。但与年长男性的性关系也有风险：年长男性更有可能感染艾滋病毒。如果女孩们不知道年长男性比年轻男性更有可能携带艾滋病毒，那么，这种关系就显得比现实更有吸引力。知道相对风险会改变她们的风险——利益计算，减少青春期女孩与“老男人”之间无任何保护措施的性行为次数。

理论的第一步就是对当地情境的假设，这些假设必须有效，然后我们才能指望该方案能产生效果。除非青少年女孩与年长男性之间的性关系非常普遍，年长男性的艾滋病感染率高于年轻男性，而且女孩们不知道年长男性的感染率高于年轻男性，否则，向女孩们讲解艾滋病感染率与年龄相关并不能减少与“老男人”发生性关系致怀孕的少女数量。

步骤2：接下来是评估这些条件是否适用于卢旺达。利用公开的数据，我们发现，在卢旺达，年长男性的艾滋病毒感染率也高于年轻男性，许多少女往往与比她们大五岁以上的男性发生性关系。

但两个国家之间也有重要的差别。在卢旺达，25—29岁男性的艾滋病感染率为1.7％，而在进行初始评估的肯尼亚地区，其感染率则为28％。我们没有找到关于卢旺达公众对艾滋病风险意识的公开数据。在肯尼亚，女孩们参与该方案之前，她们并不知道艾滋病风险随着年龄的增长而上升，这可能是该方案产生影响的主要原因。因此，必须了解卢旺达公众的艾滋病风险意识和实际风险之间是否存在着类似的差距。

在开普敦大学，由埃米丽·库皮托（Emily Cupito）领导的反贫困行动实验室非洲小组与卢旺达生物医学中心进行合作，以收集有关青少年男女对艾滋病风险意识的当地客观资料。这些数据显示，在卢旺达，大多数十几岁的女孩已经知道相对风险：她们正确地断定年长男性比年轻男性更可能感染艾滋病毒。总体来说，卢旺达的女孩们非常了解不同年龄段男性的相对风险，尽管她们大大高估了年轻和年长男性的艾滋病感染率。例如，42％的学生估计二十多岁的男性中有20％以上会患上艾滋病。只有1.7％的受访学生正确地断定二十多岁男性的艾滋病毒感染率低于2％。

请注意，在最终确定该方案是否在卢旺达有效之时，其数据并不是来自影响力评估或随机对照试验。它们是快速（两周时间）收集上来的简单描述性或观察性数据，以便评估其条件是否能让方案生效。

将这些当地信息回置到我们的概括性框架之后产生了严重的隐患。如果信息宣传活动明显降低了青春期女孩对于与无保护性行为相关的艾滋病风险意识，但却没有改变她们对年龄相对风险的意识，那么这个方案可能会造成青少年女孩更多地与年轻和年长男性发生无保护措施的性行为。

因此，反贫困行动实验室不建议在卢旺达尝试“小心干爹”运动，转而建议探索其他减少少女怀孕的机制。然而，必须强调的是，我们并没有足够的证据证明该计划究竟如何以及为何在肯尼亚取得了惊人的效果。我们也不能排除肯尼亚方案在卢旺达奏效的可能性。但是，显而易见，之所以卢旺达不采取这种做法，是因为理论上所要求的一些当地条件可能非常重要。在这种情况下，我们在步骤2后告一段落，并提出了替代方法。

05从印度到芝加哥

根据现行机制，在某种情境中学到的经验能够，并且确实成功地运用到了其他情境当中。我们最后再举个例子来阐释这个话题。最近，我们芝加哥教育实验室的同事们与芝加哥公立学校合作，以帮助那些学业不佳的高中男生取得进步。他们与适配教育（Match Education）进行合作，利用随机评估测试了个性化的二对一辅导方案，该方案因大幅提高数学成绩而获得了全美国的关注。

哪些因素决定了我们选择在芝加哥尝试个性化学习方案呢？研究小组不仅利用了得克萨斯州密集化辅导的准实验评估成果，还参考了在肯尼亚和印度进行的随机评估结果，没有人会认为后者的环境类似于芝加哥。但是，审视那些帮助落后学生提高学业的根本机制，我们就会在极其不同的环境中找到非常吻合的证据。

在肯尼亚，早期的随机评估发现，为学生提供新教材无助于改善孩子的学习状况，除非这些孩子已经是班级中的尖子生。这表明，部分问题在于，课程和教科书是根据班级中的部分而非所有学生的学习水平而设计的。后续评估考察测试了先根据初步学习水平对学生进行分组，然后由教师提供更具针对性的教学的做法，结果发现各个小组中的学生成绩都提高了。

与此同时，在印度，致力于改善教育状况的非政府组织布拉罕协会（Pratham）也正在应对同样的挑战，招募当地志愿者教导年幼孩子学会基本的识字和算术能力。虽然背景和方法不同，但是该方案也采取了类似的根本机制：通过提供适当水平的重点教学，正规学习课程明显落后的孩子能够相对迅速地迎头赶上。在过去十年中，我们的同事们与布拉罕协会合作，在不同的环境中——农村和城市、志愿者或正式教师提供教学、上学期间或暑假期间——反复检验他们的辅导方案，效果始终很良好。

我们的同事们在设计芝加哥学习方案时审查了所有相关证据，他们发现了与概括性框架相关的不同当地条件的类似之处。在芝加哥——就像在印度和肯尼亚——部分学生在课程上落后了好几年，但是现行教育体制鼓励教师们讲授与学生年级相应的学习资料，而不是针对学生实际学习水平进行补课。方案的实施也有相似之处：辅导者可以接受培训，以教授相应水平的学生，而不用担心无法管理需求各不相同的整个班级。匹配教育的方法是引进受过良好教育的个人，让他们愿意为获得公共服务的适当薪金而工作一年，否则的话，这种做法（小组教学）会因成本过高而不太可行。与印度相同的是，由于教师不再需要经过专门培训以管理复杂的课堂，单单注重年级教学目标也失去了意义，因此，他们能够运行小组方案，并更容易控制成本。

这个例子表明，有效阅读文献需要寻找看似不同的研究成果之间的内在联系。对各种有效方案背后的共同机制的学术回顾对决策者有很大的价值，因为这能将从看似不同的各种情境中概括出来的基本行为带回到讨论之中。这迥然不同于某些政策圈子推崇的元分析（meta-analysis）的新潮流。在传统上，元分析往往用于医学，仅对不同研究所发现的结果进行平均化处理。虽然这类元分析能够对一种特定类型的研究提供综述，但它无益于我们芝加哥的同事：将教材评估结果与研究其他投入（如椅子和书桌）的检验结果进行简单的平均化处理，而补习则被纳入另一组研究之中。元研究不可能从这两种研究中挖掘出理论联系，因为这两种研究虽然理论出发点相同，却在考察不同的干预措施。

06理解不同的情境

关注当地情境的人与做影响力评估的人经常被视为水火不容，但是这种看法是错误的。我们在进行影响力评估，并帮助政府将其经验教训融入政策的过程中，也对深入理解当地的情境满怀热情。普适化难题的核心在于需要认识到，我们必须将任何实际的政策问题拆分成多个维度：利用当地的制度知识和客观数据来解答问题的某些维度，而同时利用其他情境下的影响力评估证据来解答另外一些维度。

本文阐释的普适化框架提供了一个实用的方法来综合各类证据，以便评估特定政策是否可能在某种新情境下生效。如果研究人员和决策者继续将影响力评估结果视为一个黑匣子，也不聚焦于机制，那么基于证据决策的运动就将远远无法发挥其改善人类生活的潜力。

本文刊于《斯坦福社会创新评论》中文版02期作者：玛丽·安·贝慈（Mary Ann Bates），反贫困行动实验室副主任；拉切尔·格兰斯特（Rachel Glennerster），反贫困行动实验室执行董事

本期有奖互动

请在下方留言处

谈谈本文对你的最大启发。

我们将为优秀的留言者赠送SSIR中文版~

如果你对该议题感兴趣

欢迎扫码

添加福娃微信

加入我们的研学小组！

▼

“影响力评估”有十大误区，得时时反省

如何获得最多的客户反馈？这5个方法值得试试“

怎么给受助机构设KPI？这五大陷阱要留心

一把短刀，怎么就让他连捅18人？！

13岁工作的常务副县长，接连缺席官方活动

内塔尼亚胡喊话伊朗人民：我们是一伙的，哈梅内伊政权才是敌人

向杨大市长道歉

向不容妄议的杨市长道歉

复制“成功的模式”，是个技术活 | 测量与评估

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

13岁工作的常务副县长，接连缺席官方活动

内塔尼亚胡喊话伊朗人民：我们是一伙的，哈梅内伊政权才是敌人

向杨大市长道歉

向不容妄议的杨市长道歉

生成图片，分享到微信朋友圈

复制“成功的模式”，是个技术活 | 测量与评估

您可能也对以下帖子感兴趣