查看原文
其他

5个步骤打造一个令人信服的影响力评估 | 测量与评估

SSIR 斯坦福社会创新评论 2021-09-05



许多组织对于他们的项目如何或为什么会产生效果并没有一个明确的、循证的想法,并且不同的组织对于影响力测量的含义也有不同的理解。

影响力评估可以分为五个阶段:1、变革理论;2、关键绩效指标;3、数据搜集与分析;4、准实验设计;5、随机对照实验。

一旦一个组织开始收集和分析数据,它就可以开始进行其影响力宣称。当组织止步于第三步时,这些宣称的力度仅限于相关性,但通常情况下,公布和理解相关性的变化足以加强组织的内部反馈回路,使资助者满意。




议题编辑:林夕、姚森议题顾问:汪伟楠作者:格温德林·雷诺兹、丽莎·C·考克斯、尼古拉斯·弗里茨、丹尼尔·哈德利、乔纳森·R·扎德拉翻译:孙铭伟校对:缪可言、齐菁博



你愿意在亚马逊上购买一件只有一条评论的商品吗?或者去一家在Yelp上只有五条评论的餐厅?也许会,但我们中的很多人会把这视作一种风险。评论越多,我们就会对产品或地点的质量越有信心。这是因为一条评论可能只是一个传闻,但50个、100个甚至1000条评论则成为数据。


▲我们看到的消费者的观点越多,往往就会对一个产品或地点的质量越有信心。


如果我们根据数据来决定买什么、在哪里吃饭,我们也应该用数据来决定如何分配资源以解决社会问题。但当然,虽然用数据来衡量一个项目的社会影响力听起来很简单,但如果我们误读了数据,或者对某一个数据点过度重视,我们可能会把钱浪费在无谓的努力上,而并不能作出真正的改变。


试想一个非营利组织与当地政府合作,以解决社区内流浪者的情境。如果非营利组织只关注个人故事,而不对长期以来它所服务的人数进行评估,当地政府将永远不知道无家可归者的服务需求是否在增加。更糟糕的是,组织将无法掌握数据,以了解社区内的无家可归问题是在改善还是在加剧;从而可能难以做出有效的资源规划。 


取得真正的社会进步意味着使用正确且大量的数据来评估结果,但即便是在影响力评估领域的专业人士当中,也存在着一些误解,也有很多注意事项需要注意。许多组织对于他们的项目如何或为什么会产生效果并没有一个明确的、循证的想法,并且不同的组织对于影响力测量的含义也有不同的理解。


尽管“相关性不等于因果关系”这句老话听起来很简单,但却是理解社会影响力相关阐述的重要因素之一。简单来说,相关性就是两件事之间的联系。尽管它(相关性)可能是一个有用的结论,但重要的是,要区分简单了解信息后产生的决策与基于证据的决策,(而不仅仅是观察到其中的相关性),在面对“成千上万的资金如何投放”、“如何选择弱势群体去支持”这些悬而未决的难题时,就更是如此。

 

1
影响力评估谱系

在做出资源分配的重要决策之前,组织需要首先明确项目的起点、预期目标以及达到目标的方式。

为了给这个过程提供支持,我们开发了一个工具——“影响力评估谱系”,这一谱系结构包含影响力评估的五个阶段,其横轴和纵轴分别是“困难程度”和“可信度”。

虽然第一阶段的评估(确定变革理论)可能比最高阶段(进行随机对照实验,即RCT)要容易得多,但变革理论本身并不能为评估实践提供很高的可信度。同时,与已经确定了关键绩效指标(KPI)并在收集数据的道路上进展顺利的组织相比,一个刚刚制定变革理论的组织实施RCT的难度要大得多。通过将这一过程分解为五个相继的目标,各组织可以采取更“细化”的方法来推进其评估工作。
 
▲参考评估谱系,可以帮助组织理解它们当前的评估实践处于哪一步,并列出后继步骤。(图片由索伦森影响力中心(Sorensen Impact Center)提供)

值得注意的是,一个组织的项目评估处于某一层次,通常都有一个合理的原因,如果是处于较低层次,通常并不是因为组织缺乏兴趣证明其项目有效性。移向更高层次需要时间与资源,二者对于很多组织来说都是稀缺的。另外值得注意的是,不一定总是要以最顶层的实验方法论作为目标。如果一个组织对其影响力不追求较高的可信度,简单地跟踪内部数据就能获得很多启示。

如果一个儿童启蒙教育机构的目标是监测儿童的成长过程,以便在课堂上确定最佳实践,那么它就不需要进行严格的对照研究。然而,如果一个寻求按业绩付费的幼儿教育机构,只有在证明自己的干预措施促成了儿童的进步时,才能获得报酬;这种情况下,组织就需要更高的信任度。
 

2
影响力评估的五个阶段

谱系的前三点——逻辑模型、核心绩效指标(KPI)选择、数据收集分析——在社会部门与在商业部门是等价的。它们并不只是实验性评估的先决条件,而是本身就具有价值。发展这三个领域有助于组织建立起强调数据和信息重要性的文化,做出明智的资源分配决策,通过目标导向的方式和反馈回路来推动绩效,并最终将其产生的信息作为战略资产。

▲如果一个启蒙计划提供者的目标是监测孩子们的发展进程,从而确定在教室层面的最佳实践方法,那么一个严谨的对照研究则不是必须的。(图片来自Adobe Stock)

谱系的后两个步骤是与评估相关的,并涉及到构建一个对照组。只有当有了一个对照组,或者是一个与现有客户类似但没有参与项目的客户群体,组织才能开始声明因果推断——也就是说,只有这时才能可信地宣称:项目导致了客户情况的变化,而不仅仅是与变化相关。

第一步变革理论

变革理论或逻辑模型,是一个组织做什么和为什么要做的基础。它应该回答以下问题。

1.你希望达到什么样的效果?
2.产生这种影响的机制是什么?3.如何知道什么时候达成了效果?

很多组织都会在第二个问题上犯错误。专注于一个项目究竟是如何运作的,即它的“有效成分”是什么,有助于为后面的阶段提供参考。

例如,一个专注于课后计划的组织所期望产生的影响可能是提高学校的成绩,但它可能会在“识别计划中的哪一部分导致了成绩提高”这一问题上遇到瓶颈。成绩的提高可能是因为受教育的时间增加,或是接触负面家庭环境的时间减少,甚至是由于父母现在可以在下午工作以获得更高工资、从而提供了更多或更好的饮食等等。

为了建立一个强有力的变革理论,组织必须思考每一种可能的机制,并考虑他们的项目预计(intend)如何实现影响。只有这样,他们才能定义适当的KPI、设定目标、收集数据、提供项目反馈,最终更有效地做出决策。变革理论还可以帮助组织与利益相关者有效地沟通:他们的项目是什么以及如何运作。


第二步关键绩效指标

许多社会项目的提供者都有一套必要的跟踪指标。跟踪指标通常是由资助者规定的,但这样由资助者规定的指标有时很难把重点放在关键的指标上。组织应该根据自己的变革理论来确定哪些指标真正重要,重点关注那些影响范围最广、对项目实施最有帮助、能提供最深刻的洞察力、能定义成功的指标;并且请记住,有时指标不是越多越好。

有些指标可能很难衡量,因为它们需要从组织外部获取数据。

例如,一个启蒙教育机构可能会发现,一旦孩子们进入幼儿园后,就很难收集他们的考试成绩数据。但是,一旦机构确定了一份“指标愿望清单”,就可以确定哪些是已经收集到的指标,哪些是在可能范围内的指标。一些现成的指标将成为“愿望清单”指标的基石或替代指标,包括简单的“计数”指标,如一个项目服务的人数或客户人口统计。如果“启蒙计划”希望衡量幼儿园准备情况,但无法获得学区数据,那么,一个替代的衡量标准是评估学生在 "启蒙计划 "之前一年和之后一年的幼儿园准备情况。
 
应该明确由谁来负责收集和分析每项指标的数据,他们需要哪些数据来衡量该指标,以及将把数据存储在哪里。每项指标还应该有一个或多个相关的目标,组织可以根据这些目标来衡量长期以来的进展情况。

例如,一个劳动力发展机构的目标是让一定比例的报名者完成它的项目,然后跟踪该项目的目标实现情况。那么,该项目应持续向内部利益相关者公布进展情况,并在规定的时间间隔进行正式审查,为计划决策提供参考。一个透明的过程将会向一线员工表明,他们花费宝贵的时间收集和分析的数据是重要的,从而有助于提高数据质量,建立一种重视信息和证据的文化。

第三步数据搜集与分析

各组织往往必须使用资助者或其他合作伙伴规定的特定数据收集系统来报告其方案,而该系统不允许它们审查输入的个人数据。

例如,有些州要求早期干预机构输入客户层面的调查数据,但不允许这些机构访问这些数据。州政府会给提供者一个总分,但没有提供足够的细节,让提供者知道他们是否提高了特定人群的调查分数。在这种情况下,组织应该建立一个替代系统,收集他们需要的数据。

▲谱系中的前三点自身有价值,它们有助于建立数据信息文化,配置资源,驱动战略。后两个步骤涉及构建对照组,只有这样组织才能够可信地宣称他们的项目导致了一种情况的改变,而不仅仅是与变化相关。(图像来自索伦森影响力中心
 
在收集外部数据方面,调查是最常用的方法,设计得好的调查会得到准确、有效、可靠的信息。要设计出一份经过深思熟虑的调查报告可能有一定的难度,但根据问题领域的不同,组织可以通过搜索谷歌学术(Google Scholar)来寻找经过验证的调查报告。

最后,组织如何使用和分析所收集的数据,对改进项目至关重要。收集时间序列数据(在不同的时间点上收集相同的数据)可以让他们研究项目如何随时间变化。

例如,如果一个 “启蒙计划”的幼儿园入学分数每年都在提高,这表明计划的结果正朝着正确的方向发展。人口统计学数据和调查结果可以让他们了解哪些群体相比于其他群体更受益于某项计划。如果解决无家可归问题的项目被发现主要服务于单身者而非家庭,那么项目提供者就可以决定是将其重点放置于单身群体,还是调整项目以更好地服务于家庭。相关性是一个有力的信号,可以表明一个项目正在朝着正确的方向发展,还是未达到预期效果而需要改变。

第四步准实验设计

许多组织会心安理得地止步于相关性数据,但倘若没有对照组,组织往往很难证明其方案是导致某一结果的原因。

当组织想要基于对照组来宣布因果推断,却不能随机分配接受与不接受干预的对象时,他们会进行模拟实验。由于种种原因,随机分配可能是不现实或不道德的,例如其中一种分配会给参与者带来更好结果的情况。我们不可能为了一个严谨的实验而拒绝为饥饿的家庭提供食物。除了随机分配,组织可以用多种方式找到与其客户相似的一组人。

一种方法是组织搜集自己客户的历史数据作为对照组,即以自己的客户为对照。

例如,一个劳动力发展组织如果想跟踪其项目对客户收入的影响,可以收集客户参加项目前一年的收入数据,然后将其与客户完成项目后一年的收入进行比较。这样做很多好处,对很多项目来说都是可行的。但是,如果随着时间的推移,有其他潜在因素也能够解释变化,比如经济状况的改变会影响收入,则不可能将这些外部因素从项目效果中剥离出来。
 
另一个方案是找到一个没有能够参与项目的类似人群。

例如,如果有500人申请了住房券,但某组织只有100张住房券可以发放,那么它可以收集那些获得住房券的人和没有获得住房券的人的数据,然后比较他们的结果。(注意,在资源有限的情况下,不向所有希望获得服务的人提供服务是不构成道德问题的)

各组织还可以利用他们已经收集到的数据来达到另一个目的。

例如,一个新的学前教育项目可以从其所在学区接收K-12(译者注:幼儿园至12年级)数据。然后,它可以将其学前班学生的学习成绩与整个学区的学前班学生成绩进行比较,同时尽可能地控制各种变量。

当一个组织无法进行随机对照实验(RCT)时,它所能宣称的影响力也有一些缺点和局限。我们很难完全解决众多需要考虑的问题,从而不能足够自信地宣称一个项目是导致客户结果发生改变的原因。但如果实施恰当,与更简单的相关性分析相比,这些方法仍会增加影响力评估的权重和可信度。

第五步随机对照实验



随机对照实验(RCT)一直被认为是“试图确定什么在起作用”时的黄金标准。科学研究使用它们已有65年以上的历史,它们使组织的影响力最为可信。例如,我们知道抗生素可以治疗细菌感染,就是因为20世纪进行的RCT研究。
 
如今,使用可复制的RCT评估社会项目已成为最佳实践。

例如,多个RCT表明,护士家访项目“护士-家庭合作项目”( Nurse-Family Partnership, NFP)可以减少儿童虐待和忽视,改善儿童的认知和行为结果。因此,越来越多的地方政府和州政府在自己的社区资助NFP项目。

设计一项RCT的关键在于:

1)每个参与者被分到实验组或对照组中的概率相等;

2)参与者被随机分配。


因此,虽然在实验组或者对照组中存在个体差异,这些差异是被随机分配的,从而不会造成组间差异。关键之处在于,项目在其他方面无差异地对待不同的组,并在相同的时间以相同的指标追踪这些组,以便于比较。


RCT的目的是为了弥补一些人所说的“因果推理的根本难题”。简单来说,在这个世界上,一个人不可能既做了某件事,又要观察倘若不做这件事会发生什么。RCT是我们能找到的最接近时光机的方法,它允许组织实施一个项目,并估计如果不做可能会发生什么。

阻碍组织进行RCT的最大障碍之一是成本,尤其是当一个项目处于早期阶段的时候。当组织有强烈的意愿或需要进行RCT时,有时可以与学术机构或专业评估人员合作,从头到尾设计和管理RCT。由外部人士进行评估,也可以向资助者保证评估结论是经过独立验证的。

3
有信心地宣称影响力

一旦一个组织开始收集和分析数据,它就可以开始进行其影响力宣称。当组织止步于第三步时,这些宣称的力度仅限于相关性,但通常情况下,公布和理解相关性的变化足以加强组织的内部反馈回路,使资助者满意。
 
后两步可以让组织对项目的影响进行因果性宣称,一旦前几步做好了,这两步就更容易完成了。有些社会项目不需要进行准实验或RCT,因为他们的项目已经或正在进行广泛的研究。(劳拉和约翰-阿诺德基金会的“严谨评估”倡议已经编制了一份详尽目录)。
 
在社会部门,影响力评估一直是一个包罗万象的短语,通常意味着使用容易获得的数据来提出深远的要求。由于对影响力评估的确切含义以及影响力评估所需的内容缺乏共识,许多组织没有设计和实施影响力评估项目的战略手册。了解这个谱系不仅为提供服务的组织带来好处,也有益于支持它们的资助者。此外,坚持要求受赠方到达评估谱系最远端的资助者需要提供资金以及其他方面的支持,以获取他们所期望的可信度。

作者:格温德林·雷诺兹(Gwendolyn Reynolds)是索伦森影响力中心(Sorenson Impact Center)的主任。她拥有犹他大学的学士学位和哈佛大学的神学研究硕士学位;
丽莎·C·考克斯(Lisa C. Cox)是索伦森影响力中心的传播经理。她拥有康奈尔大学的理科学士学位和哈佛大学推广研究专业的新闻硕士学位;
尼古拉斯·弗里茨(Nicholas Fritz)是索伦森影响力中心的主任。他拥有阿克伦大学的理科学士学位和犹他大学大卫-埃克尔斯商学院的MBA学位;
丹尼尔·哈德利(Daniel Hadley)是索伦森影响力中心的数据、政策和绩效创新的常务董事,他毕业于犹他大学和哈佛大学,在那里获得了城市规划硕士学位。他毕业于犹他大学和哈佛大学,获得城市规划硕士学位
乔纳森·R·扎德拉(Jonathan R. Zadra)是索伦森影响力中心的主任,负责数据、政策和绩效创新。他在弗吉尼亚大学完成了认知心理学的硕士和博士学位,并在圣地亚哥州立大学获得学士学位。





关联阅读


 


1. 创新的效果如何测量?善用不确定性 | 测量与评估


2. 小心“踩雷”!影响力评估的十个误区 | 深一度思考

3. 一个好的影响力评估要考虑哪些问题?| 深一度思考

4. 传统激励机制在社会创新领域不管用?试试“催化型测量” | 深一度思考

5. 2019诺贝尔经济学奖得主的扶贫行动实验室有怎样的新思路?



: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存