倡导类项目通常被视为难以量化和评估的“软性”活动,但在今天的文章中,作者结合过往的项目经验,给出了不同的观点:倡导类项目可以借鉴传统交付类项目的评估方法,但要兼顾一定的灵活度。作者以“新教师计划”为例,对项目产出、项目成果与评估工作之间的相关性进行了阐述,强调了评估对倡导类工作的重要作用。并在文章最后一节提出了一套适用于倡导类项目的评估方法,旨在帮助推动倡导类组织和资助者更好地理解、证明和改进评估工作。
插图:米克尔·亚索(Mikel Jaso)
2009 年,新教师计划(New Teacher Project, TNTP)——一家致力于促进有效教学的非营利组织,发布了一份名为“部件效应”(The Widget Effect)的报告。该报告主张应从多维度对教师能力进行评定,进而利用这些信息指导教师发展和人员配置决策。我们所代表的沃尔顿家族基金会(Walton Family Foundation)为该报告提供了资助。2009 年 6 月,《部件效应》发布后不久,美国教育部长阿恩·邓肯(Arne Duncan)在一次演讲中引用了该报告的内容,“这些政策在过去的一个世纪里是为了保护教师的权利而制定的,但它们却造成了一种工业化的教育模式,把所有的教师都当作可以置换的部件。TNTP 最近的一份报告发现,几乎所有教师的评级都是一样的。有谁能相信这点?我们需要共同努力改变这种状况。”这样一位重要策略制定者对报告的公开引用,为我们提供了明确而客观的证据,证明TNTP正在产生影响。
我们和 TNTP 以及其他组织的合作表明,我们可以采用合理可靠的方法来评估倡导类受资助方的有效性。我们发现,具有逻辑模型和多种绩效指标的评估策略,不仅适用于直接服务类项目,也适用于倡导类项目。
近年来,在传统服务交付项目之外,许多慈善组织将捐赠的范围延展到了倡导类项目。随着对倡导工作资助的增加,如何评估倡导组织的表现也引发了争论。一些讨论者认为,倡导工作发生在一个变化无常、复杂多样的环境中,因此主要依靠客观证据进行评估是不合适的。比如,史蒂夫·泰勒斯(Steve Teles)和马克·施密特(Mark Schmitt)就认为,“由于其中的特殊性,即使存在倡导类的最佳实践,也很难能通过为传统服务交付的那套复杂的评估方法来判定。因此,倡导评估应该被视为一种需要判断力和隐性知识的技能,而不是一种科学方法”。(详情请参阅SSIR 2011年夏季刊的《难以捉摸的倡导评估技术》)。从这个角度来看,倡导评估与其说是一门科学,不如说是一门艺术。
然而,我们的经验使我们得出了不同的结论。我们相信,对倡导工作进行严谨的、有据可循的评估是可行的,并且有相应的工具可以协助组织开展此类评估。衡量倡导团体是否达到了其目标以及如何实现其目标的工作并非一项“软”活动,而是——至少有可能是——一门需要依据可独立验证数据的“硬”学问。▍关于“教育”倡导的经验
沃尔顿家族基金会自2007年起,向TNTP提供了三笔大额资助,用于帮助其在贫困地区培养优秀教师,并倡导改善教育人力资源策略。TNTP就是在第一笔资金的支持下,完成了《部件效应》这份报告。那时,我们还没有一个正式的评估体系去衡量受资助者的倡导成效。但当我们在资助结束时,审核了TNTP的报告,我们察觉到了一个有些熟悉的模式。我们意识到,在资助TNTP之前,本可以与TNTP一起确定一个逻辑模型,将其倡导产出(开展的活动)与成果(预期的社会变化)联系起来。同理,这样就有可能设立一些基于客观证据的绩效指标。2009 年,当基金会向 TNTP 提供第二笔资助时,我们对 TNTP 将开展的活动及其负责人期望取得的成果表达了明确的预期。并与其负责人一同,制定了具体的绩效衡量标准,其既传达了“成功”的愿景,也提供了评估“成功”的模式。到 2011 年基金会提供第三笔资助时,TNTP 已经能够清晰地说明其倡导工作的产出和预期成果之间的因果关系。通过每一笔资助,我们逐步了解了如何建立倡导工作成效的衡量标准。2011年的赠款逻辑模型很直接:TNTP 在规定时间内,就师资质量问题撰写并发布一份研究报告【第二份报告的标题为“不可替代者”(The Irreplaceables)】。报告中,TNTP 呈现了反映该领域现状的证据,并依此得出结论。我们期望报告能在短期内提高公众对相关问题的关注,最终结果可以从媒体对研究及其结果的报道来衡量(成果1)。此外,随着时间的推移,我们希望能够看到大众积极参与报告的证据,这可以通过访问者从TNTP网站下载文件的次数来衡量(成果2)。像之前一样,TNTP 发布了报告,并与相关领域负责人作了汇报。邓肯也再次公开引用了该报告。这些活动皆有助于证明TNTP取得了我们所追求的成果。我们与 TNTP 合作的故事表明,对于受资助方来说,可以通过详细说明具体活动(如撰写和发布报告)以及如何产生预期影响(如影响策略制定者的想法,最终影响策略选择)来明晰项目推进计划,这是可行又有益的。这也表明,对倡导组织的评估可以建立在可独立验证的证据基础上。我们与被资助的倡导团队的合作也让我们学到了很重要的一课,即灵活性的必要性。例如,当 TNTP 的人员开始开展 "部件效应 "项目时,他们最初期望回答的基本问题是:为什么表现不佳的教师很少被替换?在跟踪数据的过程中,TNTP 团队的成员发现,这个问题的提出其实揭开了传统教师评价形式中更系统性的问题。这一发现促使他们改变了项目的重点、报告的目标受众以及他们最终建议的政策变革。调整计划的能力对于确保受资助方应对环境的变化至关重要。因此,绩效衡量系统应包括一些简便易行的方法,使受资助方有一定的空间去调整计划。不过,在大多数情况下,核心逻辑模型将保持不变;只有计划的细节会发生变化。▍评估模型
在沃尔顿家族基金会,我们已经对许多倡导类团队的表现进行过评估。我们的方法反映了一种需要去平衡的关系,即既要收集最佳的可用证据,又要减少对受资助方工作的干扰。我们发现,在大多数情况下,传统的社会科学评估方法:建立逻辑模型、衡量产出和结果、使用客观数据,仍适用于对倡导投资的评估。首先,我们会要求每个倡导项目在开始时设立一个明确的逻辑模型,将受资助方计划做的事情与计划取得的成果对应起来。设定这样的基准可以为赠款结束时的更严谨的评估奠定基础。我们认为,每个项目——无论是传统的服务交付项目还是倡导活动——都必须从“计划”开始。计划可以调整,但每个项目都要清楚地说明怎样实现变化以及会产生怎样的成果。接下来,受资助方要将产出和成果的描述转化为一套绩效衡量标准,其中需包含以下五项基本信息:通过正式的指标修正过程,我们的模型具备了足够的灵活性,允许受资助方在项目中途调整目标。此外,我们还在报告要求中加入了叙述性部分,以便获取有关一些背景相关的定性信息。但我们优先考虑通过绩效衡量过程收集的数据,因为这些信息最为可靠。叙述性材料有助于我们解释调查结果,但并不直接影响这些结果。在资助期结束时,倡导团队需要收集并报告一系列证据,以便我们能够根据逻辑模型对其绩效进行评估。我们认为,受资助方的报告对于正式评估过程及其内部绩效评估都至关重要。这些报告有助于受资助方不断衡量其进行倡导工作的情况。这样一来,评估不仅可以支持受资助方的问责制,帮助资助者提高投资回报,而且还可以促进组织学习。马克·J.霍利(Marc J. Holley)是沃尔顿家族基金会的评估部门主任。马修·J.卡尔(Matthew J. Carr)是沃尔顿家族基金会的高级研究员。明迪·海托尔·金(Mindy Hightower King)是印第安纳大学印第安纳残疾与社区研究所(Indiana Institute on Disability and Community at Indiana University)的评估经理。