查看原文
其他

测量与评估:在复杂的世界里寻求清晰|文章合集

SSIR中文版 斯坦福社会创新评论 2024-03-12
“你这个东西能量化吗?”

或许每个在社会领域求知、工作的人都曾面对如上的天问。测量与评估(Measurement and Evaluation)能够帮助公共领域的从业者基于证据做出决策,推动社会进步;也可以成为商业组织衡量自身社会影响力的标尺,说明其在可持续发展中扮演的角色;在日常工作中,数字对于说明问题、说服伙伴、推动项目同样不可或缺。

在2020年和2022年,SSIR中文版曾经两次推出过“测量与评估”专题:第一次聚焦于社会创新与非营利部门【点击蓝字阅读相应文章推送,下同】,第二次则更多纳入了公共部门与市场部门的相关话题。此后,我们也持续编译了多篇与评估议题相关的文章。已有文章涵盖了影响力评估、ESG社会价值等多个领域,讨论了随机对照实验、消费者反馈、发展性评估等工具,也对实证主义本身提出了反思与思考。


“测量与评估”并非易事

对于社会部门来说,影响力评估对于决定资源的去向,赋能非优势群体,取得社会进步至关重要。然而,做这种评估并不容易。“影响力评估谱系”将影响力评估分为变革理论、关键绩效指标、数据搜集与分析、准实验设计和随机对照实验五个阶段,为从业者提供了可参考的工具。根据组织活动与成果之间因果关系的不确定性(causal uncertainty),以及组织“对获得长期成果所需的所有活动和条件”的控制能力(control over outcome),研究者建议组织采用不同的测‍量方法来管理变革进程。在影响力投资中,对影响力评估的结果与实际投资密切相关。在投资周期的四个不同阶段,投资人会根据不同的目标,使用不同的影响力测评方法这些方法包括预期收益法、变革理论方法、任务对标方法和实验和准实验方法。发展影响力债券将商业思维引入公共领域,投资者们“为结果付费”对结果的评估是以成为重中之重。尽管已有热钱涌向这个领域,对此类项目的测量面对重重困难、需要考虑诸多细节,需要人们审慎看待。

在商业领域,企业的可持续发展正在越来越受到重视,越来越多的企业加入到发布社会责任报告的行列中。尽管有全球报告倡议组织(GRI)等衡量企业可持续发展的有效工具,但推动企业开始做影响力评估是具有挑战性的。推动企业下定决心为可持续发展做出投入的几个可行的方式包括:意识到影响力评估对利益相关者的重要性;明确其用途;并利用其结果推动变化、考虑实现货币化。即使开始为可持续发展努力,企业的评估结果及其解释有时也不尽如人意


“测量与评估”不等于RCT

在方法论层次上,随着现代统计学的普及,“相关性并不等同于因果关系”成为常识。随机对照实验(RCTs)和从证据到决策(E2P)的实践和推广也开始成为测量与评估中的明星方法,在J-PAL实验室的不懈努力下,在抗贫困问题中取得了较优效果。J-PAL本身也在不断迭代,持续推动数据和证据被纳入政策制定议程,为全球的此类努力提供了最佳实践榜样。对照实验和证据决策的结果经过与在地情景的结合和合理、科学的普适化流程可以从本地推广到全球社区。

然而,量化方法对于组织建设有着较高的要求。组织是否有深层次的数据文化?在持续推动之前,记得后退一步,检查组织是否有在各个组织领域建立起对影响力的认识和准备。RCTs往往也要求高额成本、严格评估和标准化的结果。考虑到小型组织往往难以负担,“队列式评估能力建设”和“共享测量平台”或为一种解法

此外,与随机对照实验(RCTs)等定量方法相比,参与者反馈(participant feedback)通常被认为没那么“硬核”。然而,最新研究证明参与者反馈与实际结果之间有实证关联。这也包括了将消费者放在中心位置,直接收集和倾听来自客户的数据。调查问卷、访谈和焦点小组可以提供量化结果、原因和方法的解释,并突出因果联系、提供未来指标。

再后退一步,许多研究者已经指出,对量化一切的痴迷会带来问题


反思“测量与评估”:先问要不要,再问怎么做

首先,不是所有组织都需要评估影响力只有当评估可能让人们获得新知时,才应进行影响力评估。其次,影响力评估可能会落入无的放矢、未做就评、力不从心、无用之举等陷阱,在这些情景下,影响力评估并不适用。再次,尽管影响力评估可以提供关于实施哪些方案的宝贵证据,但评估的设置需要审慎:1)为设置KPI而设置KPI可能会导致毫无意义的衡量标准,2)对达不成KPI的恐惧可能阻碍人们去衡量工作中真正最重要的因素。建立合适的数据体系或许是更好的选择。最关键的是,我们需要审视RCTs等实证方法是否在预设一种思维模式,是为了证明我们想要证明的观点。许多情况下,讲好故事可能先于做好证明 

在统计学之外,对当前目标的审视和开放性的学习探索能让我们对测量和评估有更多想象。比如,当人们要求评估“标准化”时,社会影响力实践却往往颇为多样有学者尊重这种张力,希望寻求有限标准化,重视“标准化”与“多样性”的平衡。也有学者对现有的影响力评估体系提出反思,提出评估者应该是一个开发价值的共同学习者,并将影响力划分为参与、合作、具体行动和政策变化,重新想象有影响力的行动。有学者强调动态的影响力表现数据的重要性要求读者对那些不允许你评估动态表现的“影响力报告”保持警惕,关注透明的数据来源和清晰的结果数据。也有学者着眼于社会影响力的深度,并将企业视为数据使用者,进行影响力管理比起自上而下的影响力衡量标准,这种自下而上、以人为本的影响力观点是一种补充。

此外,证据和评估是关于过去的,而决策、行动则有关未来:“看着后视镜开车”是不明智的,现实并不能由对过往的线性推导进行预测和控制,因此评估可以尝试向前一步,深度涉入到项目开发和推进过程中,从一开始就与项目并肩作战,共同前进。发展性评估这样持续收集数据做反馈的策略,对于处于不确定性中的社会变革战略就至关重要。在复杂的“集合影响力”项目当中,综合、动态地将学习和评估无缝地整合到其工作任务中允许评估与项目齐头并进地发展,并利用评估结果为未来发展指明方向,或许是未来评估的方向。

而在最后,我们留待与读者共同思考的一个问题是, 对“测量与评估”追捧背后的意图是什么?假使是对确定性的追求和对“风险”、“失败”的回避,那么无论方法如何完善,投入如何增加,似乎也无法完全抚平那种底层的焦虑与不安。毕竟,正如上述许多文章中都有所提及的,要打破现状,尝试创新,就必须与“未知”共舞


撰文:陆一

编辑:刘水静



推荐阅读
往期回顾



继续滑动看下一个

测量与评估:在复杂的世界里寻求清晰|文章合集

SSIR中文版 斯坦福社会创新评论
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存