当进行田野政治学调查时有哪些注意事项？| 前沿综述

Trisha Phillips 比较中的政治研究

2024-11-13

编者按

受到生物医学研究中随机对照试验的启发，政治科学家们在政治科学研究中广泛采用随机对照的实验方法，以克服观察性研究和实验室实验的局限性。在以American Political Science Review为代表的政治科学顶刊中，我们观察到采用实地实验（field experiments）方法的研究呈现明显的上升的趋势。

实际上，我国学界自新世纪以来就存在以费孝通先生《乡土中国》命名的扎根乡村研究的学者群体。近年来更是在政治学共同体中更是产生了“田野政治学”学派，着力关注乡村治理，并以此发展具有中国研究风格的政治理论。

基于此，我们编译了本篇前沿综述，希望能够对国内田野政治中的研究方法和研究伦理有所助益。毕竟，对于学术研究而言，研究方法和伦理是学者们应当秉持的共同价值。

当进行田野政治学调查时

我们要注意些什么？

（原标题为：《现场实验研究的伦理（Ethics of Field Experiments）》，现标题为译者所拟）

作者：

Trisha Phillips，West Virginia University

译者：

焦磊，山东大学

引文格式（MLA）：

Phillips, Trisha. “Ethics of Field Experiments.” Annual Review of Political Science, vol. 24, no. 1, 2021, pp. 277–300.

内容提要

政治科学家越来越多地进行现场实验，这些实验引发的伦理问题，现行的标准审查标准和程序难以妥善应对。现场实验能够解答重要问题，但同时也可能对个人、社区和政治过程造成各种伤害，削弱自主性，引入带来复杂责任问题的合作关系，并损害公众对该学科的信任。本文在适当的情况下回顾了已发表的实证和理论研究、专业指南以及媒体报道、博客文章和其他来源。文章描述了当前领域在识别伦理问题、相关规范指导、提出管理伦理关切的策略以及未来问题方面的现状。结论认为，该学科在制定坚实规范和策略以确保现场实验伦理实施方面取得了良好进展。然而，仍有许多工作要做，包括细化和完善现有指导，解决遗留问题以及推广规范。这篇综述以对开展政治科学现场实验的研究人员提供一些一般性建议作为结束。

关键词

现场实验；伦理；人类受试者；自主权；同意；机构审查委员会（IRBs）

一、引言

在过去的二十年中，政治科学家越来越多地采用现场实验（field experiments）来解答不同环境和区域中的各种研究问题。与其他研究方法不同，现场实验通常涉及对人们生活的直接干预，这可能会引发新的伦理问题，而现行的标准审查标准和程序往往对此难以妥善应对。例如，研究人员是否应关注改变选举结果的问题？研究人员是否应当考虑随机向有需要的人提供服务带来的伦理影响？对于通过虚假暗示可能带来好处的方式来招募受试者的欺骗性研究，研究人员是否应感到忧虑？最后，关于设计和实施现场实验相关的伦理问题，研究人员应该从何处寻求指导呢？

本文回顾了已发表的关于现场实验伦理问题的实证与理论研究、近期获得批准的《人类受试者研究原则与指南》（APSA 2020），以及适当的媒体报道、博客文章、通讯和其他资料，以全面展现当前公开论坛上正在发生的讨论情况。第二部分简要介绍了现场实验的基本概念；第三部分提出了与伤害、益处、自主性、合作关系及专业精神相关的伦理问题；第四部分探讨了机构审查委员会（IRBs）、贝尔蒙报告以及治理与政治证据（EGAP）作为规范性指导来源的角色；第五部分提供了额外的论点、建议和管理伦理关切的策略；第六部分介绍了美国政治科学协会（APSA）最近批准的《人类受试者研究原则与指南》；第七部分指出了规范推广、最低风险、研究特殊主义以及剥削等重要议题，尽管这些议题已被提及，但尚未得到持续的关注。本综述表明，该学科在制定坚实规范和策略确保现场实验伦理实施方面取得了良好进展。然而，仍有许多工作要做，包括细化和完善现有指导和策略，解决遗留问题以及推广规范。最后，本文以对开展政治科学现场实验的研究人员提供一些一般性建议作为结束。

二、现场实验（Field Experiments）

受到生物医学研究中随机对照试验（randomized controlled trials，RCTs）成功的启发，政治科学家现在正在实地研究中采用RCTs，以克服观察性研究和实验室实验的局限性（Gerber 2011）。这意味着在真实世界环境中工作的政治科学研究人员将受试者随机分配到治疗组或对照组，然后根据特定的结果指标进行比较。这些试验的随机设计及其估计因果效应的能力使其相比于观察性实地研究更具吸引力，而它们的真实环境设置以及潜在的可推广性则使它们相较于实验室实验更具吸引力。这种对内部效度和外部效度的可能性使得现场实验在许多研究领域成为“金标准”（Banerjee & Duflo 2017a）。

现场实验如今广泛应用于政治行为、歧视与腐败以及项目评估的研究中。然而，其使用不仅限于这三个主题，政治科学家几乎在所有研究领域都采用了现场实验。尽管现场实验具有一些共同特征，但在研究问题、环境设定、受试者选择、干预性质、结果衡量指标以及对个体和社区影响等方面可能存在差异。研究人员可以单独进行实验，也可以与合作伙伴一起；合作伙伴可以包括政府机构、非政府组织（NGOs）、政党及竞选活动等；而研究者的参与程度则取决于合作关系的具体条款。

对于现场实验的优点、缺点及其实际和潜在应用的更广泛讨论，请参阅Banerjee & Duflo（2017b）、Druckman等人（2011）以及Gerber & Green（2012）。本篇综述专注于由政治科学领域现场实验引发的伦理问题。

三、伦理问题的识别

对现场实验中伦理问题的识别来源于多种途径，包括新闻媒体、期刊、博客文章、通讯以及委托报告，还有学术论文、章节和书籍。这些资源共同揭示了实际存在的问题投诉，对实际实验存在问题特征的观察（即使在没有报道过投诉的情况下），以及基于常见实验设计和环境对潜在问题的认识。值得注意的是，在学术性地介绍实验研究时，并未常规性地报告预先和事后发现的伦理问题。

目前，在讨论与现场实验相关的伦理问题时，似乎还没有统一的术语或分类体系。本篇综述将经常提到的问题归纳为以下六个类别：伤害、利益、风险/收益比、自主权、合作关系和专业精神。在识别问题时，本综述考虑到了受试者和非受试者、个体和群体、直接效应和间接效应、即时效应和下游效应，以及来自研究过程和研究结果的影响（Humphreys 2011, King 2000, Zimmerman 2016）。受试者包括治疗组和对照组；非受试者是指未参与研究的个人和社区，包括计数员和其他研究团队成员、合作伙伴以及整个专业领域。直接效应与干预措施相关联，而间接效应（也称为附带效应）则与参与研究有关。例如，在某些实验室研究中，学分可以是参与研究的间接好处；停车费用则可能成为间接的负面影响。即时效应与研究几乎是同时发生的，而下游效应则是时间延迟的，有时显著滞后。过程效应与研究实施相关，结果效应则与研究发现的传播相关。

（一）伤害 Harms

与现场实验相关的伤害清单冗长且范围广泛。除了极少数的物理伤害外，还包括心理、社会和经济方面的伤害；作为行为导致的伤害以及不作为导致的伤害；针对受试者及非受试者的个体和群体伤害；因干扰社会和政治进程产生的伤害；以及研究结果带来的伤害。本部分将这些伤害分为四个类别进行介绍：干预措施、被排除在干预之外、社会与政治进程以及研究结果。最后将讨论关于规范模糊性这一贯穿全局的问题。

1. 干预措施（Intervention harms）。第一类伤害涉及到干预措施的实施。这些包括作为行为导致的直接物理伤害，例如在内罗毕贫民窟因断水服务造成的健康相关伤害（Coville et.al 2020）；以及直接心理伤害，如社会羞辱邮件中发出的威胁，或者包含身份启动和外群体威胁信息引发的恐惧感。例如，Morton & Rogers（2016）和Nielson（2016）讨论了测量宗教虔诚度、操纵宗教信仰或要求参与者违反文化或宗教规范的研究活动所引起的焦虑和痛苦。这一类别还包括直接经济伤害，如机会成本。例如，Gelman（2010）抱怨称，在被一项通信研究欺骗并改变日程以与（虚构的）学生会面时，他遭受了经济损失。对此，一些人回应表示他们也有类似的投诉，比如研究活动打断了工作流程并导致生产力损失。事实上，许多研究在未经同意的情况下消耗了私人或公共资源，当参与研究需要员工从与其工作任务相关的活动中转移注意力时。正如Nathan & White（2021）指出，对基层官员进行实验可能会带来风险，即“将稀缺的行政时间和资源从真正的选民身上转移开”。在某些情况下，这些机会成本可以量化，甚至货币化（Landgrave 2020, Nathan & White 2021, Slough 2018）。Slough（2018）记录了她在哥伦比亚社会福利项目研究中的电话访谈时间，并报告称干预措施耗费了官僚们200小时的时间，估计直接劳动力成本为$2,644。Gelman（2010）开玩笑地声称，欺骗性的通信研究消耗了价值$63,000的资源，但Desposato（2021）指出，有些欺骗性研究涉及的大样本量使得即使占用每位受试者15分钟的时间也可能造成相当于几个月全职工作和巨额直接劳动力成本的“总体伤害”。

此外，本类别还涵盖了间接的物理、心理、社会和经济伤害。Desposato（2016b）指出，在某些环境下，关于政治或宗教行为的研究可能给受试者和计数员带来报复性暴力的风险；Lagunes & Seim（2021）提到有关腐败研究存在类似的风险。Teele（2014）提出了关于社会工程学实验可能导致无意间产生的物理、心理和社会伤害的关注，例如针对低收入和中等收入国家女性设计的有针对性的小额信贷以增强其权能。此外，还有担忧认为，欺骗性研究可能会在未告知或未经个体或群体同意的情况下将其纳入研究，从而带来与心理及社会伤害相关的风险（参见第3.4节）。

2. 被排除在干预之外（Exclusion harms）。第二类伤害关注与拒绝提供（假设）有益干预措施相关的伤害。有时也被称为“随机化问题”（Baele 2013）或“排除伦理”（Dionne et. al，2016），这一类别包括对对照组受试者的直接忽视性伤害以及对其他受试者、非受试者、社区和研究团队的间接伤害。当从原本应获得有益治疗的个体或群体中撤回这种治疗时，对照组中的受试者可能会遭受直接的忽视性伤害。例子包括可用于指导政治候选人选择的信息、为面临无家可归风险的家庭提供的经济援助、鼓励公共卫生行为的现金激励，以及社区获取安全饮用水的机会。

“这些研究已导致了实实在在的人力成本——有些受试者没有得到福利补贴，一些村庄没有设立健康诊所，还有些地方没有得到清洁水源。几乎可以肯定，在某些政治科学现场实验中，控制组村庄里有人因未能接受治疗而死亡——尽管他们从未同意将医疗服务或清洁水源随机分配。而在我们为自己的研究成果在会议上受到热烈欢迎之时，我们的受试者仍然不知道他们是受试者，也不知道为何他们没有得到健康诊所，他们只知道他们的孩子生病了，却无处求助。”（Desposato 2016b, p.14）

对照组受试者还可能遭受间接伤害，如当物品不平等分配时产生的羞耻感、嫉妒感或不公平感，以及其他心理、社会或经济方面的伤害。正如Carlson（2020, p.92）所指出，“多项研究发现，现金转移会减少对照组受试者的福祉，因为现金转移会导致当地食品和其他必需品价格出现通胀。”同时，治疗组中的受试者（连同计数员和村长）也可能遭受报复性暴力及其他心理和社会伤害（McDermott & Hatemi 2020）。Dionne及其同事（2016）报告称，在马拉维进行涉及现金转移和现金激励的研究期间发生了多起威胁及暴力行为事件。

3. 社会与政治进程（Social and political harms）。第三类伤害关注与干预社会和政治进程相关的损害。这些包括违反社会和法律规范的活动，以及改变政治进程本质或结果的活动。例如，某些干预措施要求研究助手或同谋者违反法律或引诱受试者向官员行贿；其他干预可能会煽动种族敌意或将党派政治引入非党派选举中（Johnson 2018, Lagunes & Seim 2021, McDermott & Hatemi 2020, Pan 2021）。旨在改变选民行为的干预可能会影响个人是否投票以及为谁投票，进而影响候选人之间的票数分配、选举结果、当选官员的行为，甚至公共商品和服务的分配（Gubler & Selway 2016, Zimmerman 2016）。这一类别还包括与“外部势力对本地政治的介入”相关的损害（Baele 2013），即来自富裕机构且预算相对较大的研究人员干预外国的政治进程。这些干预的程序相关滞后效应可能导致赢家和输家的产生，并对个体和群体造成损害。它们还可能对整个社区造成损害，这一点在蒙大拿州公民和公职人员得知研究人员在州最高法院席位选举期间进行了实验后被明确表达出来（Johnson 2018, Willis 2014）。

4. 研究结果（Outcome harms）。这一类别关注与研究结果及其发现传播相关的损害。对特定群体或社区的政治或社会污名化便是结果性危害的例子。Gubler和Selway在2016年指出，当研究者从某些群体而非全国样本中选取研究对象时，其研究结果可能不具备普适性，这反过来可能会对其研究对象造成伤害。例如，在他们关于种姓偏见的研究中仅从低种姓群体中抽样，存在这样的风险：上层种姓可能会利用他们的研究成果作为证据，声称“种姓偏见仅仅是下层种姓的现象”（Gubler & Selway, 2016, p.177）。

5. 规范模糊性（Normative ambiguity）。我们所称的一些效应在道德上具有模糊性，这意味着某种后果是否确实构成伤害将取决于所采用的规范性分析理论（Desposato 2016a）。与实地实验相关的危害识别中至少存在三个规范性模糊性的来源：冲突的价值观理论、描述性基准与规范性基准以及错误性伤害与非错误性伤害。

缺乏客观价值理论可能导致难以确定某些结果是否构成伤害（McDermott & Hatemi 2020）。例如，如果实验干预鼓励受试者改变育儿方式或宗教信仰，那么这些结果是否为伤害将取决于人们对特定家庭结构或宗教赋予的相对价值（Gerber & Green 2012）。

第二个模糊性来源是基准的本质。为了确定某个后果是否为伤害，需要有一个用于衡量福利的参照基准，通常这个基准是一种常识性的正常、自然或预期事件进程（Nozick 1969）。然而，在棘手的情况下，可能出现两种不同的基准：预测事件进程（描述性基准）和道德要求的事件进程（规范性基准）（Nozick 1969）。在某些情况下，诸如不给予利益的行为会相对于一个基准造成伤害，而相对于另一个基准则不会。比如，如果一家非政府组织计划实施一项为儿童提供校服的项目，并且研究设计引入了随机化，则有两种不同的基准可以用来评估伤害。描述性基准是指所有符合条件的儿童都获得校服，因为这是预测的事件进程；规范性基准则是指儿童没有得到校服，因为该非政府组织并无道义上的义务提供校服。当以描述性基准来衡量时，由于随机化，学童受到了伤害；而以规范性基准衡量时，则认为他们并未受到伤害。选择基准（这类似于Nickerson & Hyde 2016提到的“相关反事实”）对于判断研究的伦理至关重要（Phillips 2021）。

第三个规范性模糊性的来源来自于侵犯个人权利的伤害（错误性伤害）与未侵犯个人权利的伤害（非错误性伤害）之间的区别（Desposato 2021, Feinberg 1984）。道德和法律系统通常关注前者而非后者，也就是说，当一个人在竞争中胜过他人、说出痛苦的事实或者给予应得的惩罚时，我们通常并不认为他们在道德或法律上有任何过错。公众官员因贪污或歧视行为被揭露而受到伤害的想法并不会让普通公民感到困扰。然而，研究往往遵循一种不同的标准，即使非错误性伤害也应尽力避免。例如，研究者在与违法的受试者合作时普遍认为严格保密非常重要，而且，即使惩罚是应得的，研究者也不应该在逮捕、定罪或惩罚研究受试者过程中起到因果作用。这种推理方法是否及如何延伸到实地实验将决定哪些非错误性伤害应当被认识并避免或减轻。

（二）利益 Benefits

实地实验既能产生与过程相关的好处，也能带来与结果相关的好处。许多研究实施的干预措施能为受试者和其他方提供即时和长远的利益；同时，许多研究产生了有关社会和政治问题的存在以及促进社会、政治、经济和健康相关商品和服务的有效策略的宝贵信息。事实上，研究者越来越多地转向实地实验，因为它们能为重要问题提供良好的答案，并且Banerjee, Duflo和Kremer使用实地实验解决全球贫困问题而荣获2019年诺贝尔经济学奖。

在伦理讨论的背景下，认为实地实验为重要问题提供了良好答案的观点受到了学者们的挑战，他们对研究发现的质量及问题的重要性提出了疑虑。关于研究发现的质量，Humphreys（2015）关注事后分析和分析透明度问题，并重申了对实验设计预注册的要求。Carlson（2020）、Baele（2013）、Desposato（2016a）和Deaton （2020）对研究发现的有效性、普适性和实用性提出质疑。Carlson（2020）特别担忧当研究者测试行为理论时存在的混淆因素，或者研究者并非来自研究区域，对系统及其参与者了解不足，无法有效隔离各种因素的情况。Baele（2013）和Desposato（2016a）关注研究发现的普适性，特别是在项目评估中，结论可能“高度依赖于特定情境，难以从局部策略简单外推到针对特定问题的全局战略” （Baele 2013, p.13）。Deaton（2020）则关注研究发现的实际效用、实施过程中的复杂因素以及从证据转化为政策的混乱状况。

关于研究发现的重要性，多位学者指出，政治科学领域在内部和外部对价值的认识上并不像其他学科那样具有高水平的一致性（Carlson 2020, Desposato 2018, Humphreys 2011, Whitfield 2019）。例如，虽然生物医学研究人员和公众一致认为健康是好的，疾病是坏的，但政治科学“并没有一个同样强烈且无争议的共识道德目标来指导我们的研究”（Whitfield 2019, p. 530）。Desposato（2018）发现，这种规范上的模糊性在研究发现中也得到了公众的共享，公众并不认为所有（通过实验生成的）知识都具有同等的价值。

（三）风险/收益比 Risk/Benefit Ratio

在许多方面，评估伤害风险与潜在利益之间的问题其实是识别伤害和利益问题的延伸。具体来说，过分高估利益可能导致风险变得不正当。例如，如果关于有效性的、普适性的、实用性的或规范价值的关注使我们对研究带来的利益产生疑问，那么该研究的风险可能就无法得到合理化（Carlson 2020, Desposato 2018, Humphreys 2011）。实际上，Desposato（2018）的一项公众意见调查显示，公众认为针对歧视的研究比针对沟通的研究具有更多的规范性价值，这意味着即使这些研究给受试者带来了相同程度的风险，调查受访者还是认为歧视研究比沟通研究更可接受。鉴于实地实验往往比其他方法承载着更大的伤害风险，Baele（2013）和 Deaton（2020）认为，为了使边际风险得到合理化，实地实验的边际效益必须特别明确。

同样地，低估风险可能意味着利益不足以证明研究的合理性。比如，如果研究人员未能充分预见或重视参与研究所带来的心理或经济上的伤害，或者研究对非受试者的影响，那么利益可能不足以抵消风险。很可能研究人员并未预见到他们在歧视领域进行的欺骗性研究会如此困扰受试者，以至于像Gelman（2010）这样的受试者会抱怨并为实验造成的伤害估算出63,000美元的成本。为了确保实验伦理性，风险/收益比例需要反映全面的风险分析。

风险/收益评估进一步受到偏见以及相关可比较性问题的复杂化（Findley et al. 2016, Humphreys 2015）。研究者或学科内部的偏见可能会夸大对利益的认知，缩小对风险的认知，或者两者皆有。另外，鉴于各种不同的风险和利益以及多样化的受益方，政治科学研究面临着尤为困难的可比较性和相对价值问题。在生物医学研究中，伤害和利益通常以与发病率和死亡率相关的可识别单位来衡量，但在许多政治科学实地实验案例中，对于伤害和利益的价值评估缺乏一致认可的标准。这种不清晰性使得比较变得困难，尤其容易受到研究者偏见的影响。

（四）自主权 Autonomy

在实地实验中出现的第四类问题涵盖了研究人员未能充分尊重直接和间接参与研究的人们的自主权的各种方式。一般来说，个人自主权是个体自我决定的能力，包括根据自我选择的计划做出决策并采取行动（Beauchamp & Childress 2019）。当研究人员在未经知情同意或自愿同意的情况下招募受试者时（Teele 2014），或者当他们在受试者生活的其他方面不适当地干扰其决策过程时，就构成了对自主权的侵犯。在实地实验的背景下，这包括在招募过程中使用的欺骗和强迫手段，以及在干预措施中进行的操纵或强迫行为。例如，在未充分告知受试者真实目的或潜在风险的情况下让他们参与研究，或者通过不正当手段促使受试者接受某种干预措施，这些都可能违反受试者的自主权原则。

1. 招募实践（Recruiting practices）。欺骗性招募做法包括未能告知（或故意误导）参与者关于研究的某些要素，如研究目的、干预措施、风险，甚至在某些情况下，对研究本身的信息不实。这意味着个体无法获取决定是否为特定项目和目标作出贡献、是否经历某种情况或是否愿意成为研究对象所需的信息。重要的是，在实地实验中进行的欺骗与实验室实验中的欺骗有所不同。在实验室实验中，受试者同意参与研究并知道他们正在参与一项研究，尽管他们可能对干预性质或研究目的存在误解。而在某些实地实验中，受试者并未同意参与，且可能永远不知道自己成为了研究对象。

在一些案例中，干预措施较温和且分散（例如，接触到路边广告牌或听到广播广告）；在其他案例中，干预措施更为直接而深入（例如，向个人住宅邮寄材料或发送有针对性的电子邮件）；还有一些情况下，干预措施会对个体的经历或机会产生实质性影响。在某些案例中，干预措施错误地暗示了潜在的好处（例如，招聘研究生或客户）（Desposato 2016a）。当然，部分研究人员确实从其受试者那里获得了知情和自愿的同意，也有其他研究人员采用了修改后的程序（见下文第5.3节），但许多研究人员似乎并没有采取任何事前或事后活动来尊重参与者的自主权。文献中提到的原因包括实用性方面的担忧（例如，获取所有可能经过路边广告牌或听到广播广告的人的同意）、有效性方面的担忧（例如，社会期望偏差和霍桑效应）、立场问题（研究人员应向谁寻求同意？），以及与合作伙伴共同开展的研究（在某些情况下，不同意合作伙伴的干预措施“可能不属于受试者的权利范围”）（Humphreys 2015, p.104）。

强制性招募做法包括拒绝提供原本人们可以享有的好处，然后以参与研究作为获得这种好处的交换条件（Phillips 2021）。这自然引出了在评估伤害时规范性基准与描述性基准之间有趣的问题（参见上文第3.1节），但当人们本应在正常情况下获得的好处现在取决于是否参与研究项目时，他们的抱怨是合理的。理论上，这种情况可以在任何环境下、针对任何类型的研究发生，但在公共政策和项目评估研究中更可能发生。例如，纽约市无家可归者服务部授权一项研究来评估一项财务援助计划的有效性时，面临无家可归风险的家庭被邀请参加随机对照试验（RCT）（Rolston et al. 2013, p.3）：“在申请人确定符合Homebase CP服务资格后，他们将有机会提供知情同意。参与研究是自愿的；但是，如果申请者选择不给予同意，他们在研究注册期间将不具备接受Homebase CP服务的资格。”尽管研究团队声称这项研究的同意是自愿的，但这一说法是有争议的，因为如果潜在受试者选择不参与，他们会遭受损害。

2. 干预措施（treatments）。除了招募实践之外，研究人员有时在实施操纵性或强制性干预措施时未能尊重参与者的自主权。某些干预措施通过向个人提供关于候选人、服务和行动方案的可用性和特性的信息来增强其做出理性决策的能力；而其他一些干预措施则通过提供虚假信息、激发恐惧或威胁伤害的方式削弱了个人进行理性决策的能力。例如，包含虚假或不完整信息的选举传单、身份暗示和对外群体威胁的恐惧以及社交羞辱的威胁都是操纵性和强制性的，这些都会损害接收者进行理性决策或按照自我选择计划行事的能力。

（五）合作关系 Partnerships

许多实地实验是与政府机构或非政府组织合作进行的，这些合作关系的条款、合作伙伴的地位以及要研究的干预措施性质可能会为实地实验带来额外的伦理问题。

关于合作关系的条款，一方面，人们担忧研究人员可能会在合作伙伴对研究风险（尤其是研究结果可能产生模糊甚至不利结果的风险）没有充分理解时利用他们（Humphreys 2015）。另一方面，有人担心来自合作伙伴的慷慨支持可能会引入利益冲突，并通常损害研究的完整性。

另一个关注点是研究人员在干预措施和实验设计中所扮演的角色及其应承担的责任程度（Baele 2013, Humphreys 2015, Nickerson & Hyde 2016）。如果研究设计导致了伤害，则研究人员是否承担责任以及承担责任的程度至关重要。同样地，如果研究设计以某种方式修改了干预措施从而引入了伤害，则研究人员对于这种修改是否承担责任以及承担责任的程度也十分重要。能够解决或加剧这些问题的因素包括合作伙伴的地位（例如，人权组织与独裁政权之间的差异）以及干预措施对于合作伙伴的合法性（例如，教育项目与监狱中的单独禁闭）。这些因素各自或共同作用，可能会给与合作伙伴一起进行实地实验的研究人员造成严重的共谋问题。

（六）专业精神 Professionalism

最后一类问题涉及普遍关注的某些实地实验类型、特征或后果可能削弱政治科学家、合作伙伴与公众之间的善意和信任（Desposato 2018, Humphreys 2015, Zechmeister 2016）。如果研究人员不注意考虑实地实验的伦理问题，且学科界不认真对待他人的顾虑，那么受试者、研究地社区和合作伙伴可能会变得不适合或者不愿意与研究人员合作，而公众也可能不再信任政治科学家能够遵守道德规范行事。

一些研究者对受试群体的恰当管理表示担忧，特别是关于污染或干扰的问题（Landgrave 2020, Nathan & White 2021）。例如，在讨论欺骗问题时，Landgrave（2020, p.501）指出，“精英群体作为受试者的资源是共享的，我们作为一个学科必须学会合理分享，否则不仅会危害到我们自己，还会对未来的研究者造成损失。”除了作为研究对象的适宜性外，如果个人、社区和合作伙伴不再信任研究人员能以合乎伦理的方式对待他们，他们可能也会变得不愿与研究人员合作（Wilson & Hunter 2010）。公共信任是一种模糊的利好，难以明确其具体表现形式、衡量标准，甚至在它丧失的时候也很难察觉。在某些情况下，信任流失的迹象显而易见，例如公职人员因受到欺骗性研究而感到烦恼或疲惫（Landgrave 2020）。在其他情况下，社区会感觉到保护自己的必要性，并为研究人员制定自己的行为准则，比如南非南部的桑人（Schroeder et al. 2019）。而在另外一些情况下，公众信任几乎完全丧失的情况则十分明显（如非洲裔美国人与医疗保健系统的关系）。学术界并非一个反应敏捷的实体，对于变化不会迅速作出回应，因此，一旦公众对实地实验的可接受度失去信任，结果可能是重大的并且难以逆转。

四、规范指南的来源

本文回顾的文献表明，学者们经常参考IRBs（机构审查委员会）和贝尔蒙特报告来寻求规范性指导，但在面对实地实验引发的许多伦理问题时，他们对这些机制无法提供具体答案的现象越来越感到沮丧。EGAP（实验全球与应用政治研究中心）也提出了“可靠且合乎伦理的研究”原则（EGAP 2011），但这些原则并不常被引用，并且在很多问题上并未提供实质性的指导。

（一）机构审查委员会（Institutional Review Boards）

本文回顾的许多文章都讨论了IRBs（机构审查委员会）以及IRB的标准和程序在确保实地实验伦理性方面的不足。本综述假定读者对人类受试者研究的历史、贝尔蒙特报告、IRBs以及美国“通用规则”45CFR46有基本了解（对于不熟悉这些内容的读者，建议参阅Morton & Williams（2010）和Yanow & Schwartz-Shea（2016）的相关文献）。

1. 标准问题（Criteria concerns）。许多学者认为（其中一位甚至在美国国会作证），IRB用来审查研究的标准特别不适合政治科学研究（Hauck 2008）。由于这些标准是为审查生物医学研究而制定的，随后未经修订就被扩展到社会科学、行为科学和经济科学领域，因此可能导致IRB成员在不存在风险的地方看到风险，在确实存在风险的地方忽视风险，并通过要求遵守IRB规则来创造风险（Michelson 2016; Yanow & Schwartz-Shea 2016; Zechmeister 2016）。例如，Zechmeister（2016）报道了一个案例，一个IRB认为向受试者支付报酬具有强制性，即使根据汇率知识和当地文化判断，该报酬仅相当于一罐汽水的价值。Driscoll（2016）、Michelson（2016）、Zechmeister（2016）和Zimmerman（2016）均指出，IRB成员可能并不具备选举法或当地政治、宗教、文化背景方面的专业知识。例如，即使上述提到的蒙大拿州研究中的邮件传单曾被IRB审查过，他们也很可能会忽视传单违反了州法律，对已经因“黑钱”问题而感到困扰的公民构成了伤害风险的事实。Yanow & Schwartz-Shea（2016）担忧，IRB对于法律文件通常采取的僵化处理方式可能会增加原本可以通过匿名参与但因签署知情同意书而暴露身份的受试者的风险。

2. 过程问题（Process concerns）。许多学者担忧IRB审查流程可能会在研究伦理方面造成一种虚假的安全感（Driscoll 2016, Fujii 2012, Michelson 2016, Yanow & Schwartz-Shea 2016, Zechmeister 2016）。例如，研究人员可能认为其研究是合乎伦理的，因为IRB已经对其研究进行了审核和批准。或者，研究者可能认为，由于某项研究被归类为免于IRB审查，因此它不可能存在伦理问题。然而，鉴于上述提及的用于IRB审查标准的不足之处，这样的结论是没有根据的。更糟糕的是，这种对IRB流程的错误依赖可能会普遍阻碍学科界，特别是个别研究人员去考虑其研究的伦理层面（Michelson 2016, Yanow & Schwartz-Shea 2016, Zechmeister 2016）。最后，IRB审查过程中经常出现的僵化流程和分类制度产生了“规避策略”和“IRB洗白”现象的机会与动机（Grimmelman 2015），这些策略利用了一个原本并未设计用来审查与合作伙伴共同进行的研究的系统。

King & Sands（2015, p.10）建议在设有IRB机构工作的研究人员遵守IRB流程和规则，因为“这些规则不仅是为了保护人类受试者，也是为了保护研究人员”。他们指出，大学拥有一套旨在保护研究人员的基础设施，但为了充分利用这套体系，研究人员需要与适当的大学官员合作，“提出方案、获得批准，并按照规划执行”（King & Sands 2015, p. 4）。此外，IRB有时也能提供帮助。根据最近的一项针对美国政治科学学会成员的调查，许多受访者（96%）认为IRB是一个获取伦理问题指导的好资源，一些受访者（30%）发现IRB的反馈是有用的，甚至有部分受访者（12%）表示他们的研究伦理理解通过IRB流程得到了提升（Beach & Phillips 2020）。然而，King & Sands（2015）警告研究人员应认识到IRB审批仅是“完全不足以确保研究具有伦理性”，而Fujii（2012, p.718）明确指出，“最终承担起道德行为责任的是个体研究人员”。

（二）贝尔蒙特原则（Belmont Principles）

许多学者并未停留在IRB流程和标准层面，而是将注意力转向了这些标准所基于的原则：尊重个体、行善和公正（Natl. Comm. 1979）。实际上，本篇综述中包含的多篇文章都采用了贝尔蒙特报告中提出的这一规范性框架（参见Teele 2014, Glennerster & Powers 2016, McDermott & Hatemi 2020, Zimmerman 2016）。

虽然贝尔蒙特原则提供了一个有用的认知工具和考虑实地实验伦理方面的良好起点，但越来越多的人对它们识别和解决实地实验伦理问题的能力表示不满。贝尔蒙特报告主要关注对研究个体受试者的保护，而一些政治科学实地实验（a）侧重于机构或群体的行为而非个体受试者；（b）引入了贝尔蒙特报告未曾认识或预见的危害与益处；（c）对非受试者人群带来伤害风险；（d）对群体和社会带来伤害风险；（e）对可能不值得从伤害中获得保护的受试者带来伤害风险；（f）具有规范上模糊的目标；（g）与合作伙伴共同开展；以及/或者（h）在研究对象与研究人员之间不存在互相关照期待的情况下进行（Humphreys 2015, McDermott & Hatemi 2020, Michelson 2016）。

由于贝尔蒙特原则并非针对研究权力、制度、项目政策以及社会和政治行为的研究而选择制定，因此它们为政治科学实地实验提供的指导是不完整的。直接应用这些原则可能会忽视重要的问题，或者禁止在其他方面看似可接受的研究。基于以上原因，人们越来越担心贝尔蒙特原则作为规范性指南并不充分，当用作起点时，应辅以能够应对政治科学实地实验特殊性的理论和原则。

（三）政治与治理中的证据运用

2011年，治理与政治证据网络（EGAP）采纳了五项原则，用于指导“在进行关于治理和政治的实验研究以及在公共和私营部门利用此类研究进行政策和决策制定时的合理且合乎伦理的做法”（EGAP 2011）。其中第一条原则“人类受试者保护”，确认EGAP的研究人员致力于人类受试者研究中的伦理道德，但并未明确指出何为伦理待遇的要求。除了对人类受试者保护的一般承诺外，该原则还为与合作伙伴合作的研究人员提供了指导。考虑到合作关系可能基于各种条件建立，EGAP原则指出研究人员和合作伙伴应达成一致，“确定双方中哪一方，或是否任一方，对干预措施负有主要责任”（EGAP 2011）。此外，“研究人员应当披露他们在由实践者或第三方实施的干预设计中所扮演的角色”。然而，在此之外，EGAP原则并未涉及或提供针对本综述前一部分识别出的伤害、利益、风险/收益比、自主权或专业性相关问题的具体指导或解决方案。

五、论据、策略和其他解决方案

除了IRBs（机构审查委员会）、贝尔蒙特报告和EGAP之外，为了帮助学科界以及个体研究者应对这些伦理挑战，已经提出了若干具体的解决方案。其中一些方案针对性较窄，另一些则范围广泛；有的尚处于初步阶段，而有的已经较为成熟。本部分将提供一份在该领域逐渐受到关注的论点和策略的非详尽列表。

（一）认识社区和政治进程

一些学者认为，实地实验研究者需要更加关注对社区可能造成的伤害。Johnson（2018, p.618）建议学科界与IRBs合作，将这些考量纳入IRB的标准和流程中，以便IRBs能提供“明确指示，要求研究人员考虑研究是否有潜在的不良影响社区的可能性”。然而，尚不清楚IRBs是否愿意承担超出联邦授权范围的额外审查责任，或者它们是否有能力准确判断任何特定研究在何种程度上有可能对社区产生不良影响。如前文所述，实地实验的伦理评估不应完全外包给IRBs。Michelson（2016）建议研究人员在规划和实施实地实验时，应与社区合作伙伴和地方官员进行合作。在可行和适当的情况下，这种参与可以显示对社区的尊重，并可能帮助研究者识别对个体和社区潜在的风险。

Whitfield（2019）和McDermott & Hatemi（2020）认为，仅在IRB评价框架中增加更多标准，或者添加一个补充性的社区参与步骤是不够的，而是需要实地实验研究者扩展现行规范性框架，以包括承认所涉社区和政治价值的原则和价值观。虽然贝尔蒙特报告提出的尊重个人、行善和正义三大原则为伦理分析提供了良好的起点，但仅仅“独断地”应用这三大原则会导致政治科学无法拥有批判性评估实地实验伦理含义所需的语言工具（Whitfield 2019）。也就是说，直接应用这三个原则可能会忽视重要的伦理问题，而试图用这三个原则的语言来描述这些问题则可能在转换过程中丢失重要特征。Whitfield（2019, p. 533）建议我们在规范性框架中加入一组政治价值观，以捕捉“个体公民的政治自主性和福祉、社区及某些群体的自决权、个体的自由结社以及部分主权权力下放或转移到较小的公共和半公共单位”。

McDermott & Hatemi（2020）提出增设第四项基本原则——“尊重社会”，要求研究者考虑其干预措施对“当地乃至大规模社会结果”的潜在影响。

（二）识别和减少伤害

针对实地实验中与之相关的识别、管理和减少伤害，以及报告伤害的策略，学者们已经提出了一些方案。这些策略包括新的研究议程、对文化敏感性和情境意识的重新关注、呼吁事前和事后对伤害进行评估，以及有关样本选择和规模的建议。

1. 经验伦理学（Empirical ethics）。当研究者和其他学科内的学者们努力把握这些规范性问题时，Desposato（2018, p.740）提出“经验伦理学”至少可以在某些方面为辩论提供指导。根据Desposato的观点，经验伦理学是指“询问受试者对我们研究的看法”。诚然，人们信念和观点的证据不能回答规范性问题（例如，即使大多数人认为死刑是正确的，但这并不意味着它在道德上就是正确的），但这样的证据“可以将辩论情境化、促进更佳的伦理评估、揭示意外伤害，并能阐明伦理问题的经验基础”（Desposato 2018, pp.740-741）。相比于实地实验研究者推测某种体验是否会对抽象个体构成伤害，经验伦理学简单地要求潜在受试者去评价这种体验。这种方法可以帮助研究人员克服设想“具体他者”视角的困难（Teele 2021），并帮助他们克服自己关于研究重要性的学术和学科偏见。Desposato（2018）和Naurin & Öhberg（2019）已运用经验伦理学方法探讨政治科学家、政治家以及公众对于欺骗以及其他特征（如动员选民实验、通信实验和调查实验）适宜性的看法。

2. 文化敏感性（Cultural sensitivity）。Carlson（2020）、Johnson（2018）、Morton & Rogers（2016）、Michelson（2016）、Zechmeister（2016）、Pan（2021）和Zimmerman（2016）建议，在某些情况下，研究人员可以通过更加关注国内外文化差异（并在适当时候寻求区域专家的反馈），从而减少对受试者造成伤害的风险。特别是宗教和政治差异可能导致在某个社区中被视为有害的干预措施，在另一个社区中则可能无害；即使在具有相似特征的社区之间，不同的经历也可能导致某些干预措施在一个社区有害而在另一个社区无害。例如，Morton & Rogers（2016）讨论了认识到反对赌博的宗教观念以及可能被解释为赌博的广泛活动的重要性；Johnson（2018）和Michelson（2016）讨论了了解国内及国际环境下当地政治格局的重要性。Pan（2021）指出，这种“情境意识”也有助于研究者最大限度地降低研究团队面临的风险，并将社会影响降到最低。

3. 样本选择与规模（Sample selection and size）。Desposato（2016a）、Nathan & White（2021）以及Slough（2019）建议，通过预先分析和对研究设计的修改，可以将某些实验相关的危害降至最低。Desposato（2016a）主张，在干预政治过程（例如选民动员实验）的研究者应“谨慎行事”，通过进行功效分析并使用尽可能小的样本量，选择那些基于民意调查和历史数据表明干预不会影响结果的选举，并且不超出候选人的支出。Slough（2019）提出了类似的建议，并提供了一个决策规则，帮助研究者在实验实施前对其研究设计进行评估，以确定是否应当执行或修订干预措施。

Nathan & White（2021）为针对街头层级官僚的实验提出了类似建议。他们鼓励研究者真诚地尝试量化研究的成本，即使这些成本可能难以计算，因为“即使是这样基本且不完整的成本估算也很有用，因为它们迫使学者开始明确考虑他们的实验设计可能带来的负担”。此外，在研究人员增加观察样本相对低成本的情况下，如基于电子邮件的审计实验，实验者可能只需收集尽可能多的观测值，而不必考虑是否对于手头问题“过强”了。我们敦促研究者在实地实验中考虑额外观察样本的社会成本，就像他们在其他形式的研究中考虑预算成本一样，避免运行超过测量预期效果所需规模的过大实验（Nathan & White 2021）。

重要的是，Desposato（2021）、Nathan & White（2021）以及Slough（2019）都认为识别和最小化伤害的伦理考量需要融入到研究设计阶段，并都推荐在预分析计划、资助提案和发表论文中报告成本计算和成本效益论证。

（三）尊重自主权：同意

许多学者认为，重新关注同意，并创造性地重塑同意程序，可以解决与实地实验相关的某些问题。文献中识别和讨论的替代模型包括暗示同意、延迟同意和假设同意（Desposato 2018, Humphreys 2015, Teele 2021）。其中一些方法在尊重参与者自主性方面做得比其他方法更好，也有的能够解决额外的问题，但在几乎所有情况下，采用这些方法中的任何一种都比完全忽视同意程序要好得多。

1. 暗示同意（Implied consent）。暗示同意，也称为默示同意，是指当参与者在一定程度上得知研究项目并以其行动表示同意时发生的情况。例如，当参与者在了解研究后继续进行问卷调查，或者当参与者收到关于研究项目的预先通知并有机会选择退出但未采取行动时，就构成了暗示同意。延迟同意则发生在研究结束后才告知参与者研究详情，并随后给予他们退出研究的机会。延迟同意相较于仅仅告知参与者他们参与了研究项目的说明会更为严谨。这三种模式均表现出至少某种程度对参与者自主权的尊重，大多数都与大多数类型的研究兼容，甚至有些还能提供关于其他伦理问题的有用信息。例如，在学科领域努力识别和评估与实地实验相关的危害及其重要性，或受试者如何看待研究的益处时，暗示同意和延迟同意（甚至是事后的讲解澄清）为受试者提供了向研究者表达其关注的机会。在讲解澄清后，如果大量受试者选择退出、撤回参与或向研究者或机构审查委员会投诉，则可能表明研究的目的或感知风险存在问题（Humphreys 2015）。

2. 假设性同意（Hypothetical consent）。假设性同意，也称为推测性、虚拟或反事实同意，是研究者通过这一过程来判断受试者在被询问时是否愿意给予同意的方法。这一问题可以通过一个类似于罗尔斯（1971）提出的原初状态的思想实验来回答，也可以通过实证方法，向实际的受试者询问他们对参与特定实验的假想意愿来解答。Teele（2021）认为，那些放弃标准和替代同意程序的研究者至少应当以思想实验的方式涉及假设性同意的过程。此外，在进行思想实验时，研究者应从多个角度出发考虑角色、价值观以及生活经验，并应该从科学家、受试者、社区成员以及相关弱势群体、负担过重群体或边缘化群体成员的角度审视研究项目（Teele 2021）。Desposato（2021）提出了类似的观点，他认为，评估实验适当性的基础不应仅限于研究者的视角，因为“研究者自己对风险的评估可能无法准确反映其他情境中个体的实际体验”。

Desposato（2018）还主张，我们应当（有时）超越思想实验，采用实证方式回答这个问题。他开展了一项研究，让受试者（及学者）评价两个假设性实地实验的可接受性并陈述他们参与的意愿，发现最重要的一点是：对于某些设计而言，许多受试者并不希望成为受试者……这些实证发现应当促使政治科学家们严肃反思。我们很多受试者实际上是违背自身意愿被纳入研究中的。（Desposato 2018, p. 747）

假设性同意探讨了自愿、非自愿与被迫参与研究之间的灰色地带。一个人在偏好明确且支持参与时为自愿参与；当其偏好未知时为非自愿参与；而在其偏好已知且反对参与时，则为被迫参与。除非存在特殊情况（例如，当一个人无权拒绝某种干预措施时），研究者在有足够的理由相信受试者在被询问时会拒绝的情况下，不应该进行欺骗性的研究。

这些替代同意程序并不能解决与同意相关的所有问题。例如，研究者仍然需要面对诸如在研究影响非受试者、群体和社区时需要获得谁的同意，以及在针对不良行为者进行研究时不需要谁的同意等议题。然而，无论是进行个别研究还是作为一项独立的研究议程来开发尊重实地实验中自主权的新策略，都存在着明确的要求去考虑“更广泛的可能性”（Humphreys 2015）。

（四）伙伴关系问题：伦理领域

EGAP指南指出，研究者和合作伙伴之间应达成协议，明确“哪一方或是否任何一方对干预措施负有主要责任”（EGAP 2011）。此外，研究者应当“公开披露他们在实践者或第三方实施的干预设计中所扮演的角色”（EGAP 2011）。这种责任分配对于那些试图运用“伦理领域”论据的研究者而言具有实用性。根据Humphreys（2011）的观点，这一方法承认不同参与者有不同的标准，在研究合作中，道德责任可以根据参与者的项目角色进行划分。这一建议的优点在于，研究人员可以研究那些在常规研究环境中通常不可接受的风险水平下对人们产生影响的干预措施。这一点至关重要，因为存在一些合法团体，他们有着合法的目标，并实施可能对某些人造成伤害但同样合法的干预措施。了解这些干预措施是否有效对所有人都有益处。然而，这一建议的缺点在于其适用范围受到“伙伴自主性”和“伙伴合法性”的限制（Humphreys 2011）。为了使伦理领域发挥作用，执行干预的伙伴必须独立于研究者。当伙伴计划干预并仅要求研究者评估有效性时，这一条件可能容易满足。但在研究者同时为干预提供建议的情况下，两个领域的界限就会变得模糊不清。同样地，为了让伦理领域得以运作，伙伴不仅需要具备地位上的合法性，还须在干预本身上具有合法性。也就是说，如果伙伴在某种意义上被认为在伦理上不具备合法性，或者即使对伙伴自身而言该干预也不具合法性，那么伦理领域就不能作为合理化研究者参与该项目的理由。

（五）项目评估、随机化问题与排除的伦理考量

当随机对照试验（RCTs）在对照组中对研究参与者保留潜在的有益干预措施时，至少存在四种方式来解决这一“随机化问题”（Baele 2013）或“排除的伦理问题”（Dionne et al. 2016）。

1. 稀缺性（Scarcity）。De La O & Wantchekon（2011）和Banerjee & Duflo（2017a）认为，当实施机构没有足够的资源去满足所有符合条件和值得援助的人时，随机分配程序可以为政府和非政府组织提供一种公平且透明的方式来分配商品或服务。Glennerster & Powers（2016）同样指出，即使有些人被排除在原本可以获得治疗之外，只要相同数量的人得到了治疗，就不会造成伤害。然而，Humphreys（2011）争辩称这种“稀缺性论点”的应用范围有限，因为并非所有商品都是稀缺的（例如，提供信息的干预措施边际成本较低），有时稀缺的商品是可以分割的，并且并非所有的随机化试验都对相同数量的人进行处理。此外，该论点忽视了与不平等分配相关的间接危害，这些危害可能导致某些随机化方法在伦理上比其他方法更优。

2. 无知（Ignorance）。Glennerster & Powers（2016, p.381）认为，排除并不构成伤害，因为“我们不知道该计划是否会带来积极效果，所以我们无法确定任何个人……因未接受计划而处境更糟。”然而，Humphreys（2011）指出这种“无知论点”站不住脚，因为即使合作伙伴和研究者不能确切知道某项治疗是否有益，实施的依据通常有充分理由相信它会是有益的。此外，一旦确定某个项目确实有益，那么继续衡量其效果或效率的努力将变得不合伦理。

3. 平衡原则（Equipoise）。Baele（2013）和MacKay（2018）通过引用生物医学中的“临床平衡”概念，提出了“无知论点”的更为严格的版本。根据这一观点，只有在专家医疗社区对于试验中每种治疗方案及其与标准护理（如有）的相对疗效存在真正的不确定性时，随机对照试验（RCT）才被认为是伦理的（Freedman 1987）。简而言之，如果有有效的治疗方法，那么使用非治疗对照组进行实验就是不道德的。临床平衡原则通常基于某种信托责任基础，MacKay认为，在某些政治科学实地实验的情境和设置中，这样的信托义务是存在的。例如，政府机构有提供基本物品和保护基本人权的责任，因此，只有当政策专家满足以下条件之一时，进行RCT项目评估才是伦理的：“（1）没有关于各政策实施效果相对优劣的证据；（2）鉴于现有证据，关于这些政策是否比最佳已证实且可达到的政策（BPA）更有效存在合理的分歧；或（3）已知它们比BPA政策更有效”（MacKay 2018, p.63）。

这种“政策平衡原则”适用于政府机构、对服务对象负有信托或其他义务的团体，以及作为政府授权调查员的社会科学家。Baele（2013, p.20-21）进一步指出，即使没有明确的信托责任，发展经济学领域的实地实验也应该遵守平衡原则，因为其他诸如风险评估和严格知情同意等参与者保护措施往往难以实现或无法实现。

4. 公正（justice）。Glennerster & Powers（2016）认为，只要研究负担公平分配，某些个体承受伤害是可以接受的。“[保证]没有任何特定个人[咖啡农]因研究而处境变差并不是判断伦理是否合理的必要或可行标准；相反，评判的标准是总体上卢旺达的咖啡农是否会因为这项研究而受到负面影响”（Glennerster & Powers 2016, p.381）。他们的评判标准类似于贝尔蒙特报告对公正的要求以及这样一种观念：为了造福群体，允许某些个体承受研究带来的负担（Natl. Comm. 1979）。例如，如果针对其他群体设计的研究导致个别咖啡农境况恶化，且整个咖啡农群体也因此受到负面影响，那么这是不公正的。然而，即使咖啡农作为一个整体并未受到负面影响，并且参与研究的负担以公正的方式进行了分配，按照贝尔蒙特报告的规定，只有在参与者自愿并且潜在受试者可以通过选择不参加研究来避免伤害时，才能允许存在伤害。由于被排除在项目之外并非出于自愿，因此，在这种情况下，群体利益是否可以证明个体伤害的合理性尚不清楚。

六、美国政治科学协会（APSA）人类受试者研究的原则和指南

2020年4月4日，美国政治科学协会（APSA）批准对其道德准则《政治科学家专业伦理指南》进行了修订。新采纳的《人类受试者研究原则与指导》（以下简称《原则》）阐明了12项原则及其在研究中的应用指导。这些《原则》是经过为期三年半的深思熟虑过程产生的结果，包括组建临时委员会、得到四位不同APSA主席的支持、进行会员调查、公开征求意见以及获得APSA理事会的批准。

由政治科学家为政治科学家起草的这些《原则》认识到，政治科学研究往往不仅影响受试者，还会在法律文件规定的知情同意有时不切实际或不恰当的环境中进行，有可能对政治进程产生影响，并且有时会与合作伙伴共同开展。《原则》反映了这种复杂性，并认识到其中的复杂性可能超出了容易预测和编纂的范围。

几乎在所有情况下，《原则》都提出了一种规范，承认可能存在例外情况，并鼓励研究者思考研究过程及结果的直接、间接、预期和未预期影响。

虽然《原则》涵盖了广泛的学科子领域和环境，其内容过于复杂无法在这里详述，但值得注意的是，该文件专门针对实地实验相关的问题讨论了同意、欺骗、伤害和影响等方面。《原则》并未提供公式或清单，也并非试图提供“一刀切”的解决方案，但它确实陈述了一般规范和期望。例如，文件指出“研究人员通常应寻求直接参与研究过程的个体的知情同意”，但研究者负有识别应从哪些方寻求同意的责任，并解释“为什么从这些方获取的同意是有意义和充分的”（APSA 2020, p.6）。在某些情况下，研究者可能会遵循Michelson（2016）的建议，向当地官员和社区伙伴寻求同意；在其他情况下，从其他方获取同意可能是有意义且合适的。同样，《原则》并未禁止欺骗行为，但声明研究者“应仔细考虑任何使用欺骗手段的情况”（APSA 2020, p.7），并鼓励研究者采用如事后说明、延迟同意或社区审查等其他尊重参与者自主权的策略。重要的是，《原则》中明确提出期待研究者在出版物和展示中披露是否采用了欺骗手段以及是否使用了任何替代性的自主权尊重策略。此外，《原则》还鼓励研究者广泛地思考危害问题，并在出版物和展示中分享事前对危害的评估以及事后关于危害的报告。文件中还包括了关于干预政治过程的实地实验的详细指导。相关的考量因素包括同意、对个人经历、社区和政治结果的影响等。任何与合作伙伴共同工作的研究者都应被鼓励“就研究合作的目的和可能出现的风险和收益对合作伙伴保持透明”（APSA 2020, p.16），并在出版物和展示中全面公开合作关系的本质。

《原则》明确传达了研究者应对自己研究的伦理负责的信息，并特别指出研究者“不能将伦理反思外包给评审委员会、其他机构组织或监管机构”（APSA 2020, p.2）。一个伦理审查委员会（IRB）在审查后批准一项实地实验，或者批准一项免于审查的实地实验，并不意味着这项研究就是伦理的。最终，“研究者有个人责任考虑与其研究活动相关的伦理问题”（p.2）。研究者应咨询自己的良知、同圈内外的同事、非本专业的同行，以及《原则》本身。重要的是，《原则》还通过鼓励研究者披露研究的具体方面，促进开放性和更广泛的讨论，从而使政治科学研究的伦理原则得以发展，更好地反映学科价值观、提供更多信息，并更具实用性。

七、未来的问题

APSA的准则、EGAP声明以及本篇综述中提出的论点和建议为与实地实验相关的众多伦理问题提供了坚实的原则指导和策略。然而，它们并未涵盖所有问题，并且尚不清楚相关指南和最佳实践将如何得到推广。本节列举了一些尚未得到充分关注的重要议题。

（一）规范的推广

文献、EGAP以及APSA原则中已形成数种规范。当前，该领域需要决定如何推广这些规范。与IRB不同，伦理准则和最佳实践并没有监管或制度化的执行机制，因此各学科和职业必须运用不同的工具来培养研究诚信的文化。常见的机制包括科研行为负责任教育（Responsible Conduct of Research, RCR）及出版实践，两者在当前学科中均未得到充分利用（Baele 2013, Desposato 2016a, McDermott & Hatemi 2020, Nathan & White 2021, Peyton 2013, Zechmeister 2016）。伦理教育的横向和纵向整合，无论正式还是非正式的教学，都可以提高对存在问题的研究实践的认识，为学生提供指导和工具，并明确专业期望。期刊投稿指南明确规定对伦理研究和开放性的期待可以鼓励相应行为并进一步引发讨论（例如，参见《美国政治科学评论》的新编辑政策[APSR Editors 2021]）。加强对这些及其他努力的投入，可以在促进对规范的认知和遵循的同时，便利规范的修订、扩展和发展新规范的过程。

（二）定义“最小风险”

在生物医学研究领域中，“最小风险”的含义和使用有着明确的规定，但在实地实验的背景下却往往被不恰当地转换应用。在生物医学背景下，“最小风险”是一个阈值术语，用作快速审查的标准以及同意豁免的条件。也就是说，如果一项研究带来的风险“不超过最小风险”，那么该研究无需进行全面的委员会审查，并且研究者可能可以修改（或省略）同意程序。在生物医学语境下，“最小风险”意味着“预计在研究中发生的伤害或不适的概率和程度本身并不大于日常生活中或进行常规物理或心理检查、测试时通常会遇到的伤害或不适”[45CFR46.102(j)]。

然而，在许多情况下，实地实验研究人员基于其研究不会超过最小风险的理由来证明更改或跳过同意程序的做法，但这种风险评估往往是基于对“常规物理和心理检查或测试”相关危害的直译，而非实地实验中更为常见的社会和经济危害。政治科学需要从理论和实证角度探讨相关的、通常会遇到的风险，以何种“日常生活”标准作为参照，并更重要的是确定一个阈值，即在此阈值以下，未经受试者同意就将其纳入研究是适宜的（Desposato 2016a, Morton & Williams 2010）。

（三）研究的卓越性质

前一节中提出的规范对研究人员作为研究者的行动设定了限制，这些限制可能超出了他们作为私人顾问、政府或非政府组织雇员、志愿者或公民所面临的限制。一些研究人员主张，由于他们也是公民，因此应允许他们从事其他人可以进行的行为。Humphreys（2014）指出，这种立场“似乎忽略了研究伦理的意义——即明确说明研究人员可以相互期望什么行为，以及公众可以期望研究人员在法律禁止之外的哪些行为”。

King & Sands（2015）和McDermott & Hatemi（2020）也提出了相似的观点；后者认为，“学者们有特别的责任保护公众免受不受欢迎和未知的操纵”。然而，并不清楚他们的担忧是否得到了所有人的认同。尽管“研究特殊性”是其他学科持续讨论的话题（Wilson & Hunter 2010），并且其他科学领域正面临一个相关问题，即公民科学家是否应遵循（或应该存在）研究伦理（Rasmussen 2021），但本篇综述中识别出的角色定位、责任承担及许可问题却是政治学实地实验所特有的，值得直接关注和深入讨论。

（四）利用与剥削

文献显示出对危害和个体及群体自主权可能遭受损害的各种方式给予了显著关注，而在公正性和剥削问题上则关注度较少。这些问题包括（有意义的）研究发现的回馈，更重要的是研究对象群体的选择，负担和利益是否公平分配，以及研究是否针对所在社区的需求作出响应（Baele 2013, Teele 2014）。例如，Deaton（2020, p.21）表达了担忧，认为关于福利体系的随机对照试验（RCTs）并非“出于对作为实验对象的贫困人群的利益考虑，而是出于富裕阶层（或至少是纳税人或其代表）的利益考虑，他们虽然有时不情愿，但接受了防止极端贫困的义务，并希望尽量降低实现这一目标的成本”。Humphreys（2015, p.87）对国际资助的研究提出了类似的担忧，指出“这些干预措施有时会表现为来自富裕机构的研究者操纵较贫困地区公民，以解答那些对该地区民众来说并不那么重要的问题”。

当研究者选择在发展中国家进行研究，仅仅是因为他们的研究在美国不可接受（Desposato 2016a, McDermott & Hatemi 2020），或者因为预算在那里可以“得到更充分的利用”，使他们成为“比在美国更有影响力的行动者”（Desposato 2016a，第267页）时，这种做法尤为令人不安。其他关于剥削的忧虑还包括对社会过程有害且隐蔽的操控，对已不堪重负的人群进行耗时长的调查，以及对MTurk工作者支付低于最低工资的报酬（关于最后一点，参见Kwek 2020和 Williamson 2016）。对于这些问题，政治科学可以从其他背景下的剥削讨论中获益（参见Phillips 2021），并可以借鉴基于社区的参与式研究作为潜在解决方案（参见Israel et al. 2012）。

八、结论

本文所回顾的文章涉及各种主题和不同的论述基调，但许多早期关注实地实验伦理问题的文章都持谨慎甚至悲观的态度。它们表达了对政治学实地实验直接影响或间接影响的专业领域及人群的真诚关切。例如，Humphreys（2011, p.2）写道：“此处我的讨论应当被理解为一个深陷这些问题的研究者的有时痛苦的反思，而非道德哲学家深思熟虑的观点。从一线视角来看，情况相当严峻，因为核心问题亟需答案，但我认为这些至今大多未得到解决且难以解决。”作者明确指出学科需要承认伦理问题的存在，积极参与讨论，并在专业期待上达成共识。

尽管该领域仍在发展中，但已显示出多个进步迹象。首先，本篇综述中引用的大多数关于实地实验伦理问题的文章都是在过去五年内发表的。虽然目前这方面的文献数量还不多，但子领域的研究正在增长，其中包括了多位青年学者的重要贡献，这表明对该问题的关注度日益提高，也为批判性对话营造了一个包容的环境。

其次，比较《剑桥实验政治科学手册》的初版与修订版可以看出明显的差异。在第一版中，编辑们在其引言部分加入了以下脚注（Druckmanet al. 2011：“或许最显著的一个缺失话题就是伦理问题以及机构审查委员会。我们没有包含关于伦理的一章是因为我们认为，到目前为止，在政治科学实验领域，它尚未成为一个主要议题。然而随着时间的推移，这一状况发生了改变。”那卷文集代表了2009年一次会议上所展示的工作成果，确实反映了当时普遍持有的观点。然而，修订版（Druckman & Green 2021）包含了多个探讨伦理问题的章节，这表明伦理问题现在已嵌入教育资源和方法论讨论之中。

第三，在很多方面，APSA的原则回应了早期一些文章中表达的需求。Humphreys在《华盛顿邮报》撰文时（2014），呼吁制定一份正式声明，明确“我们希望公众对作为研究者的我们有所期待的标准，以及作为研究者的我们彼此之间希望可以期待的标准”。虽然APSA原则、EGAP声明以及其他本篇综述中提出的论点和建议并非解决与实地实验相关的伦理问题的决定性方案，但它们提供了坚实的原则指导和策略，并且代表了日益增强的认识、参与议题的意愿以及实质性的进步。人们有理由期望，那些早期敲响警钟的人士如今会采取一种不同的基调——这种基调既表达了对进展的兴奋之情，同时也提醒读者仍有大量工作尚待完成。

鉴于该领域的多样性以及伦理问题的复杂性，此处提供一份检查清单或规则列表并不恰当。正如Pan（2021）指出，“不存在简单原则能够让社会科学家在涉及实验伦理的问题上做出自动且无误的判断”。读者可以在本篇综述引用的许多文献中找到具体建议，其中一些甚至还包括简短的清单（Desposato 2021, Humphreys 2014, Nathan & White 2021）。然而，阅读这些清单时需谨慎对待，因为它们并非旨在涵盖所有情况。读者可在APSA原则中找到更全面且具有详细指导的清单。在此，我以三条非常普遍的建议作为结论，并呼应了参与此话题讨论的学者们的共识：

研究人员应对其研究的伦理层面负责。他们不能仅仅将伦理反思外包给IRB或其他“一刀切”的检查清单和规则。正如King & Sands（2015, p.7）所指出的，“获得正式的IRB批准至关重要，但远不足够……你才是支持自己研究的人。”
在考虑研究伦理方面时，研究人员应具备信息素养、深思熟虑并自我反省。他们应了解通用及主题特定的伦理实践，以及与其研究对象群体、环境、干预措施及合作伙伴（如有）相关的问题。当研究人员涉足未知领域时，“一个有时有用的策略是制定并公开宣布一些新规则，然后严格遵循，以确保并公开表明自己远离界限”（King & Sands 2015, p.7）。此外，研究人员在将其现有指导、最佳实践和规则应用于自身研究时需要审慎而全面。
研究人员应对面临的伦理问题及其决策保持开放态度。他们应在预注册报告、资助提案、演示文稿和出版物中解释并证明其研究的伦理合理性。这种开放性鼓励反思，并有助于规范的精炼和完善以及推广。此外，公开透明可以提前回应读者的关注，在其变为指责之前解决问题。这很重要，原因之一在于当研究人员似乎忽视其工作伦理含义时，社交媒体上的反应可能会迅速且极具破坏性。

(因篇幅限制，参考文献从略）

〇编辑、排版：焦磊

〇审校：郭瑞涵大兰

继续滑动看下一个

比较中的政治研究

向上滑动看下一个

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

当进行田野政治学调查时有哪些注意事项？| 前沿综述

您可能也对以下帖子感兴趣

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

生成图片，分享到微信朋友圈

当进行田野政治学调查时有哪些注意事项？| 前沿综述

您可能也对以下帖子感兴趣