开学特辑⑥:哪些案例适合我的研究?|【研究方法】专题
编者按
案例研究是政治科学的重要研究方法之一。同时,无论是量化研究还是质性研究,案例(或是样本)的选择都同样重要。通过筛选出恰如其分和颇具代表的案例,对这些案例的分析不仅可以增强理论的普遍性,也能增加理论的稳健性。那么,在案例选择中有哪些技巧呢?基于此,我们编译了本篇文献《案例研究中的案例选择技巧》。相比于综述性文献的提纲挈领,我们所选的这篇文献更像是一本说明手册。读者们能够根据自己研究的需求匹配到合适的案例选择技巧,并进行实操。文章中详细介绍了七种案例选择技巧,包括典型的、多样的、极端的、异常的、有影响力的、最相似的和最不同的案例。这些方法能够帮助我们在海量信息中找到研究的最佳切入点,还能让我们在撰写论文时更有信心和方向感。
开学特辑⑥:哪些案例适合我的研究?
(原标题为:《案例研究中的案例选择技巧:定性和定量的选项菜单(Case Selection Techniques in Case Study Research: A Menu of Qualitative and Quantitative Options)》,现标题为译者所拟)
作者:
Jason Seawright, Northwestern University
John Gerring, Boston University
编译:
焦磊,山东大学
引文格式(MLA):
Seawright, Jason, and John Gerring. “Case Selection Techniques in Case Study Research.” Political Research Quarterly, vol. 61, no. 2, Feb. 2008, pp. 294–308.
内容提要
学者们如何从庞大的案例集合中选择适合进行深入案例研究的样本?当要选取的案例数量较少时,随机抽样通常不是一种可行的方法。因此,需要关注有目的的抽样方式。然而,尽管现有的定性文献为案例选择提供了多种建议,但大多数讨论的技术都需要对每个案例有深入的了解。这里考虑了七种案例选择程序,每种程序都有助于内部案例分析的不同策略。这些案例选择程序主要关注典型案例、多样化案例、极端案例、离群案例、有影响力的案例、最相似案例和最不同案例。对于每种案例选择程序,我们讨论了符合该方法目标的定量方法,同时仍然需要能够合理获得大量案例信息。
关键词
案例研究;案例选择;定性方法;多方法研究
快速阅读(本部分基于AI生成)
引言
案例选择是案例研究的基础,因为它不仅决定了研究的内容,而且还影响着如何分析这些案例。
对于少量样本的研究,随机抽样通常不是最佳选择。
需要一种有目的的抽样方式,以便更有效地选择案例。
学术界对案例选择的关注不够,特别是从方法论的角度来看。
为什么不去随机选择案例?
完全随机选择小样本可能会产生代表性不佳的样本,尤其是在样本量非常小时。
这种方法可能会导致样本在感兴趣变量上的变异过大或过小,从而影响研究的有效性。
因此,有目的的案例选择比随机选择更能确保样本的代表性。
案例选择的技巧
1. 典型案例(Typical)
选择那些在研究变量上代表了较大群体特征的案例。
目的是通过研究这些案例来推断更大群体的一般特征。
2. 多样案例(Diverse)
选择在多个变量上表现不同的案例。
这种方法可以用来检验理论在不同条件下的适用性。
3. 极端案例(Extreme)
选择在感兴趣变量上表现极端的案例。
有助于检验理论在极端条件下的稳定性。
4. 异常案例(Deviant)
寻找与预期模式不符的案例。
这些案例可以帮助研究者识别理论中的漏洞或特殊情境下的机制。
5. 有影响力的案例(Influential)
选择那些在理论意义上具有重大意义的案例。
这些案例可以显著影响研究结果和理论解释。
6. 最相似/最不同案例(Most similar/Most different)
最相似案例:选择背景特征相似但在感兴趣变量上有显著差异的案例。
最不同案例:选择背景特征不同但在感兴趣变量上相似的案例。
这两种方法可以用来识别变量间的关系,并检验因果效应。
复杂情况
许多案例研究结合使用多种案例选择策略。
在研究过程中,随着假设的明确,案例的选择和分析方法可能需要调整。
代表性问题:案例需要在其涉及的维度上代表更大的群体。
当案例地位发生变化时,可能需要重新考虑案例选择和研究设计。
在案例研究中,需要考虑案例在理论和实践中的地位,以及它们如何与其他案例相互作用。
选择案例时要考虑其在理论中的作用,以及它们是否有助于验证或推翻假设。
案例选择是案例研究者的首要任务,因为在选择案例时,也为研究这些案例制定了研究议程。这意味着,在案例研究中,案例选择和案例分析远比在大量交叉案例分析中紧密交织在一起。事实上,当一个研究的重点是某个更广泛现象的一个或几个实例时,选择案例和分析这些案例的方法几乎难以分开。
然而,为极少量样本选择合适的案例是一项富有挑战性的工作。请注意,大多数案例研究都试图阐明一个更大群体的特征。即使最终的概括是以暂时的方式提出的,这些研究关注的也远远超过了个别案例本身。在这类案例研究中,所选取的案例被要求担当起重要的角色:代表一个通常远超自身的大量案例群体。例如,如果案例由国家组成,那么这个群体可能理解为一个地区(例如拉丁美洲)、一种特定类型的国家(例如石油出口国)或整个世界(在某一段时间内)。显然,如果案例研究旨在反映更大群体的案例,那么代表性的问题不能被忽视。同时,一个真正有代表性的案例绝非易于识别。此外,所选案例还必须在相关维度上呈现变化,这是一个常常未被认识到的要求。第三个困难是背景案例在案例研究分析中常常起关键作用。它们不是严格意义上的案例,但仍然以非正式方式被纳入分析。这意味着,在案例研究工作中,案例与其周围群体之间的区别从未像典型的大量交叉案例研究那样清晰。
尽管这个问题重要且显然复杂,自Eckstein、Lijphart和Przeworski & Teune的开创性工作以来,学者们对案例选择的问题关注相对较少。当然,最近的工作注意到了样本偏差的问题,并对其来源及影响进行了深入讨论,但除了Eckstein、Lijphart以及Przeworski & Teune的工作中隐含的方法之外,还没有其他对该问题的解决方案被提出。
在缺乏详细、正式处理的情况下,学者们依然主要依靠时间、经费、专业知识和资源可得性等务实的考虑。他们可能还会受到某个案例在理论上的重要性的影响。当然,这些都是案例选择中完全合法的因素。然而,它们并不能在方法论上解释为何案例A优于案例B。实际上,如前文中提到的样本偏差的文献所暗示的那样,这可能会导致极具误导性的结果。因此,即使最初基于务实原因选择案例,研究者也有必要事后理解所选案例的特性如何与总体情况相符。
确实,小样本案例选择的方法论论点并非完全不存在。这些通常归纳为案例研究类型:极端案例、偏离案例、关键案例、最相似案例,等等;然而,这些常被引用的术语理解得并不清楚,且常常被误用。因此,我们随后讨论的技巧为小样本研究者提供了发展更严格和细致的解释的可能性,说明他们的案例如何与更广泛的案例群体相关联。此外,现有的关于案例研究案例选择的讨论在面对大量潜在案例时提供的实际指导很少。如果总体数量达到数百甚至数千个,应如何判断哪些案例是偏离的(或最偏离的)?最后且可能最重要的是,源自Eckstein及其同事的常用选项显然是不完整的。
在这篇文章中,我们澄清了案例选择中涉及的方法论问题,学者的目标是基于一个或少数案例构建和测试关于社会世界的一般因果理论。我们还尝试提供一个更全面的案例选择选项菜单。我们的最终目标是在有大量样本关键变量数据可用的情况下,提供新的案例选择技巧。在这些情况下,我们展示了标准的统计技术可能有助于澄清和系统化案例选择过程。当然,这种大样本分析并不在所有情况下都可行,但在可行的情况下,即数据和建模技术适宜的情况下,我们建议它对案例研究有很多贡献。只要这些技术成功,它们就可能提供定量和定性技术的一个具体且富有成效的整合,这是近期多项研究追求的探究方向。
为什么不去随机选择案例?
在探索案例研究中选择案例的具体技术之前,首先值得问一下,这些方法是否确实必要。考虑到研究人员在有目的地选择案例时引入的选择偏差的危险,也许案例研究者应该随机选择案例。这是一个从量化方法论的角度可能直观得出的建议。
然而,如果完全随机地选择一个非常小的样本(即,没有任何预先分层),可能会出现严重问题。这些问题可以通过两个简单的蒙特卡罗实验来说明,每个实验涉及一定案例样本和一个感兴趣的变量,该变量在总体中的取值范围是0到1,平均值为0.5。在第一个实验中,计算机生成500个随机样本,每个样本包括1000个案例。在第二个实验中,计算机生成500个随机样本,每个样本只包括5个案例。
在这两个实验中,随机样本的代表性如何呢?两者都产生了无偏样本。第一个实验得出的均值的平均值是0.499,而第二个实验的结果是0.508——这两个数字都非常接近总体均值;然而,第二个实验中的均值比第一个实验中的均值分布得更分散。当样本量大(N = 1000)时,标准差约为0.009;当样本量小(N = 5)时,标准差约为0.128。这个结果表明,对于由五个案例(或更少)组成的比较案例研究,随机案例选择程序常常会产生一个在很大程度上不具有代表性的样本。
鉴于随机化的不足以及案例纯粹基于实用性选择所提出的问题,某种形式的有目的案例选择的论点似乎很有力。确实,有目的的方法无法完全克服从小样本数样本进行推广的固有不可靠性,但它们仍然可以通过使研究人员能够为特定研究策略选择最合适的案例,从而为推理过程做出重要贡献,这种策略可以是量化的也可以是质化的。
案例选择的技巧
那么,我们该如何选择用于案例研究分析的样本呢?请注意,案例选择在案例研究中有与随机抽样相同的双重目标,即希望(1)获得有代表性的样本和(2)在理论兴趣的维度上具有有用的变异。因此,选择案例的方式受案例在这些维度上的位置在目标群体中的影响。正是从这种跨案例特征中,我们得出了表1中呈现的七种案例研究类型:典型的、多样的、极端的、异常的、有影响力的、最相似的和最不同的。这些术语中的大多数读者都熟悉,源于过去一个世纪发表的研究。需要强调的是,这些案例选择技术假设了各种方法目的。
注:X1为理论兴趣的因果因素。
表1 案例选择与分析的跨案例方法
(点击图片查看清晰大图)
在开始之前,必须提出几个注意事项和澄清。首先,本文讨论的案例选择程序适用于某些案例研究,但不是所有。众所周知,关键术语案例研究是模糊的,指的是一组异质的研究设计。在本研究中,我们坚持一个相对狭窄的定义:对单个单位或少数单位(案例)的密集(定性或定量)分析,研究者的目标是理解一类类似单位(案例群体)。因此,从样本(一或几个)到更大群体的推论中存在内在问题。相比之下,一种非常不同的案例研究方式(所谓的)旨在阐明特定案例的特征。在这里,案例选择的问题不存在(或至少被最小化),因为主要关注的案例已在先验中被识别出来。这种案例研究方式在另一篇文章中讨论。
第二个定义问题涉及研究者所承担的目标。在本研究中,我们主要关注因果推论,而不是描述性或预测性推论。读者应牢记,大部分描述性的案例研究可能不遵循相似的案例选择程序。
第三个澄清问题涉及(因果)推论的群体。在浏览本文讨论的不同技术时,很明显大多数取决于对主要推论范围的清晰认识。只有通过参考这一更大的一组案例,才能开始考虑哪些案例最适合深入分析。如果对群体几乎一无所知或知之甚少,那么本文描述的方法无法实施,或者必须在真实群体显现后重新实施。因此,主要目的是确定什么构成案例的案例研究,即通过扩展,什么构成群体,将无法利用这里讨论的技术。
几个注意事项专门涉及在选择案例时使用统计推理。首先,推论的群体必须足够大,否则统计技术不适用。其次,必须有该群体的相关数据,或者该群体中相当大比例的样本的相关数据,关于所有关键变量,并且研究者必须对这些变量的准确性和概念有效性有合理的信心。第三,统计研究的所有标准假设(例如,识别、规范、稳健性、测量误差)必须仔细考虑。通常,案例研究的一个主要目标是澄清这些假设或纠正统计分析中的错误,因此深入研究和案例选择的过程可能是互动的。我们不会进一步展开这些问题,只是提醒研究者避免不加思考地使用统计技术。
最后,需要强调的是,我们的讨论忽略了与案例选择相关的两个重要因素:(1)现实的、后勤的问题,包括一个案例在某一主题文献中的理论重要性,以及(2)案例内部的特征。第一组因素,我们已经提到,这不是方法论性质的;因此,它不影响源自案例研究推论的有效性。此外,我们怀疑关于这些问题没有什么可说的,这对于研究者来说不是已经显而易见的。第二个因素在严格意义上是方法论性的,有许多值得深入探讨的内容。然而,在这项研究中,我们专注于取决于跨案例特征的案例选择因素:案例如何适应理论规定的总体。这通常是案例选择一词的理解方式,因此我们只是按照惯例将主题这样划分。
阐述将由一个持续的例子引导,即经济发展(以人均国内生产总值GDP衡量)和民主(以来自 Polity IV 数据集的 Polity2 变量衡量)之间的推定因果关系。图1以双变量散点图形式显示了经典结果。与大多数关于该主题的研究一致,富裕国家几乎全都是民主国家。为启发性目的,后续讨论中会采用某些不现实的简化假设。例如,我们将假设 Polity 民主测量是连续且无界的。更重要的是,我们将假设经济发展与民主之间的真实关系是对数线性的、正向的、因果非对称的,经济发展被视为外生变量,而民主被视为内生变量。
图1 1995年的民主与财富
我们对各种技巧的讨论将相当直接:我们会简要提出一个案例研究传统中的案例选择理念,明确这种方法涉及的核心问题,然后评估在大样本情境中处理该问题的现有统计工具。显然,本文的目标不是开发新的定量估算方法,而是展示如何在新情境中使用现有估算方法。
1. 典型案例(Typical)
典型的个案研究专注于一个示例稳定的跨案例关系的案例。根据设定,典型案例也可以视为具有代表性的案例,这取决于所使用的跨案例模型的术语。实际上,在心理学文献中经常使用后者的术语。
因为典型案例由现有模型很好地解释,所以研究者感兴趣的谜题在于该案例内部。具体来说,研究者希望找到某个现象的典型案例,以便更好地探究在一般性跨案例关系中起作用的因果机制。这种因果机制的探究可能会导致若干不同的结论。如果现有理论建议了一条特定的因果途径,那么研究者可能会进行模式匹配调查,评估在案例中的证据是否验证了所规定的因果机制。否则,研究者可能会尝试证明因果机制与之前规定的不同。或者他或她可能会辩称不存在将这个自变量与该特定结果相联系的合理因果机制。在后一种情况下,典型案例研究设计可能会提供对某个一般因果命题的否定证据。
大样本(Large-N)分析。可以通过寻找残差最小的案例来从大量潜在案例中识别出一个典型案例—即在多变量分析中所有案例中预测值与实际(测量)值之间的最小距离。在大样本中,通常会有很多残差几乎为零的案例。在这种情况下,估计可能不足以区分几乎相同的多个案例。因此,研究者可能会从具有高典型性的案例集合中随机选择(分层随机抽样程序)或根据非方法论标准从这些案例中选择,如下所述。
例如,让我们回到之前介绍的例子,涉及人均GDP与民主水平的关系。回想一下,结果(Y)仅仅是Polity民主得分,并且只有一个自变量:对数化的人均GDP。因此,一个非常简单的关系模型可以表示为:
学者们还可能希望包括对对数化人均GDP变量的其他非线性变换,以允许更灵活的函数形式。在当前示例中,我们将添加一个二次项。因此,要考虑的模型是:
出于选择典型案例的目的,具体的系数估计值相对来说并不重要,但为了完整起见,我们将报告这些系数的小数点后两位:
每个案例的残差要重要得多。图 2 显示了这些残差的直方图。显然,有相当数量的案例残差非常低,因此可以被认为是典型案例。(有较高比例的案例远低于回归线,而不是远高于它,这表明模型可能不完整或误差项不符合正态分布。希望在案例内的分析能够揭示这种不对称的原因。)事实上,有二十六个案例的典型性评分在0到-1之间。由于这些案例在此一般模型中的典型性,任何或所有这些案例都可能被合理地选定进行深入分析。
图2 民主对财富的回归的残差
结论。典型性响应了案例选择的第一个期望,即所选案例代表一组案例。尽管如此,重要的是提醒自己,一味追求代表性并不能确保其实现。请注意,这里介绍的典型性测试,即案例残差的大小,如果统计模型设计不当,可能会产生误导。因此,一个案例可能正好位于回归线上,但在某些重要方面仍然是非典型的。
2. 多样案例(Diverse)
第二种案例选择策略的主要目的是在相关维度上实现最大方差。我们称之为多样案例方法。它要求选择一组案例——最少两个——以代表表征 X、Y 或某个特定 X/Y 关系的完整值范围。当研究者关注 X 或 Y 时,研究被理解为探索性(假设寻找);当他们关注特定的 X/Y 关系时,研究是验证性(假设检验)。
当感兴趣的单独变量是分类变量(开/关,红/黑/蓝,犹太/新教/天主教)时,多样性的识别显而易见。研究者只需从每个类别中选择一个案例。对于连续变量,研究者通常会选择极端值(高和低),有时还可能选择平均值或中位数。研究者也可能寻找分布中的自然分界点,这些点似乎对应案例之间的分类差异。当感兴趣的因子是变量的向量,并且这些因子可以被测量时,研究者可以根据被认为对 Y 有影响的因子的交叉列表,将各种因子组合成一系列单元。当其中一个或多个因子是连续变量而不是二分变量时,这种情况会稍微复杂一些,因为研究者必须任意地将该变量重新定义为分类变量(如前所述)。
多样性也可以理解为从外生因素到特定结果的各种因果路径。可能三个不同的自变量(X1、X2 和 X3)都会引起 Y,但它们是相互独立并且以不同方式引起的。每一个都是 Y 的充分原因。例如,George 和 Smoke希望探索不同类型的威慑失败——通过既成事实、通过有限探测和通过控制压力。因此,他们希望找到能代表每种因果机制的案例。这可以通过传统的路径分析、定性比较分析、序列分析或定性类型学来识别。
大样本分析(Large-N analysis)。当因果变量是连续的而结果是二分的时,研究者可以采用判别分析来识别多样的案例。在大样本背景下,通过某种版本的分层随机抽样方法也可以轻松适应分类变量的多样案例选择。在这种方法中,研究者识别出有兴趣的不同实质性类别以及每个类别选取的案例数量。然后,可以从每个类别中可用的案例中随机选择所需案例。
假设识别出多样的案例类别的同时,也会识别出在所有可能影响感兴趣的因果关系的方面内部同质的类别。在需要选择的案例数量较少的情况下,所选案例不能保证是每个类别的代表。然而,如果精心构建类别,原则上研究者应对给定类别内的任意案例无偏好。因此,随机抽样是一个合理的决策手段;然而,如果怀疑每个类别内部存在多样性,则应采取措施确保所选案例是每个类别的代表。案例研究不应该聚焦于子群中的非典型成员。
结论。涵盖全部变异范围可能会增强研究者选择的案例样本的代表性。这是一个显著的优势。当然,包含全部变异范围可能会扭曲案例在这个谱系中的实际分布。如果在一个总体中高值案例多于低值案例,而研究者只选择一个高值案例和一个低值案例,那么所得的两个案例样本就不完全具代表性。即使如此,与其他所有小样本(包括典型案例)相比,多样案例方法可能在代表性方面有更强的说服力。
3. 极端案例(Extreme)
极端个案法选择一个案例是因为它在感兴趣的自变量(X)或因变量(Y)上具有极端值。这里的极端值指的是远离给定分布均值的观测值;也就是说,它是不寻常的。如果大多数案例在某一维度上是正值,那么一个负值案例就构成了一个极端案例。如果大多数案例是负值,那么一个正值案例就构成了一个极端案例。对于个案研究分析来说,使一个案例有价值的是它值的稀有性,而不是它的正值或负值。
大样本分析。第i个案例的极端性(E)可以用该变量的样本均值(¯X)和标准差(s)来定义:
极端性的定义是第i个案例的Z分数的绝对值。这可以理解为一个程度问题,而非一个(必然任意的)阈值。由于极端性是一个单维概念,可以应用于问题的任何维度,具体选择取决于研究者的研究兴趣。假设我们主要关注国家的民主水平,这是我们所探索的示范模型中的因变量。我们的民主测量均值为 2.76,表明在1995年的数据集中,平均而言,各国倾向于比独裁更民主。标准差为 6.92,这意味着这些数据围绕均值有相当大的分散度。理解为偏离均值的极端性分数可以根据之前的公式为所有国家绘制图表。这些显示在图3中。碰巧,有两个国家共享最大的极端性分数(1.84): 卡塔尔和沙特阿拉伯。两者在 Polity 的二十一分系统中都被评为 -10(范围从 -10 到 +10)。这些是人口中最极端的案例,因此无论研究者的主要问题是政权类型还是别的,这两个国家都是自然的研究对象。
图3 民主的极端得分
结论。极端个案法似乎违反了社会科学的教条智慧,警告我们不要仅根据因变量选择案例。如果研究者将所选的样本——极端案例——视为代表性的人群,那么根据因变量选择案例确实是有问题的。然而,这不是极端个案法的正确用法。需注意的是,极端个案法会回溯到分析背后的更大样本。这些案例提供了全范围的变化以及更具代表性的人群画像。只要这些背景案例没有被遗忘(即在后续分析中作为参考点保留),分析就不太可能受到样本偏差问题的影响。因此,极端个案法对于个案研究分析是一种有意识的尝试,旨在最大化感兴趣维度上的方差,而非最小化。
也需注意,极端个案法是一种纯探索性方法——一种开放式探究 Y 的可能原因或 X 的可能效果的方式。如果研究者对影响感兴趣结果的其他因素或因果因素对 Y 的关系有某种概念,那么他或她应该采用本文探讨的其他方法之一。因此,随着研究的演变,更具体的假设浮现时,极端个案法可能会演变成另一种方法。实际上,极端个案法常常作为进入某一主题的一种手段,随后用一种更确定(更少开放)的方法对该主题进行深入研究。
4. 异常案例(Deviant)
异常(偏离)案例方法通过参考对某个主题的一般理解(无论是特定理论还是常识)来选择那些表现出令人惊讶的数值的案例。因此,偏离案例与理论异常的研究密切相关。所谓偏离意味着异常。因此,极端案例是相对于单个分布的均值(沿单个变量的数值分布)来判断的,而偏离案例是相对于某种一般因果关系模型来判断的。偏离案例方法选择那些参考一般跨案例关系表现出令人惊讶数值的案例,这些案例通常解释困难。重要的是,偏离性只能相对于所采用的一般(定量或定性)模型来评估。这显然意味着,案例的相对偏离性有可能随着一般模型的改变而改变。
偏离案例分析的目的是通常为了探究新的但尚未明确的解释。在这种情况下,偏离案例方法仅比极端案例方法稍微受限一些。它也是一种探索性研究形式。研究者希望偏离案例中的因果过程能揭示出适用于其他(偏离)案例的某些因果因素。这意味着在大多数情况下,偏离案例研究最终会得出一个可以应用于整体中的其他案例的一般命题。结果是,一个偏离案例研究可能会引导出一个新的跨案例模型,该模型识别出一整套完全不同的偏离案例;然而,也有第二个不太常见的选择偏离案例的原因。如果研究者有兴趣推翻一个确定性命题,那么只要处于推理指定范围内的任何偏离案例都可以。
大样本分析。在统计术语中,偏离案例选择与典型案例选择相反。典型案例尽可能接近当前假设的正式数学表示的预测,而偏离案例则尽可能远离该预测。因此,参考通过公式(1)所建立的模型,我们可以定义案例偏离预测关系的程度,如下所示:
偏离性从0开始,对于完全在回归线上的案例,通过理论上可以达到正无穷大。研究者会对选择偏离性最高的案例感兴趣。在我们正在进行的例子中,最偏离的案例位于回归线以下,如图4所示。事实上,所有偏离性得分超过10的八个案例——克罗地亚、古巴、印度尼西亚、伊朗、摩洛哥、新加坡、叙利亚和乌兹别克斯坦——都在回归线以下。一项聚焦于偏离案例的分析很可能会从这些案例中选择一个子集。
图4 民主对财富回归的影响力分数
结论。正如我们所指出的,偏离案例方法通常是一种探索性分析形式。一旦研究者对特定案例的探索识别出解释该案例的因素,它就不再(按定义)是偏离的。如果新的解释能够作为单一变量(或一组变量)在较大样本中准确测量,那么就需要一个新的跨案例模型。以这种方式,最初作为偏离案例框架的个案研究可能会转变为其他类型的分析。这一特点也有助于解决有关其代表性的问题。偏离案例的代表性是有问题的,因为所研究的案例本质上是非典型的。然而,如果研究者将案例研究提供的命题推广到其他案例,代表性的问题就得到了解决;即在基准模型中添加一个新变量。修改后的跨案例分析应将偏离案例拉向预期值,缓解最初的非代表性问题。希望的是,偏离案例现在或多或少变得典型。
5. 有影响力的案例(Influential)
有时候,选择一个案例仅仅是为了检查一些关于因果关系的一般模型背后的假设。在这种情况下,一个案例与整体模型的契合程度只重要到它可能影响整个总体的发现结果的程度。一旦确定了那些会影响整体发现的案例,关键是要决定它们是否真的适合样本(以及它们是否可能提供关于重要遗漏变量的线索)。由于确定这类案例的方法不同于确定异常案例的方法,我们将这种方法称为“影响案例”。这种案例研究的目标是探索与某个较大跨案例理论可能有影响的案例,而不是提出新的理论公式(尽管这可能是影响案例分析的无意副产品)。
大样本(Large-N)分析。回归分析中的影响案例是那些,如果在因变量上赋予不同的值,会最显著改变结果估计的案例。统计分析中常用的两种影响量度。第一种,常被称为案例的杠杆,来源于所谓的帽子矩阵(hat matrix)。帽子矩阵的一个有趣特征是它不依赖于因变量的值。这意味着从帽子矩阵得出的杠杆测度实际上是潜在影响力的衡量。它告诉我们如果案例在因变量上有一个异常分数,它会对最终估计产生多大影响,但它不会告诉我们每个案例实际对最终估计产生了多大影响。由于这种潜在影响力的测度在选择因变量分数可能存在某种先验不确定性的案例时很有意义,选择影响案例的分析师有时会对此感兴趣。在这样的案例研究中,大部分信息来自于对因变量的仔细、深入测量——而这种测量可能在案例研究开始之前是未知的或只是大致已知的。从帽子矩阵得出的杠杆测度适用于这种情况,因为它不需要因变量的实际分数。
统计学中另一个常被讨论的影响量度是库克距离(Cook's distance)。这种统计量度量的是如果某个案例从分析中被省略,βi参数估计会改变的程度。这主要取决于两个量:该案例的回归残差的大小和该案例的杠杆值。最有影响的案例是那些具有显著杠杆并且严重偏离回归线的案例。这些案例对从分析中得出的推论贡献很大。库克距离因此提供了每个案例对整体回归的实际——而不是潜在——影响的测度。在接下来的示例中,库克距离将作为主要的影响量度,因为我们感兴趣的是是否有特定案例可能影响我们的民主与发展回归中的系数估计。
图4展示了各国的1995年人均GDP和民主数据集的库克距离得分。大多数国家的库克距离都相当低。对此一般化的最严重例外是图中编号的线:牙买加(74),日本(75)和尼泊尔(105)。在这三者中,尼泊尔显然是影响力最大的一例,差距明显。因此,任何关于方程(4)所建模关系的有影响力案例研究可能都会从深入考察尼泊尔开始。
结论。使用有影响力的案例策略选择案例仅限于研究人员有理由担心其结果被一个或几个案例驱动的情况。这在小到中等规模样本中最有可能为真。如果样本量很大,比如超过1000,那么少数案例(更不用说单个案例)显然不太可能发挥显著的影响作用。当然,也可能存在有影响力的案例集,例如在特定大陆或文化区域内的国家,或具有爱尔兰血统的人。在时间序列截面数据集中,有影响力的观察集通常会是个问题,因为每个单位(如国家)包含多个观察值(随时间),因此可能对总体结果产生强烈影响。
6. 最相似/最不同案例(Most similar/Most different)
最相似的方法,类似于多样案例方法,至少使用两个案例。在其最纯粹的形式中,选定的案例对在所有测量的自变量上都相似,唯有感兴趣的自变量不同。表2提供了最简单的最相似分析的一个典型例子,该例子只包含两个案例,并且所有变量都是二元变量。在这里,这两个案例在所有可能与结果相关的背景条件上都相似,由控制变量向量X2表示。然而,这些案例在一个维度X1以及结果Y上有所不同。从这种案例间的共变模式中可以推断,X1的存在或不存在导致了Y的变化。
表2 两个案例的最相似分析
大样本分析。在简述了最相似研究设计在定性研究中的应用之后,我们转向如何在大样本横断面数据集中识别此类案例的问题。出于启发目的,我们侧重于两案例比较。读者应注意,这种方法可以且通常应适应更复杂的比较。
大概最有用的识别最相似情况下深入分析案例的统计工具可能是某种匹配策略。过去二十五年中,基于匹配技术的因果效应统计估计已成为定量方法学的主要话题,首先在统计学中,随后在计量经济学和政治学中。这类技术基于实验逻辑的延伸。在随机实验中,为因果推断而进行繁复的统计模型是不必要的,因为对于足够大的案例选择,处理组和对照组在所有被测量和未被测量的变量(独立变量及其影响除外)上有很大的相似概率。因此,非常简单的统计处理(如均值差异检验)可能足以展示因果推断。
相比之下,在观察性研究中,通常很难找到独立变量得分较高的案例(大致对应实验中的处理组)与低得分的案例(对应对照组)在所有背景因素上都相似的情况。通常,观察性研究中的处理组在许多方面都与对照组不同,这一事实很可能会混淆对X1对Y影响的正确估计。
一种常见的方法来解决这种识别问题是,在因果关系的总体分析中(例如回归模型),为每个潜在的混杂变量引入一个变量。匹配技术已被开发为这种控制变量方法的明确替代方案。这种方法首先识别一组变量(除了因变量或主要自变量外),并将案例与这些变量进行匹配。然后,对于处理组中的每个案例,研究人员尝试在对照组中找到在匹配变量(协变量)上得分完全相同的案例。最后,学者观察处理组中的案例与对照组中的匹配案例在因变量上的差异。如果匹配变量的集合足够广泛,涵盖了所有混杂变量,处理组与匹配对照案例之间的平均差异应能提供对因果效应的良好估计。
不幸的是,在大多数观察性研究中,上述匹配程序(称为精确匹配)是无法实现的。这种程序几乎总是会在处理连续变量(如财富、年龄或距离)时失败,因为通常没有两个案例在这些标量维度上具有完全相同的得分。此外,使用的匹配变量越多(无论是二元的还是连续的),找到精确匹配的可能性越低。
在精确匹配无法实现的情况下,研究人员可能会采用近似匹配,其中来自对照组的案例被认为与处理组中的匹配案例足够接近,因而被接受为匹配案例。一种实现方式称为倾向评分匹配,这种技术专注于寻找在匹配变量上具有相似估计概率的案例,条件是它们在匹配变量上的得分相似。换句话说,在为处理组中的特定案例寻找匹配时,研究人员寻找对照组中的案例,这些案例在知道独立变量得分之前,与其他案例一样可能出现在处理组中。通过两阶段分析实现这一点,第一阶段将关键自变量X1(理解为处理)视为因变量,并将匹配变量视为自变量。模型估计完成后,分析的第二阶段使用每个案例的拟合值,这些值告诉我们该案例被分配到处理组的概率,条件是其在匹配变量上的得分被考虑。这些拟合值被称为倾向评分。过程的最后一步是从对照组中选择具有类似倾向评分的案例来匹配处理案例。倾向评分程序的最终结果是一组匹配案例,可以使用研究人员认为合适的任何方式进行比较。这些是最相似的案例,回到定性术语。
假设研究人员希望选择与印度和哥斯达黎加在背景变量上尽可能相似,但在人均GDP上尽可能不同的案例,以研究财富与民主之间的关系。为了选择最相似的案例来研究财富与民主的关系,我们需要一个关于国家财富成因的统计模型。显然,这样的命题是复杂的。由于这只是一个说明性的例子,我们将满足于一个只包含两个自变量的简化模型。特别地,一个国家的财富将被假定为其法律体系起源(即英国、法国、德国、斯堪的纳维亚或社会主义)和一个衡量该国首都纬度的变量的函数。
选择最相似的案例的第一步是将人均GDP(理论上关注的自变量)回归到这些变量上。这次回归得到的拟合值作为倾向得分,而具有相似倾向得分的案例被解释为匹配的案例。需要记住的是,匹配的质量取决于生成倾向得分的统计模型的质量;显然,像这里使用的简化模型会产生肤浅的匹配。即便如此,它们还是能说明这种方法在选择有用案例比较上的威力。
分析确定位于我们研究重点的两个案例的倾向得分:哥斯达黎加(7.63)和印度(8.02)。检查其他案例的倾向得分数据,我们发现贝宁的倾向得分为7.58,与哥斯达黎加的相当接近,而人均GDP为1163美元,远低于哥斯达黎加的5486美元。因此,贝宁和哥斯达黎加可以被视为测试财富与民主关系的最相似案例。同样,尽管新加坡的人均GDP为27020美元,而印度为2066美元,但新加坡的倾向得分为7.99,与印度的接近。这两对案例符合最相似案例比较的标准,可以按照表2中表达的逻辑进行研究。
结论。最相似的方法是定性分析中最古老的公认技术之一,可追溯至J.S. Mill的经典著作《逻辑体系》(System of Logic)。相比之下,匹配统计是一种相对较新的社会科学技术,很少用于选择案例进行深入分析。然而,我们认为这两种方法之间可能会有富有成效的交流。事实上,统计学家当前对匹配的流行基于定性研究者所认可的一种基于案例的因果分析方法。
案例选择的最不同方法是前述研究设计的逆反图像。研究者不寻找最相似的案例,而是寻找最不同的案例。具体而言,研究者尝试识别在一个自变量以及因变量上共同变异,而其他所有合理的自变量都显示不同值的案例。这样的案例被视为最不同的案例,尽管它们在两个重要方面相似:感兴趣的因果变量(X1)和结果(Y)。分析人员通常认为这种研究设计是因果推论的较弱工具,这个问题在其他地方有讨论。就当前目的而言,重要的是注意到大样本统计分析作为选择小样本比较案例的技术的实用性。
复杂情况
表1中列出的七种案例选择策略旨在为研究人员提供一系列选项,以便在进行深入研究时确定有用的案例,这些选项也可以在大样本设置中实施,并提供如何在关键维度上最大化变异性的有用建议——同时保持案例在更大范围内的代表性主张。在最后一节中,我们讨论了在实施这些程序过程中可能出现的几种复杂情况。
有些案例研究仅遵循一种案例选择策略;然而,重要的是要认识到,许多案例研究也混合并匹配多种案例选择策略。关于策略组合,我们所能说的不多,除了在案例允许多种实证策略的情况下,没有理由不去尝试它们。
第二个值得强调的复杂情况是在研究过程中案例的地位变化。通常,研究人员以探索模式开始,然后转向确认模式——也就是说,他们提出了一个具体的X/Y假设。不幸的是,适用于探索的研究策略并不总是适用于确认。一旦采用了具体假设,研究人员必须转变为不同的研究设计。
有三种方法可以应对这种情况。其一,可以直接说明初始研究是以探索方式进行的,因此未构建以测试现在作为主要论点的具体假设。其二,可以在新假设(或修订后假设)被提出后尝试重新设计研究。这可能需要额外的实地研究,或整合额外的案例或变量,这些可以通过二手资料或咨询专家获得。最后一种方法是简单地舍弃或淡化不再解决(修订后)关键假设的部分研究。实际上,哪种策略或组合策略会被采用可能取决于实际考虑因素(它们并非互斥)。需要记住的是,修订跨案例研究设计是完全正常的,甚至是应该预期的。
最后一个复杂情况,我们在文章的每一部分都提到过,就是代表性问题。在只有一种情况下,案例研究人员不需要担心其选择案例的代表性:那就是有影响力的案例研究设计,在这种设计中,案例是因为其可能对跨案例模型的影响而被选择,因此不期望代表更大的样本。在所有其他情况下,案例必须在与所讨论命题相关的任何方面代表研究对象群体。测试这一点并不容易。但是,在大样本背景下,研究者最有信心的模型中的该案例残差是一个合理的起点。当然,这个测试的有效性取决于现有模型的准确性。任何不正确的模型规范或不正确的建模程序都可能导致结果偏差,并错误评估每个案例的所谓典型性。鉴于在案例研究分析中个别案例所承担的解释性权重,考虑代表性的测试时,除了残差测试外,还应考虑更多因素。演绎逻辑——关于感兴趣的因果关系的预期和所选案例——有时比纯粹的归纳测试更有用。
在任何情况下,这个问题都是不可或缺的。案例研究(除了之前指出的两个例外)基于一种所谓的类比引申假设:这个案例能够代表整个群体。如果事实并非如此,或者怀疑这一假设,那么案例研究的实用性就值得质疑了。
(因篇幅限制,参考文献从略)
〇 编辑、排版:焦磊
〇 审校:郭瑞涵 大兰