圆桌论坛002:证伪主义、准实验设计与推进政治学科学化 |【定性与定量之争:回到KKV】
【圆桌论坛】导语
定性与定量之争:回到KKV
Gary King、Robert O. Keohane和Sidney Verba(KKV)在会议和网络媒体上引发了诸多情感充沛的辩论,他们用一条简洁而颇具争议的观点激发大家的思考:优质定性研究和优质定量研究的逻辑本质上是相同的。他们的著作展示了如何设计定性研究(小样本研究),以满足科学推理的规范。我们邀请了五位资深学者,他们的工作融合了定性和定量的数据和方法,来评估KKV统一政治科学的尝试是否成功。
David Laitin对此持怀疑态度,质疑是否有足够的人来引领并训练这些不听话的政治科学家们;James Caporaso提醒大家关注定性研究的多种类型和其误区的多重含义;David Collier审视了KKV如何处理选择偏见问题,他认为KKV的许多建议与比较方法领域已经建立的常规理解相吻合,而某些定性研究者对于研究设计基本权衡的理解可能存在差异。Ronald Rogowski抛出一个尖锐的挑战:具有扎实理论的政治科学家完全可能会忽略KKV喜欢的部分学术“规范”。最后,Sidney Tarrow提出了自己对定量和定性三角化研究方法的看法,他认为这一过程中需要考虑的问题远超研究设计本身。
在对上述观点的回应中,KKV重申他们的信念:轻视设计考量的政治科学家最终会伤害他们自身的工作成果。最终留给整个学科的结论是:优质设计结合良好的理论即可创造出良好的定性和定量政治科学。
KKV著作《Designing Social Inquiry: Scientific Inference in Qualitative Research》(中文译本:《社会科学中的研究设计》)各版本封面
左上:1994年第1版,Princeton University Press
右上:2021年新版,Princeton University Press
左下:2014年第1版,格致出版社
右下:2023年新版,格致出版社
证伪主义、准实验设计与推进政治学科学化
(原标题为:《研究设计、证伪及定性与定量之争(Research Design, Falsification, and the Qualitative–Quantitative Divide)》,现标题为译者所拟)
作者:
James A. Caporaso, University of Washington
编译:
焦磊,山东大学
引文格式(MLA):
Caporaso, James A. “Research Design, Falsification, and the Qualitative–Quantitative Divide.” American Political Science Review, vol. 89, no. 2, June 1995, pp. 457–60.
快速阅读(本部分基于AI生成)
Gary King、Robert O. Keohane 和 Sidney Verba (KKV) 在其著作《社会科学中的研究设计》中提出,优质的定性研究和定量研究遵循相同的逻辑原则。他们尝试构建一座连接这两种研究方法的桥梁,旨在统一政治科学的研究方法。尽管这一提议引起了许多讨论和争议,但KKV认为,良好的研究设计结合坚实的理论可以创造出高质量的政治科学研究。
定性研究的本质
KKV认为,无论是定性还是定量研究,都应遵循相同的推理规则。定性研究关注的是基于种类而非程度的差异,而定量研究则侧重于量级的变化。作者强调,良好的定性研究设计同样可以从解释变量的差异、适当的测量策略和控制额外变化中受益。然而,也有学者对这一观点持有异议,认为定性研究的目的不仅仅是解释,还包括对意义的解读和个案的深入调查。因此,定性研究和定量研究之间虽然存在一定的相似性,但也存在不可调和的差异。
证伪主义的意义
科学的发展不仅依赖于假设的提出,还依赖于对这些假设的证伪。证伪主义强调科学的修剪、编辑和筛选功能,而非仅仅通过发现证实案例来评估假设。KKV指出,证实和证伪在逻辑上是不对称的,但过度依赖从理论中推导出多个推论来增加理论对证据的暴露程度可能会降低理论的稳健性。为了提高理论的证伪难度,应该关注以下几点:
最不可能被证实的预测:理论应包含最独特的预测,尤其是那些与常识相悖的结果。
派生性:在不同的环境中测试理论,以减少竞争假设的影响,增加理论的适用范围。
与定量推理的联系:定量研究可以产生更精确的预测,从而增加测试的难度。知识的累积改进应使预测更加冒险,更容易被证伪。
准实验分析
实验方法通常被狭隘地理解为仅适用于实验室的技术,而忽视了其背后的逻辑。准实验设计通过在自然环境中模拟实验条件,为研究提供了宝贵的工具。KKV拒绝使用“准实验”这一术语,认为研究者对关键因果变量的观察和值控制是决定实验的关键因素。然而,准实验设计通过“拆解”纯实验中的三个属性(操作独立变量、随机分配和实验室环境),形成了多种混合设计,这些设计在实际研究中非常有用。准实验设计追求自然环境中独立变量的突变、自然控制的发现以及解决内部和外部效度的技术。Campbell和Stanley的内部和外部有效性区分对于评估研究设计的价值尤其重要,有助于确保研究结果的可靠性和推广性。
尽管分歧可能比共识更有趣,但我要说明的是,我大致赞同 King、Keohane 和 Verba 的《社会科学中的研究设计》的论点。这些作者成功地为定性研究和定量研究提供了统一的原则和研究策略。主要观点是描述性和因果推论规则被不必要地局限于定量设计。良好的定性设计也从解释变量的差异、适当的测量策略和控制额外变化中获益。尽管定性研究和定量研究之间存在合理的差异,KKV 打破了系统量化研究者将政治简化为方程式,与定性学者进行不可复制的独唱表演之间的两极分化形象。简而言之,作者的“调和项目”建立了一种连接定性和定量研究的方法论桥梁。一些人可能将调和视为征服,因为实现的统一具有特定的标准和领地。然而,结果令人印象深刻。
KKV 将调查或研究设计策略置于书的中心。在教授研究方法时,我发现最有用的书籍是鼓励我们构建具有某些探查价值的问题的研究策略的书。一些书籍认为所有问题都可以通过复杂的统计操纵来解决。这本书的精神是完全不同的。以设计为中心的核心问题是选择适当的单位,确保解释变量的变化和控制混淆因素。薄弱(或不确定)的设计无法通过巧妙的数据分析来挽救。如果解释变量中没有变化(或解释多于观察)的研究在结构上是有缺陷的,无论分析师多么有洞察力,这样的研究注定要失败。没有适当的组织结构,额外的数据甚至复杂分析对我们没有太大意义。
我与这部作品的不同之处在于我的方法论教育受到了两位从未在这本书中提及的人的影响:Hubert Blalock 和 Donald Campbell。Blalock 的社会学贡献以这样一个前提为基础:社会科学的生态是由许多相互关联且测量不完美的独立变量构成的,并且存在来自依赖变量的反馈效应。在这个概念中诊断出许多方法论问题:过度决定、多重共线性、变量误差(不可靠的措施)和内源性。KKV 解决了这些问题中的每一个问题。因此,虽然 Blalock 的巨大贡献并未得到重视(可能是因为它们已经融入了现代统计理论),但他的精神在这本书中得到了很好的体现。另一方面,Campell的准实验取向不仅被遗漏而且被这本书拒绝。由于 Campbell和 Stanley的《研究与实验及准实验设计》(Experimental and Quasi-experimental Designs for Research)(第一版出版于 1963 年)至今仍是社会学、教育、心理学、政治学和政策分析等实证研究者的重要参考资料,并且该书对我有很大的影响,因此我认为有必要对 KKV 拒绝这种类型研究做出反应。
我的观点主要集中在三点:(一)定性研究的性质,(二)证伪主义的含义,(三)准实验设计的实用性。第一和第二个观点是本书所持立场的赞同论述;第三个观点则是意见不合的看法。
定性研究的本质
KKV坚持认为,相同的推理规则适用于定性研究和定量研究。虽然我倾向于赞同这一观点,这是因为我认同作者对定性研究的定义,即基于种类而非程度的差异。根据这个区分,变异可以分为两种类型:跨类别的(例如,政府类型、性别)和同一变量的数量差异(收入、劳动时长)。在测量理论中,性质被表示为名义变量,而数量则表示为顺序、区间和比率测量。定性变异不是量级的变异,而定量变异则是。这一特征表明,问题并不在于数字(名义测量也被分配了数字),而在于量级与性质的问题。
有了这种定性研究的定义,作者可以轻松地表明,一个合理的定性研究策略需要遵循与定量策略相同的推理规则(“如果x,那么y”在逻辑上并不不同于“随着x增加,y增加”)。但定性工作可以以不同方式构思,也可能对KKV的调和项目更具抵抗力。
对某些人来说,定性研究与种类变异的解释有所不同。事实上,利用系统研究解释的整个理念受到了质疑。详细描述和解释可能作为目的,而不仅仅是为解释做准备。学者可能对移情理解、意义的解释以及单个(不变)案例的详细调查感兴趣。书中的一些论点(如描述性推理规则)仍然成立,而另一些(如因果推理规则)则不那么相关,尽管作者试图将Geertz的分析纳入他们的项目。
一个相关的问题是,KKV关于定性和定量研究差异与相似性的论述是在一个以变量为中心的世界中进行的。这不是唯一的起点。以变量为中心的方法已经是从事物、具体名称和地点中抽象出变量特性的过程。在课堂上,我发现最难阐述的论点不是变量中心模型被接受后定性和定量研究的统一,而是如何从实例和具体体验的数据过渡到变量。在这个关键问题上,我不知道有什么方法指南。在“大象从Gasworks公园的草山上滑下来”和“某个物体以给定的摩擦系数沿着斜面滑下”之间存在差距。逻辑或观察都不强迫我们在接受第一个陈述后必须接受第二个。然而,必须跨出这一步才能进入变量的抽象世界。希特勒的帝国作为极权体制;奥地利、挪威和瑞典作为小型开放的社团主义社会民主国家;巴西、阿根廷和韩国作为后发的官僚威权国家,这些都代表了概念形成的例子,不是由演绎或归纳逻辑所迫(假设人们相信后者)。
可能抽象的冲动是不可抗拒的。Campbell喜欢论述理论和概念的形成“硬植入我们的视网膜中”,反映了我们感官中理论无罪的缺失。最后,我同意作者的观点,但在弥合定量与定性差距方面,他们需要做更仔细的工作——有些差距永远无法弥合。
证伪主义的意义
科学的进步不仅靠假设和推测,也靠不断地推翻我们自己的理论。这并不意味着我们希望理论是错误的,而是意味着我们相信这些理论经得起困难的考验。证伪主义视角很重要,因为它强调的是科学的修剪、编辑和筛选方面,而不是通过发现证实案例来评估假设的证实观点。
我接受KKV的出发点——证实和证伪在逻辑上是不对称的。但这些作者倾向于从理论的许多推论中得出证伪主义,以增加理论对证据的暴露程度。这个标准的问题在于,无法保证(或很可能)额外的推导比最初的理论更加难以推翻的风险更低。发展的证伪主义观点应包括以下三点。
首先我们应该考虑的是哪种理论的隐含结果最不可能被证实,如果理论不成立的话。这也可以理解为这个理论最独特的解释性预测内容是什么。预测西雅图十一月份会下雨没什么风险。同样地,用标准的能力定义来解释为什么强大的国家能够战胜弱小的国家也没什么风险。异常现象是那些与常识相悖的结果。它们并非我们普遍的观念和理论让我们相信的那样。一项最新的谈判结果案例研究很好地说明了这一点。Lisa Martin和Kathryn Sikkink对比了美国对阿根廷和危地马拉施压以期改善他们的人权情况的事件。推动这项研究的谜题是阿根廷(领土更大、更强大、更自主)屈服于美国的压力,而危地马拉则成功抵抗了压力。作者的理论依赖于许多因素,其中就包括跨国人权势力组织的强弱问题。按照这种观点看的话,我们的理论是冒风险的,因为这在一定程度上能够解释出与我们预期截然相反的结果。
第二点是派生性。作者认为,在不同的环境中测试我们的理论是个好主意。但我们应如何进行这些测试呢?证伪主义的观点提供了一个标准。要阐明理论的基本核心,使多个测试尽可能减少竞争假设(即相互竞争的解释)的集合。在相同环境中进行相同的测试几乎不会给理论提供额外支持。在不同环境中进行相同的测试,可以扩大理论的适用范围,如果能考虑到影响结果的其他因素,可能会增加证明的权重。但这有时成功,有时失败。研究人员应隔离出具有最大非重叠性的竞争性解释。如果一个理论在各种不同的环境中都成立,那比在相似条件下的验证更令人印象深刻。假定在多样化环境下,竞争解释更有机会显现其影响。这一点对于最不同系统设计至关重要。Stinchcombe以涂尔干的自杀理论为例,有力地阐述了这一程序的逻辑。
第三,KKV可以通过揭示证伪、定量推理和我们学科的理论发展之间的联系来加强他们的论点。这在某种程度上涉及到Rogowski关于强有力理论的论述(在本次研讨会中)。定量研究的一个优势是它可以产生更精确的预测(通常是数值或这些数值所在的范围),从而增加测试的难度。社会科学的大部分内容至少是隐含地关于预期标准。在统计学中,一个弱标准是非方向性虚拟模型。任何方向上偏离随机预期的发现都足以否定该模型。另一个标准则由实质性理论提供。考虑到x、y和z后,结果是否与预期不同(这并不排除一个不同指定的虚拟模型)?
我的总体观点如下。测量精度、理论规范性和研究的改进应导致可接受结果范围的缩小,与预测一致。知识的累积改进应使我们的预测更加冒险,更容易被证伪。我认为,这在政治科学中发生得太少,部分原因是我们急于探讨新话题(从鲜有研究的领域获取精华),部分原因是我们更乐于呈现“新视角”或“新范式”,而不是利用我们的集体成就来定义新的但具有累积性的突破。我们很少以增量(增值)方式报告结果,作为现有资本存量的增加。相反,我们的结果是以独立的“发现”形式呈现的。我们面临着反常的激励机制。认真对待社会科学的成果会使我们的测试难度加大,因为接受假设需要更高的“观察门槛”。相反,忽视过去的成就会使我们的假设更容易被接受——但这在降低标准和知识累积方面付出了巨大的代价。
准实验分析
实验方法往往被过于狭隘地理解为一套仅适用于实验室而与“现实世界”无关的技术。如果我们只注重实验程序而忽视其逻辑,就会失去对实验对事后研究的意义的学习机会。在宽泛的术语中,实验设计的最大成就就是通过随机分配实现实验前的群体等价。社会科学研究往往没有充分认识到随机分配的力量。随机分配与随机抽样之间的重大区别被忽略了。当许多因果因素与结果相关联时,随机抽样并不能解决推论问题。相比之下,实验者将单位(通常是人)分配到处理组和控制组的能力几乎消除了所有以受试者为中心的威胁有效性因素。实验控制变量“多少”保证了自变量有足够的变异。控制时间(何时)的暴露暗示着内生性问题的解决(因为自变量的值能独立发生于因变量)。
实验研究逻辑为事后研究提供了指导。随机分配技术引导我们寻找控制额外变量的方法,例如使用分层设计减少混淆变量的变异,或建立变异并进行部分相关和回归分析。操作程序转化为单位和观察的时间安排,以确保自变量上的变异。事后研究是“通过其他手段继续实验逻辑的过程”。在这个重要的哲学观点上,我认为与KKV没有区别。那么,他们为什么会拒绝准实验分析呢?
他们说:“我们拒绝这个概念,或者至少是‘准实验’这个词。”他们进一步指出,“研究者对关键因果变量的观察和值控制”是决定某一事物是否为实验的决定因素。这里需要说明两点。首先,研究者对自变量的控制值不足以定义实验。随机分配的能力同样至关重要,就像实验隔离(实验室)。在纯实验中,这三个属性是相辅相成的。没有操作自变量,我们不能肯定假设的效果会有机会发生。没有随机分配和实验室隔离,即使假设效果发生,我们也不能肯定我们能检测到这些效果。
第二点更为微妙。如果 KKV 的意思是准实验设计不属于一个逻辑上独立的类别,我同意。然而,Campbell和Stanley开创的众多设计之所以可能,是因为他们“拆解”了在纯实验中结合在一起的三个属性(操作独立变量、随机分配和实验室环境)。然后,这些属性以各种方式组合,形成各种混合设计。例如,实地实验允许在一定程度上操控独立变量,但无法控制随机分配和环境。其他设计允许随机分配(例如,将案件分配给不同的处理程序),但无法影响独立变量。
准实验设计追求三件事:(1)自然环境中独立变量发生突变,(2)当相邻的分析单元经历不同“处理”时,可能找到的一些自然控制,以及(3)用于解决内部和外部效度的概念和技术清单。中断时间序列设计和多重控制系列设计在许多政治科学研究者感兴趣的情况下提供了有价值的控制。事实上,Campbell的“改革作为实验”是政策分析师试图理清政策过程复杂互动的一个典范。因为这些设计是为了面对偏差选择、效度威胁的差异接触、测量误差和研究人员期望实现的世界,我认为它们很有帮助。
最后,我发现Campbell和Stanley的内部和外部有效性区分对于评估任何设计的价值很有帮助,实际上几乎不可或缺。内部有效性是基础,也是起点:“x是否对y产生影响?”外部有效性提出了这样的问题:“这些结果可以推广到什么其他的群体、单位、人群?”前者的问题关乎我们所有人,而后者常被简化为样本稳定性问题,它不是那样的问题。它是一个上下文问题(因此是理论问题):在Bronx,它是真实的吗?在Cook县是否也适用?”而不是“从同一群体中随机抽取的第1-30个元素与第31-60个元素有何不同?”这种区分之所以更加有帮助,是因为它与主效应与交互效应之间的对应关系十分匹配(主效应是对内部有效性的威胁,交互效应是对外部有效性的威胁)。因此,举例来说,如果选择性偏见独立存在且不取决于所假定的因果变量时,就会威胁内部有效性;如果同一选择性因素与因果变量相互作用时,外部有效性将受到威胁。在第一种情况下,x(因果变量)没有影响力。在第二种情况下,x有影响,只是因为其与选择因素的结合。
让我的评论回到起点。我认为这是一本很好的书,将在方法论课程中广泛使用。我深信许多定性研究都涉及解释和因果关系,因此必须关注本书的主要观点。通过概述一种适用于描述性和因果环境的研究策略,并与定性和定量研究相关,KKV承诺将统一我们学科中先前分散的部分。至少,《社会科学中的研究设计》鼓励我们相互交流并更精确地了解我们的分歧所在。
(因篇幅限制,参考文献从略)
〇 编辑、排版:焦磊
〇 审校:聂凯巍 大兰