陈硕 : 实证研究中的语言逻辑与数理逻辑 | 站在前人肩膀上
“欢迎点击上方⬆️ “刘西川阅读写作课” 添加关注”
*图片来自:http://ccs.fudan.edu.cn/about%20me.htm
实证研究中的语言逻辑与数理逻辑
陈硕
摘 要: 文 章 作 者 是 Designing Social Inquiry: Scientific Inference in Qualitative Research 的中文简体版译者。作者在文章中试图对学者在实证研究中经常遇到的 语言逻辑和数理逻辑这两个概念进行初步的讨论。这两个概念并不是直接来自 于原书内容,而是文章作者在学习及翻译过程中获得的最重要启发。语言逻辑 往往采用文字表达方式阐述因果关系,而数理逻辑则依赖于更加严谨的公式推 导或研究设计。语言逻辑同时为没有受过社会科学训练的普通公众及专业学者 所使用,前者更多依赖于常识及经验,在多数情况下无法准确判断因果关系; 后者则构成日常学术交流的主要组成部分。对于后者使用的语言逻辑,文章认 为通过因果思维或研究设计将其转化为数理逻辑是决定实证研究者研究水平的重要因素。
关键词: 社会科学 因果推论 语言逻辑 数理逻辑
作为 Designing Social Inquiry: Scientific Inference in Qualitative Research 的中文简 体版译者,我非常荣幸能够在这本书出版 20 周年之际将她介绍给国内的读者。 该书 ( 以三位作者姓氏首字母及出版时间构成的简称 KKV1994 也许在学界更具 知名度) 由普林斯顿大学出版社在 1994 年出版。KKV1994 在出版后就成为众 多欧美高校经济学、政治科学及社会学等学科本科及研究生方法课程的指定参 考书,也是当今最具影响力的社会科学方法论著作。这本书是我在香港科技大 学社会科学部硕士阶段的必修课 《社会科学方法论》 的指定教材,也是我读的 第一本方法论著作,对此我感到非常幸运。就内容来说,三位作者加里·金 ( Gary King) 、罗伯特·基欧汉 ( Robert Keohane) 和悉尼·维巴 ( Sidney Verba) 在第一章便明确指出该书的写作目标是 “向读者系统地介绍如何在社会科学领 域开展研究”。而对于研究实施的两个方法: 定量传统及定性传统,作者认为它们 “之间的差别仅仅是风格和方法论上的不同......所依赖的逻辑都是相同的”, “即怎样提出研究问题、开展学术研究并进行有效的描述及因果推论”。不论采用何种方法,评价其研究过程是否科学的主要标准都要看其是否满足: 1 以推论为研究目的; 2 采用公开的研究程序; 3结论是不确定的; 4 研究的内容是关于方法的。
围绕上述这些观点,本书剩余部分从两个方向展开: 第一个方向将研究过程分为描述性推论 ( 第 2 章) 及因果性推论 ( 第 3 章) 两个步骤,其中前者是 研究的起点并构成后者的基础。在作者看来,这两个步骤均存在推论的过程: 描述性推论涉及如何由样本推及整体,而因果推论则试图发现不同因素间真实 的因果关系。本书第 2 及第 3 章提供了这两个推论的定义及推论规则。第二个 方向为主题研究,作者向读者提供处理研究中经常遇到的特定问题的对策。这 些问题包括: 如何确定观测对象 ( 第 4 章) 、如何增加观察值数量 ( 第 6 章) 及 如何避免某些特定问题 ( 测量误差、遗漏变量、无关变量及内生性等,见第 5 章) 。就如何确定观察对象来说,作者指出在大多数定性研究中随机选择样本方 法具有一定局限性,在这种情况下有目的地选择样本也许更为可取。围绕有目 的取样,作者提供了 5 种可供读者参考的操作方案。就研究中需要避免的问题来说,测量误差、遗漏变量、无关变量及内生性问题要么导致推论效率降低, 要么导致更严重的有偏推论。这些问题在定量研究中尤为突出,需要读者重视。 辅之以具体的例子,作者阐述这些问题造成的上述后果并提供了对策。而最后 一章讨论的增加样本数量则是定量及定性学者面临的共同问题,如何在现有限 制下尽量拓展样本数以提高推论效率的方法会在这一章给出。
我把这本书的中译书名定为 《社会科学中的研究设计》 的目的也正是为了 消除定量及定性研究方法间的隔阂。不管是定量还是定性背景,我确信每位读 者都可以从这本书中汲取所需的养分。对我而言,本书的学习及翻译过程带给 我最重要的财富是让我具备了用因果思维的能力,特别是语言逻辑和实证逻辑 之间的切换。语言逻辑主要采用文字或者口语表达出来的因果效用,主要由两 个群体所使用: 没有受过社会科学方法论训练过的公众依据习惯、阅历及常识 判断出来的描述及因果推论以及受过专业训练的学者在学术活动时采用的交流 方式。这些学术活动即包括学者日常的交流、学术研讨会上的提问与质疑,也 包括学术期刊审稿意见用语; 而数理逻辑则是受过训练的定量研究者利用实证 工具,包括公式表达或研究设计对语言逻辑进行严谨表述及应对过程。这两个 逻辑正是原书作者整合定性和定量研究思路的努力给我带来的直接启发。我认 为语言逻辑和数理逻辑贯穿了实证学者研究生涯的全部过程。而快速地实现这两种逻辑间的转化不光需要大量的学术阅读,更需要有针对性的训练。
在本文的以下部分,我将首先阐述常识在很多情况下对判断因果效用帮助不大; 其次,在更多情况下,没有常识能够帮助研究者界定出因果关系。此时, 对因果效用的识别,特别是大小的考察需要依赖数理逻辑。我将结合测量偏误、 互为因果及遗漏变量这三个研究者经常遇到的问题加以阐述。众所周知,这三 个问题将导致内生性问题: 最小二乘估计 ( OLS) 估计结果不一致。不一致的 结果是最严重的估计偏差问题: 偏差并不会随着样本量趋于无穷大而消失。在 这种情况下,研究者无法根据 OLS 估计系数并结合偏差方向来推测真实效应, 从中得到的政策含义也将具有误导性; 最后,我会指出基于因果推论思维的语 言逻辑是构成学者学术生活的重要组成部分。在这种情况下,实现两种逻辑间 的转化是决定实证研究者研究水平的重要因素。对于该结论,我将结合自己研 究中遇到的一个具体事例加以阐述。
一、常识并不可靠
基于语言逻辑的常识、习惯或阅历的确能够帮助我们判断一部分关系中的 因果方向,但有些情况下它们并不可靠。一个典型例子是财富和幸福的关系。 常识往往认为财富能够带来幸福。实际上,二者间的关系是受到诸多个体特质 的同时影响: 勤劳、人格、健康状况、自控及自信等。正是这些没有被常识所 考虑的因素同时驱动着个体获得财富并维持幸福感 ( Diener & Fujita,1995) 。将 该遗漏变量纳入考察范围之后,现有研究已经发现在满足基本需要后的财富增长 带来的幸福感是微乎其微的 ( Roberts,2011) 。这个例子就说明,常识要不就是在诉 说一个根本不存在因果效应的关系,要不就是极大高估了金钱对幸福的作用。
二、没有常识可以依靠
在其他绝大多数情况下,对特定关系是否存在真实因果效应可能完全没有 常识可依靠的。测量偏误及互为因果问题就是这样的例子。语言逻辑无法帮助 研究者廓清因果效应。此时,基于公式推导的数理逻辑能够展示 OLS 估计系数 存在的偏差情况。
测量偏误简单说来就是由于某些原因造成变量的测量值和真实值之间存在 差异。造成偏误的原因有很多,比如测量技术局限、原始资料局限、数据录入 人员的不小心或受访人的故意虚报。当存在这个问题时,如何判断对因果推论 的影响及寻找相应的解决手段就至关重要了。如果测量偏误随机存在的,比如 数据录入人员的粗心,我们一般将这种测量误差称之为经典测量误差,它将导 致该变量作用的低估。这里我们用收入对消费影响的例子加以演示。假设二者 间关系的 OLS 表达式如下:
其中 y_1 是个体的消费,而 x^*_1i 是收入,u_i (1)是其他可能影响消费水平但是没有被模型捕获的因素,假设是随机分布的。为了简单,我们也假设收入一消费关系不存在其他影响估计结果一致性的问题,此时:
其中 x1 是收入的真实值,e1 是真实值和录入值之间的差异,也就是测量偏 误。在录入原始问卷过程中,由于数据录入人员的粗心导致一些收入观察值的 录入错误。如果我们认为这种不小心的分布是随机的。那么,真实值和录入值 就均独立于 e1 ,写作:
另外一个无法依赖于常识判断估计结果偏差方向的例子是同时性问题。同 时性问题指的是解释变量和被解释变量互相影响,也被称之为互为因果问题。 该问题的一个典型例子是警察或者司法支出与犯罪之间的关系: 一方面,警察 的增加可以增加威慑、提高破案时间进而减少犯罪 ( Levitt,1997,2002) 。此 时,二者之间是负向相关。另一方面,一个地区犯罪率的增加也会导致政府招 募更多的警察及提高司法支出。此时,二者之间呈现出正向关系。虽然从逻辑 上两个因果方向都能自圆其说,但其背后的政策取向截然不同。如果是前者, 降低犯罪的有效应对措施就是增加警察及司法支出; 后者则意味着警察和司法 支出的增加成了犯罪增加的结果,而非原因。造成这个地区犯罪猖獗的根源可 能是不平等、社会福利、受教育水平及外来人口等深层次因素。此时政府一味 提高司法支出不仅不会导致犯罪的下降而且造成了公共财政资金利用的低效。
那么互为因果问题的存在为什么会导致 OLS 估计结果不一致呢? 回答这个 问题同样需要借助数理逻辑。司法支出和犯罪之间相互影响关系可以写作如下 OLS 方程组:
假设 y1 是犯罪率,y2 是司法支出,z1 是影响犯罪率的其他因素,而 z2 是影 响司法支出的其他因素。u1 和 u2 均符合 OLS 的基本假设。此时有:
我们知道一致地估计司法支出对犯罪的作用需要的假设是 y2 和 u1 相互独立, 即 Cov ( y2 ,u1 ) = 0 ( 可参见: Wooldridge,2012) 。但除非 α2 = 0,二者之间无法 实现独立。而 α2 = 0 恰恰意味着犯罪并不影响司法支出: 互为因果不存在。
从研究设计上,互为因果问题是最为棘手的内生性问题。目前较为流行的 处理方式也是工具变量方法。我在 2012 年发表在 《经济学 ( 季刊) 》 上的论文 《转型期中国的犯罪治理政策: 堵还是疏?》 中试图实证检验中国司法支出的效 率。由于上文提到的司法支出和犯罪之间相互影响,我在文中使用省政法委书 记党龄作为司法支出的工具: 政治资历和获得的资源成正比,同时犯罪率不会 反向影响其政治资历。基于工具变量方法,该文发现司法支出对犯罪率没有显著影响。相比之下,不断增长的犯罪率很大程度上是转型期多种社会经济特征所致。此外,在一些情况下虽然常识可以判断因果方向但并不能告诉方向的大小。
科学的严谨性促使研究者在方向的基础上进一步估计出作用大小,后者在社会 科学中尤为重要。实现对大小的估计只能依赖于数理逻辑。以下将以教育回报 为例阐述该观点。每个人都知道教育对个体收入的回报为正,但经验无法回答 每增加一年教育时限到底会增加百分之多少的收入。可能很多人不理解社会科 学家对小数点后几位数字的大小争论不休的意义何在。设想一下如果事关数以 千亿元的教育支出,小数点后面数字就不再那么无关紧要的。对教育回报大小 的估计是劳动经济学数十年来关注的经典研究问题之一,该学科为了回答该问 题进行的研究设计及方法论上的创新也极大地推动了其他社会科学领域的发展。
对教育回报作用识别遇到的最棘手问题是遗漏变量,此时遗漏的这个变量 便是能力。一般来说,高能力个体同时具有较长的教育年限及较高的收入。那 么观察到的教育作用就在一定程度上提取了能力的作用,如果忽视该变量将导 致对教育程度作用的高估。显而易见,基于高估的系数制定的教育支出预算必 然导致巨大的公共财政浪费。在能力变量的干扰下,即使没有社会科学训练的 人也不难理解为何教育程度会被高估。但语言逻辑表达出来的高估只有通过数 理逻辑展示出来才能在更一般的意义上理解遗漏变量问题对因果推论的影响。 我们假设教育和收入关系的 OLS 表达式如下:
三、语言逻辑和数理逻辑间的转换是决定实证研究者研究水平的重要因素
对于研究者来说,其学术和研究生涯遇到的大多数反馈都是基于语言逻辑 的。比如,在各种学术讨论上、与同行交谈甚至在审稿人意见中,对方一般用 语言的方式陈述作者研究工作中存在的问题: “你的结果高估了真实作用大小”“你的解释变量存在内生性问题” “你的因果关系可能只是相关” “样本也有自 选择问题”等等。这样的语言逻辑和上文提到的常识不同: 使用者为受过专业 训练的社会科学研究人员而非一般公众。在这种情况下,如何将这些回应阐述 成严谨的公式推导对于研究者回应问题、重新研究设计以增加稳健型讨论就非 常重要了。我和香港科技大学社会科学部龚启圣 ( James Kung) 教授合作的工 作论文 Of Maize and Men: The Effect of a New World Crop on Population and Economic Growth in China 在审稿过程中便遇到这样情况。长期以来,马尔萨斯型社会中的 技术进步所造成的经济和社会影响一直为经济史学家和宏观经济学家所关注: 理论模型预期在马尔萨斯时代,技术进步仅会带来人口增加但不会改善长期人 均生活水平。这篇论文试图通过实证检验北美作物玉米在中国引种和拓展对明 清时期人口和经济发展的作用以检验上述理论。玉米由于其抗旱性和对地形的低要求,被广泛种植于清代内陆的新开发地区并显著提高了中国的粮食产量: 1900 年中国粮食生产面积比 1380 年增加 3. 3 倍,对同时期粮食增加的贡献率超 过 55% ( Wang,1973; Perkins,1969) 。学者因此将北美作物在中国的引种和传 播比作是宋代引种占城稻之后的第二次农业技术革命 ( Ho,1959; Lan,2002) 。 实证考察玉米作用需要该作物在中国引种的系统数据。当我在进行这个研究的 时候没有任何一本历史著作系统搜集过这些数据。历史学家仅仅提供了大概引 种趋势: 玉米在 16 世纪中叶被引种到中国,经过 3 个多世纪的拓植,在 20 世 纪初期中国的所有地区均种植了玉米 ( Ho,1959) 。虽然这些研究富有先导性和 启发意义,我们需要的是玉米在中国每个地区的精确引种时间,这无疑是一次 劳动密集型工作。我在博士阶段用了整整两年的时间从明清时期出版的全部 1119 本府志中诸册查找并最终建立了玉米引种的数据库 ( 图 1) 。
这篇工作论文在第一轮审稿中一共获得了 4 个审稿人的 142 条审稿意见,其 中绝大多数都是语言逻辑: 他们仅仅指出初稿中他们认为有问题的地方。如何 用实证方式加以处理则是作者自己的事情。论文最终能否被期刊所录用就取决 于能否令审稿人满意地处理他们的质疑。以下用其中一条意见为例阐述这两种 逻辑之间转化的重要性。
图 1 展示出的这种渐进时空变化使得研究者可以采用标准的双重差分方法 ( Difference in Differences) 来检验其作用,其作用估计结果见图 2:
图 2 的横坐标表示距离该地区玉米引种的时期数 ( Number of Periods since Maize Adoption) ,纵坐标则表示人口密度在引种和没引种地区之间的差异 ( Change in Population Density) 。图中的实线表示人口密度在玉米引种前后的变 化,两条虚线分别为估计系数对应的上下 95% 置信区间。从该图中,我们可以 看到在玉米引种之前,两个地区之间没有显著差异。但在引种之后,引种地区 的人口密度开始超过没有引种玉米的地区。在工作论文里面,该图出现在正式 回归之前作为玉米促进人口增长的描述性证据。其中一个审稿人对此提出质疑: 他注意到在玉米引种前的 3 至 2 期及 1 期到 0 期,引种地区和非引种地区人口的 差别在趋势上同样存在上升趋势。在这种情况下,审稿人认为我们无法排除从 0 到 1 期的人口增长可能是偶然因素所致而非是玉米作用。
在我的理解中,如果 0 至 1 期的正斜率来自于随机效果的话,那么把一个地区的玉米真实引种时间随机赋给另外一个地区然后重新回归依然得到相似效果, 如果真是这样的话,我们就无法再坚持 0 到 1 期的正斜率是玉米的作用了。为 了实现概率上的效果,我们需要重复这样的赋值很多次。图 3 展示该项虚拟工 作获得的玉米引种估计系数的 t 值,三个图依次是进行 5 000 次、10 000 次及 30 000 次随机赋值的结果。从中可以清楚发现,在这种重复实验中,获得 t 值呈现 正态分布: 绝大多数都介于 - 2 和 2 之间。这意味着随机赋值获得的估计系数绝 大多数都不显著。虽然在概率上仍旧可以坚持基于真实赋值获得的 0 到 1 期正 效应还是偶然的。但这种偶然性太低了,低到足以使得我们认为这是不可能的: 该时段的正效用的确由于玉米引种所致。在该论文的第三次审稿中,上述修改 意见最终得到了审稿人的认可。
严谨的因果思维能力是高度训练后养成的自觉。了解文字逻辑对应的数理 逻辑需要研究者接受刻苦的方法论训练。因此,在研究开始之前,系统学习线性代数、概率论及计量经济学的知识是必须的。但实现这两种逻辑之间的转换 对研究者的要求则更高: 坚实的计量经济学基础之外仍需要持之以恒且大量的 学术阅读,以此培养实际应对能力。从这个意义上,求知欲和进取心只是第一 步,除此之外还需要一个好的老师领你入门。我想说的是,KKV1994 正充当这 种教练的角色。对于初学者来说,这本书提供了训练所必要的知识,同时又维 持在一个恰当的难度水平。作者们主要借助浅显易懂的文字逻辑而非抽象复杂 的数理逻辑告诉读者在研究设计中会遇到的问题,造成的后果及相应的对策。 在维持读者信心的同时,循序渐进地揭示出描述性推论及因果推论的相关知识。 KKV1994 的风格使我从没感到方法论很枯燥。恰恰相反,它是我认为最有意思 的一门学问。同时,对于学者来说,这也是一本常读常新的著作。工作以后, 我依然经常抽空翻翻它。书里面的内容不断提醒自己在研究过程中要避免作者 们提到的那些问题。这种互动,正如作者在中文版序言中所写: “本书的信息可 以促进读者重新审视自己的研究,同时在有了实际研究经验之后重读本书还能 获得新的感悟。”
免责申明:本文仅用于学术交流,版权归原作者和原发刊所有,转载请注明出处。如果我们的行为侵犯了您的权益,请及时联系我们,我们将会妥善处理该部分内容。
———
刘西川阅读写作课
希望通过
课程内容学习、刻意训练以及对前人经验的借鉴和吸收,
切实提高年轻朋友的阅读与写作能力。
主推三个栏目:
文献阅读与习作课程、个人原创和站在前人肩膀上。
该号由浙江理工大学刘西川副教授负责的研究团队维护,
希望广大本科生、研究生朋友关注和加入。
/ 文心雕龙 /
———