赵 泉: 经验研究的过程:一个方法论角度的探讨 | 站在前人肩膀上
“欢迎点击上方⬆️ “刘西川阅读写作课” 添加关注”
经验研究的过程:一个方法论角度的探讨
赵 泉 吴要武
摘 要: 经验研究是一个从提出问题到推导结论, 再构建因果关系链条以证明研究结论成立的过程。 它 暗含着一个波普尔范式: 假说—检验—证伪。 以 “科学上可识别” 为选题原则, 作者需要从现象精炼出特征 化事实, 在理论的指导下提出假说, 寻找适用性数据, 构建一个完整的因果关系链条, 检验这个假说。 最 后, 在一个规范的写作框架下, 将这个研究过程展示出来。
关键词: 经验分析 波普尔范式 可信性革命
2007 年, Amy Finkelstein 曾做过一个关于经验研究方法的讲座, 开篇一句值得特别强调: “这些技 巧, 我希望当年也曾有人教过我”。 1 无论是 Finkelstein 的学术成就还是受教育经历, 都使人无法怀疑, 她接受了当今世界最优秀经济学家群体提供的完备训练。 从 MIT 经济系历届毕业生所取得的卓越成就, 2009—2012 年连续获得四届克拉克奖, 可见其教授们在训练研究生方面的强大实力。 尽管如此, Finkelstein 的语气, 暗示 MIT 的教授们忽略了对研究过程和方法技巧的指导。
中国的研究生和青年学者, 大多数没有像 MIT 那样的学习、 研究和成长环境, 也缺少训练有素的教 授们组成的导师组进行完备的知识技能训练。 如果连 Finkelstein 都认为给研究生讲解经验研究过程中的 方法技巧是有价值的, 那么, 为了帮助中国的研究生和青年学者找到正确门径, 对这个过程作专门的探 究就是必要的。
探究经验研究过程的另一个诱因是看到很多大学的经济计量学教师, 并不会做经验研究。 其中, 不 少人教育背景为数量经济学、 数学或统计学专业, 他们会解数学题和统计学题——甚至很难的题, 但却 不知道解这些题有什么用。 他们教学生做经验研究, 是 “瞎子领瞎子”。 因此, 中国的经验研究总体水 平不高。 即使在国内最优秀的经济学专业期刊上, 对经济计量学的错误运用, 也比比皆是。
如果没有良师指点, 少数聪明颖悟之士, 或许也能学会做规范的经验研究, 但这个过程将是漫长 的。 因此, 笔者想从经验研究的过程入手, 尝试为研究生和青年学者寻找正确路径。 揭示经验研究的过程, 在一定意义上相当于 “手把手地教人” 做研究。 写一篇规范的论文, 与工程师建造一座桥梁, 裁缝 制作一件服装, 具有类似性。 本文会例示一些优秀的论文, 剖析经验研究论文的产生过程, 还要从方法 论角度作探讨, 使我们对经验研究过程的分析更具一般性。
经验研究不容易, 因为它的研究对象是复杂的人类社会, “原因” 常被各种混淆性因素所缠绕、 遮盖。 欲揭示真正的原因, 不仅需要理论洞见, 还需要掌握众多相关事实和专业方法。 即使找到了事件真正的原因, 还有各种复杂的技术难题要克服, 很多不确定的因素要处理。 有些问题可用数据来刻画, 另 一些问题却只能来自研究者的主观判断。 当然, 主观证据也要建立在理论和事实的基础上 (DiNardo, Lee, 2011)。
一、 模仿: 倒立的影像
做经验研究是从模仿开始的, 几乎没有例外。 有经验的导师会选国际领先期刊上的论文, 给研究生 研读, 训练他们掌握经验分析的方法: 让研究生认真琢磨作者如何提出问题, 如何分析研究对象面临的 环境和制约因素, 如何利用理论和约束条件构建假说, 如何介绍数据, 如何设定经验方程, 如何处理内 生性偏差, 如何扩展模型和作稳健性检验等等。 鼓励研究生比照这个思路与框架写出自己的论文来。 那 篇优秀论文作为模板, 就立在那里。
通过模仿掌握研究方法是个共识, 但大多数研究生并未学会做规范的经验研究。 如果他们有锲而不舍的精神, 坚持上 5—10 年,甚至更长, 或许会找到正确的路径。 但更可能的结果是, 大多数人因挫折 而放弃。 “经济学不是科学”, “我与经济学无缘”, 是一个轻松的借口。
难在哪里? 当我们希望模仿一篇规范的经验研究论文时, 除了要突破各种知识技能上的障碍, 还有 一个易被忽略的难点: 那是一个 “倒立的影像” ——“原因—过程—结果”。 文章本身并不显示真实的研究和写作过程, 甚至误导了读者。 真正的研究过程,却是相反的:
我提出了一个问题, 接着, 找到了答案, 然后, 还原事件发生的过程; 再接着, 我猜测事情发生的原因......。 当我把一系列的因素都构建齐备后, 通过写作过程, 把这个 “头下脚上” 的影像翻转, 在一 个 “规范的框架” 里报告出来。
二、 提出问题: 科学上可识别
科学研究都始于一个客观事实。 经济学也不例外, 选题通常来自社会生活中的问题或历史事件。 有经验的导师, 会鼓励学生去现实生活中找问题 (Davis, 2001; Mankiw, 2006)。
(一) 选题原则: 重要、 新颖、 科学上可识别
重要, 是指问题的社会关注度。 通常是现实生活中的重要事情。 研究的问题过小, 缺少社会关注 度, 哪怕作者自认为有趣, 别人也会认为不值得研究, 毕竟, 一颗葡萄是难以与人分享的 (Stigler, 1988)。 有学者曾指出: 在转型期的中国, “农民工的工作条件和收入” 是一个比 “脸蛋漂亮对工资的 影响” 更有价值的问题。
新颖, 包括选题新和研究问题的切入点选得好。 新颖的选题, 不仅让作者感到有趣, 也让读者感到有趣。 但太阳下面无新事, 对那些天天遇到的事情, 大多数人会熟视无睹。 一旦作者能从大家熟悉的事 实, 讲一个别致的故事, 就会让人耳目一新。 比如, 女性地位是个老问题, 无论发达国家还是发展中国 家, 都存在着争论, 而性别比失衡, 则是发展中国家面临的社会难题。 钱楠筠将这两个因素结合起来, 用中国市场上的茶叶价格波动来探讨女性收入和其社会地位的关系, 并扩展到了性别比这个大问题上去 (Qian, 2008)。 就选题来说, 是个成功的典范。
科学上可识别, 意味着对问题的解释能够用经验证据检验。 这个命题, 你用某个大样本抽样数据可 以检验它, 别人使用其他的大样本数据, 也同样能检验它, 会得出一致或近似的结果。 这体现了科学研究的可重复性, 是客观性的一种经验表现。
可识别的另一层意义是把一个不清晰、 不准确的表述精炼化, 使之成为一个可以检验的科学命题。这个能力经由训练而获得, 每个青年研究人员都必须练就这个能力。
(二) 寻找答案
第一, 从理论出发去 “猜答案”。 经济学之所以是科学, 是因为他建立在 “人性不变” 这个准公理 性假设的基础上——从阅读孔子、 司马迁、 修昔底德和普鲁塔克等人的著作, 结合我们对自己的反思, 对身边人的观察, 可以相信, 2500 年以来, 人性是稳定的, 古今中外皆然。 人性的稳定性, 使人类社 会有一种内在的和谐, 因而是可以认识的。 人是理性的, 社会资源是有限的, 寻求资源的有效配置, 是 任何国家和社群所关注的大事。 以此为根基, 经济学发展出一套完备的知识体系, 理论能够给我们寻找 正确的答案指出方向。
第二, 直接去数据中 “偷看答案”。 经济学理论是我们解释世界的工具, 但它本身仅仅是一套 (空 洞的) 逻辑体系。 要想解决问题, 必须与问题发生的环境结合起来。 这就需要学者熟悉研究对象, 了解 问题的来龙去脉, 只有这样, 才能重构事件发生的过程, 找到事件发生的真正原因。 学者应该在自己的 研究对象上, 成为真正的专家 (List, 2011)。 你运用理论推理时, 可能忽视了环境的影响, 但这个影 响会体现在数据中。
在经验上, 常常是先 “猜出” 或 “偷看” 了答案, 才倒推出特征化事实 (Stylized fact)。 也可能会 走相反的路径: 先找到了特征化事实, 然后顺推出事件的结果。 因此, 研究路径有两个: 在理论的指导 下, 观察一个或多个可信的大样本数据; 观察事件发生的过程和结果。
(三) 特征化事实
理论为寻找正确的答案提供了方向, 但能否发现正确的答案, 则不一定。 比如, 工资水平提高后, 人们会增加闲暇时间还是增加工作时间? 这取决于每个代理人的效用评价: 收入效应和替代效应这两个 相反方向的力量谁占主导, 是不能先验地判定的。 不同的环境, 有着不同的特征化事实, “修改了” 真 实的事件结果。
既然要对假说或推论的结果进行猜测, 那么, 可能猜对, 也可能猜错。 猜对了, 接着要构建连接问 题与结论的桥梁; 猜错了, 要重新思考为什么结果没有如理论推断那样, 里面一定有原因。 这个时候, 不要轻易放弃。 猜对了, 你在讲一个合乎经济学逻辑的故事; 猜错了, 你可以讲一个同样合乎经济学逻 辑但更加新颖的故事。 这时的关键是弄清环境中有什么特征化事实没有被掌握, 以至于你的模型里忽略 了它。 但一个可信的大样本数据却作证: 它就在这里。
由于研究对象的复杂性, 马歇尔告诫: 经济学家要掌握尽可能多的事实。 这些事实帮你修正理论预 测的错误。 要提醒一点: 任何 “现象” 都 “属于” 事实, 但只有用可信的大样本数据能检验出来的事 实, 才能称得上是特征化事实。 需要借助抽象思维才能理解这个概念。
三、 数据: 找到答案
(一) 数据产生过程 (DGP)
洪永淼 (2007) 认为, 经验分析有两个公理性假定: (1) 任何经济系统都可以看作是服从一定概率分布的随机过程; (2) 任何经济现象 (经济数据) 都可以看作是这个随机数据生成的过程的实现。 以上论断并不易懂。 我们从 “自然实验” 入手, 更直观地介绍数据产生过程。 作个场景模拟: “大 自然” 在做实验的时候, 很少邀请你到现场观摩, 更不会慷慨地一边向你演示一边为你解释: 他做这个 实验的目的, 经历了怎样的过程, 得到了什么样的结果。 但实验结果会被记录在自然界或人类社会里。 比如, 人口控制政策的出台, 导致 1972 年以后 (城镇) 独生子女的数量越来越多, 在出生队列中的比 例持续提高。 虽然你没有亲自参观实验过程, 但你看到这个结果 (数据或事实), 通过理论训练和分析事件发生时的社会经济状况, 可以将事件发生过程重现在头脑中。
我们再回到洪永淼的论断上来。 既然是随机的过程, 那么, 一个样本里包含的信息, 既有确定性,也有随机性。 没有一个样本能说, 自己既 “代表着客观事实” 又做到了 “准确区分”, 但一个样本做不到的, 用一组样本却可以做到: 这组随机产生的样本, 观测值越多, 代表真实总体的能力也就越大。 大 样本代表 “明天的太阳会升起”; 观测值则允许 “今天的风随意吹”。 因此, 在经验研究中, 数据处于关 键地位, 因为它一头连接着形而上的理论——确定性, 另一头连接着形而下的经验现象——随机性。 如 果数据产生过程是随机的, 样本越大, 越接近 (理论上的) 真实。
理论 (假说) 与数据之间是相互影响甚至是相互诱导的 (Heckman, 2015), 也就能理解数据的地 位有多重要。 作者在使用数据之前, 要先对数据的适用性与可信性作评估。
(二) 数据的适用性和可信性
当你从理论出发, 结合研究对象面临的约束条件, 刻画出一个故事轮廓了, 接着, 你需要寻找适用 的数据, 构建证据链条来检验它。 这个链条应该与理论逻辑 (故事) 的方向相平行, 在理论逻辑的每个 “节点”, 都要有数据结果来 “与之对应”。 两者之间当然可以调整, 以相互适应, 但最终能为同行接受 的链条, 应该是平行且有对应性的。
在寻找数据时, 作者面临一个问题: 本文的假说能用这套数据进行检验吗? 作者需要去研究这个数 据的结构, 有哪些变量, 如何定义的, 与待检验假说是否有关, 样本多大等等。
数据结构决定了模型设定。 同样的命题, 使用不同结构的数据都能得到检验, 比如, 研究工资变化 的文献, 有使用个人层面微观数据的, 有使用城市 (地区) 层面汇总数据的; 有用截面数据或混合截面 数据的, 也有用面板数据的。 数据结构不仅决定了经验方程的设定, 时间维度特征的有无, 观测对象异 质性的不同来源等, 还意味着不同的内生性特征和处理手段。 最受研究者欢迎的是以个人、 家庭或公司 为观测对象的微观数据, 因为它有坚实的理论根基: 经济学模型里必须有代理人。
数据的可信性, 也是证据的可信性。 由于大多数数据来自抽样调查, 那么, 样本应该能够代表总 体。 因此, 要重视数据的产生过程。 理论上的 DGP 是评估经验方程中的误差项是否符合高斯—马尔科 夫条件, 但经验上的 DGP 则是强调严格遵循科学抽样与调查的过程, 处理好调查过程中的关键性细节, 得到 “最接近随机” 的高质量数据——良好地代表了总体。 思考与评估数据产生过程在理论与经验上的 对应性, 是研究者的一个重要技能。 只有亲自参与过数据采集过程的学者, 才容易理解与把握这种对应 性, 才敢说对数据的使用 “双脚站在了磐石上”。
数据的可信性, 可通过不同抽样调查数据的收敛性来评估。 面对同一个社会总体, 有几个学者都在 做抽样调查数据, 如果都遵循了同样的随机抽样过程, 则不同数据的结果应该是一致的。 不同来源的数 据, 起到了一个互证的作用。 研究者应该 “在数据上成为一个企业家”, 经常搜集和关注不同来源、 不 同时期的数据结果, 并且经常观察社会事实。 不断比对, 不断修正, 才能在头脑中建立正确的影像—— 对社会状况的判断和认识。
当数据不支持假说时。 可信的数据才能检验正确的假说并为之作证。 当两者不一致时, 作者就受到 困扰: 到底是假说错了, 还是数据错了, 还是两者都错了? 假说错了, 可以重新构建, 如果数据错了, 更可能绊倒作者。 毕竟, 假说来自头脑, 而数据却是更严格的外在约束。
数据的有限性。 在现实中, 没有一个抽样调查真正做到了 “随机性”, 那么, 每个数据都是有缺陷 的, 研究者应该清楚这个特征, 扬长避短。 比如, 抽样调查数据的汇总结果, 常常会偏离真实的结果, 3 但将抽样调查数据用于结构性分析, 其偏差就会小得多。
有经验的调查者, 通常会对数据做个评估, 看自己的抽样数据偏差有多大, 朝哪个方向偏。 比如, 谢宇等 (2014) 在评估 CFPS 的质量时, 先找一个可信的数据作为基准——第六次人口普查数据, 然后,将自己做的抽样调查数据与普查数据作比对, 以判断偏差的方向和大小。 不做数据评估的人, 必被数 据所绊倒。
(三) 数据的解读
数据自身并不会做因果分析。 做因果分析的是研究者。 他要把干预或事件发生的过程弄清楚, 构建 因果关系的链条和传递机制, 展示给读者。 读者会运用自己的理解力和判断力, 决定是否接受这样的因 果关系。 在数据提供各种计算结果的同时, 要辅以公认的经验事实——数据结果的经验内容。 比如, 历 次人口普查数据都能看到: 1959—1961 年出生队列, 有个急剧的下降。 假如国外学者不了解中国当时 发生 “大饥荒” 的事实, 就可能作出其他的推测或解释: 战争, 瘟疫, 或者干脆是数据错误。
数据结果和经验事实必须联系起来。 你看到数据结果, 要向有经验的学者请教: “Z 老师, 人口普 查数据里, 发现一个现象, 当时, 中国发生了什么事情?” Z 老师会告诉你, 那段时间, 中国正在推行 “晚稀少” 生育政策, 人口出生率下降, 并不是始自 1980 年的独生子女政策, 在 1970 年代初, 就开始 下降了。 数据的背后是历史和事实。
(四) 对大样本数据的偏好
“自变量要变”。 在经济计量学教科书里, 这是个公理性的假设。 在经验上, 它对应着 “样本规模” 和 “变异程度”。 从遵循 “数据产生过程的客观性” 原则看, 小样本难题是无解的。 无论研究者怎样创 新估计方法, 再抽样, 模拟, 等等, 方法越复杂, 越远离 “客观性原则”。 因此, 什么样的估计方法都 代替不了高质量的大样本数据。 反过来则可以断言: 时间序列方法在经验研究中, 不是一个有前途的方 法——样本小, 内生性严重, 很难得出可信的结论。
(五) 数据的拷打
我们对 “完美的证据” 有着本能的渴望。 然而, 社会问题的复杂性, 使我们很难找到 “完美的证 据”, 或者说, 根本就 “没有完美的证据”。 因此, 几乎每个学者都有拷打数据的冲动: 让数据提供我们 需要的结果。
拷打数据的方式, 形形色色, 但都背离了研究的目标: 创造 (更接近真理的) 新知识以增进我们对 生活在其中的这个世界的理解 (Stigler, 1988)。 数据拷打的方法, 常用的方法是加权。 另一种拷打是 模型误设, 放一些坏控制变量, 以获得主变量的统计显著。
不止一个学者遇到这样的诱惑: 把不同产生过程的抽样调查数据混合到一块使用。 这固然增大了样 本, 数据按照作者的需要 “招供”, 但这里的 “样本” 背后, 没有 “总体”。 既没有内部有效性, 也没有 外部有效性。 在科学法庭上, 不接受拷打得来的证据, 这是原则。
四、 编织故事: 步骤与证据链条
(一) 编织故事的三个线索
1. 问题—结果—过程。
现在, 问题清楚了, 也猜出了正确答案, 如何报告研究结果呢? 问题在认识之河的此岸, 而答案却在彼岸。 必须构建一个 “桥梁”, 把两个端点连接起来, 读者才能看得懂和接受你的论证。 这个 “桥 梁”, 就是证据链条。
搭建证据链条要遵守规范的框架。 需要数据和经验事实来充当 “建桥材料”, 还要有一套完备的知 识技能, 以组织、 运用和剪裁这些材料, 依照特定的框架结构展示证据。 这个 “桥梁” 有两个链条: 理 论上的逻辑线条; 经验上的证据链条。
从理论出发, 加上中国的特征化事实, 可以推论应该出现什么结果, 这是 “假说”。 它在形而上的 世界里。 在形而下的经验层次上, 假说会以什么方式表现出来? 这是可以用经验证据检验的 “推论”。 形而上与形而下两个世界, 在此有了对应性。 这两个链条必须是一致的、 平行的。 两条线索就像 “桥梁 的钢筋”, 将一块块的 “材料” 联结起来。 经验研究论文必须有两条相互印证的线索, 才有可信性。 那一个个的桥墩 (关键证据) 如果不够坚固, 文章就有硬伤。
2. 问题—推论—结果。
不是所有的研究在提出问题后, 接着就找到了答案, “桥梁” 建设也不总是 “从两头开始, 向中间靠拢”。 这种情况是常见的, 从问题出发, 不断自我追问: 知道了这个事实, 又能怎样呢? 接着应该做 什么呢? 就像女孩子编辫子一般, 不断地朝一个方向拓展故事链条, 直到讲出一个完整的故事。
不少学者有这样的经历: 开始动手写作了, 但还不知道目的地在哪里。 在一步步摸索前进中, 找到 了答案。 “研究—思考—写作”, 是个滚动前进的过程 (McCloskey, 2000)。 Goldin 和 Katz 强调, 至 少重写十遍是真正的写作艺术。 1 “十遍” 并不仅仅是打理文字, 甄选材料, 理顺逻辑, 调整布局, 还 常常是修正结果甚至是重讲故事。 文章写出来了, 和最初的设想相比, 已变得面目全非。 要准备作这样 的调整和修改。
3. 现象—事实—假说。
我们观察到的是 “现象”, 既混乱又不稳定。 要以经济学理论作指导, 对这些经验材料进行梳理分 析, 运用奥卡姆剃刀, 保留主干, 砍掉枝节, 才能从 “现象” 精炼出 “事实”。 事实相当于约束条件, 与理论相结合, 才能推演出假说来。 2 我们将这个思维前进过程概括为 “现象—事实—假说”。
假说的构建。 就思维过程来说, 是从复杂无序的经验层面跳跃到简洁优美的形而上层面。 这很像飞 机在跑道上滑跑、 加速, 然后, 突然跃起并升入空中。 在长长的跑道上, 可以视为 “现象”, 而起飞的 临界点, 可以被视为 “事实”。 一般理论和特征化事实相结合产生 “假说” 那个瞬间, 就相当于 “跃 起”。 “假说”, 则已经升入空中了。
(二) 构建完整的证据链
1. 证伪检验。
你编了一个故事, 怎么能证明你这个故事是创造了更接近真理的新知识, 而不是一个自圆其说的逻辑戏法呢? 一个办法是做证伪检验, 如果没有你所说的那样的原因或传递机制, 就不会出现你所论证的 结果。 证伪检验的延伸, 则是要证明其他竞争性假说不成立。
经济学说史上, 最大的公案之一是人力资本学派和信号学派之争: 双方的预测结果都朝着一个方 向, 然而, 政策含义却是不同的。 经验研究不接受 “公说公有理, 婆说婆有理”: 条件一定, 正确结果 只有一个。 如何把这个缠绕结给解开? Waldinger (2010) 给出了一个精彩的检验: 大学还是那所大学, 学生还是最优秀的学生, 但大师离开了, 毕业生的质量显著下降了。 在一个自然实验框架下作证, 人 力资本假说得到支持。
2. 剪裁与布局。
为了论证提出的假说, 还需要各种相关的事实, 作为主观的证据, 只有把这些证据材料进行组织、 整理、 剪裁, 纳入到一个合理的框架内, 放在设定的逻辑链条上, 才能构建出人们能理解的 “认知桥 梁” 来。 我们准备的材料或证据, 既产生自头脑中的知识存量, 也来自 “研究—思考—写作” 过程中的 资料搜集, 大多数是用不上的。 要舍弃它们, 并不容易, 因为我们投入了心血, 灌注了情感。 我们希望 把这些证据或材料, 都用到文章中去。 尤其是一些令我们洋洋自得的内容或 “金句”, 与作品的整体逻 辑 (或基调) 并不吻合。 对读者来说, 那是阅读进程中一个讨厌的钩子 (hook), 必须剪掉它。 重写, 是最有效的剪裁手段, 能让作者拉远距离, 像个中立的旁观者, 从思维的偏执中跳出来, 客观评价材料 在文章中的作用, 是否保留。
3. 数学工具。
有人声称, 自己在模型中推导了多少步, 才得出了正确的结果。 这是一个误导。 我们怀疑, 没有一 个经济学家真的会这样从事创造性工作。 直觉和演绎思维在经验研究中起着重大作用, 这才是找到正确 答案的两个途径。
当我们发现正确答案后, 可以把答案以数学的方法来准确表达出来。 但数学既不是我们探索的动 力, 也不为我们的探索指明正确方向。 可以断言, 如果用数学推导可以找到正确的答案, 那么, 就不需 要科学家的探索和研究了, 买几台功能强大的计算机, 就把他们全替代了。 幸好这不是事实, 科学家会 不断地改进和利用工具, 却不会成为工具的奴隶。
我们会从理论出发推论可能的结果。 比如, 通过把婚姻市场的结构变化与理性人假设结合起来, 推 演代理人选择的变化, 得出女研究生 “宁可在婚姻市场上剩下” 的结论 (吴要武、 刘倩, 2014)。 但我 们是先看到了 “女研究生在婚姻市场上剩下” 这个 “结果”, 然后, 去倒推 “剩下” 的原因。 婚姻市场 收益和劳动力市场收益的此消彼长 (trade-off), 从理论上能得到很好的解释, 在生活中也能观察到这个 经验事实。 高等教育扩招后, 女性占主导地位, 却是一个新的特征化事实。 美国和其他发达国家的高等 教育群体中也有同样的性别特征。 这样, 就一步步找到了高等教育扩招为什么会导致 “剩女” 的原因。
始终要牢记的是, 经验研究始于一个客观事实, 结束于一个一般化的认识——另一个事实, 而不是 一串数学符号。 1 当研究者不仅找到了正确答案, 也找到了传递路径, 甚至用形式逻辑将这个过程完整 地刻画出来以后, 才将形式逻辑转换成数理逻辑。 孩子生出来了。 那个名叫 “数学” 的阿姨, 馈赠了一 件华丽的外衣。 数学本身是没有生命的, 它装扮了生命。
科学探索中的想象力 (直觉与演绎) ——建立在训练的基础上, 才是我们探索未知世界的真正工 具。 想象力找到了正确答案。 当然, 也不可轻看数学训练在经验研究中的作用: 数学训练能让学者更加 准确地刻画问题, 帮助尖锐化思考, 保持思维在逻辑上的一致性, 减少出差错的机会。 数学工具是一种 大家共同接受的论证语言。
4. 评估研究的可信性。
可信性是经验研究的灵魂。 可信性不仅来自于科学的设计, 还取决于关键性细节的处理。 除了把因 果关系的传递机制和路径说清楚, 还要做到数量关系的准确区分, 处理好内生性问题。 证伪检验, 通常 是提供一个反证: 本文所证明的相关是因果关系, 如果没有本文所指出的这个传递机制, 那么, 两个变 量之间就不再有相关性。 稳健性检验: 本文的因果关系不仅在逻辑上成立, 在数量关系上还非常 “结 实”。 敲上几锤子, 故事链条的接口处都砸不破。
对估计偏差方向的判断, 是可信性评估的另一个内容。 由于数据不完美, 技术有瑕疵, 从样本中得 到的结果到底有多可信? 一个数据样本不能为自己的结果作证, 但如果能找出偏差的方向, 无疑是个有 价值的信息: 现有的估计数值, 是朝某个方向偏斜的。
经济计量方法不是一个黑箱, 各种回归分析也不是变戏法, 因此, 要避免欺诈的嫌疑 (Leamer, 1983)。 Stock (2010) 曾经指出, 今天的主流经济计量学教材显著不同于 20 年前, 甚至不同于 10 年 前。 可信性革命框架是今天经验研究的主流 (Angrist and Pischke, 2009、 2010), 要把因果关系的 传递链条上的每一个重要环节, 都清晰地展示给读者。
五、 经验研究过程中的技法
(一) 波普尔范式
一个规范的经验研究, 需要用一套规范的话语体系来表达, 在这个话语体系背后, 隐含着一个特殊的范式——波普尔体系。 看似简单的 “假说—检验”, 其实包含三个阶段的论证。 第一步, 要论证 A (原因) 导致了 B (结果), 这是假说; 第二步要论证, 如果 A (原因) 没有发生, 则 B (结果) 就不会 发生, 这是证伪检验; 第三步要排除竞争性假说或混淆性因素: 其他非 A 因素 (疑似原因), 并不真是 B 的原因, 必须排除。 一个完整的论证过程才算完成。
波普尔范式也提醒了经验研究者, 在检验假说时应抱持的正确态度: 对结论留有余地, 准备接受新 的证据和检验。
(二) 面对证据的不完美
由于人类社会的复杂性, 经验研究几乎不可能获得完美的证据。 限制通常来自经验层面, 比如数据 中缺少作者需要的变量、 数据质量不高、 找不到解决内生性的有效工具等。 今天, 随机受控实验方法受 到研究者的青睐, 但同样受到质疑: 即使解决了内部有效性, 外部有效性又受到怀疑。 但经济学家通常 相信, 随机受控实验与自然实验可以起到相互补充的作用。 前者在内部有效性上有说服力, 后者则在外 部有效性上可信 (DiNardo and Lee, 2011)。 如果两种方法得出的研究结果接近, 则起到了互证作用, 增强了可信性。 这是一种最理想的状态。
即使国际领先期刊上那些最受人称道的论文, 也很少有完美的证据。 费曼曾无意中为经济学提供了 一个有力的辩护: 即使在物理学中, 尚且缺少完美的证据, 何况与人有关呢? 如果证据过分完美, 不可 能是真实的。 1 这个论断是高度可信的。
再说, 我们需要完美的证据吗? 既然客观世界不存在这样完美的证据, 无论我们主观上多么努力, 都不可能得到完美的证据, 那么, 就要在某个地方做切割: 接受一个达到某种 “精度” 的证据 (Fried- man, 1953)。
我们在估计教育回报率时, 使用出生季度当工具变量, 虽然这个工具的有效性是可信的, 但结果本 身却是一个 “局部干预效应”: 只有 16 周岁附近的人才受到影响 (吴要武, 2010)。 不能把教育回报率 推演到初中以下和高中以上群体。 以设计为基础的经验研究及其寻找的因果关系, 常常是局部的 (Lo- cal) (Cartwright, 2007)。 但是, “能解释一部分总比不能解释好” (Stigler, 1982)。
没有完美的证据, 应成为每个作者心里不容突破的底限。 要时时提醒这个底限的存在: 宁可接受不 完美的证据, 也绝不接受拷打得到的证据。
(三) 再迈一步
当我们提出的假说, 用可信的数据, 依照规范的方法, 严格检验以后, 是不是故事就讲完了, 可以 对本文做总结和引申了呢?
不要停步。 应在现有的约束条件下, 继续努力, 把自己的智识探索推进到尽头。 很多人喜欢 Duflo (2001) 并把这篇文章当作模仿的对象。这篇文章体现出一种积极进取精神: 在别人认为研究已经完成 的情况下, 她再迈出去一步对印尼施行扩大教育项目的成本收益做个评估。 这个评估是粗糙的, 可信性 有限。 但我们仍然很喜欢。 在科学的意义上, 这是一个顽强的姿态: 绝不向大自然冷酷的必然性屈服。
再迈一步, 体现了学者智识探索上的精彩, 后人因此超越了前人。 迈出这 “一步”, 要花多少时间 精力? 笔者判断, 大致相当于前面所有工作的总和。 索尔仁尼琴借一个囚禁在古拉格群岛的工程师之 口, 将其称为 “最后的一寸”: 这不是为了完成, 而是为了接近完美。
(四) 匠气
根据笔者的经验和对很多学者的观察, 在学术攀登的道路上, 存在一个若隐若现的 “平台”: 当我 们经过很久的努力写出一篇规范的研究论文后, 再接着写新的论文, 会发现这些论文都在一个水平上, 你想有新的突破, 上升到更高的层次, 但却做不到。
有经验的学者会提醒你: 当心陷入 “匠气”。 观察欧美名校教授们的论文——哪怕是发表在最领先 学术期刊上, 似乎也都有一个平台——更高的平台。 正因为如此, 我们虽然相信今天的经济学家早就超 越了亚当·斯密、 马歇尔等前辈, 但却想不起谁能有他们那样巨人般的身量。 就像牛顿和爱因斯坦仍然 是科学史上的两座高峰一般。
匠气是什么? 我们猜想, 作者丧失了自我追求和勤奋探究精神, 不再因追求完美而削尖思维和深入 挖掘, 也就不再有创造性。 对未知世界曾经充满激情的探索, 蜕变为完成例行的公事或程序。
如何才能爬出 “匠气” 陷阱? 我们不知道路径。 但可以推测, 逃出这个陷阱, 需要长期的努力和探 索。 对每个已经会做经验研究的学者来说, 攀升到更高的学术层次上, 是你的决心、 你的黑暗隧道、 你 的大马士革之路。 除了信念和坚持, 无人同行。
六、 经验研究过程外的技法
(一) 信念——在黑暗中独行
每个真正的学者, 都有过这样的经历或正处于这样的过程中: 一个人摸索在黑暗的隧道里, 没有向导, 没有伙伴, 唯有自己的信念和直觉提供了一丝亮光, 支撑着自己沿着似乎永无尽头的隧道走下去。 不要惊奇, 不要抱怨, 因为这是探索者的工作状态。 求仁得仁, 你自己选择了这条最难走的路。
根据观察, 中国学者会更多经历这种 “黑暗”。 因为他们中的大多数缺少严格训练, 未曾掌握做经 验研究的完备知识体系。 这是不幸的。 相当于让战士没有武器去战斗, 没有鞋子去冲锋。 大多数热爱科 学研究的年轻人, 因为看不到希望而最终选择了放弃。
也有很小一部分人, 对真理有圣徒般的渴慕, 把不幸转化为动力, 把黑暗变成了忍耐, 从挫折中学 会了顽强, 锻造出了坚韧, 也终于掌握了做规范经验研究的知识技能。 从长期看, 信念是心中的一点烛 光。 在黑暗隧道里穿行时, 这点烛光的有无, 最终决定了成败。
(二) 认识论的背后
探讨经验研究的过程, 属于认识论范畴。 在自然科学领域, 牛顿之后, “大自然中有规律, 我们可 以揭示它”, 成为科学家的信条。 爱因斯坦又为这个信条背书。 但在对人类社会的研究中, 经济学家都 无法回避这个问题: 人类社会可以认识吗? 这决定于 “人类社会是否存在自然界里那种神秘的和谐”。
谢宇 (2006) 继承其导师奥提斯·邓肯的学术衣钵, 不相信人类社会存在着物理学意义上的规律。 那么, 他相信人类社会存在着不同于物理学但同样客观且可认识的规律吗? 2 从他的文章判断, 他不 相信存在这样的规律。 既然没有规律存在, 为什么还要去苦苦探索呢? 他后来的所有论文, 都是描述性 的。
我们相信, 人类社会也是有秩序的, 它的运行同样能被我们的理性所理解。 经济学家大都坚持斯蒂 格勒和贝克尔所传递的信念: 只有解释性理论, 才有价值。 那些描述性的理论, 没有为我们认识世界提 供什么有价值的工具。 信念, 就其本身来说, 既不是个科学问题, 也不是个哲学问题, 而是个神学问 题。 可知论与不可知论, 那个著名的 “分岔路口” ——任何学者都会遇到, 3 就出现在这里。 这是一个 需要作出断然抉择, 却又不可论证的问题。
(三) 尖锐化思考
达利有幅名画, 一只尖刀刺穿了瞳孔。 注意: 这只尖刀是从内向外刺的, 呈现在读者眼前的是露出 的刀尖。 像科学家一样, 艺术家也在观察和解释这个世界, 两者常常取得某种共识。 我们对达利所表达 意思的解读为: 要尖锐化思考, 这是观察复杂世界的有效方法。 在看到这幅名画以前, 我们也在课堂上教学生怎样做尖锐化: 面对纷繁复杂的社会现象, 从你的瞳仁里, 探出一把手术刀来。 无论是问题的提出, 还是逻辑链条的推演, 证据链条的编织, 都需要尖锐化思考。 这起源于大家所 熟知的事实: 将现象转化为定义良好的事实和问题, 必须不断地 “削尖它”, 不许有模糊的地方存在,我们才有思考、 讨论和研究的起点。与尖锐化思考相伴随的是不断深化自己的探索。
(四) 好论文的标准
一个好的经验研究, 不仅要满足前文提到的选题原则, 还要让这个领域最领先的学者感到: 这个研究创造了新知识, 让我看世界的眼光与昨天不同了, 在智识上, 我又上了一个新台阶 (Davis D., 2001)。 从直觉上, 一篇好论文, 会让读者眼前一亮, 甚至会感到激动人心。 虽然这是一种主观判断, 却像阳 光照在脸上, 雨点滴在手上一般真实 (McCloskey, 2000)。
好论文的标准可以概括为: 重要的选题; 严谨的论证; 新颖的故事。
七、 结语
为什么要做经验研究? 为了创造更接近真理的新知识以增进我们对生活在其中的这个世界的理解。
对中国青年学者来说, 这个原则要强调一万遍! 热爱真理和形而上的学问, 并非中国经济学界的传统, 更不要说爱因斯坦所推崇的献身科学探索的 “宗教激情”。 畏惧困难和贪恋功名利禄, 是绝大多数人不 学而能的。
再回到 Amy Finkelstein 不无抱怨的话题上。 我们推猜, MIT 的教授们并未秘技自私, 也不缺少导师 应有的细致和体贴, 其实, 这些方法和技巧, 在耳濡目染中, 已经教会了学生。 2012 年, Amy Finkel- stein 获得了克拉克奖, MIT 的网页上一片欢腾。 她提出的这个问题, 不知道她是否已有了答案。 有一个 事实需要指出: 笔者一直关注她的研究, 却没有见到她再次谈方法论问题。
研读弗里德曼、 斯蒂格勒和贝克尔等学者的文章可以看出, 他们也很少触及方法论话题, 比起他们 更擅长的理论创造, 毕竟, 这属于另一个领域。 这是我们善意的猜测。 有一天, 看恩斯特·马赫 (2005) 谈认识论: “自然科学家具有一种强烈的愿望, 要彻底弄清楚他获得知识和扩展知识的进程, 但他决不 想成为或者只是被称为哲学家”。像个冒失鬼, 马赫扯开了遮掩真相的帷幕: 科学家有一种理论和智识 上的自负, 不屑于撰写探讨哲学问题的文章。
笔者对方法论的思考与探索, 持续了多年, 此文写出后又有了新的认识: 探究经验研究的过程并将 其展示出来, 对一个有创造力的学者来说, 不仅是 “为人作嫁”, 且不为学术规则所鼓励 (Moretti E., 2012)。 我们曾耗费了 20 多年寻找正确门径。 看到一批批热爱科学探索的青年学子, 眼里有神采, 胸 中有激情, 最终却破灭了希望, 黯然离去。 再也不愿意那些 “尚未离去者”, 如此长期地摸索在黑暗中。 中国没有 MIT 和芝加哥大学那样智力密集的学术环境, 训练研究生和青年学者, 必须另辟蹊径。
免责申明:本文仅用于学术交流,版权归原作者和原发刊所有,转载请注明出处。如果我们的行为侵犯了您的权益,请及时联系我们,我们将会妥善处理该部分内容。
———
刘西川阅读写作课
希望通过
课程内容学习、刻意训练以及对前人经验的借鉴和吸收,
切实提高年轻朋友的阅读与写作能力。
主推三个栏目:
文献阅读与习作课程、个人原创和站在前人肩膀上。
该号由浙江理工大学刘西川副教授负责的研究团队维护,
希望广大本科生、研究生朋友关注和加入。
/ 文心雕龙 /
———