查看原文
其他

关于TOP5刊ECM上一篇质疑经济史数据与作者予以答复的讨论

凡是搞计量经济的,都关注这个号了

稿件:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

计量社群里看见了如下讨论:

在知乎一题目《如何看待国内经济学研究中reduced form的应用微观实证研究泛滥?》下,出现了关于TOP 5刊Econometrica上一篇质疑量化经济史数据与作者予以答复的讨论。

为什么大家比较关注这篇文章呢?主要是因为涉及的研究主题是中国废除科举考试制度的影响。

作者dzjek对Econometrica(2016)经济史部分中的数据提出了疑惑,并给出了自己的经济史分析,由此认为数据可能会让结果出现问题。

当然,该文的作者也迅速地对这些疑惑做出了积极回复。

下面分别呈现一下dzjek质疑与原文作者回复的具体内容。这对今后的量化经济史研究可能提出了更高的要求。

Bai Ying, Jia Ruixue, 2016, “Elite Recruitment and Political Stability: The Impact of the Abolition of China’s Civil Service Exam”. Econometrica, 84(2), 677–733. 阅读的话先从虚线最下面开始读。

1

dzjek针对这篇文章经济史部分的数据提出了如下疑惑,并做出了自己的经济史分析。

作者:dzjek

最后的话(不再更新)

本人不是什么专家学者,仅仅是文史爱好者,耽误作者这么多时间表示抱歉。无意中看到这篇论文研究革命,并且统计了1900-1906年262个府每一年的革命者数量(设置虚拟变量本人坚持认为没有本质区别,总不能将1设置成0,0设置成1)。

如果作者对我的质疑生气,我表示理解,确实不懂计量,看不明白。

但是本人看到作者数据里无数不合史实的错误一样感到生气,这是最初回答的本意,以至于措辞严重,表示抱歉。如果计量可以处理这些错误,只好相信,不懂这些,也不是本人关心的。

统计262个府每一年的革命者数量可不是一件容易的事情,那可需要翻多少史料,文献,论文专著勉强可以。正是有这样的“期待”来看看,原来是论文仅把张玉法的著作和同盟会名单拼在一块。不做历史功课的结果,就是过于相信历史著作和史料,张著是研究革命团体,而不是革命人员,况且史学家也不是统计学家,六大团体的人员也是不全的,仅统计他的数字显然不够,还有大量小团体成员,个人,会党成员,军事学校学生,文人也没有统计。

数据问题不是宋教仁几人的问题,不是我指出一些人就解释其中几个人,看到秋瑾、于右任等无数知名或不知名革命人员在数据里的错误实在无语,同盟会900多位成员需要核查的,如果计量可以解决,那也无须这样。

革命确实有功利的一面,但也有崇高的一面,肮脏的一面,虚无的一面。

至少大部分同盟会成员不会因为废科举而革命,原因很简单,因为他们大多人已经是革命者。而且同盟会成员实在太为人熟知了,作者在论文里提到胡汉民说过“不废科举,哪里会革命”,这是说明不了什么问题的,他是文人、大才子,也是科场枪手,那是他在酒席上夸夸其谈,不能太当真。

至于论文可以证明,那应该相信科学研究,个人观点就不足为重了。

---------------------------------------------------------------------------------------------------------

以下为回复数据问题

本以为鄙人的回答已经说清经济史论文数据和历史文献的问题,大意就是应该依据史实建立数据。不料一位知友解释了该篇论文,一个小小的经济史数据与历史文献的问题,怎么会成为大新闻?

简单回复下:

先回复长沙府(代码1101)的问题,这是“一只回归猴”展示的图。这图一眼就成问题。长沙府怎么会在1900-1902年没有革命成员呢?1900年的自立军起义成员没有考虑进去?但是以作者对历史的认知水平,怎么又不知道唐才常等人与兴中会的关系,毕竟他是一位可以从北宋研究到新中国的人。我在原文就说,作者不对1905、1906年同盟会成员进行核查,而且1900-1904年的革命成员也是作者自己构造的。结果一个长沙府的数据就出现了这样的问题。

再说虚拟变量的问题。原来作者分不清样本里是否存在1905年前便已经参加革命的人员。如果一个变量在1905或1906年有一部分人数在1905年之前已经是革命者,比如宋教仁等人,另一部分未知,这样就可以设置虚拟变量?

那问题不是更大了吗。

还是以宋教仁为例,宋教仁是湖南桃源人,属于常德府,同盟会创办人员中有9人来自常德府:刘尧澂(武陵县);余信芳(龙阳县);鲁诚、陈猷龙、宋教仁、胡瑛、吴景鸿、李鋟、覃子振(桃源县)。

宋教仁是一位非常杰出的革命家,这些同乡基本为宋教仁的革命同仁,比如胡瑛、吴景鸿为华兴会的骨干成员,略查史料,这些革命者在1905年之前便从事革命活动的有7人:

刘尧澂(武陵县;1904年参加长沙起义)

余信芳(龙阳县;1904年加入华兴会)

陈猷龙(桃源县;1900年参加自立军起义)

宋教仁(桃源县;1903年加入华兴会)

胡瑛(桃源县;1903年加入华兴会)

吴景鸿(桃源县;华兴会成员)

覃子振(桃源县;1903年加入华兴会),共七人。

(以上资料来源:《宋教仁日记》、《常德文史 第三辑》)

本人尚未发现另外两人李鋟和鲁诚的来历(桃源县有四位李姓成员先后参加同盟会,鲁与宋莫逆之交,加入同盟会史料记载日期有误)。这些史料比较好查,《宋教仁日记》、《常德文史》对其革命事迹有着非常详细的记载和介绍。一个府(常德府),9人中有7人在参加同盟会之前(1905年前)便从事革命活动,另外2人尚未确定来历,那么1905年转入革命的虚拟变量可以设置为1?1900-1904年的虚拟变量是不是更应该为1?

仅以长沙府和常德府为例,问题就这么严重了。

虚拟变量的问题在于,加入同盟会人数较多的府,尚可设置虚拟变量“瞒天过海”(这已经是学术伦理的问题了),那么还有大量的府在1905或1906年仅有一两人参加同盟会,如果在加入同盟会之前这些人已经是革命者了,那虚拟变量在1905、1906年岂不是为0 了,概率为0?(论文里这些变量当然都是1)其实这些府在1900-1904年的虚拟变量应该为1,不是0(计数变量同理)。

列举几例有名的革命者如下:

会员名单第一页第一人,安徽省徽州府程家柽,该府仅此人加入同盟会,这位革命先烈1903年便参加拒俄大会了。

陕西省同州府一人井勿幕(1903年追随孙中山,入日本大成学校)

云南省东川府二人唐继尧、张开儒(辛亥名将,1904入振武学校,与黄兴组织革命同志会)

河南省光州一人曾昭文(1904年入振武学校,与黄兴组织革命同志会)

浙江省绍兴府二人蔡元培、秋瑾(1905年)

陕西省西安府一人于右任(1906年)(这几位都不值得徒费口舌去解释了)

来源:百科、黄兴年谱、陕西文史资料等

本人粗浅的近代史知识都能看出这些问题,没有兴趣对这种论文的数据进行核查(这本该是作者自己的工作)。虽然核查革命人员有一定的难度,但是大量近代史论文和地方文史资料记录和考证这些革命者的来源和事迹可供参考。依据史实,不论概率和人数,1905、1906年同盟会中很多府的革命者变量应该为0,而这些人在1905年前参加革命,1900-1904年变量应当为1或以上,不是0。

鄙人的回答应该很清晰了,应该依据史实从历史文献构建数据。但是这篇经济学论文硬要将这些同盟会成员在1905年加入同盟会才是转向革命,因废科举而加入同盟会,真是无药可救。

总结下这篇论文对历史的无知之处

1.不知同盟会的成立背景。同盟会是孙文倡导,各大小革命团体联合成立,比如兴中会、华兴会等。这些1904年之前成立的革命团体在1905年联盟,如华兴会全体加入,即便长沙几十人加入同盟会,基本也是1904年之前参与革命的华兴会成员。(论文设置长沙为0-1变量,不做调查,想蒙混过关。那么大量只有一两人加入同盟会的府,1905、1906年的变量基本都是错的,都是0不是1)

2.不知道陶成章、蔡元培、章太炎、秋瑾、黄兴、宋教仁、于右任等众多著名革命家和加入同盟会的背景,也不知他们何时参加革命,认为他们1905年加入同盟会即参加革命,得出的结论是废科举的冲击导致,荒谬之极,让人莫可如何。

3.除上述著名成员之外,不知道大部分同盟会初创人员在1905年前已参与革命,原因是第一条。

4.把废除科举当作废除考试制度,不知道后来的洋科举,比如同盟会成员阎锡山在1906年回国参加乡试,考中举人。

5.统计进士人数分不清旗籍和汉籍。

不是说经济学家不能研究历史,这样无知实属罕见,研究经济史真的可以直接从文献“手抠”数据拿来回归?不论什么专业,研究历史首先应该尊重历史,这样错谬百出的论文应该引以为鉴。

————————————————————————

以下为原回答,

既然是reduced form, 技术上没有多大难度,也没有多少创新。

经济史的这些文章“与众不同”之处应该在于数据和立论。如果说从历史文献里找出一些新数据,来证明某些理论,有多大价值,各种学科对此评价不一样。但是用错误的数据回归出“正确”的理论,至少历史学没见到太多这些研究。

写这些文章,首先应该尊重历史。

经济史文章中数据来源的文献,大多是比较常见的,如明清实录、清会典等,虽然经济学家不太熟悉,但这些都是历史工作者的必备资料。那就简单说一篇文章,看看经济学家回归历史数据存在的问题。

废除科举(1905年)导致革命那篇文章,被很多经济学家捧过,几乎在国内各大名校相应课程上被重点介绍。该文第一句话,精英招聘制度的废除影响政治稳定。(This paper studies how the abolition of an elite recruitment system – China’s civil exam system that lasted over 1,300 years – affects political stability.)作者用1905年作为冲击点,构造1900年到1906年革命人员作为因变量,用双重差分方法进行回归,发现科举配额高的地区,在政策冲击后(1905、1906年)参与革命的人数越高。

(注: 原来作者在这里把人数设置成0-1变量,问题更加严重,解释见上半部分。)

首先作者用大量笔墨论述科举、考试制度取消跟政治稳定的关系,可以暂行略过,重点是他们如何从历史文献中“构造”数据来证明这个关系。

一个计量回归,最重要的数据当然是结果变量,即文中1900到1906年的革命参与人员。本人第一次看到这里,有点不太相信,因为早期革命事迹虽然存在历史记录中,但是除去主要组织者,太多人员无迹可考。但是作者统计出了人数并且构造一个面板变量。

作者找到罗家伦赴台后主编的《革命文献》,其中有一章《中国同盟会成立初期乙巳丙午两年之会员名册》,这里涉及同盟会成立的问题,同盟会同样成立于1905年,但是同盟会不是一个新的革命组织,而是孙文联合其他革命党派华兴会、爱国学社等共同成立,也不是所有革命党共同参与,比如陈独秀的岳王会、章太炎的浙会部分成员等。因为同盟会在1905年成立,《会员名册》里当然在1905年和1906年登记(这是废话),样本里革命人数当然会在1905年增加。而1900年到1904年的数据,《革命文献》没有记录,作者从张玉法的历史著作《清季的革命团体》(1975年)构造,说是构造,因为张玉法没有全面的统计,实际上也不可能全面统计,张著基本上描述早期革命党建立情况和革命活动。作者统计1900到1904五年参加革命的人员仅为312人,而1905、1906两年新增的达到992人。

作者在第十四页解释道,“In 1905-06, we see a notable increase in revolution participation, which is correlated with the timing of the establishment of the Revolutionary Alliance (in August 1905) and the abolition of the exam.”(“在 1905-06 年,我们看到革命参与显着增加,这与同盟会的时间(1905年8月)和考试的取消有关。”)

同盟会1905年成立,登记人数在1905年和1906年,因变量当然会在1905年大幅增加。但这能显示出废除科举的政策冲击效应吗?作者这个解释有点底气不足,似乎想遮盖这个矛盾,把取消考试加在同盟会成立的后面。那么1905、1906年的人员跟同盟会成立有关还是跟取消考试有关?作者没有解释,也没有对样本进行区分。那么这些革命者确实是在废科举后加入同盟会吗?

其次,同盟会初创人员,大多都是革命史上的风云人物,就是普通历史爱好者,对他们也不会陌生。我们看看1905年因废除科举转入革命的都有哪些人吧。人员来自作者数据参考的文献《中国同盟会成立初期乙巳丙午两年之会员名册》,列举几例如下:

这些人是在1905年转入革命的吗,还是仅仅登记进入同盟会?

这些人因为废除科举转入革命的吗?

有一点历史常识的人都不会这样判断吧。

作者就这样随意把他们加入1905年的样本,用错误的历史文献构造成一个不合史实的数据。

附带说明下:蔡元培在前清是进士出身。黄兴、宋教仁等人呢,至少1903年便革命了。查询百科便知“1903年11月4日,黄兴以其虚岁30大寿为由,卖掉自家庄园36亩土地,邀集刘揆一、章士钊、宋教仁、周震鳞、胡瑛、张继等12人,(注: 这些人都在1905年、1906年加入了同盟会。)在长沙坡子街附近的保甲巷彭渊恂宅集会,以兴办矿业为名成立华兴公司,口号是:“同心扑满,当面算清”。华兴会遂于长沙创立。”

总之作者“巧妙”地把这些名震一时的革命家列入1905年和1906年的样本,是因为他们在1905、1906年登记加入同盟会,然后解释成在1905年后因废科举转向革命。

所以,经济学家怎么构造经济史数据,应该可以管中一窥了吧。

这篇论文硬伤还有多处,比如废科举仅仅是标题所说的取消考试吗?废除科举办新式学堂,并不是取消考试,最大的后果应该是优秀的贫寒学子无法负担昂贵的新式教育,选择进入军事学校,比如蒋某某。

还有进士人数这个变量,作者应该连旗籍和汉籍都分不清,北京有1000多个进士,大多为旗籍,八旗子弟也会因废科举而革命?

Bai, Ying, and Ruixue Jia. "Elite recruitment and political stability: the impact of the abolition of China's civil service exam." Econometrica 84.2 (2016): 677-733.

数据来源文献《中国同盟会成立初期乙巳丙午两年之会员名册》

链接:https://pan.baidu.com/s/1rBfrPv12kD7nkmwvd9NPMQ

提取码:1234

2

作者之一的贾瑞雪副教授(加州大学圣地亚戈)对此做出了非常迅速的回复,详情如下:

作者:Ruixue Jia

关于对Bai and Jia (2016)质疑的回复

白营 贾瑞雪

September 24, 2022

首先,感谢知乎上大家的讨论。我们对待自己的文章就像对待自己的孩子一样:一方面很希望它能得到批评而成长,另一方面会为看到没有认真读文章或者读者自己的误解就出现的指责而生气。为了避免更多的误解,我们对质疑一一回复。这并不是说这篇文章是完美的,我们意识到它的局限(这些局限与该质疑者提出的问题并没有什么关系)。有很多相关的问题是我们希望在以后的研究中能更好地了解的。

解释之后,请考虑到我们需要集中精力工作,而不是在知乎上吵架。我们关闭了本文的回复功能。如果希望继续严肃地讨论,可以邮件联系我们。我们的联系方式很容易在论文中找到。

关于有关数据的回复(原质疑1、2、3点):

(1)我们的数据基于六个主要的革命团体(文章总结如下图),并不是只有同盟会。如果参与同盟会的人参与了之前其他的组织,会被先归为其他的组织成员。图中显示了1905年之前的确有很多成员。

(2)关于年份,我们是基于每个革命者在数据中出现的最早时间。而不是简单的使用其加入同盟会的时间。例如,原质疑提到的一些人在我们数据中加入年份如下:宋教仁1904,黄兴1903,章炳麟1904,陈天华1903。和(1)一样,我们并没有像质疑者假设的那样没有考虑之前的组织。

(3)这并不是说没有我们采用的数据中没有measurement error的问题。这个挑战是肯定存在的。我们至少做了以下四组相关的分析:

(3.1)只有废除科举前有较多学额的府的革命者被错误的认为是废除科举后加入的,我们的双重差分的估计值才是有偏的。我们的文章并不是简单地比较1905年前后。

(3.2) 我们没有避而不谈“大量革命者在 1905 年 6-8 月份就加入了同盟会” (这是对我们文章的主要质疑)。我们在文章中提到,去除了早年参与其他组织的人之后,剩下的同盟会成员中还是有35%被记录为9月之前加入的:

而且,为了确认1905年的作用是发生在9月(废除科举)后而不是9月(废除科举)前,我们利用了加入同盟会的时间进行了月度分析。

(3.3) 我们使用了1911年起义发生的信息,来证明结果的稳健性。我们认为虽然起义信息也有measurement error的问题,但是这与革命者信息中的measurement error关系不大。

(3.4) 我们的工具变量也可以帮助处理measurement error的问题。

关于洋科举的回复(原质疑4):

科举之后有不同的出路,我们文章中做了一些背景讨论。也提供了一些实证分析,例如出国留学。我们也讨论了洋科举,我们是主要发现,与科举相比,洋科举下生员学额和洋进士的关系较弱(见下表中的7-8列)。

当然,这也不是说我们分析所有的可能的结果 – 分析所有的结果并不是我们文章的目的。

关于进士数据的回复(原质疑5):

在我们的原始数据中,进士分为旗籍和民籍,如果是民籍会提供籍贯地。我们的进士数据只基于后者,并不包含旗籍。

总结:

我们的文章不是完美的,是可以被批评的,但只有认真读过文章给出有道理的批评才是有意义的。

134篇各种方法的code, 代码和程序文章合集, 必须收藏!今年最诚意的主流计量方法与Stata操作的视频教程, 一定要收藏学习!《经济研究》期刊上所有文章按照"计量方法"进行分类汇总,有选择性地学习计量方法,④120篇DID双重差分方法的文章合集, 包括代码,程序及解读, 建议收藏!Stata数据管理,绘图,检验,实证方法操作,结果输出的187篇文章!CFPS 2020, CHFS 2019数据都公布了! 最新数据用起来做研究!

推荐一份超级大礼包资源, 里面有丰富的Stata学习材料, 写文章作报告找工作的指南,①134篇各种方法的code, 代码和程序文章合集, 必须收藏!今年最诚意的主流计量方法与Stata操作的视频教程, 一定要收藏学习!《经济研究》期刊上所有文章按照"计量方法"进行分类汇总,有选择性地学习计量方法,④120篇DID双重差分方法的文章合集, 包括代码,程序及解读, 建议收藏!Stata数据管理,绘图,检验,实证方法操作,结果输出的187篇文章!CFPS 2020, CHFS 2019数据都公布了! 最新数据用起来做研究!
关于因果推断,可参看关于各种因果识别方法的120份经典实证文献汇总”,哈佛大学新修订完成的因果推断经典大作免费下载!附数据和code,因果推断的统计方法总结, 177份文献政策评估的计量方法综述, 包括最新因果推断方法在教育领域使用IV, RDD, DID, PSM多吗? 使用具体文献,看完顶级期刊文章后, 整理了内生性处理小册子工具变量精辟解释, 保证你一辈子都忘不了DID, 合成控制, 匹配, RDD四种方法比较, 适用范围和特征关于双重差分法DID的32篇精选Articles专辑!关于(模糊)断点回归设计的100篇精选Articles专辑!匹配方法(matching)操作指南, 值得收藏的16篇文章等,MIT广为流传的政策"处理效应"读本DID的研究动态和政策评估中应用的文献综述最新政策效应评估的四种方法政策效应评估的基本问题等。
关于因果推断书籍:哈佛大学新修订完成的因果推断经典大作免费下载!附数据和code!图灵奖得主Pearl的因果推断新科学, Why?计量课程免费开放!面板数据, 因果推断, 时间序列分析与Stata应用(慕课上有不少免费课程,建议年轻学者好好使用),④你应该阅读哪本因果推断书籍: 一份进阶流程图和简短书评列表
下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验

计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存