查看原文
其他

统计计量 | 人大葛玉好:学术写作中数据处理需要注意哪些问题?

葛玉好 数据Seminar 2022-12-31

本文转载自公众号E校挺好

作者:葛玉好


业界写报告,重视美观,因为它要取悦于客户。学者写论文,重视事实呈现,重视变量与变量之间的关系,作用在于说服。今天要讨论的数据处理,仅限于学术论文中统计描述部分,不涉及因果关系识别,后者与学术理念有关,对它的讨论很大可能上升到“理念差异”,无休无止。在我看到的文献中,因果关系大多跟统计描述是吻合的,那些不吻合的短期给人以惊艳的感觉,长期往往是经不起检验的。经由严谨数据数理得到统计描述结果对学术论文至关重要,那么,学术写作中的数据处理需要注意哪些问题呢?下面想基于自己的经历谈一些简单看法。
    第一,  如果能选择就选择样本量大的数据库。类似于“一白遮百丑”,样本量大可以天然地解决很多问题,得到的结论也比较稳定。不要盲信“全国代表性样本”的说辞,做过实地调研的人都知道怎么回事。微信朋友圈里面有学者转了一篇通过7个观测值得到显著影响的文章。对不起,这类文章,打死我,我也不信。
    第二,  尽量拯救每一条数据。无论样本量大,还是小,都应该这么做。在使用CFPS和CHARLS数据库时,大家还会发现前后年份同一个人教育信息不同,甚至性别信息不同的情况,尽量不要删除这些数据,仔细观察是可以找到拯救办法的,例如对调丈夫和妻子的编码等等。在整理高校教师数据库时,我对学生说过这样的话:”每一条数据都是活生生的人,他们可能是教过你的人大老师,你都能清楚地记得他们的音容笑貌,因为某个变量而删除数据的话,心里要像杀死他们那样难受“。虽然我的话说得比较过分,但也反应出使用真实数据和抽样数据的区别。使用别人的抽样数据时,你不会因为删除某条数据感到难受,使用真实数据完全是另外一种感觉。
    第三,  保存好数据处理的全套程序,例如Stata里面的dofile。如果不保存好数据处理程序的话,一段时间以后自己都不能完全复制最初结果,尤其是数据处理有手动处理的情况。我建议再简单的数据处理,也使用程序完成,不要使用Excel手动处理,避不开手动时,也要在程序中以注释语句的形式表明如何进行地手动处理。安装系统时,更换电脑时,一定要把相关数据处理程序保存好,我自己在这方面吃过大亏。
    第四,  一篇论文会涉及许多个变量,每个变量都可能有缺失值,都会对回归使用的样本造成影响,建议按某种次序逐一记录数据量如何随着加入变量的增多而减少。CFPS个人层次上的数据有58000多条,如果最后回归使用的数据不足1000条,那就需要好好考虑数据是怎么丢失的。我的学生徐南辉同学使用python编写过实现上述功能的程序,有需要的可跟他联系。
    第五,  学术论文中一般都会有个表,汇报各主要变量的均值和标准差。严格地来说,我们应汇报变量均值和与变量均值对应的标准差,而不是原变量的标准差。均值的标准差等于原标准差除以根号N,N为变量观测值的条数。此外,这个表格使用的样本,最好跟下文回归使用的样本相同,这样统计性描述结果和回归结果才有进行对比的共同基础。
    第六,  为了清楚地看出解释变量X对被解释变量Y的影响,建议做一个X和Y的散点图。在散点图里面,尽量不要画线性拟合线,这样做多少有点误导性。我们画散点图的目的,本来就想去估测X和Y的关系,假设其为线性在逻辑有些颠倒。如果一定画拟合线的话,可尝试使用非参数回归。



·END·


星标⭐我们不迷路!

想要文章及时到,文末“在看”少不了!


点击搜索你感兴趣的内容吧


往期推荐


资讯 | 《中国工业经济》2021年重点选题

报告分享 | 《经合组织-粮农组织2020-2029年农业展望》

启研教室 | 关于如何做好文献综述的九个问题

统计计量 | 实证分析三步走:数据、模型、结果检验

学术前沿丨《AJARE》2020年涉及中国的文章汇总(附摘要翻译及全年总目录)

老姚专栏 | 隐形鸟笼:理解自由度及其调整的新视角(正式发表版)

启研洞见丨许多人面对灾难为啥总会过度自信?







数据Seminar




这里是大数据、分析技术与学术研究的三叉路口



推荐 | 谈佳辉



    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更多

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存