查看原文
其他

数据资源 | 2015年工业企业数据库质量调查报告

启研学社 数据Seminar 2022-12-31


启研学社由知名学者担任学术顾问,由高校师生与企研数据科学团队联合组建的,是以大数据资源及相关技术助力中国学术、智库与行业研究为宗旨的研究组织。团队当前的主要目标是挖掘行政、经济与社会大数据资源在经济学学术、智库与相关行业研究领域中的应用价值,以学术研究为标准开展大数据治理研究,努力探索大数据分析技术融入中国经济社会研究的可行进路。 

去年3月,我们曾对一份2014年的工业企业数据库进行了质量测评(传送门:数据资源 | 重磅!2014年工业企业数据库质量调查报告)。近日,启研学社又获得了一份2015年工业企业数据的数据,按照惯例,我们将对该份数据同样进行数据质量测评。本次评测同样采用陈林老师2018年发表在《经济评论》上的《中国工业企业数据库的使用问题再探》[1]一文的检测思路。

第一步:检查数据量

基本结论

与中国统计年鉴上的企业数相差77650家。

分析过程

简单统计2015年工业库的数据量,原始数据有305498条记录,根据《中国统计年鉴2016》公开数据显示,2015年共有383148家规上工业企业,不考虑数据重复,该数据库缺少的数据量达到了68750条

相比其他年份数据,这份2015年的工业库数据缺少企业名称与法人代码字段,所以无法进一步与其他年份联立判断。

表1 关键数据对比情况


工业库2015中国统计年鉴
企业数305498383148
工业企业标识码305498\

第二步:检验资本项

基本结论

存在37247条资本项不对应以及13217条个人资本为负的数据异常情况,相较其他大多数年份,数据质量较差

分析过程

资本项不对应是指实收资本 ≠ 国家资本 + 集体资本 + 法人资本 + 个人资本 + 港澳台资本 + 外商资本。我们逐年统计1998-2015年工业库资本项不应的数据量(具体数值如表2所示),可以看到,除去2008-2010年由于缺乏相应字段而无法统计外,2014年、2015年工业库资本项不对应的个数位居前两,分别达到了55130条37247条,占当年数据总记录数的17.83%12.19%,而其他有数据的年份则全部在1000条以下。此外,2015年的工业企业数据库中共有157069条实收资本为空。从以上角度可以看出,2014年、2015年的数据质量均存在一定的问题。

表2 历年工业企业数据库中资本项不对应数量统计

年份被检查数据库样本量资本项不对应剔除缺失值后资本项不对应
20153054988328037247
201430913811941755130
2013369813998174
201234376940681
2011325609785203
2010452872--
2009434364--
2008426113--
2007336768138
200630196100
200527183522
200427647400
200319622200
200218155711
200117125600
200016288500
199916203300
199816508000

注:2008-2009年只有加总项实收资本,无资本细项;2010年既无实收资本项,也无资本细项。

进一步地,我们统计了实收资本以及六个资本细项数值的正负个数,根据表3对比可知,2014、2015年工业库中个人资本项存在明显异常。也就是说,这个角度也反映2014、2015年的数据可能存在问题。

表3 历年工业企业数据库资本项为负数的数量统计

年份实收资本国家资本集体资本法人资本个人资本港澳台资本外商资本
20152542381321722
20143052254742022
20135253471223
20127417511
20113412405
2010\\\\\\\
20090\\\\\\
20083\\\\\\
2007132051801
200651156182111
200537146141010
20046411000
200320210101
2002683191910237
2001144972317922
200021914655601221
1999709361267325
19981331013015600

第三步:检验资本结构

基本结论

2014年数据异常明显,2015年相对正常。

分析过程

我们根据陈林《中国工业企业数据库的使用问题再探》一文对国有企业与民营企业的划分,统计出国有/民营企业数量、国有/民营企业主营业务收入总额、国有/民营企业户均规模三组数据以及国有企业民营企业的总收入的比例,具体情况如表4所示。

国有企业:

①国有资本占实收资本总计比例大于 50%;

②“控股情况”为“国有绝对控股”或“国有相对控股”;

③“法人资本”为零、同时国有资本为最大资本。

民营企业

①个人资本占实收资本总计比例大于50%;

②“控股情况”为“私人控股”;

③“法人资本”为零、同时个人资本为最大资本。

从下表可以看到以下现象:

  1. 从企业数量的增减趋势来看,国有企业自1998年开始呈现出下降的趋势,民营企业则呈现出不断增长的态势。比较2014与2015年数据,其中2014年工业库数据不论是国有企业数量还是民营企业数量,都有违这种趋势;2015年数据则总体上延续了这种趋势。

  2. 从国有企业与民营企业主营收入总额的趋势来看,2014年民营企业的主营收入相较2013年有一个较大的下滑,国有企业的主营收入相较2013年增幅巨大,同样有违整体趋势;2015年尽管民营企业主营收入存在小幅下滑,但考虑到下滑比例不高(2015相对2013下滑0.4%),可以将其视为正常现象。

  3. 从国有企业与民营企业的总收入比例来看,该比值自1998年到2013年始终呈减少的趋势。2014年、2015年从数值上看均有违这种趋势,相较而言,2014年表现的更为异常。

  4. 从历年国有、民营企业户均规模的数值来看,两者总体上均呈现出不断增大的趋势。比较2014与2015年数据,其中2014年的国有企业户均规模表现出大幅减少的现象,民营企业户均规模则相对正常;2015年国有、民营企业户均规模总体遵循该趋势。

表4 历年工业企业数据库国有企业、民营企业的相关统计

年份国有企业数量民营企业数量国有企业主营业务收入总额(亿元)民营企业主营业务收入总额(亿元)国有企业民营企业的总收入比例国有企业户均规模(万元)民营企业户均规模(万元)
201516661228989252969.55529316.510.48151,833.3523,115.37
201425503204558314690.55432868.360.73123,393.5421,161.16
201316961270130240234.97531454.160.45141,639.6319,674.01
201216664249365234238.64450320.120.52140,565.6718,058.67
201115610231265220600.34391514.20.56141,319.8816,929.25
201019013325321\\\\\
200917856258779139933.54201592.790.6978,367.807,790.15
200820137295637138269.53187699.530.7468,664.416,348.99
200720522237428122721.04153394.670.8059,799.756,460.68
200624833201872100768.83111410.270.9040,578.605,518.86
20052457413434678484.0259392.011.3231,937.834,420.82
20043555912189065761.0740656.11.6218,493.513,335.47
2003327587451353864.4525838.032.0816,443.143,467.59
2002395375877244966.6217231.732.6111,373.302,931.96
2001452174548640906.8712068.913.399,046.792,653.32
2000526033364439928.358865.224.507,590.512,635.01
1999603532290734030.085338.586.375,638.512,330.55
1998656631946032634.584045.978.074,970.012,079.12

注:2008-2009年只有加总项实收资本,无资本细项;2010年既无实收资本项、资本细项,也无财务字段。

结语

通过以上三个步骤,我们对2015年工业库数据的真实性和数据质量进行了初步检验。从检验结果来看,2015年这份数据的质量相较2014年稍好一点,但整体质量一般。考虑到这份数据缺少企业名称、法人代码等字段信息,又增添了工业企业代码这个字段信息,我们可以确信这份数据必然不是原始数据,而是一份被处理过的数据。从这个角度来看,其可靠性,甚至真实性还有待进一步确认。

参考资料

[1]

《中国工业企业数据库的使用问题再探》知网链接: https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&dbname=CJFDLAST2018&filename=JJPL201806011&uniplatform=NZKPT&v=8AX28Hu3JdjxLls4IaKHWfPl_NUuAWnFYsmoP2PvbJ6uQxMIhrCXT0xHpLaSXqx1





星标⭐我们不迷路!想要文章及时到,文末“在看”少不了!

点击搜索你感兴趣的内容吧


往期推荐


数据治理 | 如何实现SQL数据库的横向匹配

统计计量 | 经济学实证研究路在何方?

软件应用 | 给你的图形化个妆:Stata绘图常用选项汇总-下篇

软件应用 | 给你的图形化个妆:Stata绘图常用选项汇总-上篇

软件应用 | Stata:面板数据缺失值与多重补漏分析-twofold

热点资讯 | 北京大学国家发展研究院博士后招聘启事

统计计量 | 内生性解决办法大全!!!





数据Seminar




这里是大数据、分析技术与学术研究的三叉路口


文  | 叶武威


    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更多

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存