数据资源 | 2015年工业企业数据库质量调查报告
启研学社由知名学者担任学术顾问,由高校师生与企研数据科学团队联合组建的,是以大数据资源及相关技术助力中国学术、智库与行业研究为宗旨的研究组织。团队当前的主要目标是挖掘行政、经济与社会大数据资源在经济学学术、智库与相关行业研究领域中的应用价值,以学术研究为标准开展大数据治理研究,努力探索大数据分析技术融入中国经济社会研究的可行进路。
去年3月,我们曾对一份2014年的工业企业数据库进行了质量测评(传送门:数据资源 | 重磅!2014年工业企业数据库质量调查报告)。近日,启研学社又获得了一份2015年工业企业数据库的数据,按照惯例,我们将对该份数据同样进行数据质量测评。本次评测同样采用陈林老师2018年发表在《经济评论》上的《中国工业企业数据库的使用问题再探》[1]一文的检测思路。
第一步:检查数据量
基本结论
与中国统计年鉴上的企业数相差77650家。
分析过程
简单统计2015年工业库的数据量,原始数据有305498条记录,根据《中国统计年鉴2016》公开数据显示,2015年共有383148家规上工业企业,不考虑数据重复,该数据库缺少的数据量达到了68750条。
相比其他年份数据,这份2015年的工业库数据缺少企业名称与法人代码字段,所以无法进一步与其他年份联立判断。
表1 关键数据对比情况
工业库2015 | 中国统计年鉴 | |
---|---|---|
企业数 | 305498 | 383148 |
工业企业标识码 | 305498 | \ |
第二步:检验资本项
基本结论
存在37247条资本项不对应以及13217条个人资本为负的数据异常情况,相较其他大多数年份,数据质量较差。
分析过程
资本项不对应是指实收资本 ≠ 国家资本 + 集体资本 + 法人资本 + 个人资本 + 港澳台资本 + 外商资本。我们逐年统计1998-2015年工业库资本项不应的数据量(具体数值如表2所示),可以看到,除去2008-2010年由于缺乏相应字段而无法统计外,2014年、2015年工业库资本项不对应的个数位居前两位,分别达到了55130条、37247条,占当年数据总记录数的17.83%、12.19%,而其他有数据的年份则全部在1000条以下。此外,2015年的工业企业数据库中共有157069条实收资本为空。从以上角度可以看出,2014年、2015年的数据质量均存在一定的问题。
表2 历年工业企业数据库中资本项不对应数量统计
年份 | 被检查数据库样本量 | 资本项不对应 | 剔除缺失值后资本项不对应 |
---|---|---|---|
2015 | 305498 | 83280 | 37247 |
2014 | 309138 | 119417 | 55130 |
2013 | 369813 | 998 | 174 |
2012 | 343769 | 406 | 81 |
2011 | 325609 | 785 | 203 |
2010 | 452872 | - | - |
2009 | 434364 | - | - |
2008 | 426113 | - | - |
2007 | 336768 | 13 | 8 |
2006 | 301961 | 0 | 0 |
2005 | 271835 | 2 | 2 |
2004 | 276474 | 0 | 0 |
2003 | 196222 | 0 | 0 |
2002 | 181557 | 1 | 1 |
2001 | 171256 | 0 | 0 |
2000 | 162885 | 0 | 0 |
1999 | 162033 | 0 | 0 |
1998 | 165080 | 0 | 0 |
注:2008-2009年只有加总项实收资本,无资本细项;2010年既无实收资本项,也无资本细项。
进一步地,我们统计了实收资本以及六个资本细项数值的正负个数,根据表3对比可知,2014、2015年工业库中个人资本项存在明显异常。也就是说,这个角度也反映2014、2015年的数据可能存在问题。
表3 历年工业企业数据库资本项为负数的数量统计
年份 | 实收资本 | 国家资本 | 集体资本 | 法人资本 | 个人资本 | 港澳台资本 | 外商资本 |
---|---|---|---|---|---|---|---|
2015 | 25 | 4 | 2 | 38 | 13217 | 2 | 2 |
2014 | 30 | 5 | 2 | 25 | 47420 | 2 | 2 |
2013 | 52 | 5 | 3 | 47 | 12 | 2 | 3 |
2012 | 7 | 4 | 1 | 7 | 5 | 1 | 1 |
2011 | 3 | 4 | 1 | 2 | 4 | 0 | 5 |
2010 | \ | \ | \ | \ | \ | \ | \ |
2009 | 0 | \ | \ | \ | \ | \ | \ |
2008 | 3 | \ | \ | \ | \ | \ | \ |
2007 | 13 | 2 | 0 | 5 | 18 | 0 | 1 |
2006 | 51 | 15 | 6 | 18 | 21 | 1 | 1 |
2005 | 37 | 14 | 6 | 14 | 10 | 1 | 0 |
2004 | 6 | 4 | 1 | 1 | 0 | 0 | 0 |
2003 | 2 | 0 | 2 | 10 | 1 | 0 | 1 |
2002 | 68 | 31 | 9 | 19 | 10 | 2 | 37 |
2001 | 144 | 97 | 23 | 17 | 9 | 2 | 2 |
2000 | 219 | 146 | 55 | 60 | 12 | 2 | 1 |
1999 | 70 | 9 | 36 | 126 | 7 | 32 | 5 |
1998 | 133 | 101 | 30 | 15 | 6 | 0 | 0 |
第三步:检验资本结构
基本结论
2014年数据异常明显,2015年相对正常。
分析过程
我们根据陈林《中国工业企业数据库的使用问题再探》一文对国有企业与民营企业的划分,统计出国有/民营企业数量、国有/民营企业主营业务收入总额、国有/民营企业户均规模三组数据以及国有企业民营企业的总收入的比例,具体情况如表4所示。
国有企业:
①国有资本占实收资本总计比例大于 50%;
②“控股情况”为“国有绝对控股”或“国有相对控股”;
③“法人资本”为零、同时国有资本为最大资本。
民营企业
①个人资本占实收资本总计比例大于50%;
②“控股情况”为“私人控股”;
③“法人资本”为零、同时个人资本为最大资本。
从下表可以看到以下现象:
从企业数量的增减趋势来看,国有企业自1998年开始呈现出下降的趋势,民营企业则呈现出不断增长的态势。比较2014与2015年数据,其中2014年工业库数据不论是国有企业数量还是民营企业数量,都有违这种趋势;2015年数据则总体上延续了这种趋势。
从国有企业与民营企业主营收入总额的趋势来看,2014年民营企业的主营收入相较2013年有一个较大的下滑,国有企业的主营收入相较2013年增幅巨大,同样有违整体趋势;2015年尽管民营企业主营收入存在小幅下滑,但考虑到下滑比例不高(2015相对2013下滑0.4%),可以将其视为正常现象。
从国有企业与民营企业的总收入比例来看,该比值自1998年到2013年始终呈减少的趋势。2014年、2015年从数值上看均有违这种趋势,相较而言,2014年表现的更为异常。
从历年国有、民营企业户均规模的数值来看,两者总体上均呈现出不断增大的趋势。比较2014与2015年数据,其中2014年的国有企业户均规模表现出大幅减少的现象,民营企业户均规模则相对正常;2015年国有、民营企业户均规模总体遵循该趋势。
表4 历年工业企业数据库国有企业、民营企业的相关统计
年份 | 国有企业数量 | 民营企业数量 | 国有企业主营业务收入总额(亿元) | 民营企业主营业务收入总额(亿元) | 国有企业民营企业的总收入比例 | 国有企业户均规模(万元) | 民营企业户均规模(万元) |
---|---|---|---|---|---|---|---|
2015 | 16661 | 228989 | 252969.55 | 529316.51 | 0.48 | 151,833.35 | 23,115.37 |
2014 | 25503 | 204558 | 314690.55 | 432868.36 | 0.73 | 123,393.54 | 21,161.16 |
2013 | 16961 | 270130 | 240234.97 | 531454.16 | 0.45 | 141,639.63 | 19,674.01 |
2012 | 16664 | 249365 | 234238.64 | 450320.12 | 0.52 | 140,565.67 | 18,058.67 |
2011 | 15610 | 231265 | 220600.34 | 391514.2 | 0.56 | 141,319.88 | 16,929.25 |
2010 | 19013 | 325321 | \ | \ | \ | \ | \ |
2009 | 17856 | 258779 | 139933.54 | 201592.79 | 0.69 | 78,367.80 | 7,790.15 |
2008 | 20137 | 295637 | 138269.53 | 187699.53 | 0.74 | 68,664.41 | 6,348.99 |
2007 | 20522 | 237428 | 122721.04 | 153394.67 | 0.80 | 59,799.75 | 6,460.68 |
2006 | 24833 | 201872 | 100768.83 | 111410.27 | 0.90 | 40,578.60 | 5,518.86 |
2005 | 24574 | 134346 | 78484.02 | 59392.01 | 1.32 | 31,937.83 | 4,420.82 |
2004 | 35559 | 121890 | 65761.07 | 40656.1 | 1.62 | 18,493.51 | 3,335.47 |
2003 | 32758 | 74513 | 53864.45 | 25838.03 | 2.08 | 16,443.14 | 3,467.59 |
2002 | 39537 | 58772 | 44966.62 | 17231.73 | 2.61 | 11,373.30 | 2,931.96 |
2001 | 45217 | 45486 | 40906.87 | 12068.91 | 3.39 | 9,046.79 | 2,653.32 |
2000 | 52603 | 33644 | 39928.35 | 8865.22 | 4.50 | 7,590.51 | 2,635.01 |
1999 | 60353 | 22907 | 34030.08 | 5338.58 | 6.37 | 5,638.51 | 2,330.55 |
1998 | 65663 | 19460 | 32634.58 | 4045.97 | 8.07 | 4,970.01 | 2,079.12 |
注:2008-2009年只有加总项实收资本,无资本细项;2010年既无实收资本项、资本细项,也无财务字段。
结语
通过以上三个步骤,我们对2015年工业库数据的真实性和数据质量进行了初步检验。从检验结果来看,2015年这份数据的质量相较2014年稍好一点,但整体质量一般。考虑到这份数据缺少企业名称、法人代码等字段信息,又增添了工业企业代码这个字段信息,我们可以确信这份数据必然不是原始数据,而是一份被处理过的数据。从这个角度来看,其可靠性,甚至真实性还有待进一步确认。
参考资料
《中国工业企业数据库的使用问题再探》知网链接: https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&dbname=CJFDLAST2018&filename=JJPL201806011&uniplatform=NZKPT&v=8AX28Hu3JdjxLls4IaKHWfPl_NUuAWnFYsmoP2PvbJ6uQxMIhrCXT0xHpLaSXqx1
星标⭐我们不迷路!想要文章及时到,文末“在看”少不了!
点击搜索你感兴趣的内容吧
往期推荐
数据治理 | 如何实现SQL数据库的横向匹配
统计计量 | 经济学实证研究路在何方?
软件应用 | 给你的图形化个妆:Stata绘图常用选项汇总-下篇
软件应用 | 给你的图形化个妆:Stata绘图常用选项汇总-上篇
软件应用 | Stata:面板数据缺失值与多重补漏分析-twofold
热点资讯 | 北京大学国家发展研究院博士后招聘启事
统计计量 | 内生性解决办法大全!!!
数据Seminar
这里是大数据、分析技术与学术研究的三叉路口
文 | 叶武威
欢迎扫描👇二维码添加关注