数据共享|国家统计局-清华大学数据开发中心微观数据公开申请

中国经济学教育科研网 2022-12-31

2018年6月26日，国家统计局-清华大学数据开发中心微观数据开发应用正式启动，向中华人民共和国境内具有法人资格的高等院校及其下属的非营利性科研机构开放国家统计局微观数据。对于微观数据开发应用，国家统计局要求将已经对外公布宏观数据的指标均纳入开发应用的指标范围。综合考虑社会需求和统计工作现状，试点阶段，先行开发应用的微观数据范围为：

（一）规模以上工业企业财务状况年度调查微观数据；
（二）住户收支调查微观数据；
（三）2010年第六次全国人口普查微观数据；
（四）2015年1%人口抽样调查微观数据；
（五）第三次全国经济普查微观数据；
（六）第三次全国农业普查微观数据。

一、规模以上工业企业微观数据使用说明

1.数据来源：2012-2016年规模以上工业企业财务年报。
2.企业范围：在三个省级地区的规模以上工业企业中，按10%的比例随机抽取样本企业，并对企业数据进行了脱敏处理。
3.行业分类标准：《国民经济行业分类》（GB/T4754-2011）。
4.指标：包括资产负债类、损益分配类和其他三大类，主要有流动资产负债、固定资产原价、资产总计、流动负债合计、负债合计、主营业务收入、主营业务成本、营业利润、利润总额和平均用工人数等32个指标。

二、住户收支调查微观数据使用说明

1、住户收支调查微观数据包括2005年、2008年和2010年城乡住户收支调查微观数据各1万户，共6万户。
2、该微观调查数据均已进行匿名化处理，仅保留省份信息。
3、城镇、农村包括家庭基本情况、户人均收入情况、户人均消费情况、家庭基本设施等方面共计指标分别为40和32个。其中，农村住户调查为自加权，无权数信息。
4、住户收支调查微观数据为CSV格式。

三、人口微观数据使用说明

人口微观数据包括2010年第六次人口普查微观数据和2015年1%人口抽样调查微观数据。

一、2010年第六次人口普查微观数据库

2010年第六次人口普查微观数据库为中国2010年人口普查原始个体样本数据。2010年人口普查采用了长、短两种普查表，短表包括反映人口基本状况的项目，长表包括所有短表项目和人口的经济活动、婚姻家庭、生育和住房等情况的项目。长表抽取了10%的户填报，短表由其余的户填报。本数据库是对普查表长表数据进行系统抽样获得，抽样比为0.995%，占总人口（不包含现役军人和难以确定常住地的人口）的比重为0.95‰。数据库包括户记录405660条，人记录1267381条。数据的主要结构指标对总体具有较好的代表性，能够满足大多数研究的需要。数据库使用常住人口口径。数据指标涵盖性别、年龄、民族、户籍情况、受教育程度、行业、就业、迁移流动、社会保障、婚姻、生育、死亡、住房情况等59个相关指标。为防止个人特征的泄漏，数据库已进行匿名化处理，删除了能够辨识到住户以至个人的信息，屏蔽了个别变量的极端值，请用户在使用时注意。

二、2015年1%人口抽样调查微观数据库

2015年1%人口抽样调查微观数据库为中国2015年1%人口抽样调查原始个体样本数据。2015年全国1%人口抽样调查以全国为总体，以各地级市（地区、盟、州）为子总体，采取分层、二阶段、概率比例、整群抽样方法，在全国31个省、自治区、直辖市中抽取了2977个县（市、区），33671个乡（镇、街道），85365个村（居）委会的89147个调查小区。共调查登记常住人口2131万人，占全国总人口的1.55%。

本数据库是对2015年1%人口抽样调查原始数据进行系统抽样获得，占总人口（不包含现役军人和难以确定常住地的人口）的比重为1‰。数据库包括户记录432447条，人记录1371252条。数据的主要结构指标对总体具有较好的代表性，能够满足大多数研究的需要。为便于用户正确使用数据，数据库提供了权数变量（户权数和人权数）。经过加权处理后，各地区的数据已经按全国统一的抽样比换算，可以直接对比。数据库使用常住人口口径。数据指标涵盖姓名、性别、年龄、民族、户籍情况、受教育程度、行业、就业、迁移流动、社会保障、婚姻、生育、死亡、住房情况等60个相关指标。为防止个人特征的泄漏，数据库已进行匿名化处理，删除了能够辨识到住户以至个人的信息，屏蔽了个别变量的极端值，请用户在使用时注意。

四、第三次全国经济普查微观数据情况简介

抽样对象为第三次全国经济普查中的全部企业法人单位，不包含金融和铁路系统单位，按照10%的比例进行抽样。数据分非工业企业、规模以下工业企业、规模以上工业企业三部分。

一、非工业企业

指标包括：行业大类代码、单位所在地行政区划代码、开业时间、从业人员期末人数、登记注册类型、企业控股情况、营业状态、营业收入、主营业务收入、资产总计、R&D人员合计、R&D人员折合全时当量、R&D经费内部支出、R&D项目数。经济类指标单位为千元。其中R&D人员合计、R&D人员折合全时当量、R&D经费内部支出、R&D项目数这四个指标只有纳入一套表调查单位的重点服务业企业才包含。抽样方法是按照单位所在地省级行政区划代码和行业大类代码分层，层内按主营业务收入排序后按照10%的比例等距抽样，层内企业个数小于5不参加抽样。对从业人员期末人数、营业收入、主营业务收入、资产总计四个指标设定了临界值（见表1），指标数值大于临界值时，均用临界值来代替。

省级行政区划代码对应关系见表2。所有企业均使用国民经济行业分类标准（GB/T 4754-2011）。开业时间进行了以下分组：1949年及以前、1950-1977年、1978-1991年、1992-1996年、1997-2001年、2002-2004年、2005-2008年、2009-2013年、无开业年份。登记注册类型指标含义如下：内资：110国有，120集体，130股份合作，141国有联营，142集体联营，143国有与集体联营，149其他联营，151国有独资公司，159其他有限责任公司，160股份有限公司，171私营独资，172私营合伙，173私营有限责任公司，174私营股份有限公司，190其他。港澳台商投资：210与港澳台商合资经营，220与港澳台商合作经营，230港澳台商独资，240港澳台商投资股份有限公司，290其他港澳台投资。外商投资：310中外合资经营，320中外合作经营，330外资企业，340外商投资股份有限公司，390其他外商投资。住宿和餐饮业企业登记注册类型统一设置为空。企业控股情况指标含义如下：1国有控股，2集体控股，3私人控股，4港澳台商控股，5外商控股，9其他。营业状态指标含义如下：1营业，2停业（歇业），3筹建，4当年关闭，5当年破产，9其他。

二、规模以下工业企业

规模以下工业企业指年主营业务收入在2000万元以下的工业法人企业。指标包括：行业大类代码、资产总计、实收资本、主营业务收入、从业人员期末人数等。经济类指标单位为元。抽样和处理过程如下：按照行业大类代码分层，并按主营业务收入降序排列；层内企业个数小于等于5的不参加抽样，每层前3位企业不参加抽样；按照10%的比例等距抽样后，相邻的两个样本数值型指标相加，作为一个新样本。

三、规模以上工业企业

规模以上工业企业指年主营业务收入达到2000万元及以上的工业法人企业。抽样和处理过程如下：按照行业大类代码分层，并按主营业务收入降序排列；层内企业个数小于等于5的不参加抽样，每层前3位企业不参加抽样；按照10%的比例等距抽样后，相邻的两个样本数值型指标相加，作为一个新样本。

五、第三次全国农业普查微观调查使用说明

一、行政村普查数据

行政村普查表数据样本是在全国约60万个行政村普查表数据记录中抽取的部分样本，包含约6万条村级单位数据。本数据样本包含了行政村类型、地形地貌、全国特色景观旅游名村、基础设施配置等基本属性和基础设施的指标。数据涵盖了行政村基本情况、年末人口、社会保障、基本社会服务、土地经营及流转、农田水利、特色种养业、畜禽集中养殖小区、村集体经济组织财务、村干部情况等方面的指标。为防止推断识别出具体行政村，数据已进行脱敏处理，删除了能够辨识到具体行政村的特征信息，用户在使用时需注意。具体指标见表1：行政村普查微观数据指标表。用户可从国家统计局官网下载《第三次全国农业普查方案》,查询有关指标解释。

二、乡镇普查微观数据

乡镇普查微观数据表数据样本是在全国约4万个乡级单位普查表数据记录中抽取的部分样本,包含约4千条乡级单位数据。本数据样本指标包含乡级类型、乡级属性、地形地貌等基本属性指标，还涵盖了乡级单位基本情况、交通设施、人口、经济、贸易市场、教育文化卫生、生活保障、公共事业等方面的指标。为防止推断识别出具体乡级单位，数据已进行脱敏处理，删除了能够辨识到具体乡级单位的特征信息，用户在使用时需注意。具体指标见表2：乡镇普查微观数据指标表。用户可从国家统计局官网下载《第三次全国农业普查方案》,查询有关指标解释。

注：点击阅读原文可申请下载数据

张庆方律师拟被吊销律师证的处罚告知书

国产光刻机进展太慢？重点不是这个

桐城一派｜突发！湖南省财政厅厅长刘文杰坠楼身亡

联调局开始降息置业者应否入市

光刻机，官宣了！

数据共享|国家统计局-清华大学数据开发中心微观数据公开申请

您可能也对以下帖子感兴趣

张庆方律师拟被吊销律师证的处罚告知书

国产光刻机进展太慢？重点不是这个

桐城一派｜突发！湖南省财政厅厅长刘文杰坠楼身亡

联调局开始降息 置业者应否入市

光刻机，官宣了！

生成图片，分享到微信朋友圈

数据共享|国家统计局-清华大学数据开发中心微观数据公开申请

您可能也对以下帖子感兴趣

联调局开始降息置业者应否入市