查看原文
其他

重磅!国家统计局-清华、北大、人大三校数据中心对外开放六大微观数据使用!

数据Seminar 2022-12-31

本文综合整理自北京光华管理学院公众号、中国人民大学统计学院公众号、管理学季刊搜狐号




随着新一轮科技革命席卷全球,微观数据正成为重要的基础性战略资源,具有无穷的潜力。国家统计局开放微观数据,旨在提供一手数据用于学术研究和政策分析,以期对宏观经济政策制定和政府统计工作产生积极影响。


现阶段,先行开发应用的微观数据一共有六大类:
  • 规模以上工业企业财务状况年度调查微观调查数据;

  • 住户收支调查微观调查数据;

  • 2010年第六次全国人口普查微观调查数据;

  • 2015年1%人口抽样调查微观调查数据;

  • 第三次全国经济普查微观调查数据;

  • 第三次全国农业普查微观调查数据。


关于国家统计局—北京大学数据开发中心对外开放数据使用的公告
国家统计局—北京大学数据开发中心(以下简称“数据开发中心”)已正式向研究人员提供微观数据开发应用服务。现就相关事宜公告如下:

在线提交数据使用申请

研究人员请登录国家统计局微观数据用户注册申请系统(https://microdata.stats.gov.cn/),选择国家统计局—北京大学数据开发中心,参照申请流程进行数据使用申请(http://nprdc.pku.edu.cn/info/1011/1105.htm)。

预约现场使用微观数据

数据使用实行预约制。数据申请审核通过后方可预约现场使用微观数据。(一)校内研究人员数据申请审核通过的校内研究人员,请不晚于使用数据前一日16:00提交《数据使用预约表》至邮箱nprdc@pku.edu.cn。收到同意的回复后可按照预约时间前往数据开发中心使用数据。(二)校外研究人员1.根据北京大学防控新冠肺炎疫情相关规定,校外研究人员入校需要申请报备。非中高风险地区的校外研究人员需至少提前3日提交《入校报备信息表》至邮箱nprdc@pku.edu.cn2.经批准入校的研究人员,请按照申请入校的时间范围,于门卫处出示有效身份证件和北京健康宝绿码,通过体温检测后入校,前往数据开发中心使用微观数据。

开放时间

周一至周五,9:00-11:30,13:30-17:00(法定节假日除外)。

联系方式

010-62747187,nprdc@pku.edu.cn

温馨提示

(一)中心位于北京大学光华管理学院1号楼309室。建议您从东南门入校,距离数据开发中心较近。(二)请您严格遵守北京大学防控疫情和秩序管理相关规定。

关于国家统计局-中国人民大学数据开发中心对外开放数据使用的公告

中国人民大学校内和校外的研究人员使用数据采用预约制度,请需要进行微观数据开发应用的研究人员按照下列要求办理数据使用申请及预约入校(中心)手续:

数据使用申请

研究人员请登录国家统计局微观数据用户注册申请系统,选择国家统计局-中国人民大学数据开发中心,参照申请流程进行数据使用申请,系统网址:

https://microdata.stats.gov.cn/

提醒:申报表中所有信息请勿空缺,均需填写完整;纸质申请表请送至或快递(EMS/顺丰)至北京市海淀区中国人民大学明德主楼1036室,邮编:100872,联系电话:010-62511318;申请表扫描版请通过系统上传,同时发送至邮箱nrrdc@ruc.edu.cn

预约入校(中心)使用数据

1、校内研究人员
(1)数据使用申请已获批准的校内研究人员,请不晚于使用数据前一日16:00前通过邮件(nrrdc@ruc.edu.cn)向数据专区管理员进行预约,邮件中请注明使用人姓名、手机、使用时间及编号(微观数据使用申请表右上方编号),收到同意的回复后,可以按照预约时间前往数据开发中心使用数据。
2、校外研究人员
(1)按照中国人民大学管理规定,校外人员入校需要进行申请报备(报备信息表请点击文末“阅读原文”下载)。
(2)数据使用申请已获批准的校外研究人员需要按照规定将信息通过邮件报送给数据专区管理员。非高风险地区的研究人员需至少提前3日报备信息。
(3)经报备批准入校的校外研究人员,在申请入校的时间段内,请不晚于使用数据前一日16:00前通过邮件(nrrdc@ruc.edu.cn)向数据专区管理员进行预约,邮件中请注明使用人姓名、手机、使用时间及编号(微观数据使用申请表右上方编号),收到同意的回复后,可以按照预约时间前往数据开发中心使用数据。
(4)经报备批准入院的校外人员须在进校当日凭有效身份证件、测温后入校,然后到数据开发中心使用数据。
更多信息请登录国家统计局-中国人民大学数据开发中心网站http://nrrdc.ruc.edu.cn/查阅了解。

联系人

范文清,国家统计局-中国人民大学数据开发中心数据专区管理员

联系电话

010-62511318

地址

中国人民大学明德主楼211

数据开发中心开放时间

工作日周一至周五,上午9:00-11:30,下午14:00-17:00

国家统计局-清华大学数据开发中心微观数据公开申请

小编注:因为还没有看到清华大学的公开公告,因此先放上了18年的信息供以参考,有新消息后马上转发给各位读者朋友!

2018年6月26日,国家统计局-清华大学数据开发中心微观数据开发应用正式启动,向中华人民共和国境内具有法人资格的高等院校及其下属的非营利性科研机构开放国家统计局微观数据。对于微观数据开发应用,国家统计局要求将已经对外公布宏观数据的指标均纳入开发应用的指标范围。综合考虑社会需求和统计工作现状,试点阶段,先行开发应用的微观数据范围为:

(一)规模以上工业企业财务状况年度调查微观数据;

(二)住户收支调查微观数据;

(三)2010年第六次全国人口普查微观数据;

(四)2015年1%人口抽样调查微观数据;

(五)第三次全国经济普查微观数据;

(六)第三次全国农业普查微观数据。


一、规模以上工业企业微观数据使用说明

1.数据来源:2012-2016年规模以上工业企业财务年报。

2.企业范围:在三个省级地区的规模以上工业企业中,按10%的比例随机抽取样本企业,并对企业数据进行了脱敏处理。

3.行业分类标准:《国民经济行业分类》(GB/T4754-2011)。

4.指标:包括资产负债类、损益分配类和其他三大类,主要有流动资产负债、固定资产原价、资产总计、流动负债合计、负债合计、主营业务收入、主营业务成本、营业利润、利润总额和平均用工人数等32个指标。


二、住户收支调查微观数据使用说明

1、住户收支调查微观数据包括2005年、2008年和2010年城乡住户收支调查微观数据各1万户,共6万户。

2、该微观调查数据均已进行匿名化处理,仅保留省份信息。

3、城镇、农村包括家庭基本情况、户人均收入情况、户人均消费情况、家庭基本设施等方面共计指标分别为40和32个。其中,农村住户调查为自加权,无权数信息。

4、住户收支调查微观数据为CSV格式。


三、人口微观数据使用说明

人口微观数据包括2010年第六次人口普查微观数据和2015年1%人口抽样调查微观数据。

1、2010年第六次人口普查微观数据库

2010年第六次人口普查微观数据库为中国2010年人口普查原始个体样本数据。2010年人口普查采用了长、短两种普查表,短表包括反映人口基本状况的项目,长表包括所有短表项目和人口的经济活动、婚姻家庭、生育和住房等情况的项目。长表抽取了10%的户填报,短表由其余的户填报。本数据库是对普查表长表数据进行系统抽样获得,抽样比为0.995%,占总人口(不包含现役军人和难以确定常住地的人口)的比重为0.95‰。数据库包括户记录405660条,人记录1267381条。数据的主要结构指标对总体具有较好的代表性,能够满足大多数研究的需要。数据库使用常住人口口径。数据指标涵盖性别、年龄、民族、户籍情况、受教育程度、行业、就业、迁移流动、社会保障、婚姻、生育、死亡、住房情况等59个相关指标。为防止个人特征的泄漏,数据库已进行匿名化处理,删除了能够辨识到住户以至个人的信息,屏蔽了个别变量的极端值,请用户在使用时注意。

2、2015年1%人口抽样调查微观数据库

2015年1%人口抽样调查微观数据库为中国2015年1%人口抽样调查原始个体样本数据。2015年全国1%人口抽样调查以全国为总体,以各地级市(地区、盟、州)为子总体,采取分层、二阶段、概率比例、整群抽样方法,在全国31个省、自治区、直辖市中抽取了2977个县(市、区),33671个乡(镇、街道),85365个村(居)委会的89147个调查小区。共调查登记常住人口2131万人,占全国总人口的1.55%。

本数据库是对2015年1%人口抽样调查原始数据进行系统抽样获得,占总人口(不包含现役军人和难以确定常住地的人口)的比重为1‰。数据库包括户记录432447条,人记录1371252条。数据的主要结构指标对总体具有较好的代表性,能够满足大多数研究的需要。为便于用户正确使用数据,数据库提供了权数变量(户权数和人权数)。经过加权处理后,各地区的数据已经按全国统一的抽样比换算,可以直接对比。数据库使用常住人口口径。数据指标涵盖姓名、性别、年龄、民族、户籍情况、受教育程度、行业、就业、迁移流动、社会保障、婚姻、生育、死亡、住房情况等60个相关指标。为防止个人特征的泄漏,数据库已进行匿名化处理,删除了能够辨识到住户以至个人的信息,屏蔽了个别变量的极端值,请用户在使用时注意。


四、第三次全国经济普查微观数据情况简介

抽样对象为第三次全国经济普查中的全部企业法人单位,不包含金融和铁路系统单位,按照10%的比例进行抽样。数据分非工业企业、规模以下工业企业、规模以上工业企业三部分。

1、非工业企业

指标包括:行业大类代码、单位所在地行政区划代码、开业时间、从业人员期末人数、登记注册类型、企业控股情况、营业状态、营业收入、主营业务收入、资产总计、R&D人员合计、R&D人员折合全时当量、R&D经费内部支出、R&D项目数。经济类指标单位为千元。其中R&D人员合计、R&D人员折合全时当量、R&D经费内部支出、R&D项目数这四个指标只有纳入一套表调查单位的重点服务业企业才包含。抽样方法是按照单位所在地省级行政区划代码和行业大类代码分层,层内按主营业务收入排序后按照10%的比例等距抽样,层内企业个数小于5不参加抽样。对从业人员期末人数、营业收入、主营业务收入、资产总计四个指标设定了临界值(见表1),指标数值大于临界值时,均用临界值来代替。

省级行政区划代码对应关系见表2。所有企业均使用国民经济行业分类标准(GB/T 4754-2011)。开业时间进行了以下分组:1949年及以前、1950-1977年、1978-1991年、1992-1996年、1997-2001年、2002-2004年、2005-2008年、2009-2013年、无开业年份。登记注册类型指标含义如下:内资:110国有,120集体,130股份合作,141国有联营,142集体联营,143国有与集体联营,149其他联营,151国有独资公司,159其他有限责任公司,160股份有限公司,171私营独资,172私营合伙,173私营有限责任公司,174私营股份有限公司,190其他。港澳台商投资:210与港澳台商合资经营,220与港澳台商合作经营,230港澳台商独资,240港澳台商投资股份有限公司,290其他港澳台投资。外商投资:310中外合资经营,320中外合作经营,330外资企业,340外商投资股份有限公司,390其他外商投资。住宿和餐饮业企业登记注册类型统一设置为空。企业控股情况指标含义如下:1国有控股,2集体控股,3私人控股,4港澳台商控股,5外商控股,9其他。营业状态指标含义如下:1营业,2停业(歇业),3筹建,4当年关闭,5当年破产,9其他。

2、规模以下工业企业

规模以下工业企业指年主营业务收入在2000万元以下的工业法人企业。指标包括:行业大类代码、资产总计、实收资本、主营业务收入、从业人员期末人数等。经济类指标单位为元。抽样和处理过程如下:按照行业大类代码分层,并按主营业务收入降序排列;层内企业个数小于等于5的不参加抽样,每层前3位企业不参加抽样;按照10%的比例等距抽样后,相邻的两个样本数值型指标相加,作为一个新样本。

3、规模以上工业企业

规模以上工业企业指年主营业务收入达到2000万元及以上的工业法人企业。抽样和处理过程如下:按照行业大类代码分层,并按主营业务收入降序排列;层内企业个数小于等于5的不参加抽样,每层前3位企业不参加抽样;按照10%的比例等距抽样后,相邻的两个样本数值型指标相加,作为一个新样本。


五、第三次全国农业普查微观调查使用说明

1、行政村普查数据

行政村普查表数据样本是在全国约60万个行政村普查表数据记录中抽取的部分样本,包含约6万条村级单位数据。本数据样本包含了行政村类型、地形地貌、全国特色景观旅游名村、基础设施配置等基本属性和基础设施的指标。数据涵盖了行政村基本情况、年末人口、社会保障、基本社会服务、土地经营及流转、农田水利、特色种养业、畜禽集中养殖小区、村集体经济组织财务、村干部情况等方面的指标。为防止推断识别出具体行政村,数据已进行脱敏处理,删除了能够辨识到具体行政村的特征信息,用户在使用时需注意。具体指标见表1:行政村普查微观数据指标表。用户可从国家统计局官网下载《第三次全国农业普查方案》,查询有关指标解释。

2、乡镇普查微观数据

乡镇普查微观数据表数据样本是在全国约4万个乡级单位普查表数据记录中抽取的部分样本,包含约4千条乡级单位数据。本数据样本指标包含乡级类型、乡级属性、地形地貌等基本属性指标,还涵盖了乡级单位基本情况、交通设施、人口、经济、贸易市场、教育文化卫生、生活保障、公共事业等方面的指标。为防止推断识别出具体乡级单位,数据已进行脱敏处理,删除了能够辨识到具体乡级单位的特征信息,用户在使用时需注意。具体指标见表2:乡镇普查微观数据指标表。用户可从国家统计局官网下载《第三次全国农业普查方案》,查询有关指标解释。




点击阅读原文进入CCAD数据库



·END·


星标⭐我们不迷路!

想要文章及时到,文末“在看”少不了!


点击搜索你感兴趣的内容吧


往期推荐


老姚专栏 | 从残差代数性质引出对误差性质的假定,这样理解就顺了!

新世野|在作图上,经济学人都在犯错,你该如何避免?

数据交流 | JDE(2020)关于中国的三农主题文章用到了这些数据!

因果推断 | 刘学:反事实框架下因果推论的原则和机制

新世野 | 世界上有多少人一起网抑云?索尼让音乐被“看见”

学术前沿丨《JEEM》2020年涉及中国文章汇总_上(附全年总目录)

学术前沿丨《JEEM》2020年涉及中国文章汇总_下








数据Seminar




这里是大数据、分析技术与学术研究的三叉路口



推荐 | 谈佳辉



    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更多


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存