全网最全的公共数据库汇总,不用做实验就能写论文!
2周学会AMOS构建结构方程模型课程,近期启动!点击查看详情。
结构方程模型与AMOS软件培训班报名了,2天掌握路径分析、中介分析!
这年头,利用公共数据库写论文,已经成为毕业、升职称、年度绩效考核的重要方法。
毫不夸张地说,最快可以一周成文。
郑老师其实对公共数据库也不太感冒,这玩意真的就是灌水!不过,对于培养学生,练练手,真的是好东西。数据来源可靠、质量高、样本量大。
于是我们成立了一个新的专门介绍公共数据库最新论文进展和好文章的一个公众号,欢迎关注。
“公共数据库与孟德尔随机化”,是“医学论文与统计分析”的姊妹号,初衷是为了自己的团队能够跟踪最新的公共数据库研究进展,方便凝练主题。现在我们让学生一起把每周进展和论文分享到该公众号,以此与诸位一起学习与进步。 |
言归正传,我们罗列下几十个常见的公共数据库,有社科、公卫、临床、生物信息类等。
社科类调查数据库
说真的,要说佩服,我就佩服社科哪些大牛们,利用国家的资源,做得大规模的调查,最后数据全部公开!
不像某某做的我国慢病数据库!
(1) 中国家庭追踪调查(CFPS)
http://www.isss.pku.edu.cn/cfps/index.htm?CSRFT=8F5T-3G8T-VPG9-I70W-YLZJ-HED0-K3HG-OTFR
中国家庭追踪调查(ChinaFamily Panel Studies,CFPS)旨在通过跟踪收集个体、家庭、社区三个层次的数据,反映中国社会、经济、人口、教育和健康的变迁,为学术研究和公共政策分析提供数据基础。
重点关注中国居民的经济与非经济福利,以及包括经济活动、教育成果、家庭关系与家庭动态、人口迁移、健康等在内的诸多研究主题,是一项全国性、大规模、多学科的社会跟踪调查项目。CFPS样本覆盖25个省/市/自治区,目标样本规模为16000户,调查对象包含样本家户中的全部家庭成员。
CFPS调查问卷共有社区问卷、家庭问卷、成人问卷和少儿问卷四种主体问卷类型,并在此基础上不断发展出针对不同性质家庭成员的长问卷、短问卷、代答问卷、电访问卷等多种问卷类型。
CFPS官网数据平台提供数据下载和问卷下载,但是要在平台注册审核后才可下载使用。
(2)中国家庭金融调查(CHFS)
西南财经大学中国家庭金融调查与研究中心
https://chfs.swufe.edu.cn
中国家庭金融调查与研究中心是西南财经大学于2010年成立的集数据采集与数据研究于一身的公益性学术调研机构,包含中国家庭、小微企业和城乡社区治理三大数据库。
中国家庭金融调查(ChinaHousehold Finance Survey,CHFS)是中国家庭金融调查与研究中心在全国范围内开展的抽样调查项目,旨在收集有关家庭金融微观层次的相关信息,主要内容包括:住房资产与金融财富、负债与信贷约束、收入与消费、社会保障与保险、代际转移支付、人口特征与就业以及支付习惯等相关信息,以便为学术研究和政府决策提供高质量的微观家庭金融数据,对家庭经济、金融行为进行了全面细致的刻画。
目前中心2011年-2017年四个年度的家庭金融调查数据库、2015年小微企业调查数据库均已面向校内外的研究人员开放申请。以学术研究为目的的研究人员可在中心网站数据中心注册申请数据。中心为用户提供STATA格式的数据(及相应的调查问卷、数据使用说明等资料。
(3) 中国家庭收入调查(CHIP)
北京师范大学中国收入分配研究院
http://www.ciidbnu.org/chip/index.asp
北京师范大学中国收入分配研究院成立于2011年11月,它是一所以收入分配、劳动经济学及发展经济学研究为主要特色的科研机构。致力于收入分配、贫困及劳动力劳动等相关领域的研究,动态追踪我国经济发展和经济转型过程中居民收入分配与贫困的变动特征,并深入探讨其内在的影响因素与作用机制。
中国收入分配研究院已经相继开展了五次入户调查,分别收集了1988、1995、2002、2007和2013年的收支信息,以及其他家庭和个人信息,CHIPS数据库被称为迄今中国收入分配与劳动力市场研究领域中最具权威性的基础性数据资料。
研究院提供问卷、数据、论文成果、部分统计年鉴等资料,需要注册会员,数据需要申请才能下载使用。
(4)中国教育追踪调查(CEPS)
中国人民大学中国调查与数据中心(NSRC)
https://ceps.ruc.edu.cn/
中国教育追踪调查(CEPS)是由中国人民大学中国调查与数据中心(NSRC)设计与实施的大型追踪调查项目,在全国范围内抽取112所学校、438个班级、约2万名学生作为调查样本,调查对象包括学生、家长、教师及校领导。CEPS旨在揭示家庭、学校、社区以及宏观社会结构对于个人教育产出的影响,并进一步探究教育产出在个人生命历程中发生作用的过程。
(5)CGSS: 中国综合社会调查
网站链接:cgss.ruc.edu.cn/
数据来源:中国人民大学社会学系、香港科技大学社会科学部联合建立
调查对象:社会、社区、家庭、个人
调查时间:自 2003 年起,每年一次,进行连续性横截面调查
调查内容:调查问卷由三部分构成:核心模块:调查全部样本,年度调查,固定不变;主题模块:调查全部样本,5 年重复一次,两次调查内容重合率超过 80% 。其中,核心模块与主题模块主要服务于描述与解释社会变迁的宗旨,扩展模块则主要服务于跨国比较研究的目的,每年具体调查内容可参考 (cgss.ruc.edu.cn/index.p)
研究领域:家庭问题,社会认同、社会变迁、社会资本等
获取方式:公开部分年份数据,最新公开数据为 2015 年,注册后免费获取 (cnsda.org/)
(6)中国城乡流动数据库
网站链接:
https://sdc-iesr.jnu.edu.cn/main.htm
数据名称:中国城乡流动数据库(Rural-Urban Migration in China)
开放数据年份:RUMiC2016-2019
调查方式:面访
采用计算机辅助调查:是
数据类型:追踪数据
覆盖省份:澳大利亚国立大学孟昕教授于2008年发起了中国乡城人口流动调查(Rural-Urban Migration in China,简称RUMiC)。涵盖了15个城市5,000户流动人口,自2017年起,暨南大学经济与社会研究院独立开展第十轮全国调查,并对调查方式进行全面改进。
分析单位:个人/家庭
核心问题:人口流动的福利问题
具体内容:调查问卷涉及个人和家庭层面的信息如家庭构成、成人教育、成人就业、家庭资产等。
(7)中国社会状况综合调查
“中国社会状况综合调查”(Chinese Social Survey,简称CSS)是中国社会科学院社会学研究所于2005年发起的一项全国范围的大型连续性抽样调查项目,目的是通过对全国公众的劳动就业、家庭、社会生活、社会态度等方面的长期纵贯调查,来获取转型时期中国社会变迁的数据资料,从而为社会科学研究和政府决策提供翔实而科学的基础信息。
CSS是双年度的纵贯调查,采用概率抽样的入户访问方式,其研究结果可推论全国18-69周岁的住户人口。自2006年第一期调查起,CSS项目组承诺每期调查结束后的两年内,向全社会免费公开调查数据。CSS成为国内较早公开的大型学术调查数据。
CSS2019的研究主题是“社会质量与社会阶层变迁”,调查内容涵盖家庭、就业、经济状况、生活状况、社会保障、社会价值观和社会评价、社会参与和政治参与、志愿服务等模块。在全国149个市/县/区的596个村/居共访问11000余个城乡家庭,回收有效问卷10283份,形成1160万个数据项。
为促进学术产出和学术创新,助力有中国特色的哲学社会科学体系建设,应各界同仁对数据的需求, 项目组决定于2020年12月21日起,提前向全社会免费开放CSS2019数据。申请者可登录“ 中国社会质量基础数据库网站(csqr.cass.cn)”注册并申请获取CSS2019最新数据以及CSS2006-2017历年数据。
(8)中国劳动力动态调查数据CLDS
执行机构丨中山大学社会科学调查中心
数据下载:可下载spss、stata格式的数据,下载的数据格式由数据原始格式决定http://css.sysu.edu.cn/
开放数据年份丨2011、2012、2014
数据类型丨面板数据
分析单位与调查规模丨社区、家庭、劳动;调查对象为样本家庭户中的全部劳动力(年龄15至64岁的家庭成员)。
覆盖区域丨中国29个省市(港澳台、西藏、海南除外)
核心问题丨系统地监测社区社会结构和家庭、劳动力个体的变化与相互影响
应用主题丨人口健康分析、劳动就业分析、消费储蓄分析、空间规划分析
中国疾病预防控制中心营养与食品安全所与美国北卡罗莱纳大学人口中心合作开展https://www.cpc.unc.edu/projects/china
衡量GBD的指标包括:死亡、寿命损失、寿命残疾、限制生命的残疾、患病率、发病率、预期寿命、死亡概率和健康预期寿命、孕产妇死亡率和总暴露。提取的数据指标包括:数量、比率、百分比、年份和死亡概率。
可提取数据的年份为:1990年至2017年所有指标的年度结果,以及所有GBD年龄段;
性别:男性、女性或两者兼有。
研究领域分为:GBD超级地区、地区、国家、以及选定的国家以下单位、世界卫生组织地区、世界银行收入水平等。
虽然GBD数据库可以查询和下载数据,但包含很多搜索参数都会造成问题:查询时有时会导致文件忽略查询中指定的某些结果:特定的年龄组、年份等;同时查询所有位置,很多或所有的原因、年龄组、年份等都会出现不完整的数据。
这个数据库经常发大文章!
健康和退休研究(HRS)是密歇根大学自1992年以来进行的一项纵向研究小组调查,建立了一个具有代表性的大样本数据库。HRS数据库样本量大、质量高、结构复杂。为了使数据更易于研究,HRS数据分为公开数据和敏感/受限数据。任何人都可以在HRS数据下载网站上创建帐户以获取公共数据,而限制数据和敏感健康数据需要使用单独的应用程序。
HRS数据库是美国关于健康和经济环境变化的老龄化相关数据库。数据库中的大多数数据可以通过用户注册免费获得。HRS数据库的多学科数据侧重于对收入和财富、健康、意识和医疗服务使用、工作和退休以及与家人联系的调查。自2006年以来,数据收集已扩大到包括生物标志物和遗传学、以及更深入的心理学和社会背景。
世卫组织死亡率数据库,汇编了会员国每年从其民事登记和生命统计系统报告的死亡率数据, 收集了 1950 年至今的死亡原因的数据,是按原因分列的死亡率比较的流行病学研究的主要数据来源。
(3)Orphanet
Orphanet 数据库是一个收集罕见病相关知识,以提高罕见病患者的诊断、护理和治疗效果的数据库,旨在提供有关罕见病的高质量信息。
Orphanet 数据库是由法国国家健康和医学研究所(French National Institute for Health and Medical Research,INSERM )于 1997 年在法国建立的,从 2000 年开始逐渐发展成为一个由欧洲和全球 40 个国家组成的联盟。
(4)MIMIC 重症系列
重症监护医疗信息集是一个大型的、可免费获取的数据库, 具有数据集时间跨度长(12 年)以及个人健康数据完整等特点,使它成为重症医学界著名的科研数据集。
MIMIC 网站包含了多年来发布的各种 MIMIC 版本的信息:
(1) MIMIC-IV 包含 2008-2019 年的数据,数据来自 Metavision 的床边监视器。
(2) MIMIC-III 包含 2001-2012 年的数据,数据来自 Metavision 和 CareVue 床边监视器,包含 2001-2012 年间麻省理工贝斯以色列迪康医学中心重症监护室病人真实医疗数据,共有年龄 >=16 岁调查对象 53423 人,以及 2001-2008 年间 7870 个新生儿的临床医疗数据。
数据信息包括人口统计学特征、病人生命体征、化验结果、用药情况、医学图像(超声、核磁、CT 等)、病人的医疗过程、床边生命体征的测量,实验室测试结果、各种操作、药物、影像报告和死亡指标等。
(3) MIMIC-II 包含 2001-2008 年的数据, 数据来自 CareVue 床边监视器。MIMIC-II 不再公开使用,但仍然可以从 MIMIC-III 获得数据。
(5)BioLINCC
BioLINCC公共网站(https://biolincc.nhlbi.nih.gov/)成立于2009年10月。该网站提供NHLBI收集的110多个研究机构的临床和流行病学研究数据和生物样本。
BioLINCC积极从事数据共享,受到众多医疗科技工作者的喜爱。每年都有100多名研究项目负责人向BioLINCC申请他们的临床数据。
存储在BioLINCC数据库中的数据和生物样本是免费提供的,但生物样本的运输费用由调查人员承担。研究人员必须向BioLINCC提交申请,以审查和获取他们正在申请的数据或生物样本。在研究人员申请数据或生物样本后,NHLBI工作人员将对申请材料进行审查。
对于数据资源的应用,NHLBI主要审查申请数据是否与研究计划匹配,以及伦理委员会对研究计划的说明,伦理审查是否通过或豁免。BioLINCC将在每年3月1日发送电子邮件提醒提交该研究的进度报告,也就是研究人员可以在申请成功后的任何时候在他的申请页面上提交进度报告。
(6)TCGA
美国癌症基因组图谱(The Cancer Genome Atlas, TCGA)是由美国国家癌症研究所(National Cancer Institute, NCI)和国家人类基因组研究所(NationalHuman Genome Research Institute, NHGRI)合作开发的,目前它包含了33种癌症的数据,每种癌症都涉及关键基因组变化的全面、多维的图谱。TCGA数据库储存有2.5PB的数据,对超过1.1万多名患者的肿瘤组织及配对正常组织进行描述,目前已被广泛应用于研究领域。这些数据已为独立研究人员进行的癌症研究或者TCGA研究网络出版物做出了超过1千多项的贡献。
在TCGA中直接下载数据的方法较为繁琐,但是有多个网站提供TCGA数据(包括表达和临床等)完善的整理,以下是其中整理最为完整和可靠的:
GDAC: http://gdac.broadinstitute.org/
Cancer Browser: https://genome-cancer.ucsc.edu/
cBioportal: http://www.cbioportal.org/index.do
(7)医学影像相关数据库
更多实战课程
更多课程资料下载