CLHLS:中国老年健康影响因素跟踪调查数据清洗
👇 连享会 · 推文导航 | www.lianxh.cn
🍎 Stata:Stata基础 | Stata绘图 | Stata程序 | Stata新命令 📘 论文:数据处理 | 结果输出 | 论文写作 | 数据分享 💹 计量:回归分析 | 交乘项-调节 | IV-GMM | 时间序列 | 面板数据 | 空间计量 | Probit-Logit | 分位数回归 ⛳ 专题:SFA-DEA | 生存分析 | 爬虫 | 机器学习 | 文本分析 🔃 因果:DID | RDD | 因果推断 | 合成控制法 | PSM-Matching 🔨 工具:工具软件 | Markdown | Python-R-Stata 🎧 课程:公开课-直播 | 计量专题 | 关于连享会
连享会课程 · 2023 暑期班
作者:李珊珊 (中国药科大学)
邮箱:cpulss@163.com
温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:
目录
1. 前言
2. 数据库简介
3. 数据准备
4. 数据清洗
5. 结束语
6. 相关推文
1. 前言
随着全球老龄化的不断加剧,针对老龄化问题的研究也愈发重要,想要研究好老龄化问题,高质量的数据资料是不可或缺的一环。针对中国老龄化问题的研究,主要数据如下:
中国健康与养老追踪调查 (CHARLS) 中国老年健康影响因素跟踪调查 (CLHLS)
此前,连享会已介绍了关于中国健康与养老追踪调查数据 (CHARLS) 的详细数据情况和清洗过程,详见:
CHARLS-中国健康与养老调查数据库清洗 (一) CHARLS-中国健康与养老调查数据库清洗 (二)
因此,本文主要对中国老年健康影响因素跟踪调查 (CLHLS )数据库进行介绍。相比于中国健康与养老调查数据 (CHARLS),中国老年健康调查 (CLHLS) 有自己独特的优势,具体如下:
中国老年健康调查数据除了提供宏观经济环境、微观个体健康及人口社会经济状况等数据信息,还提供了丰富全面的医学体检、死亡、医学生物指标和基因等数据信息。尤其是近些年来,随着老龄化程度的不断加剧,老年人的失能、认知、死亡等问题受到学术界的广泛关注。 中国老年健康调查 (1998-2018) 作为全球规模最大的高龄老人跟踪调查项目,也是国内全国范围最早、坚持时间最长的社会科学调查,也为研究者提供了大量的跟踪样本。
鉴于此,笔者分享了 CLHLS 的数据介绍和常见变量的清洗处理,便于初次接触 CLHLS 的研究者对数据进行分析。
2. 数据库简介
中国老年健康影响因素跟踪调查简称“中国老年健康调查”,英文缩写为 CLHLS,由北京大学健康老龄团队牵头组织,是国际国内学界公认、世界上类似调研中 80 岁以上高龄老人样本最大并有年轻老人对照组的交叉学科研究项目。
其调查范围覆盖全国 23 个省/市/自治区约 50% 的县/县级市/区,调查对象为 65 岁及以上老年人和 35-64 岁成年子女,调查问卷分为存活被访者问卷和死亡老人家属问卷两种。
其中,存活被访者问卷的调查内容包括老人及家庭基本状况、社会经济背景及家庭结构、经济来源和经济状况、健康和生活质量自评、认知功能、性格心理特征、日常活动能力、生活方式、生活照料、疾病治疗和医疗费承担。死亡老人家属问卷的调查内容包括老人死亡时间、死因等内容。
CLHLS 在 1998 年进行基线调查后,分别于 2000 年、2002 年、2005 年、2008-2009 年、2011-2012 年、2014 年和 2017-2018 年进行了跟踪调查。最近的一次跟踪调查 (2017-2018 年) 共访问 15874 名 65+ 岁老年人,收集了 2014-2018 年期间死亡的 2226 位老年人的信息。
“中国老年健康调查”累计入户访问 11.3 万人次,其中最需照料的 80 岁及以上高龄老人占总样本 67.4%,其余为较低龄老人和中年对照组。同时访问 2.89 万位 65+ 岁已死亡被访老人的直接家庭成员,收集了老人死亡前健康状况、生活质量与医疗和照料需求成本等详细数据。
2023 年 4 月 6 日中国老年健康调查 (CLHLS) 第九次调查数据发布会于武汉召开。第 9 次的调查将调查范围扩展到 27 个省市自治区。在前八次调查包括大量老人家庭结构与居住安排、婚姻状态、健康、社会经济特征等丰富信息的基础上,第 9 次调查增加了关于家庭住房养老问项和家庭金融养老储备问项,扩展了兄弟姐妹问项,目前已有 65 项与家庭直接相关问项,有的问项还包括多个子问项,第 9 次调查还增加了成年子女调查。因此,调查名称适当扩展为“中国老年健康和家庭幸福调查” (CLHLS-HF)。
3. 数据准备
根据规定,我们无法提供详细的微观数据,读者可以自行前往北京大学开放研究数据平台下载 中国老年健康与家庭幸福调查 (CLHLS-HF)。数据平台最近的一次更新是 2020 年 4 月,提供的 CLHLS 数据为 SPSS 格式。
数据库包含 16 个数据集,也可按照学科、关键词词项、提交时间筛选出自己感兴趣的数据集。
下载完成数据以后,我们还需要了解以下几点:
受访者 ID 由“省份编码+编号+首次访问的年份”组成。 以 "r" 为首字母的变量,用来区别是由样本老人回答还是由代答者代答。 以 1998-2018 年跟踪调查数据为例,带有 _0、_2、_5、_8、_11、_14、_18 等表明年份的后缀的变量名代表那些在 2000、2002、2005、2008、2011、2014 和 2018 年仍然存活并且再次接受调查的受访者变量。相应地,带有 d0、d2、d5、d8、d11、d14、d18 前缀的变量代表那些在 1998-2000、2000-2002、2002-2005、2005-2008、2008-2011、2011-2014 和 2014-2018 年调查期间死亡的被访者变量。 在使用专题数据库时,用户可以以被访老人样本 ID 号为基准,将社区数据、生物医学指标数据与同调查年份的 CLHLS 老龄跟踪数据进行匹配使用。
4. 数据清洗
我们以最新的 2018 年 CLHLS 数据为例,并选取几项常用变量进行清洗处理,包括年龄、性别、教育程度、婚姻、子女数量、户口、家庭人均收入、自评健康、心理健康、 ADL 、医疗费用等。
use "2018初数据.dta" //导入数据
* 常用控制变量
* 注:8/9代表无法回答和缺失
* trueage 年龄在数据集已生成
recode a1 (1=1) (2=0), gen(gender) // 男为1,女为0
recode hukou (1=1) (2=0) // 城市为1,农村为0
recode f41 (1/2=1) (3/5=0) (8/9=.), gen(married) // 婚姻
recode a2 (1=1) (2/8=0) (9=.),gen(han) // 汉族
recode f103a3 f103b3 f103c3 f103d3 f103e3 f103f3 f103g3 f103h3 ///
f103i3 f103j3 f103k3 f103l3 f103m3 (1=1) (2=0) (9=.)
egen number_child=rowtotal (f103a3 f103b3 f103c3 f103d3 f103e3 ///
f103f3 f103g3 f103h3 f103i3 f103j3 f103k3 f103l3 f103m3),mi //子女数量
recode f1 (54 65 88 99=.),gen(edu) // 上学年限,异常值处理
recode f35 (99998=100000) (99999=.) // 家庭总收入
gen lnincome=ln(f35+1) // 收入取对数
recode f34 (1/2=1) (3/5=0) (8/9=.),gen(econ_state) // 生活是否富裕
recode d71 (1=1) (2=0) (8/9=.),gen(smoke) // 是否吸烟
recode d81 (1=1) (2=0) (8/9=.),gen(drink) // 是否饮酒
* 健康和医疗保健利用
recode e1 e2 e3 e4 e5 e6 (1=0) (2/3=1) (8/9=.)
egen adl=rowtotal(e1 e2 e3 e4 e5 e6),mi // ADL总分
recode b21 b22 b26 b34 b36 b37 b38 (8/9=.)
egen mental_health=rowtotal( b21 b22 b26 b34 b36 b37 b38 ),mi // 心理健康35分
recode b12 (1=5) (2=1) (3=3) (4=2) (5=1) (8/9=.),gen(self_health) // 自评健康
recode g14a1 (1/25=1) (8/9=.),gen(chronic) // 慢性病
recode f651a1 f651b1 f651a2 f651b2 (99=.)
rename (f651a1 f651b1 f651a2 f651b2) (outpatient_total ///
outpatient_family inpatient inpatient_family) // 门诊和住院费用
接着,我们保存特定的变量,并进行描述性统计。
keep trueage gender hukou married han number_child edu ///
lnincome econ_state smoke drink adl mental_health ///
self_health outpatient_total outpatient_family ///
inpatient inpatient_family //保存特定变量
* 描述性统计
sum trueage gender hukou married han number_child edu ///
lnincome econ_state smoke drink adl mental_health ///
self_health outpatient_total outpatient_family ///
inpatient inpatient_family
Variable | Obs Mean Std. Dev. Min Max
-------------+---------------------------------------------
trueage | 15,866 85.45601 11.70212 50 117
gender | 15,874 .436248 .4959346 0 1
hukou | 15,720 .275 .4465285 0 1
married | 15,607 .4107772 .4919907 0 1
han | 13,670 .9407462 .2361078 0 1
-------------+---------------------------------------------
number_child | 15,246 3.546832 1.724708 0 11
edu | 13,500 3.230519 4.246451 0 30
lnincome | 15,088 9.879297 1.859231 0 11.51294
econ_state | 15,584 .1923126 .39413 0 1
smoke | 15,610 .1476618 .3547757 0 1
-------------+---------------------------------------------
drink | 15,515 .1412826 .3483241 0 1
adl | 15,757 .8122104 1.674733 0 6
mental_hea~h | 14,347 20.09905 3.752115 1 35
self_health | 14,442 2.359922 1.284725 1 5
-------------+---------------------------------------------
outpatient~l | 11,941 4631.55 15145.82 0 99999
outpatient~y | 11,010 3937.033 15250.36 0 99999
inpatient | 11,580 6078.824 18209.9 0 99999
inpatient_~y | 10,681 4410.148 16223.69 0 99999
注:1.心理健康和 ADL 分数越大,预示着健康越差;
2.费用的最大值不超过100000.
5. 结束语
还值得一提的是,相比于 CHARLS 数据库,CLHLS 数据库尚未公开城市信息,这一问题经常有人提及。
CLHLS 无法像 CFPS 数据库那样,让研究者可以通过保密机制获取城市信息。尽管如此,笔者通过文献发现,部分研究者可以通过内部权限获取到地级市信息。总而言之,CLHLS 数据的处理过程比较简单,没有复杂的问卷逻辑跳转,因此初学者可以很快上手。如上述清洗存在错误或争议,可通过邮件与我交流。
6. 相关推文
Note:产生如下推文列表的 Stata 命令为:
lianxh 调查数据, m
安装最新版lianxh
命令:
ssc install lianxh, replace
专题:数据分享 Stata:CHFS中国家庭金融调查数据库清洗和处理-D121 清洗CFPS:两步搞定中国家庭追踪调查数据清洗 专题:数据处理 CHARLS-中国健康与养老调查数据库清洗(二) CHARLS-中国健康与养老调查数据库清洗(一)
课程推荐:2023 暑期班
主讲老师:连玉君,王群勇
🍓 课程主页:https://www.lianxh.cn/news/fdc69c3695aec.html
New! Stata 搜索神器:
lianxh
和songbl
GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
. ssc install lianxh
. ssc install songbl
👉 使用:
. lianxh DID 倍分法
. songbl all
🍏 关于我们
连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。 直通车: 👉【百度一下: 连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。