查看原文
其他

CLHLS:中国老年健康影响因素跟踪调查数据清洗

连享会 连享会 2023-10-24

👇 连享会 · 推文导航 | www.lianxh.cn

连享会课程 · 2023 暑期班

作者:李珊珊 (中国药科大学)
邮箱:cpulss@163.com

温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:


目录

  • 1. 前言

  • 2. 数据库简介

  • 3. 数据准备

  • 4. 数据清洗

  • 5. 结束语

  • 6. 相关推文



1. 前言

随着全球老龄化的不断加剧,针对老龄化问题的研究也愈发重要,想要研究好老龄化问题,高质量的数据资料是不可或缺的一环。针对中国老龄化问题的研究,主要数据如下:

  • 中国健康与养老追踪调查 (CHARLS)
  • 中国老年健康影响因素跟踪调查 (CLHLS)

此前,连享会已介绍了关于中国健康与养老追踪调查数据 (CHARLS) 的详细数据情况和清洗过程,详见:

  • CHARLS-中国健康与养老调查数据库清洗 (一)
  • CHARLS-中国健康与养老调查数据库清洗 (二)

因此,本文主要对中国老年健康影响因素跟踪调查 (CLHLS )数据库进行介绍。相比于中国健康与养老调查数据 (CHARLS),中国老年健康调查 (CLHLS) 有自己独特的优势,具体如下:

  • 中国老年健康调查数据除了提供宏观经济环境、微观个体健康及人口社会经济状况等数据信息,还提供了丰富全面的医学体检、死亡、医学生物指标和基因等数据信息。尤其是近些年来,随着老龄化程度的不断加剧,老年人的失能、认知、死亡等问题受到学术界的广泛关注。
  • 中国老年健康调查 (1998-2018) 作为全球规模最大的高龄老人跟踪调查项目,也是国内全国范围最早、坚持时间最长的社会科学调查,也为研究者提供了大量的跟踪样本。

鉴于此,笔者分享了 CLHLS 的数据介绍和常见变量的清洗处理,便于初次接触 CLHLS 的研究者对数据进行分析。

2. 数据库简介

中国老年健康影响因素跟踪调查简称“中国老年健康调查”,英文缩写为 CLHLS,由北京大学健康老龄团队牵头组织,是国际国内学界公认、世界上类似调研中 80 岁以上高龄老人样本最大并有年轻老人对照组的交叉学科研究项目。

其调查范围覆盖全国 23 个省/市/自治区约 50% 的县/县级市/区,调查对象为 65 岁及以上老年人和 35-64 岁成年子女,调查问卷分为存活被访者问卷和死亡老人家属问卷两种。

其中,存活被访者问卷的调查内容包括老人及家庭基本状况、社会经济背景及家庭结构、经济来源和经济状况、健康和生活质量自评、认知功能、性格心理特征、日常活动能力、生活方式、生活照料、疾病治疗和医疗费承担。死亡老人家属问卷的调查内容包括老人死亡时间、死因等内容。

CLHLS 在 1998 年进行基线调查后,分别于 2000 年、2002 年、2005 年、2008-2009 年、2011-2012 年、2014 年和 2017-2018 年进行了跟踪调查。最近的一次跟踪调查 (2017-2018 年) 共访问 15874 名 65+ 岁老年人,收集了 2014-2018 年期间死亡的 2226 位老年人的信息。

“中国老年健康调查”累计入户访问 11.3 万人次,其中最需照料的 80 岁及以上高龄老人占总样本 67.4%,其余为较低龄老人和中年对照组。同时访问 2.89 万位 65+ 岁已死亡被访老人的直接家庭成员,收集了老人死亡前健康状况、生活质量与医疗和照料需求成本等详细数据。

2023 年 4 月 6 日中国老年健康调查 (CLHLS) 第九次调查数据发布会于武汉召开。第 9 次的调查将调查范围扩展到 27 个省市自治区。在前八次调查包括大量老人家庭结构与居住安排、婚姻状态、健康、社会经济特征等丰富信息的基础上,第 9 次调查增加了关于家庭住房养老问项和家庭金融养老储备问项,扩展了兄弟姐妹问项,目前已有 65 项与家庭直接相关问项,有的问项还包括多个子问项,第 9 次调查还增加了成年子女调查。因此,调查名称适当扩展为“中国老年健康和家庭幸福调查” (CLHLS-HF)。

3. 数据准备

根据规定,我们无法提供详细的微观数据,读者可以自行前往北京大学开放研究数据平台下载 中国老年健康与家庭幸福调查 (CLHLS-HF)。数据平台最近的一次更新是 2020 年 4 月,提供的 CLHLS 数据为 SPSS 格式。

数据库包含 16 个数据集,也可按照学科、关键词词项、提交时间筛选出自己感兴趣的数据集。

下载完成数据以后,我们还需要了解以下几点:

  • 受访者 ID 由“省份编码+编号+首次访问的年份”组成。
  • 以 "r" 为首字母的变量,用来区别是由样本老人回答还是由代答者代答。
  • 以 1998-2018 年跟踪调查数据为例,带有 _0、_2、_5、_8、_11、_14、_18 等表明年份的后缀的变量名代表那些在 2000、2002、2005、2008、2011、2014 和 2018 年仍然存活并且再次接受调查的受访者变量。相应地,带有 d0、d2、d5、d8、d11、d14、d18 前缀的变量代表那些在 1998-2000、2000-2002、2002-2005、2005-2008、2008-2011、2011-2014 和 2014-2018 年调查期间死亡的被访者变量。
  • 在使用专题数据库时,用户可以以被访老人样本 ID 号为基准,将社区数据、生物医学指标数据与同调查年份的 CLHLS 老龄跟踪数据进行匹配使用。

4. 数据清洗

我们以最新的 2018 年 CLHLS 数据为例,并选取几项常用变量进行清洗处理,包括年龄、性别、教育程度、婚姻、子女数量、户口、家庭人均收入、自评健康、心理健康、 ADL 、医疗费用等。

use "2018初数据.dta" //导入数据

* 常用控制变量
* 注:8/9代表无法回答和缺失
* trueage 年龄在数据集已生成
recode a1 (1=1) (2=0), gen(gender) // 男为1,女为0
recode hukou (1=1) (2=0) // 城市为1,农村为0
recode f41 (1/2=1) (3/5=0) (8/9=.), gen(married) // 婚姻
recode a2 (1=1) (2/8=0) (9=.),gen(han) // 汉族
recode f103a3 f103b3 f103c3 f103d3 f103e3 f103f3 f103g3 f103h3 ///
f103i3 f103j3 f103k3 f103l3 f103m3 (1=1) (2=0) (9=.)
egen number_child=rowtotal (f103a3 f103b3 f103c3 f103d3 f103e3 ///
f103f3 f103g3 f103h3 f103i3 f103j3 f103k3 f103l3 f103m3),mi //子女数量
recode f1 (54 65 88 99=.),gen(edu) // 上学年限,异常值处理
recode f35 (99998=100000) (99999=.) // 家庭总收入
gen lnincome=ln(f35+1) // 收入取对数
recode f34 (1/2=1) (3/5=0) (8/9=.),gen(econ_state) // 生活是否富裕
recode d71 (1=1) (2=0) (8/9=.),gen(smoke) // 是否吸烟
recode d81 (1=1) (2=0) (8/9=.),gen(drink) // 是否饮酒

* 健康和医疗保健利用
recode e1 e2 e3 e4 e5 e6 (1=0) (2/3=1) (8/9=.)
egen adl=rowtotal(e1 e2 e3 e4 e5 e6),mi // ADL总分
recode b21 b22 b26 b34 b36 b37 b38 (8/9=.)
egen mental_health=rowtotal( b21 b22 b26 b34 b36 b37 b38 ),mi // 心理健康35分
recode b12 (1=5) (2=1) (3=3) (4=2) (5=1) (8/9=.),gen(self_health) // 自评健康
recode g14a1 (1/25=1) (8/9=.),gen(chronic) // 慢性病
recode f651a1 f651b1 f651a2 f651b2 (99=.)
rename (f651a1 f651b1 f651a2 f651b2) (outpatient_total ///
outpatient_family inpatient inpatient_family) // 门诊和住院费用

接着,我们保存特定的变量,并进行描述性统计。

keep trueage gender hukou married han number_child edu ///
lnincome econ_state smoke drink adl mental_health ///
self_health outpatient_total outpatient_family ///
inpatient inpatient_family //保存特定变量

* 描述性统计
sum trueage gender hukou married han number_child edu ///
lnincome econ_state smoke drink adl mental_health ///
self_health outpatient_total outpatient_family ///
inpatient inpatient_family

Variable | Obs Mean Std. Dev. Min Max
-------------+---------------------------------------------
trueage | 15,866 85.45601 11.70212 50 117
gender | 15,874 .436248 .4959346 0 1
hukou | 15,720 .275 .4465285 0 1
married | 15,607 .4107772 .4919907 0 1
han | 13,670 .9407462 .2361078 0 1
-------------+---------------------------------------------
number_child | 15,246 3.546832 1.724708 0 11
edu | 13,500 3.230519 4.246451 0 30
lnincome | 15,088 9.879297 1.859231 0 11.51294
econ_state | 15,584 .1923126 .39413 0 1
smoke | 15,610 .1476618 .3547757 0 1
-------------+---------------------------------------------
drink | 15,515 .1412826 .3483241 0 1
adl | 15,757 .8122104 1.674733 0 6
mental_hea~h | 14,347 20.09905 3.752115 1 35
self_health | 14,442 2.359922 1.284725 1 5
-------------+---------------------------------------------
outpatient~l | 11,941 4631.55 15145.82 0 99999
outpatient~y | 11,010 3937.033 15250.36 0 99999
inpatient | 11,580 6078.824 18209.9 0 99999
inpatient_~y | 10,681 4410.148 16223.69 0 99999

注:1.心理健康和 ADL 分数越大,预示着健康越差;
2.费用的最大值不超过100000.

5. 结束语

还值得一提的是,相比于 CHARLS 数据库,CLHLS 数据库尚未公开城市信息,这一问题经常有人提及。

CLHLS 无法像 CFPS 数据库那样,让研究者可以通过保密机制获取城市信息。尽管如此,笔者通过文献发现,部分研究者可以通过内部权限获取到地级市信息。总而言之,CLHLS 数据的处理过程比较简单,没有复杂的问卷逻辑跳转,因此初学者可以很快上手。如上述清洗存在错误或争议,可通过邮件与我交流。

6. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 调查数据, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

  • 专题:数据分享
    • Stata:CHFS中国家庭金融调查数据库清洗和处理-D121
    • 清洗CFPS:两步搞定中国家庭追踪调查数据清洗
  • 专题:数据处理
    • CHARLS-中国健康与养老调查数据库清洗(二)
    • CHARLS-中国健康与养老调查数据库清洗(一)

课程推荐:2023 暑期班
主讲老师:连玉君,王群勇
🍓 课程主页https://www.lianxh.cn/news/fdc69c3695aec.html

New! Stata 搜索神器:lianxhsongbl  GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
. ssc install lianxh
. ssc install songbl
👉  使用:
. lianxh DID 倍分法
. songbl all

🍏 关于我们

  • 连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 直通车: 👉【百度一下: 连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存