连享会:数据清洗实战操作(二)
目录
1. 课程导言
2. 课程概览
3. 课程提要
4. 课程特色
5. 嘉宾简介
6. 相关资料
相关课程
课程一览
1. 课程导言
数据清洗是实证研究的一个重要组成部分。为了提高数据处理效率,课程-连享会直播课:Stata 数据清洗之实战操作 以 World Development Indicators (WDI) 数据库为例,对 Stata 中的文件操作、循环语句、横向合并与纵向追加等函数进行了讲解。
课后与部分学员的交流中发现,对于数据处理的一些细节还存在较多疑惑。例如,多源数据合并时关键变量的统一、日期型数据格式转换、异常值识别与处理、缺失数据插补等。
本课程是此前课程的进一步细化,从更微观细化角度对数据清洗中的一些常见问题进行讲解。涉及多源数据合并、文字变量格式统一、异常值与缺失值处理、日期型格式数据统一等,主要内容包括:
(1): 异常值识别与处理。何为异常值,异常值包括哪些情形,如何处理。计算 COOK'D, DFBETAS 和 DFFITS 进行异常值识别。
(2): 重复值识别与处理。有些操作要求一些变量值的唯一性,比如数据合并操作中,需保证关键变量的一致性。该部分将对重复值查询、重复值删除等操作进行讲解。
(3): 不一致数据处理。不一致特征多出现于文字变量 (例如:北京与北京市、有限公司与有限责任公司)。本部分主要讲解字符操作函数,包括删除、截取、替代、提取等。
(4): 缺失数据处理。包括缺失值成因、缺失值类型、缺失值识别与缺失值处理等。
(5): 日期型数据处理。讲解原始日期变量为字符型和数值型变量时,如何将不同格式数据转换为 Stata 可识别的格式,不同频率数据之间的相互转换,及日期间隔计算等。
本课程遵循 「以小见大」 原则,通过实例讲解,力求能够覆盖绝大部分的数据处理方法。
2. 课程概览
听课方式: 网络直播。支持手机、iPad、电脑等。 观看方式: 手机/iPad (直接点击链接即可观看):https://lianxh.duanshu.com/#/brief/course/23924488072b4e458ec3bb0a830b187f; 电脑(将课程链接复制到电脑浏览器打开,右上角点击登陆即可):https://lianxh-pc.duanshu.com/course/detail/23924488072b4e458ec3bb0a830b187f 直播嘉宾:游万海 老师 (福州大学) 所用软件:Stata 费用:88 元 时间:2020 年 11 月 28 日 日,19:00-21:00 课程咨询: 李老师-18636102467(微信同号)
3. 课程提要
不规则数据(异常值) 识别方法: 描述统计法;图示法;指标法 处理方法 不必要数据(重复值):识别与删除 不一致数据 字符函数(删除空格,字符截取,大小写统一,字段提取等) 字符距离计算 日期型数据 格式统一 格式转换 缺失数据 缺失值成因 缺失值类型:完全随机缺失、随机缺失、非随机缺失 识别缺失值 缺失值处理:删除;插补(邻近非缺失值、均值/中位数、线性插值、线性拟合等) 应用实例
4. 课程特色
短小精悍:通过实例演示掌握常用的数据处理方法。 讲义程序:分享电子版课件 (数据和程序),课程中的方法可以应用于自己的论文中。 课后答疑:课程结束后,授课老师将提供问题解答。
5. 嘉宾简介
游万海,管理学博士,福州大学经济与管理学院副教授,主要研究领域为空间计量模型、分位数回归模型及应用,以在 World Development, Energy Economics, Economics Letters, Journal of Cleaner Product, 统计研究 等期刊发表 30 余篇论文。担任 Energy Economics, Economic Modelling, Finance Research Letters 等期刊匿名审稿人。游老师讲授的「文本分析与爬虫专题」受到了学员的一致好评。
6. 相关资料
预习资料: 连享会视频公开课 - Stata33 讲: 连享会推文: 数据处理专题 进阶内容: Stata 寒假班 对暂元、循环语句、数据合并等会有进一步的讲解。
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会学习群-常见问题解答汇总:
✨ https://gitee.com/arlionn/WD