查看原文
其他

JHU《Data Science(数据科学)》学习笔记—序言

联川生物 2022-06-07

The following article is from 珠江肿瘤 Author 李雪纯 冯文清


在当今这个信息数据爆炸的时代,不知道大家是否对大量的数据的处理分析感到无从下手?

不知道大家是否因为当年没有好好学习和掌握统计学的理论和实际运用而留下悔恨的泪水?

不知道大家是否对热门的机器学习和各种复杂算法望而却步?

不用担心,从今天起我们将开始推出《Data Science(数据科学)》专题学习,和大家一起学习约翰霍普金斯大学发布在coursera平台上的数据科学系列课程。

这门系列课程由三位生物统计学教授Brian Caffo, Jeff Leek和Roger D. Peng主讲,主要使用R语言作为数据分析工具,学习数据科学领域常用的基本概念和数据处理方法,包括整理、分析和可视化数据,学会用数据建立模型做出推理预测回答数据问题,涉及统计理论和机器学习等内容。


本次数据科学系列课程将主要学习以下8个章节的内容,推文目录如下。

一、数据科学家的工具箱

➢1. 数学科学家的工具箱

本章节共1期,主要介绍数据科学家常用的一些数据分析相关的软件工具,包括命令行界面、 Git 、GitHub、 RStudio等。

二、R语言程序设计

➢2. R语言程序设计-数据结构与函数
➢3. R语言程序设计-给符号赋值
➢4. R语言程序设计-循环函数
➢5. R语言程序设计-调试工具与str函数
➢6. R语言程序设计-模拟和R分析器

本章节共5期,介绍了如何用R编程以及简要介绍如何使用R进行有效的数据分析。

三、获取和整理数据

➢7. 获取和整理数据-获取网络数据  
➢8. 获取和整理数据-获取不同格式的数据
➢9. 获取和整理数据-整理数据part1
➢10. 获取和整理数据-整理数据part2

本章节通过4期内容,主要介绍收集,整理和共享数据所需的基本知识,包括如何从网络,API,数据库以及周围的同事那里获取各种格式的数据,如何将数据变得更整洁方便分析处理,极大地加快了下游数据分析任务的速度。

四、探索性数据分析

➢11. 探索性数据分析-探索性图表概述
➢12. 探索性数据分析-基础绘图和Lattice绘图
➢13. 探索性数据分析-ggplot2绘图
➢14. 探索性数据分析-层次聚类和K均值聚类
➢15. 探索性数据分析-主成分分析和奇异值分解

本章节共5期,主要介绍汇总数据的基本探索技术,我们将详细介绍R中的绘图系统将数据进行可视化,并利用可视化图表进行数据分析。

五、统计推断

➢16. 统计推断-概率论和条件概率
➢17. 统计推断-期望方差和常见概率分布
➢18. 统计推断-渐进性
➢19. 统计推断-t分布置信区间
➢20. 统计推断-假设检验和P值
➢21. 统计推断-功效POWER
➢22. 统计推断-多重检验
➢23. 统计推断-重抽样

统计推断是从样本数据得出有关总体的结论的过程,本章节将通过8期内容利用R的可视化功能以一种更易理解的方式介绍统计推理的基础知识,以及统计推理在R中的运用。

六、回归模型

➢24. 回归模型-基本概念与最小二乘法      
➢25. 回归模型-均值回归与线性回归统计推断
➢26. 回归模型-残差、估计残差与决定系数
➢27. 回归模型-多元回归
➢28. 回归模型-单因素协方差分析和回归诊断
➢29. 回归模型-模型选择与广义线性回归

本章节共6期,主要介绍使用回归模型进行统计推理的相关知识,包括线性回归、多元回归、广义线性回归模型以及模型的建立、评价和选择过程中的基本概念和实际运用。

七、实用机器学习

➢30. 机器学习-概述
➢31. 机器学习-模型评价
➢32. 机器学习-训练模型
➢33. 机器学习-构建协变量与主成分分析
➢34. 机器学习-回归预测和分类树预测
➢35. 机器学习-袋装、随机森林和提升算法
➢36. 机器学习-预测
➢37. 机器学习-正则化回归与无监督预测

数据科学家和数据分析师执行的最常见任务之一是机器学习和预测。本章节通过8期内容主要介绍机器学习的基础概念和步骤,一系列基于模型和算法的机器学习方法,包括回归,分类树,朴素贝叶斯和随机森林等,并利用这些模型和算法对数据进行预测并评估。

八、数据产品开发

➢38. 数据产品开发-shiny包part1  
➢39. 数据产品开发- shiny包part2
➢40. 数据产品开发-googleVis包与Plotly包
➢41. 数据产品开发-Rmarkdown与leaflet包
➢42. 数据产品开发-创建R包
➢43. 数据产品开发-swirl课程

本章节主要介绍如何在R中使用统计数据和统计产品开发工具进行数据产品的开发,比如为数据产品创建简单的Shiny 交互式Web应用程序、创建交互式图表、创建R包或创建swirl课程,并将这些数据产品上传分享。

大家是不是开始期待并且想要了解以上这些强大的数据分析功能具体是怎样实现的呢?OK,话不多说,和我们一起在接下来的正式推送中学习数据科学,掌握数据分析技能吧!


相关阅读

数据科学03 | R语言程序设计-给符号赋值

数据科学02 | R语言程序设计-数据结构与函数

样本量估算——序言| PASS专题

数据科学01- 数据科学家的工具箱 | PASS专题

图说|T细胞老化的机制-2

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存