其他

站在巨人的肩膀上做数据挖掘与机器学习—R帮你实现

2017-12-19 经管之家

R语言由新西兰奥克兰大学Ross和Robert开发。


R语言是自由软件,可以放心大胆地使用,且具有非常强大的统计分析和作图功能,而且更重要的是R软件具有非常丰富的网上资源,目前R软件有3000多种贡献包,几乎可以实现所有的统计方法,目前大部分的顶级统计学家和计量经济学家都使用R语言,而且越来越多的数据分析实务人员也开始使用R语言。


R语言具有简单易学,功能强大,体积小(仅40m左右),完全免费,可自由开发等特点,且R语言和S语言语法基本相同,绝大部分程序是互相兼容的。学习R软件正成为一种趋势。


R软件最优美的地方是它能够修改很多前人编写的包的代码做各种你所需的事情,实际你是站在巨人的肩膀上。——Google首席经济学家Hal Varian


大数据时代数据分析的必备技能

——R数据挖掘与机器学习


时间2018年1月21-23日 (三天)初级;

   1月23-25日 (三天)高级

地点北京市海淀区首都体育学院

费用初级:3300元 / 2800元 (学生优惠价)

高级:3600元 / 3100元 (学生优惠价)

全程:6000元 / 5400元 (学生优惠价)

(学生仅限全日制在读本科及硕士;

食宿自理)

安排上午9:00-12:00;下午2:00-5:00;答疑

 

讲师介绍: 

方匡南老师,统计学教授,博士生导师,耶鲁大学博士后。主要研究:数据挖掘、应用统计。


2007年出版了国内第一本R语言中文教程《R语言统计分析软件简明教程》,并于2015年2月出版了《R数据分析:方法与案例详解》,该书在同类书籍中销售名列前茅,并被引入到台湾地区出版。有10多年的R语言使用经验和丰富的数据挖掘和机器学习实战经验。曾先后在在 Journal of Multivariate Analysis、ScientificReports(Nature子刊)、ComputationalStatistics and Data Analysis等国内外权威期刊发表论文70多篇。先后主持了国家自然科学基金、国家社科基金等多个项目。


承担了建行、华为等30个企业数据挖掘项目,有丰富的实战经验。有10年以上的数据挖掘培训经验,长期讲授《数据挖掘》、《机器学习》等课程,讲课生动活泼、深入浅出、以实际案例引出统计方法,再通过编程讲解实际操作和结果分析,先后为50多家企业的技术人员做技术内心,为100多家企业的高管做大数据有关的理念培训。

课程配套资料:

(1)提供一份精心准备的非常全面的R软件入门和数据挖掘与机器学习讲义。
(2)提供课程源代码1份和相应数据若干份。
特别赠送:方老师主讲的R初级和高级视频,价值1000元!

 

学员对象:

金融、医疗、通讯、咨询、电子商务等领域的数据分析人员、数据挖掘工程师、数据科学家;

高校硕士生、博士生、青年教师等。

 

培训目的和特色:

1. 让学员快速入门并熟练掌握R语言,掌握如何利用R丰富的网上资料和帮助系统,学会基本的编程方法。
2. 以实际案例引入,深入浅出地讲解如何使用R语言进行数据挖掘和机器学习,让学员不仅掌握R语言的使用,更重要的是学会数据挖掘和机器学习的思想、原理和方法。
3. 学完本课程后,使学员基本上可以使用R语言进行实际的数据挖掘工作。尤其学会使用R语言对批量处理的实务数据分析,大大提高工作效率。

 

培训内容目录:

【初级班】

第1讲(3小时)R语言入门

目标:掌握R语言的基本用法

1.R语言介绍

2.编辑软件Rstudio使用

3.R程序包的载入与使用

4.数据对象及运算(向量、矩阵、数组、列表与数据框处理)


第2讲(3小时)数据读写,R基本编程

目标:掌握用R编写函数和数据的读写

1.R数据读入与读出

(读入txt、xls、SPSS、SAS、stata

以及数据库文件)

2.R函数编写

3.R的条件与循环函数

4.高效编程技巧介绍


第3讲(3小时)数据预处理,探索性分析

目标:掌握数据预处理与探索性分析

1.数据预处理

2.缺失值处理

3.随机数生成

4.常用统计方法的蒙特卡洛模拟

5.随机抽样

6.单变量数据分析与作图

7.双变量数据分析与作图

8.多变量数据分析与作图

案例1:统计作图在调查数据中的应用

案例2:统计作图在临床医学中的应用


第4讲(3小时)数据挖掘与机器学习入门,线性回归

目标:数据挖掘与机器学习入门

1.何为数据挖掘与机器学习

2.数据挖掘与机器学习的主要研究内容

3.有监督学习与无监督学习区别

4.一元线性回归

5.多元线性回归

6.逐步回归

案例1:广告营销计划案例

案例2:信用卡债务预测案例

案例3:房价预测案例


第5讲(3小时)线性分类方法

目标:掌握经典线性分类方法及其应用

1.Logistic模型

2.LDA判别分类

3.QDA判别分类

案例1:信用卡违约预测案例

案例2:股价涨跌方向预测案例

第6讲(3小时)重抽样方法

目标:掌握经典重抽样方法

1.验证集方法

2.交叉验证

3.Bootstrap方法

案例1:量化投资资产配置案例

案例2:汽车每加仑汽油里程数预测案例

 

【高级班】

第1讲(3小时)线性分类方法

目标:掌握经典线性分类方法及其应用

1.Logistic模型

2.LDA判别分类

3.QDA判别分类

案例1:信用卡违约预测案例

案例2:股价涨跌方向预测案例


第2讲(3小时)重抽样方法

目标:掌握经典重抽样方法

1.验证集方法

2.交叉验证

3.Bootstrap方法

案例1:量化投资资产配置案例

案例2:汽车每加仑汽油里程数预测案例


第3讲(3小时)决策树,组合预测

目标:掌握决策树和组合预测方法及其实际应用。

1.CART决策树

2.Bagging

3.随机森林  

4.Boosting算法

案例1:棒球运动员薪水预测案例

案例2:心脏病预测案例

案例3:信用卡违约预测案例


第4讲(3小时)支持向量机

目标:掌握支持向量机分类方法

1.最大间隔分类器

2.支持向量分类器

3.支持向量机

案例1:基因表达数据案例

案例2:股票涨跌方向预测


第5讲(3小时)变量选择与高维数据

目标:掌握数据挖掘中高维数据分析方法及其实际应用

1.LASSO

2.SCAD

3.MCP

4.Group  LASSO

案例1:基因筛选

案例2: 股票选股


第6讲(3小时)无监督学习,主成分分析,主成分回归,聚类分析

目标:掌握无监督学习方法及其应用。

1.主成分分析

2.主成分回归

3.Kmeans聚类分析

4.系统聚类分析

案例1:广告支出主成分分析

案例2:犯罪率主成分分析

案例3:学生考试成绩主成分分析

案例4:客户细分聚类案例

 

优惠:

现场班老学员9折优惠;

同一单位三人以上同时报名9折优惠;

折扣优惠不叠加。

 

报名流程:

1.点击文末阅读原文中的“初级班/高级班/全程班报名”,网上填写信息提交;

2.给予反馈,确认报名信息;

3.网上订单缴费(需要刷卡或对公转账的请报名后与我们联系);

4.开课前一周发送课程电子版讲义,软件准备及交通住宿指南。

 

联系方式:

魏老师

QQ:2881989714

Mail:vip@pinggu.org

Tel:010-68478566

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存