【不看后悔】这 skr 帮 homie 提升数据科学能力的好书,不服来battle!
今天不想做啥铺垫
因为太激动了
给大家安利一本好书
小编这篇文章写的很走心
希望大家认真读完
书名为《Python数据科学——技术详解与商业实践》
是今年7月刚出版的新书!
首先,小编已经拿到了本书,并且看了一部分了
其内容是非常赞的
有幸见到本书作者常国珍老师
获取了亲笔签名
我们先看看本书的介绍
小编再来说说为何推荐你这本书
首先是书的目录
前言
第1章 数据科学家的武器库
1.1 数据科学的基本概念
1.2 数理统计技术
1.2.1 描述性统计分析
1.2.2 统计推断与统计建模
1.3 数据挖掘的技术与方法
1.4 描述性数据挖掘算法示例
1.4.1 聚类分析——客户细分
1.4.2 关联规则分析
1.5 预测性数据挖掘算法示例
1.5.1 决策树
1.5.2 KNN算法
1.5.3 Logistic回归
1.5.4 神经网络
1.5.5 支持向量机
1.5.6 集成学习
1.5.7 预测类模型讲解
1.5.8 预测类模型评估概述
第2章 Python概述
2.1 Python概述
2.1.2 Python与数据科学
2.1.3 Python2与Python3
2.2 Anaconda Python的安装、使用
2.2.1 下载与安装
2.2.2 使用Jupyter Notebook
2.2.3 使用Spyder
2.2.4 使用conda或pip管理第三方库
第3章 数据科学的Python编程基础
3.1 Python的基本数据类型
3.1.1 字符串(str)
3.1.2 浮点数和整数(float、int)
3.1.3 布尔值(Bool:True/False)
3.1.4 其他
3.2 Python的基本数据结构
3.2.1 列表(list)
3.2.2 元组(tuple)
3.2.3 集合(set)
3.2.4 字典(dict)
3.3 Python的程序控制
3.3.1 三种基本的编程结构简介
3.3.2 顺承结构
3.3.3 分支结构
3.3.4 循环结构
3.4 Python的函数与模块
3.4.2 Python的模块
3.5 Pandas读取结构化数据
3.5.1 读取数据
3.5.2 写出数据
第4章 描述性统计分析与绘图
4.1 描述性统计进行数据探索
4.1.1 变量度量类型与分布类型
4.1.2 分类变量的统计量
4.1.3 连续变量的分布与集中趋势
4.1.4 连续变量的离散程度
4.1.5 数据分布的对称与高矮
4.2 制作报表与统计制图
4.3 制图的步骤
第5章 数据整合和数据清洗
5.1 数据整合
5.1.1 行列操作
5.1.2 条件查询
5.1.3 横向连接
5.1.4 纵向合并
5.1.5 排序
5.1.6 分组汇总
5.1.7 拆分、堆叠列
5.1.8 赋值与条件赋值
5.2 数据清洗
5.2.1 重复值处理
5.2.2 缺失值处理
5.2.3 噪声值处理
5.3 RFM方法在客户行为分析上的运用
5.3.1 行为特征提取的RFM方法论
5.3.2 使用RFM方法计算变量
5.3.3 数据整理与汇报
第6章 数据科学的统计推断基础
6.1 基本的统计学概念
6.1.1 总体与样本
6.1.2 统计量
6.1.3 点估计、区间估计和中心极限定理
6.2 假设检验与单样本t检验
6.2.1 假设检验
6.2.2 单样本t检验
6.3 双样本t检验
6.4 方差分析(分类变量和连续变量关系检验)
6.4.1 单因素方差分析
6.4.2 多因素方差分析
6.5 相关分析(两连续变量关系检验)
6.5.1 相关系数
6.5.2 散点矩阵图
6.6 卡方检验(二分类变量关系检验)
6.6.1 列联表
6.6.2 卡方检验
第7章 客户价值预测:线性回归模型与诊断
7.1 线性回归
7.1.1 简单线性回归
7.1.2 多元线性回归
7.1.3 多元线性回归的变量筛选
7.2 线性回归诊断
7.2.1 残差分析
7.2.2 强影响点分析
7.2.3 多重共线性分析
7.2.4 小结线性回归诊断
7.3 正则化方法
7.3.1 岭回归
7.3.2 LASSO回归
第8章 Logistic回归构建初始信用评级
8.1 Logistic回归的相关关系分析
8.2 Logistic回归模型及实现
8.2.1 Logistic回归与发生比
8.2.2 Logistic回归的基本原理
8.2.3 在Python中实现Logistic回归
8.3 Logistic回归的极大似然估计
8.3.1 极大似然估计的概念
8.3.2 Logistics回归的极大似然估计
8.4 模型评估
8.4.1 模型评估方法
8.4.2 ROC曲线的概念
8.4.3 在Python中实现ROC曲线
第9章 使用决策树进行初始信用评级
9.1 决策树概述
9.2 决策树算法
9.2.1 ID3建树算法原理
9.2.2 C4.5建树算法原理
9.2.3 CART建树算法原理
9.2.4 决策树的剪枝
9.3 在Python中实现决策树
9.3.1 建模
9.3.2 模型评估
9.3.3 决策树的可视化
9.3.4 参数搜索调优
第10章 神经网络
10.1 神经元模型
10.2 单层感知器
10.3 BP神经网络
10.4 多层感知器的scikit-learn代码实现
第11章 分类器入门:最近邻域与朴素贝叶斯
11.1 KNN算法
11.1.1 KNN算法原理
11.1.2 在Python中实现KNN算法
11.2 朴素贝叶斯分类
11.2.1 贝叶斯公式
11.2.2 朴素贝叶斯分类原理
11.2.3 朴素贝叶斯的参数估计
11.2.4 在Python中实现朴素贝叶斯
第12章 高级分类器:支持向量机
12.1 线性可分与线性不可分
12.2 线性可分支持向量机
12.2.1 函数间隔和几何间隔
12.2.2 学习策略
12.2.3 对偶方法求解
12.2.4 线性可分支持向量机例题
12.3 线性支持向量机与软间隔最大化
12.4 非线性支持向量机与核函数
12.4.1 核函数
12.4.2 非线性支持向量机的学习
12.4.3 示例与Python实现
12.5 使用支持向量机的案例
第13章 连续变量的特征选择与转换
13.1 方法概述
13.2 主成分分析
13.2.1 主成分分析简介
13.2.2 主成分分析原理
13.2.3 主成分分析的运用
13.2.4 在Python中实现主成分分析
13.3 基于主成分的冗余变量筛选
13.4 因子分析
13.4.1 因子分析模型
13.4.2 因子分析算法
13.4.3 在Python中实现因子分析
第14章 客户分群与聚类
14.1 聚类算法概述
14.2 聚类算法基本概念
14.2.1 变量标准化与分布形态转换
14.2.2 变量的维度分析
14.3 聚类模型的评估
14.4 层次聚类
14.4.1 层次聚类原理
14.4.2 层次聚类在Python中的实现
14.5 基于划分的聚类
14.5.1 k-means聚类原理
14.5.2 k-means聚类的应用场景
14.5.3 在Python中实现k-means聚类
14.6 基于密度的聚类
14.6.1 详谈基于密度聚类
14.6.2 在Python中实现密度聚类
14.7 案例:通信客户业务使用偏好聚类
14.7.1 保持原始变量分布形态进行聚类
14.7.2 对变量进行分布形态转换后聚类
第15章 关联规则
15.1 关联规则
15.1.1 关联规则的一些概念
15.1.2 Apriori算法原理
15.1.3 在Python中实现关联规则
15.2 序列模式
15.2.1 序列模式简介与概念
15.2.2 序列模式算法
15.2.3 在Python中实现序列模式
第16章 排序模型的不平衡分类处理
16.1 不平衡分类概述
16.2 欠采样法
16.2.1 随机欠采样法
16.2.2 Tomek Link法
16.3 过采样法
16.3.1 随机过采样法
16.3.2 SMOTE法
16.4 综合采样法
16.5 在Python中实现不平衡分类处理
第17章 集成学习
17.1 集成学习概述
17.2 Bagging
17.2.1 Bagging算法实现
17.2.2 随机森林
17.3 Boosting
17.4 偏差(Bias)、方差(Variance)与集成方法
17.4.2 Bagging与Boosting的直观理解
第18章 时间序列建模
18.1 认识时间序列
18.2 效应分解法时间序列分析
18.3 平稳时间序列分析ARMA模型
18.3.1 平稳时间序列
18.3.2 ARMA模型
18.3.3 在Python中进行AR建模
18.4 非平稳时间序列分析ARIMA模型
18.4.1 差分与ARIMA模型
18.4.2 在Python中进行ARIMA建模
18.5 ARIMA方法建模总结
第19章 商业数据挖掘案例
19.1 个人贷款违约预测模型
19.1.1 数据介绍
19.1.2 业务分析
19.1.3 数据理解
19.1.4 数据整理
19.1.5 建立分析模型
19.1.6 模型运用
19.1.7 流程回顾
19.2 慈善机构精准营销案例
19.2.1 构造营销响应模型
19.2.2 构造客户价值预测模型
19.2.3 制订营销策略
19.2.4 案例过程回顾与不足
19.3 旅游企业客户洞察案例
19.3.2 数据预处理
19.3.3 使用k-means聚类建模
19.3.4 对各个簇的特征进行描述
19.4 个人3C产品精准营销案例
19.4.2 数据预处理
19.4.3 建模
19.4.4 模型评估
19.4.5 下一步建议
附录A 数据说明
参考文献
本书共19章:
第1章介绍数据科学中涉及的基本领域;
第2~3章介绍与数据工作紧密相关的Python语言基础;
第4章讲解描述性统计分析在宏观业务领域的分析;
第5章讲解数据规整、清洗的重要技能;
第6章介绍数据科学领域实用的四大统计检验;
第7章讲解当被解释变量为连续变量时,如何使用线性回归作预测;
第8章讲解使用逻辑回归作评分卡模型;
第9章讲解另外一个可解释模型——决策树。
第10~12章分别讲解了BP神经网络、朴素贝叶斯、近邻域、支持向量机的原理和在决策类模型中的运用;
第13~14章作为一个整体讲解商业分析场景下的信息压缩;
第15章以产品推荐作为案例,讲解发现事件与事件伴生关系的关联分析和序列分析算法;
第16章使用欺诈识别案例讲解当被解释变量分布极 端不平衡时的处理方法;
第17章继续使用欺诈识别案例讲解集成学习算法;
第18章讲解了使用效应分解和ARIMA方法实现宏观业务指标预测;
第19章用案例展现了分类和聚类模型的CRISP-DM和SEMMA流程。
通过目录和章节内容可以看出,这本书将Python基础、数据分析、数据挖掘、机器学习结合在一起,形成数据科学的一个完整流程,并且是面向商业实战的养成式学习手册。
所以是技术+业务的一本好书!
现在出版的大量Python数据科学书籍存在两种现象:
第一种是只讲技术,即使是理论+Python代码实现,但是给出的案例数据很多都是经典数据集,例如鸢尾花数据集,葡萄酒数据,手写字识别数据集等等,这会造成什么问题呢?首先,这些数据集由于太过经典,所以并不“实用”,或许他们适合作为学习某个算法的演示demo,亦或是作为科研人员探索新算法的训练数据(因为要看模型在数据集上的表现),但是,在实际工作中,很多数据往往比这些更复杂,因为实际数据中可能存在大量脏数据,这就是在将数据用于模型前,你得做预处理,例如数据清洗,如果不进行这一步,往往是 Garbage in,garbage out!输入的数据不好,你还能期望输出的数据很好么?哪有免费的午餐这么好的事?所以经典的数据集大多是数据规整的,不适合实际业务场景!而本书的数据很多是真实数据(当然是脱敏处理过的),不信的话,小编拍几张书中照片告诉你!
本书最后一章直接排出4个实际业务场景的具体大型数据挖掘案例!
颇有孔乙己排出九文大钱的拥有整个世界气势!
这4个大型案例分别是:
个人贷款违约预测案例
慈善机构精准营销案例
旅游企业客户洞察案例
个人3C产品精准营销案例
已经可以说是很刺激了~!
第二种是只讲业务,这种书如果能写好也是非常棒的,但是往往只是说明一项具体业务的实现过程等,很难涉及到代码,出现最多的就是有关运营和分析的书,怕就怕这类书只是说一些业务中用到的模型方法思维,然后解释一下具体的含义,却不讲实际中使用的详细情况,例如张口闭口AARRR、PEST、ABTest、SWOT、5W2H、波特五力、鱼骨图,真的讲一下细节应用,却不闭口不言了。
所以小编推荐本书是技术+业务的,是很难得的!
我们再来深挖这本小编推荐的好书好在哪?
除去大部分出版的Python数据科学相关书籍常有的部分(Python基础、机器学习数据挖掘算法)
本书还有以下特色:
第4章 描述性统计分析与绘图 中不仅是教会你绘制图形,还教会你为何要绘制这些图形,只有明确了你要表达的信息和目标比较的类型,再去选择需要绘制的图形,这是个分析绘图的思维过程,而不是说拿到数据我立马画个饼图、直方图、箱线图,然后颜色调好看点,加到PPT里,当被问到你为何做这些图时,你可能哑口无言,所以先要明确分析所要表达的信息,再去做可视化,当然,也有EDA(探索新数据分析)
小编还是贴几张图让大家感受一下本书的魅力所在:
第5章 数据整合和数据清洗,除了讲到重复值和缺失值处理方法,还讲到了噪声值处理方法,详细阐述了盖帽法、分箱法、聚类法,还讲到RFM方法,小编看过很多数据科学相关书,基本没有写到这个的,但这又是实际业务中很重要的!
第6章 数据科学的统计推断基础,很多朋友都学过概率论与数理统计,这也是数据科学的基础内容之一,但是在理论公式的基础上,却很少Python有数据科学相关书籍专门用一个章节系统写写Python在这个内容上的实现,而本书做到了!
第16章 排序模型的不平衡分类处理,例如我们学习二分类模型,正负样本数据数量常常是相当的,在实际业务场景下,哪有这么好的数据给你分析,常常遇到的是不平衡分类数据,就是指分类任务中不同类别的训练样例数目差别很大的情况。例如有1000个正样本,50个负样本,而本书从理论上分别讲到了常用方法:欠采样法、过采样法、综合采样法,并使用Python实现。
有小伙伴有疑问了,关于讲到模型算法,有很多书写,但问题是一堆公式上来,很难理解啊!
相信这是大部分小伙伴学习算法时的痛苦之处,本书大量举例,将抽象算法用具体数据带入帮助理解计算过程,我们看看这本书如何让你“无痛”学习这些算法:
是我先入为主啦(毕竟太激动),我们看看作者简介和专家推荐语:
作者简介
常国珍
数据科学专家和金融技术专家。北京大学会计学博士,中国大数据产业生态联盟专家委员会委员。
2005年数据科学领域,先后在亚信、德勤等企业从事电信、金融行业数据挖掘工作,现就职于中银消费金融有限公司数据管理部。专注于消费金融领域的数据治理、客户智能与风险智能。
赵仁乾
数据科学家,在电信大数据和机器学习领域有丰富的实践经验。
现就职于北京电信规划设计院任高级经济师,负责通信、ICT项目工程与业务咨询,专注电信市场数据分析,重研究方向包括离网用户挖掘、市场细分与精准营销、移动网络价值区域分析、大数据及人工智能运营规划等。
张秋剑
大数据专家和金融行业技术专家,上海师范大学计算机科学技术硕士。
现任星环科技金融事业部总监,大数据技术架构行业顾问专家,云析学院发起人,AICUG社区联合发起人,曾在IEEE等期刊发表多篇论文。目前主要为银行、证券和保险等行业客户提供大数据平台及人工智能平台的整体规划和项目建设等工作。
推荐语:
(1)作者在IT行业有超过20年的研发经验,在金融和数据科学领域有超过12年的实践经验,是金融界知名的数据科学家,在R/Python/SAS等技术领域有深厚的积累。
(2)本书从3个维度展,技术维度:全面讲解数据分析、数据挖掘和机器学习的核心技术;业务维度,围绕具体的业务生命周期展技术知识的讲解;实践维度,列举的全部是商业案例,通过案例为数据科学从业者提供工作模板。
购买本书请点击文末阅读原文,目前7折优惠
如果觉得看书学习还是有压力,不如来看看作者的视频课程吧
视频课程具体内容见下图扫码: