【新书速递】打通数据科学三要素——数据科学实战性手册

华章计算机 2021-10-18

2011年，《哈佛商业评论》将数据科学称作“21世纪最吸引人的行业”，随后，数据科学这个概念开始从互联网漫延到各行各业。但是人们对这个概念的内涵和外延并无统一的认知，同时，数据科学也不像软件工程、市场营销等方向有较为明确的教育体系作为支撑，开设“数据科学”学科和课程的学校都是2011年之后才开始探索的，并且大多没有一个适用于工业应用的课程体系。从业人员普遍反映需要一个系统的框架来搭建自己的技术栈和知识体系，从而提升专业化的能力。因此，市场上迫切需要一本覆盖面广、应用性强、深入浅出的数据科学手册——《数据科学工程实践：用户行为分析与建模、A/B实验、SQLFlow》。

本书结合滴滴和腾讯的数据科学实践讲解了用户行为分析、复杂实验设计和SQLFlow三个非常重要的主题。

第一作者谢梁是业界首屈一指的数据科学家，其他作者均来自腾讯、滴滴、快手等公司数据科学团队，实力雄厚。

本书特色

豪华作者阵容：作者全部是自腾讯、滴滴、快手等一线互联网企业的数据科学家、数据分析师和算法工程师，经验极为丰富。
三维度深融合：将数据科学的3个维度——商业理解、量化模型、数据技术全面打通，涵盖数据科学的应用场景、理论支撑和技术底座。
应用场景面广：本书所有数据科学应用场景均来自商业环境，强调实用、可操作性强。
方法论与案例：围绕3大主题给出了大量方法论和最佳实践，方法论与案例的背景、代码、解读等模块深度融合。

主要内容

这是一本将数据科学三要素——商业理解、量化模型、数据技术全面打通的实战性著作，是来自腾讯、滴滴、快手等一线互联网企业的数据科学家、数据分析师和算法工程师的经验总结，得到了SQLFlow创始人以及腾讯、网易、快手、贝壳找房、谷歌等企业的专家一致好评和推荐。

全书三个部分，内容相对独立，既能帮助初学者建立知识体系，又能帮助从业者解决商业中的实际问题，还能帮助有经验的专家快速掌握数据科学的最新技术和发展动向。内容围绕非实验环境下的观测数据的分析、实验的设计和分析、自助式数据科学平台3大主题展开，涉及统计学、经济学、机器学习、实验科学等多个领域，包含大量常用的数据科学方法、简洁的代码实现和经典的实战案例。

第一部分（第1～6章）观测数据的分析技术

讲解了非实验环境下不同观测数据分析场景所对应的分析框架、原理及实际操作，包括消费者选择偏好分析、消费者在时间维度上的行为分析、基于机器学习的用户生命周期价值预测、基于可解释模型技术的商业场景挖掘、基于矩阵分解技术的用户行为规律发现与挖掘，以及在不能进行实验分析时如何更科学地进行全量评估等内容。

第二部分（第7～9章）实验设计和分析技术

从A/B实验的基本原理出发，深入浅出地介绍了各种商业场景下进行实验设计需要参考的原则和运用的方法，尤其是在有样本量约束条件下提升实验效能的方法及商业场景限制导致的非传统实验设计。

第三部分（第10～12章）自助式数据科学平台SQLFlow

针对性地讲解了开源的工程化的自助式数据科学平台SQLFlow，并通过系统配置、黑盒模型的解读器应用、聚类分析场景等案例帮助读者快速了解这一面向未来的数据科学技术。

读者对象

本书适合以下读者：

初入职场的数据分析师，用于升级个人专业分析技能；
从业多年的数据科学管理者，用于梳理、整合知识体系，提升团队能力；
数据科学、商业分析等专业的师生，用于延展阅读；
数据科学行业的人力专家和猎头，用于标定潜在候选人能力。

作者简介

序一

序二

前言

第一部分　观测数据的分析技术

第1章　如何分析用户的选择 2

1.1　深入理解选择行为 2

1.1.1　选择无处不在 2

1.1.2　选择行为的经济学理论 4

1.1.3　离散选择模型 5

1.2DCM详述 6

1.2.1　从经济模型到计量模型 6

1.2.2DCM的应用场景 9

1.2.3DCM的重要数学知识 10

1.3DCM模型的Python实践 13

1.3.1　软件包和数据格式 13

1.3.2　使用逻辑回归分析自驾选择问题 16

1.3.3　使用多项Logit模型分析多种交通方式选择问题 21

1.3.4　使用嵌套Logit模型分析多种交通方式选择问题 24

1.4　本章小结 26

第2章　与时间相关的行为分析 27

2.1　生存分析与二手车定价案例 27

2.1.1　二手车定价背景 27

2.1.2　为什么不选择一般回归模型 28

2.1.3　为什么选择生存分析 29

2.2　生存分析的理论框架 29

2.2.1　生存分析基本概念界定 30

2.2.2　生存函数刻画及简单对比 34

2.2.3　生存函数回归及个体生存概率的预测 36

2.3　生存分析在二手车定价案例中的应用 37

2.3.1　软件包、数据格式和数据读入 38

2.3.2　绘制二手车销售生存曲线及差异对比 40

2.3.3　二手车销售生存概率影响因素分析及个体预测 43

2.3.4　基于Cox风险比例模型的最优价格求解 44

2.4　本章小结 46

第3章　洞察用户长期价值：基于神经网络的LTV建模 47

3.1　用户长期价值的概念和商业应用 47

3.1.1　用户长期价值 47

3.1.2　用户生命周期和用户长期价值 48

3.1.3LTV的特点 49

3.1.4LTV分析能解决的问题 50

3.1.5LTV的计算方法 50

3.2　基于Keras的LTV模型实践 52

3.2.1Keras介绍 52

3.2.2　数据的加载和预处理 52

3.2.3　输入数据的准备 56

3.2.4　模型搭建和训练 61

3.2.5　模型分析 65

3.3　本章小结 66

第4章　使用体系化分析方法进行场景挖掘 67

4.1　经验化分析与体系化分析 67

4.1.1　经验化分析的局限性 67

4.1.2　体系化分析的优势 68

4.2　体系化分析常用工具 69

4.2.1　黑盒模型与白盒模型 69

4.2.2　可解释模型—决策树 69

4.2.3　全局代理模型 73

4.2.4　场景挖掘模型分析方法框架 75

4.3　场景挖掘分析的应用与实现 75

4.3.1　数据背景及数据处理 76

4.3.2　经验化分析方法应用 76

4.3.3　场景挖掘模型的Python实现与模型解读 79

4.4　本章小结 86

第5章　行为规律的发现与挖掘 87

5.1　对有序数据的规律分析 88

5.1.1　有序数据及SVD方法概述 88

5.1.2SVD原理及推导 88

5.2SVD聚类建模Python实战 93

5.3　对无序稀疏数据的规律分析 101

5.3.1　稀疏数据及NMF方法概述 101

5.3.2NMF原理及推导 102

5.3.3NMF聚类建模Python实战 103

5.4　本章小结 109

第6章　对观测到的事件进行因果推断 110

6.1　使用全量评估分析已发生的事件 110

6.2　全量评估的主要方法 111

6.2.1　回归分析 111

6.2.2DID方法 118

6.2.3　合成控制 120

6.2.4Causal Impact方法 122

6.3　全量评估方法的应用 124

6.3.1　使用回归建模方法对物流单量变化进行全量评估 125

6.3.2　使用DID方法评估恐怖主义对经济的影响 131

6.3.3　用合成控制法评估恐怖主义对经济的影响 134

6.3.4　用Causal Impact方法评估天气情况 136

6.4　本章小结 146

第二部分　实验设计和分析技术

第7章　如何比较两个策略的效果 148

7.1　正确推断因果关系 148

7.1.1　相关性谬误 148

7.1.2　潜在结果和因果效果 149

7.2　运用A/B实验进行策略比较 150

7.2.1　什么是A/B实验 151

7.2.2　为什么应用A/B实验 151

7.2.3A/B实验的基本原理 151

7.3A/B实验应用步骤 152

7.3.1　明确实验要素 152

7.3.2　实验设计 154

7.3.3　实验过程监控 155

7.4A/B实验案例 156

7.4.1　实验场景介绍 156

7.4.2　实验方法设计 157

7.4.3　实验效果评估 157

7.5　本章小结 159

第8章　提高实验效能 160

8.1　控制实验指标方差的必要性和手段 160

8.2　用随机区组设计控制实验指标方差 161

8.2.1　利用随机区组实验降低方差 161

8.2.2　随机区组实验的特征选择 162

8.3　随机区组实验应用步骤 163

8.4　随机区组实验案例介绍 167

8.4.1　背景介绍 168

8.4.2　基本设计 168

8.4.3　随机区组实验相关的设计 168

8.4.4　效果评估 169

8.5　随机区组实验的常见问题 170

8.6　本章小结 171

第9章　特殊场景下的实验设计和分析方法 172

9.1　解决分流实验对象之间的干扰 172

9.1.1　使用随机饱和度实验减少实验对象之间的影响 173

9.1.2　随机浓度实验的设计流程 174

9.1.3　随机浓度实验评估方法及案例 175

9.2Switchback实验和评估方法 178

9.2.1　不能使用随机分流策略的情况 178

9.2.2Switchback实验的基本原理 178

9.2.3Switchback实验中关于时空切片的聚类方法 179

9.2.4Switchback实验的评估方法 180

9.3　交叉实验 182

9.3.1　交叉实验的基本概念 183

9.3.2　常见的交叉实验设计矩阵 183

9.3.3　交叉实验评估及矩阵误差说明 185

9.3.4　交叉实验评估案例 186

9.4　强约束条件下的实验方法 189

9.4.1　强约束条件场景 189

9.4.2　多基线实验设计的解决思路 189

9.4.3　多基线实验的设计流程 190

9.4.4　多基线实验的评估方法和案例 192

9.5　本章小结 195

第三部分　自助式数据科学平台SQLFlow

第10章　SQLFlow 198

10.1SQLFlow简介 198

10.1.1　什么是SQLFlow 198

10.1.2SQLFlow的定位和目标 199

10.1.3SQLFlow的工作原理 200

10.2　设置SQLFlow运行环境 201

10.2.1　通过Docker使用SQLFlow 201

10.2.2　环境配置 205

10.2.3　交互 210

10.2.4Jupyter Notebook 210

10.2.5REPL 211

10.3　向SQLFlow提交分析模型 211

10.4　本章小结 214

第11章　机器学习模型可解释性 215

11.1　模型的可解释性 215

11.1.1　模型可解释的重要性 215

11.1.2　模型可解释的必要性 216

11.2　常见的可解释模型 216

11.2.1　线性回归 216

11.2.2　逻辑回归 219

11.2.3　决策树 224

11.2.4KNN算法 225

11.2.5　朴素贝叶斯分类器 228

11.2.6　模型比较 229

11.3　黑盒模型的解释性 230

11.3.1　黑盒模型解释方法 230

11.3.2SQLFlow中的黑盒模型解释应用 233

11.4　本章小结 237

第12章　基于LSTM-Autoencoder的无监督聚类模型 238

12.1　聚类分析的广泛应用 238

12.2　聚类模型的应用案例 239

12.2.1K均值聚类 239

12.2.2　层次聚类 245

12.3SQLFlow中基于深度学习的聚类模型 250

12.3.1　基于深度学习的聚类算法原理 250

12.3.2　城市道路交通状况的模式识别与聚类 256

12.4　本章小结 259

上下滑动查看

点击链接了解详情并购买

扫码关注【华章计算机】视频号

每天来听华章哥讲书

点击阅读全文购买

: ， . Video Mini Program Like ，轻点两下取消赞 Wow ，轻点两下取消在看

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

跟着南通住建局学“朝令夕改”

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

穿了跟没穿一样，胸型赞到爆！天然乳胶，性感到让男人腿软！

当“上帝”变为“老天爷”

【新书速递】打通数据科学三要素——数据科学实战性手册

您可能也对以下帖子感兴趣

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

跟着南通住建局学“朝令夕改”

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

穿了跟没穿一样，胸型赞到爆！天然乳胶，性感到让男人腿软！

当“上帝”变为“老天爷”

生成图片，分享到微信朋友圈

【新书速递】打通数据科学三要素——数据科学实战性手册

您可能也对以下帖子感兴趣