查看原文
其他

【教材推荐】《数据科学统计基础》

点击关注→ 人大社教师服务 2023-10-17

数据科学与大数据技术丛书


○●○

“数据科学与大数据丛书”旨在帮助读者筑牢数据科学的统计学基础,掌握大数据时代的先进的计算机技术,训练解决实际问题的分析思维,提高数据分析和价值发现的能力。本套丛书中每本教材各有侧重,共同构成了完整的数据科学教学体系。

本期推送《数据科学统计基础》。

○●○



 吕晓玲    黄丹阳  



吕晓玲,中国人民大学统计学院教授,副院长。本科与硕士毕业于南开大学数学学院概率统计专业,博士毕业于香港城市大学管理科学系。

黄丹阳,北京大学光华管理学院博士毕业,现任中国人民大学统计学院教授, 中国人民大学杰出青年学者,北京大数据协会理事会副秘书长, 常务理事,全国工业统计学教学研究会青年统计学家协会理事。


数据科学统计基础

ISBN:978-7-300-28692-1



在数据科学的时代背景下,统计学作为一门方法论的学科,更强调的是统计思想在数据科学中的应用。

 





01

问:书名为何叫《数据科学统计基础》?


吕晓玲老师说:


本书适用的课程是统计专业本科学科基础课“数理统计”。我们一直认为这个基础是数学,所以才叫数理统计 ,实际上统计是一门方法论的学科,我们应该首先要清楚研究的问题是什么?然后讨论如何构造方法,解决我们要分析的实际问题,以及如何评价方法 


所以说,数学理论是为评价统计方法服务的在这个角度上,我们不能把统计看成是一门数学课,用数学的标准来要求统计。



数据科学统计基础

ISBN:978-7-300-28696-1


作为学科基础课,更应该理解统计是一门方法论的学科,这样的一个统计思想,更应该围绕这个核心编写教材,组织教学。因此在这个意义上,我们把书名从数据统计改为了《数据科学统计基础》。





02

问:本书如何编排的?


吕晓玲老师说:

本书总共包含5个章节。


第一章是围绕统计量这个核心来展开的首先介绍总体和样本,再讲解使用简单随机抽样方法从总体中获得数据。然后介绍统计量的定义,最后转入对统计量性质的讨论,包括抽样分布和充分统计量。


第二章讲的是参数估计,介绍了常用的矩估计方法和经典的最大似然方法, 还有EM方法, 最终都是给出估计量(统计量)的计算公式或计算步骤,之后详细介绍了各种评价点估计方法的准则。


第三章首先介绍了假设检验的过程与逻辑, 这适用于任何假设检验问题。对于方法的评价, 我们要计算犯错误的概率。 对于方法的应用, 我们要随时保持清醒的头脑


本书在介绍各种检验方法的同时, 也给出一些评论和使用的注意事项, 希望读者认真思考。对于正态总体各种情况, 与区间估计类似, 本书进行了压缩处理。


目录

上下滑动查看所有内容

第1章 数据及其描述 :统计量  
1.1数据和变量  
1.1.1数据的例子 
1.1.2变量的类型 
批判性思考 
习题1.1 
1.2总体、样本和统计量 
1.2.1总体和分布 
1.2.2样本 
1.2.3统计量 
批判性思考 
习题 1.2 
1.3从样本认识总体的图表方法 
1.3.1频数频率表与直方图 
1.3.2饼图与条形图 
1.3.3样本的经验分布函数 
1.3.4高维数据的图表展示方法 
1.3.5数据变换 
批判性思考 
习题 1.3 
1.4次序统计量  
1.4.1次序统计量的概念 
1.4.2样本极差 
1.4.3样本中位数与样本 p分位数 
1.4.4箱线图和 Q–Q图 
批判性思考 
习题 1.4 
1.5抽样分布 
1.5.1样本均值的抽样分布  
1.5.2正态总体各统计量的分布   
1.5.3次序统计量的分布  
1.5.4用随机模拟法寻找统计量的近似分布 
批判性思考 
习题 1.5  
1.6充分统计量  
1.6.1充分统计量的概念 
1.6.2因子分解定理  
批判性思考 
习题 1.6   
1.7常用的概率分布族 
1.7.1常用概率分布族表  
1.7.2伽玛分布族  
1.7.3贝塔分布族 
1.7.4指数型分布族 
批判性思考 
习题 1.7  
1.8与本章相关的 R语言操作   
1.8.1基本统计量的计算  
1.8.2图表  
1.8.3随机模拟统计量的抽样分布 
附录:定理证明 
第2章 参数估计 
2.1点估计与无偏性 
批判性思考 
习题2.1 
2.2矩估计与相合性 
2.2.1矩估计 
2.2.2相合性 
批判性思考 
习题2.2 
2.3最大似然估计与渐近正态性 
2.3.1最大似然估计 
2.3.2最大似然估计的不变原理 
2.3.3最大似然估计的渐近正态性 
2.3.4 EN算法 
批判性思考 
习题2.3 
2.4最小方差无偏估计 
2.4.1无偏估计的有效性 
2.4.2有偏估计的均方误差准则 
2.4.3一致最小方差无偏估计 
2.4.4完备性及其应用 
批判性思考 
习题2.4 
2.5 C-R不等式   
2.5.1 C-R不等式   
2.5.2有效估计  
批判性思考 
习题2.5 
2.6置信区间  
2.6.1置信区间概念  
2.6.2枢轴量法  
2.6.3大样本置信区间  
批判性思考 
习题2.6 
2.7正态总体参数的置信区间 
2.7.1正态总体参数的置信区间  
2.7.2二维参数 (μ, σ2)的置信域  
2.7.3样本量的确定 
批判性思考 
习题2.7 
2.8与本章相关的R语言操作 
2.8.1随机变量序列分布的演示 
2.8.2最大似然估计 
2.8.3 EM算法模拟实例 
2.8.4区间估计的模拟结果 
2.8.5均值、方差的区间估计 
第3章 假设检验 
3.1假设检验的概念与步骤 
3.1.1假设检验问题 
3.1.2假设检验的步骤 
批判性思考 
习题3.1 
3.2正态总体参数和比率的检验 
3.2.1正态均值μ的检验 
3.2.2其他正态总体参数的检验 
3.2.3成对数据的t检验 
3.2.4比率的推断 
3.2.5几个说明 
批判性思考 
习题3.2 
3.3分布的检验 
3.3.1离散分布的X2拟合优度检验 
3.3.2连续分布的检验 
批判性思考 
习题3.3 
3.4大规模假设检验与FDR 
3.4.1大规模假设检验 
3.4.2 FDR方法介绍 
批判性思考 
习题3.4 
3.5与本章相关的R语言操作 
3.5.1正态总体的参数检验 
3.5.2比率检验 
3.5.3假设检验的一个人为例子 
3.5.4 X2拟合优度检验 
3.5.5夏皮洛—威尔克检验 
3.5.6柯莫哥洛夫—斯米尔诺夫检验 
3.5.7 FDR例子  
第4章 统计决策与贝叶斯方法  
4.1统计决策的基本概念  
4.1.1统计决策问题的三要素  
4.1.2统计决策函数与风险函数  
批判性思考 
习题 4.1  
4.2贝叶斯点估计  
4.2.1先验分布与贝叶斯公式  
4.2.2先验分布  
4.2.3贝叶斯风险与贝叶斯点估计  
4.2.4两个注释  
批判性思考  
习题 4.2  
4.3贝叶斯区间估计  
4.3.1可信区间  
4.3.2最大后验密度 (HPD)可信区间 
批判性思考  
习题 4.3  
4.4贝叶斯假设检验 
批判性思考  
习题 4.4  
4.5与本章相关的 R语言操作 
4.5.1不同先验的对比  
4.5.2贝叶斯区间估计 
第5章 再抽样方法  
5.1自助法参数估计  
5.1.1标准误差的自助法估计  
5.1.2偏差的自助法估计  
5.1.3自助法的区间估计  
5.1.4讨论  
批判性思考  
习题 5.1  
5.2 Jackknife  
5.2.1 Jackknife方法介绍  
5.2.2 Jackknife和自助法的联系 
批判性思考  
习题 5.2  
5.3再抽样假设检验  
5.3.1置换检验  
5.3.2自助法假设检验  
批判性思考  
习题 5.3  
5.4交叉验证  
5.4.1交叉验证简介  
5.4.2进一步讨论  
批判性思考  
习题 5.4  
5.5数据科学中的 PCS准则  
5.5.1 DSLC中的 PCS准则  
5.5.2通过扰动分析进行 PCS推断 
批判性思考  
习题 5.5  
5.6与本章相关的 R语言操作  
5.6.1自助法  
5.6.2 Jackknife  
5.6.3假设检验  
5.6.4交叉验证 
5.6.5数据科学中的 PCS准则  
附录 R语言简介  
A.1 R软件简介  
A.1.1 R软件的简单介绍  
A.1.2 R软件的安装  
A.2数据的类型结构 
A.2.1数据的类型  
A.2.2数据的结构                                                                        
A.2.3缺失数据的处理  
A.3 R的基本操作  
A.3.1数据的输入和输出  
A.3.2控制结构  
A.3.3自定义函数   
A.3.4画图  
A.4概率分布  
参考文献                                     
         

《数据科学统计基础》目录



第四章讲的统计决策和贝叶斯方法。


第五章介绍了一些基于数据重利用的统计方法,以及对这些方法的评价和思考。



点击图片,进入试读页面




03

问:如何更好的学习这门课程?


吕晓玲老师说:

这本教材的每个小节后面都有数量不等的批判性思考题目。 这些题目, 有些有明确的答案, 更多的是引起讨论、启发思考, 这比给出一个“标准”答案更重要。任何时候, 我们都要保持自主思考、独立判断的能力, 这是人类进步的源泉。


科学必须具备批判精神, 学习时刻不能缺少思考。对于二年级的本科生, 刚刚接触统计课程, 这个阶段更重要的是踏踏实实学好书中的每个知识点, 融会贯通、深刻理解。 这是“建构”的过程, 使得统计大厦的根基牢牢靠靠。


希望同学们在以后专业课的学习和数据分析实践中再进一步理解和体会, 从而进行“批判”、“解构”、再“重建”, 实现知识的迭代更新和自我的飞跃。


谢谢大家!

 扫码购买



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存