突发!员工跳楼!只拿低保工资!央企设计院集体罢工!

突发!北京某院集体罢工!

淄博向东,惠泊向西:在人民与人民币之间,惠泊停车选择了人民币

【少儿禁】马建《亮出你的舌苔或空空荡荡》

10部适合女性看的唯美情色电影

生成图片,分享到微信朋友圈

自由微信安卓APP发布,立即下载! | 提交文章网址
查看原文

数据十问,问十道百

herain 数据指象 2022-07-01

目录:

1,度量数据中心趋势与离散趋势的统计量?

2,刻画相异性的度量?

3,什么是高数据质量的数据?

4,规范化变换数据的方法?

5,什么是数据仓库?

6,什么是数据立方体?

7,OLAP的操作用哪些?

8,OLAP的服务器结构有哪些?

9,常用的属性选择度量有哪些?

10,评估分类器性能的度量?


通过细微的十个小问题,以点画线,画出数据相关的知识面,直观把握知识,形成一个体系。

1,度量数据中心趋势与离散趋势的统计量?

中心趋势度量:均值,中位数,中列数,众数;

离散趋势度量:极差,四分位数,方差,标准差,四分位数极差;

分布形态度量:峰度,偏度,一个标准正态分布数据偏度为0,峰度为3

2,刻画相异性的度量?

欧几里得距离(绿色),曼哈顿距离(红蓝黄),闵可斯夫基距离,上确界距离等等。

3,什么是高数据质量的数据?

准确性,完整性,一致性,时效性,可信性和可解释性。

数据预处理过程:数据清理,数据集成,数据归约。

4,规范化变换数据的方法?

最小-最大规范化:将原始数据投射到指定的空间[min,max]。可用公式表示为:


Z分数(z-score)规范化(或零均值规范化):属性的值基于A的均值(即平均值)和标准差规范化


小数定标规范化:通过移动属性A的值的小数点未知进行规范化。小数点的移动位数依赖于A的最大绝对值。

还有scaling 图表化显示。


5,什么是数据仓库?

William H. Inmon 说:“数据仓库是一个面向主题的,集成的,时变的,非易失的数据集合,支持管理者的决策过程。”

三种数据仓模型:企业仓,数据集市,虚拟仓库

6,什么是数据立方体?

数据立方体是一种多维数据模型,允许以多维对数据建模和观察。它由维和事实定义。

多维数据模型的模式:星形,雪花,事实星座。

对于N维立方体,共有2的N次方个基本方体,会产生维灾难。

完全立方体,冰山立方体,闭立方体,立方体外壳。

7,OLAP的操作用哪些?

上卷,下钻,切片和切块,转轴。其它操作:钻过,钻透;

8,OLAP的服务器结构有哪些?

关系OLPA(ROLAP)服务器,多维OLAP(MOLAP)服务器,混合OLAP(HOLAP)服务器,特殊的SQL服务器。

9,常用的属性选择度量有哪些?

属性选择度量就是分裂规则,用来确定分裂属性和分裂子集。

常见的度量方法:信息增益,增益率,基尼指数(Gini指数)

其他属性度量方法:卡方检验,C-SEP,G-统计量

10,评估分类器性能的度量?

恭喜你,看完了十个问题,也掌握了基础的解答点,更希望你能够做到问十道百,体现自己的专业知识和技术自信。


推荐阅读:
一种另辟蹊径的聚类:EM聚类
简文短述:决策树
大数据开发,一定要关注小细节
文章底部点个「在看」,坚持为你创作



携:《唐人街探案3》提前祝愿大家新年快乐!

文章有问题?点此查看未经处理的缓存