河南南阳收割机被堵事件:官员缺德,祸患无穷

极目新闻领导公开“记者毕节采访被打”细节:他们打人后擦去指纹

突发!员工跳楼!只拿低保工资!央企设计院集体罢工!

退休后的温家宝

突发!北京某院集体罢工!

生成图片,分享到微信朋友圈

自由微信安卓APP发布,立即下载! | 提交文章网址
查看原文

各美其美:统计.分析.挖掘 不一样的美

herain 数据指象 2022-07-01

点上方 “趣味数据周刊” 关注公众号

文章期号:20200314

「鄙人言」躬身数据之职,受任于互联腾飞之际,奉命于碾转反侧之间,尔来三年有余矣。翻阅网友回答,有一些回答难免“引喻失义,而塞良谏之路“。故来献三言两语,裨补阙漏,愿有所广益。望各位读者大人亦宜自谋,以咨诹善道,察纳雅言,有所建树
「数据」:人类自诞生以来,数据早已存在,是我们赋“数据” 为数据之名。类比我们赋名发现的化学元素:钙钾镁钠。我们在由人,物,事 组成的时空场景,通过事来完成人与物的交互,这也是生命无终无始过程。
人或物独立存在时 我们只能用“0”去描述。当人和物通过事交互的时,我们才可以对人和我作出更多的了解。比如我们用尺子来度量人:能了解到人有高低胖瘦,尺有长短精密。数据是客观描述与抽象认知。交互衍生数据,数据又作用于交互。
干燥乏味的名字解释,这里我就不再赘述了。用一个桑农种桑的故事去了解三者的不同吧。
「接地气的故事」:桑农翻耕了自己的一亩三分地,种上了一株株桑苗。日落而息,日升而作。每天都会往返在桑田间,观察者每一株桑苗:长了多高,有多少枝叶,有多少枯叶...
这是统计。每天的高矮多少的记录都直接反映桑田的状态。桑农眼前有桑田,心中有数字。统计是将观察事物数字化,直观的描述事物,「统计」的侧重点:了解(描述)事物,数字能也更好的传递这种数字化了解。
桑农观察了三五日,数字在慢慢积累构成数据表。对数据表进行拆分解析(分析)发现有一块地的桑树长势不好:长的慢,枯叶较多。
数据分析就是在多日的数字基础之上,拆解对比,拉长时间线,更好的发现肉眼无法捕捉的差异,发现问题。「分析」的侧重点:发现问题,发现细微的差异变化。
桑农发现一块桑树长势不好,反倒乐起来了。因为他知道:好坏相随,福祸相依。知道好坏的原因,桑农就可以去找到办法,趋利避害。对比:好坏两块桑田的土壤,水分,采光(像极了模型的参数)。在不断的挖掘土壤等相关特征,桑农发现了适合桑树最佳的土壤,水分,采光的配比。通过施肥除草,桑苗慢慢的长势好起来了。「挖掘」的侧重点:发现价值,升级认知,获取更多价值。
那么问题来了:统计,分析,挖掘过程中产生的数据怎么更好的管理呢?这样就出现了一套存取,管理数据的一套系统的方法论,「OLAP」应运而生。
「各美其美」:统计,分析,挖掘 都是处理数据的方式方法,是彼此衔接的一个过程,有联系有交集。没有明显的界限,却有独特的特点。
统计: 需要了解基础的统计量:最大值,最小值,中位数,中序数,众数等, 最重要的是均值和方差;数据的分布:卡方分布,二项式分布,正态分布;假设检验的方法;---是什么?
分析:  相关性分析方法比如:分类,聚类,判别,典型相关性。关联分析考察多因素对事物的影响:方差分析,因子分析,主成分分析,回归分析;--怎么了?
挖掘:挖掘通过统计和分析发现不了的潜在有价值的规则,比如:关联推荐(啤酒与尿布),K近邻,神经网络;用高速计算的电脑来弥补人脑的短板。--这样做?
OLAP:关系OLPA(ROLAP)服务器,多维OLAP(MOLAP)服务器,混合OLAP(HOLAP)服务器,特殊的SQL服务器。多维数据模型的模式:星型,雪花,事实星座。上卷,下钻,切片和切块,转轴,钻过,钻透 等结构化存储数据,多样化操作数据。
「怎么学习呢?」 饭菜已好,下来咪西吧。请收藏下面的干货,遨游在数据之海吧。去公众号,看每一期的经典分享。

推荐阅读:

微信扫一扫付费阅读本文

可试读89%

微信扫一扫付费阅读本文

文章有问题?点此查看未经处理的缓存