河南南阳收割机被堵事件:官员缺德,祸患无穷
极目新闻领导公开“记者毕节采访被打”细节:他们打人后擦去指纹
突发!员工跳楼!只拿低保工资!央企设计院集体罢工!
退休后的温家宝
突发!北京某院集体罢工!
主页
晓松奇谈
习近平
输入关键词
秘不发丧
西塞罗
母子
@大湾区之声
gay
熟女
让子弹飞
生成图片,分享到微信朋友圈
自由微信安卓APP发布,立即下载!
|
提交文章网址
查看原文
必知必会:统计学的智慧七柱
Original
herain
数据指象
2022-07-01
收录于合集 #数据心智-认知升级
54个
点击上方“趣味数据周刊”关注公众号
文章期号:201909015
从智慧七柱,看统计学的苍宇
《旧约.箴言》写道:“智慧建造了房屋,雕琢了七根柱子。”建造智慧的房屋欢迎寻求知识的人一起庐舍谈天,阐明统计推理的核心思想及其七个原则。
01
均值
均值(聚合)【定向减少或压缩数据的价值】,最小二乘法及其衍生方法的本质都是均值,它们通过对数据进行加权汇总而抹去数据的个体特性——指定的协变量除外。把数据集中的个体值进行统计汇总,概括出的信息可以超越个体。甚至核密度估计和各类现代平化器在本质上也是均值。
例如:古老合法木棒的长度 = 16个人的脚长的算术平均值
合法木棒的长度=16个人的脚长的算术平均值
02
信息度量
信息【数据量增长,价值会减少】,更具体地说是“信息度量”,一个数据集的
信息量
仅与观测个数n的平方根成正比,而不是与n本身成正
。数据中的信息可以测量,而测量的精度与数据量有关,某些情形下可以精确刻画相关性的形式。
03
似然
似然(Likelihood)【使用概率测量我们做的事】,意味着使用了概率的推理校准。
显著性检验和普通的P值都是最简单的似然形式
。与“似然”有关的方法丰富多彩,或与费舍尔推断的参数族有关,或与贝叶斯推断的参数族有关。
04
相互比较
相互比较【使用数据的内部变化帮助分析】,统计比较常常可以采用数据自身的内部标准,而不必采用外部标准。相互比较最常见的例子是学生t检验和方差分析检验。
可能由于忽略外部科学标准而导致错误方式的滥用
。我们可以将自助法视为相互比较在假设弱化后的现代版本。
06
回归
回归(Regression)【从不同角度提问可以产生有启发性的不同答案】。这个名称源于高尔顿1885年发表的论文,这份文献基于二元正态分布解释了什么是回归。
达尔文的自然选择理论存在内部矛盾:
选择需要增加多样性,但定义物种需要群体外观稳定。
高尔顿尝试为这个理论设计一个数学框架,并成功地克服了(转化了)这组矛盾。
回归现象的简单解释:假设有两个不完全相关的观测变量,你选择了其中极值远离均值的变量,那么可以预测另一个不会那么极端。
高个子的父母平均会孕育出身高稍微矮的子女,而高个子的子女平均有身高稍矮的父母,回归种族的平均身高。
06
设计
设计(Design)【规划观测的重要作用】。类似于在于“实验设计”中的含义,但“设计”的范围更为广泛,它的目标是:
先设定观测的权重相同,再训练我们的思想。
07
残差
残差【所有这些思想如何用于科学探索和比较彼此矛盾的解释】。“
复杂的现象......可以通过减去已知原因的影响进行简化.....留下......需要解释的残差现象。
通过这样处理......科学......得到了极大的促进。
”。每个对回归系数显著性的检验都体现了这种思想,针对时间序列的每一个探索亦是如此。
统计学
自诞生以来,统计学的工作内容经历来翻天覆地的变化:从极端强调“统计学家仅收集数据而不分析”,转变为从计划到分析的所有研究阶段皆积极寻求与科学家的合作。
无论过去还是现在,以上平淡的称述都没有表现出这些思想出现是的革命性,这些思想——从放弃数据值的个体特点到降低新数据和等价值数据的权重,再到克服障碍使用概率测量博弈外部的不确定性——已经丢弃或推翻了既有的牢固数学和科学信念。
很多
关于统计学的批判:
大数据仅仅可以回答基于规模的基础的问题
显著性检验会忽略问题的科学内容
泯灭个性独特的个人,追求统计的一般普遍性
爱德华.B.威尔逊对此做了一份精彩的评论:“
就像没有接受过工具训练的人会害怕仓库中的任何一件工具一样,缺乏统计学知识的人会相信科学方法论中的统计工具都是非常危险的
”。
推荐阅读:
《哪吒之魔童降世》:异化让人成魔
秋收:回首过往,微笑前行
一个公式缓解 你99%的蕉绿
{{{title}}}
文章有问题?点此查看未经处理的缓存