查看原文
其他

姑娘,喝了这杯茶

思考问题的熊 生信技能树 2022-06-07

《女士品茶》读书笔记之一

最近整理以前看过的书,想了想先从《女士品茶》开始,正如这本书的自序所言,全书没有关于概率统计的抽象概念,但是却介绍了一些概率统计在各个领域的应用。这几篇系列文章将依托于《女士品茶》这本书,对概率统计世界的那些八卦做一些梳理,供茶余饭后一乐呵。

2900字,约8分钟,文|思考问题的熊

前奏:随机性、概率和统计

随机性,概率和统计这三个名词经常会同时出现,以至于很多人都会把它们混为一谈,其实这三个数学概念有着巨大的区别。

所谓随机性通常都是不可预测的同义词,但是在数学中随机性并非不可预测出乎意料,随机事件都拥有一个可以进行数学描述的结构。

而概率表达的是人们对于可能发生的事件的感受。概率的数学理论中具有复杂的方法用于计算事件发生的概率,并且这其中伴随着很多重要定律的产生。

统计分布概念的提出很大程度上是概率理论的功劳,但是概率理论本身又不足以描述统计方法,有时科学上的统计方法还会违反某些概率定律。

一切要从那位喝茶的姑娘开始

虽然这本书的名字叫做《女士品茶》,但是这本书和女士以及茶都没有什么关系。但是整个概率统计的历史又必须从一个喝茶的姑娘开始。

题外话,如果你就在电脑边不妨立刻打开R,然后输入 ?fisher.test() 查看 fisher.test 在R中的帮助文档,其中对该检验使用的示例就是一个女士喝茶的故事。

20实际20年代末,有一天几个剑桥的老师和他们的家人在一起喝下午茶。本来一起喝茶无非就是聊聊哪个同事又申请上基金哪个同事打算跳槽,但是有一个女士偏偏跳出来破环氛围,坚定地认为这个奶茶先放奶还是先放茶会有极大的差别。然后一个叫做罗纳德埃尔默费希尔的老哥就陷入了沉思,他在思考,心里琢磨如何才能判断这个不知道是谁家姑娘的话到底是对还是错。于是乎他们一帮人就用各种方式泡了好多杯奶茶让这位女士依次品尝。

整个实验过程在费希尔的《实验设计》这本书中有详细的论述。主要问题就在于给她多少杯茶合适,她猜对多少才算真能喝出差别,同时需要给这位女士透露多少信息等。但是书中并没有写真的存在这么一件品茶的故事。

品茶故事暂且告一段落,但是《实验设计》这本书对20世纪的前50年产生了暴风般的影响。要知道,在此之前所有的科学实验都是说不清为什么要这么做,做完实验也不会把所有结果全部公布。其中最著名的一个例子或许就是孟德尔同学的豌豆实验,那个神奇的3:1分离比。如今的您可能很难想象他的结论是这样描述的:两组实验的前10个结果可以说明……

费希尔的贡献就在于完全改变了这一局面,比如人们曾经争论了20年哪种肥料更有效,最后他的结论是那些数据和天气的关系更大而与肥料无关。意不意外,惊不惊喜。

至于那个品茶的女士,据当时在场的其他人回忆,她的所有判断全部正确。意不意外,惊不惊喜。

自己的坑自己来填

这一趴首先出场的配角是英国科学家弗朗西斯高尔顿,作为一名正牌爵士,他最大的贡献其实是发现了指纹独一无二的特性,而且还做了分类和识别的方法,类似于指纹这种不规则的凹凸也被称为“高尔顿标识”。也就是说,今天你每次在使用指纹给手机解锁的时候都应该默念一句“感谢老高”。

对于统计,他的贡献则在于:因为他非常希望把数学的严谨性带到生物学中,为此统计了大量的父子身高数据。然后发现了一个重要的现象“均值回归”。一句话解释就是“高爸爸的儿子虽然高但是比高爸爸矮,矮爸爸的儿子虽然也矮但是个子比矮爸爸高”!你可别看这句话和绕口令一样,但是均值回归延申出来的统计模型却主导了如今的经济学和工程学。

如果说均值回归的意义就是人类的身高基本稳定,不会因为“高爸爸的儿子比高爸爸高,矮爸爸儿子比矮爸爸矮”而造成人类身高的迅速两极分化,从而确保物种的平衡和相似。进而高尔顿又给出了相关系数的概念。

故事到这里,配角就该告一段落了,真正把相关系数用公式完整表达出来的则是他的学生卡尔皮尔逊。而他也是这一趴的主人公。皮尔逊的革命性思想在于阐明了实验结果并非是仔细测量的精确值,而只是一些数字的分布,进而这些分布可以写成公式来描述观测值等于给定值的概率。一句话就是在实验里,我们只谈数值的概率而不谈确定的值。

既然我们测到的不是真的,就需要来解决随机属性的问题,于是就有了所谓的钟形曲线或者正太分布。

说到正太分布,当我在读这一章节的时候,最吸引我的其实不是正文的内容,而是书中脚注对于正态分布的注解。

正态分布有时又叫高斯分布,这是因为人们曾经认为高斯是第一个写出正态分布公式的人。实际上,首个写下正态分布公式的不是卡尔·弗里德里希·高斯,而是一位更早的数学家,名叫亚伯拉罕·棣莫弗。另外。我们有理由相信。在此之前,丹尼尔·伯努利曾在无意中发现了这个公式。这些事实可以证明当代科学史学家斯蒂芬·施蒂格勒所说的误称定律,即数学上一切以入命名的概念都不是以发现者的名字命名的。

皮尔逊在正态分布的基础上提出了所谓的“偏斜分布”,同时定义了这个体系中的四个重要的参数:均值,标准差,对称度和峰度。这个事情在我们今天看来,其实就是我们所有观测的东西都需要这四个参数来描述,但是我们永远无法真的知道这四个参数,只能用已有的数据去估计。即参数估计

这一部分的结尾也是这一章节的高潮,也是我觉得最喜感的地方。

为了应用自己的研究成果,皮尔逊和他的几个老铁创办了《生物统计》杂志,本意是要用他们的数学思想证明达尔文关于进化论的观点。简单说就是算出某一个物种某种特点的全部四个参数,进而观察这四个参数的变化。然而事与愿违,虽然他们收到了世界各地超级多的数据,但最后仅仅把杂志变成了为了数据而数据的堆砌。

在这个过程中,1908年,一个作者使用“学生” 的笔名提出了一种叫做“t 检验” 的思想,也就是所谓的“student t test”。这是这位“学生”的首次登场,后面还有他的故事。

在皮尔逊为了证明达尔文进化论而努力的生涯中,他曾经在《生物统计》杂志发表了一篇文章,论述澳大利亚土著人和欧洲人身体测量结果具有相同分布,同时提出了一种叫做“拟合优度检验”的统计工具,“拟合优度检验”这个家伙可以说非常厉害,能用来判断一组观测值是否符合某个预期分布。

它厉害到什么程度呢?老皮尔逊的儿子埃贡皮尔逊后来就是用老爷子的“拟合优度检验”推翻了大部分老皮尔逊生前的工作。对于卡尔皮尔逊来说,正所谓“自己挖的坑,终究要由自己来填”。

本系列第一篇连载完……所以,泡面的时候到底是先加水还是先加料?

当然,后面还有一点彩蛋……



如果你此刻在 WIFI 环境,为你送上一个福利小视频,整个视频场景单一,人物关系简单,多手上动作。和你分享手机里日常都会使用哪些应用以及如何使用,希望好奇的你观看愉快。


https://v.qq.com/txp/iframe/player.html?vid=y06008aflkv&width=500&height=375&auto=0


如果你此刻在流量环境,或许你还想看 思考问题的熊 其它好文。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存