借茅台院士的热度,科普一位啤酒总工
1936年10月16日,这对爱尔兰吉尼斯酒业集团(Guinness)来说是一个悲伤和令人震惊的日子,就在这一天,她的全球研发总工程师(Chief Brewer)威廉戈赛特(Willia Seal Gosset)因为心脏病突发而去世了,当时离戈赛特坐上这个首席的位置,才刚刚一个月。
后面还有让吉尼斯集团吃惊的,戈赛特去世后,他的一个朋友找到吉尼斯啤酒厂的控股家族,请求他们赞助出版戈赛特科学论文集的单行本,作为对这位学术巨擘的纪念。吉尼斯家族有点糊涂,他们只知道戈赛特是个非常善于管理的企业经理人,在他的操盘下,作为爱尔兰国粹的吉尼斯啤酒无论在产量,口感和品质上都到达国际一流的水准,却不知道他还发表过什么论文;经过深入的查询,圈内和圈外的人们才意识到,原来发表在国际权威杂志《生物统计》(Biometrika)的一系列署名为“一个学生”(Student)的经典统计学文献,都是秘密地出自戈赛特之手。
下文是戈赛特最出名的文章:《论均值的可能误差》。一个非常平庸的题目,从标题党的角度看是不及格,却是科学史上被使用最广泛的工具, Student’s t 检验,任何从事科学和工程的专业人员对此都不会陌生。
1867年出生的戈塞特,在牛津毕业的时候拿到了化学和数学的双学位,然后进入总部在都柏林的吉尼斯啤酒厂,一干就是38年,直到在61岁的时候去世。
当时的企业招收名校高科技人才还是一个比较罕见的现象,在吉尼斯之前,丹麦电话公司在这个方面是一个先行者,她在几年前招了一些数学专业学生。不过,电话公司的业务和电子与计算相关,数学在那里正有用武之地。但是你一个酿造厂招搞数学的人干什么呢?当时没人能想得通。
既然我们写啤酒厂的总工,那免不了要联系现实一下,提一句当下热评的“茅台总工评院士”的新闻,中国人想不通茅台酿造和科技工程有神马联系,正如当年的英国社会搞不懂一个牛津理科高材生在啤酒发酵车间有何用武之地。
也许是和戈塞特的化学专业有关吧,人们这样想。但有意思的是,看一看戈塞特在吉尼斯38年的职场生涯,他的成就基本和化学无关。
戈塞特第一个转化为论文的酒厂课题是大麦发酵的酵母用量问题。要保持啤酒稳定的口感,必须精准控制投放酵母的量,量太少发酵不够,太多了口味就变苦了。但是难度在于酵母培养在一个巨大的母罐之中,培养基是流动变换的,而且酵母菌无时不刻处在分裂和死亡之中,极难量化。
戈塞特的数学直觉让他认识到酵母的浓度不是一个固定值,而应该使用一个数学上的概率分布来描述和预测,经过大量的观测和尝试,他发现单位体积内的酵母量服从泊松分布。
也许有的工程控制论史家觉得这个成就的原创性不够,因为泊松分布早在100多年前就由法国数学家泊松定义和描述过了,后来曾经有人使用这个概率研究过普鲁士军队中被马踢死的士兵数目,但这都是纯粹毫无实际社会意义的学术探索,而戈塞特第一个把概率分布的概念进入工业化生产过程,有了它,发酵用酵母投放量就有了更好的控制,吉尼斯的消费者就绝少抱怨咦你这个啤酒怎么今天比昨天的味道苦了,提高了产品的品牌口碑和销售额,这是真金白银的社会价值。
作为现代统计学开山鼻祖之一的戈塞特,他的另一个特殊作用是他在统计史上承前启后的作用。
十几年前我还在学校的时候,有一次去我的导师的办公去找她。导师的办公室在走廊尽头的倒数第二间,她隔壁的房间有一个回廊凹入的结构,仿佛是刻意地从嘈杂的楼中开辟出一块僻静之所,但是这间占据风水宝地的办公室却是常年锁着门,我从未见过它的主人。
那一次我看到一位老先生步履缓慢地从我导师的门口走过,也许是年纪大了,他的目光有点迟滞,肤色黝黑,光秃的脑门发亮,稀疏的白发平整地分向两边。我看到他打开走廊尽头的那间办公室走了进去。我的导师带有几分庄严肃穆的表情对我说:这位老先生是R.A. Fisher最后的一个学生。
现代概率统计学公认的创始人是费舍尔(R.A.Fisher),他创立了以方差分析(ANOVA)为基础的科学实验设计技术;史上第一个真正的数理统计学家是卡尔皮尔森(Karl Pearson)。皮尔森的名字被用来命名线行回归(Pearson Correlation),这大概是知名度仅次于t检验的统计学概念了。皮尔森比戈塞特年长20岁,是他的老师;戈塞特又比费舍尔大15岁,在学术上是他的长辈。戈塞特在两位统计巨擘之间起到了一个牵线搭桥的作用。
皮尔森长期栖身学术界,他的兴趣在于理论的完备性。比如,为了达到概率统计分布完善性,他可以派几个人不厌其烦地测量成千上万随机人群的身高骨骼等各项参数,用大样本逼近正态分布的终极形式;费舍尔壮年时期建功立业的地方是英国乡下一个农业观测站,作为那个地方唯一的统计师,他从事的也基本是自己随心所欲的研究项目。
而戈塞特的治学方法和这两位天马行空的风格大有不同,他在大公司拿薪水,从事的研究就有诸多的实际限制,不能想怎么来就怎么来。
啤酒的四大原料是水、大麦、酵母、啤酒花。过去评定啤酒花(hops)品质的主要方法是酿酒师对其色泽和气味的主观判断,后来吉尼斯引入定量化学手段。戈塞特的任务是,通过监控啤酒花里软脂酸(soft resin)的含量来对其品质进行标准化。
皮尔森可以动辄测量成千上万人的身高体重和头围的周长,来研究正态分布曲线的规律,戈塞特却不可能打开所有吉尼斯装啤酒花的罐子取样,他每次最多只能取十几个样本。那么问题就来了,假如两组啤酒花的软脂酸含量的差值为0.1,这是说明啤酒花的质量不稳定呢,还是偶然的误差所致?
作为概率分布理论的奠基人,皮尔森指出需要四个统计量来准确描述一个统计分布,均值(Mean),方差(variance),偏度(skewness)和峰度(Kurtosis)。而戈塞特通过大量吉尼斯酒厂的小样本试验发现,均值和标准差的比例本身就是一个崭新的统计量,他把它叫做t分布,其形状由样本量所决定。
如果说在测定酵母量的时候,戈塞特还仅仅是延用了已知的泊松分布;那么在监控啤酒花质量的工作中,他揭示了一个全新的统计分布。而在所有具有实际意义的科学实验中,样本数之有限是一个永恒的现实问题,戈塞特的工作没有点石成金的奇效,他不能让10个样本的统计效验力比肩N = 100,但是却建立了用概率来量化小样本实验不确定性的框架。直到今天,几乎所有定量学科都依然在使用t检验,报道p值和置信区间,这都要归功于一位酒厂工程师在发酵车间的劳动。
这是辉瑞RNA疫苗报道的1- p值和95%的可信区间,虽然采用的是贝叶斯的表述,但是核心思想的传承最早依然可以追溯到戈塞特的啤酒实验。
也许是由于全职在工厂工作的原因,戈塞特没有给出t分布的数学表达,这个工作是费舍尔后来完成的。作为实践大师的戈塞特采用了大量实验的方法算出了不同自由度下的t分布关键值的图表,并用这些经验值指导吉尼斯酒厂的生产。
吉尼斯给戈塞特的纪念徽章
几乎所有的天才有其极端和桀骜不驯的一面,这在戈塞特的老师皮尔森和晚辈费舍尔身上体现得尤其明显。费舍尔是极右,他认为人类文明的最大危害是穷人和“笨人”生孩子太多导致恶性基因流行,所以高分贝地反对当时英国的福利制度,他后来成为伦敦大学“优生”系的系主任,他的理念和纳粹德国的种族优越论不谋而和,所以在二战期间被认为是纳粹嫌疑分子,被禁止参与任何战争相关的政府项目。英国的战争动员就失去了这样一个最强大脑。
而皮尔森是社会主义者,他蔑视贵族,同情下层人民,在读了马克思的著作之后,佩服得五体投地,为了表达崇拜,特别把他的原名(Carl Pearson)改成了卡尔马克思的卡尔(Karl)。
可想而知,这两个人是很难搞好关系的,虽然有戈塞特的从中牵线搭桥,皮尔森和费舍尔是终身的宿敌。在戈塞特的介绍下,皮尔森本有意聘用费舍尔当他的副手,但是费舍尔拒绝了,反而花了一辈子时间找出皮尔森文章中的各种理论瑕疵然后满世界去说;而作为学霸的皮尔森把持了当年统计学权威期刊Biometrika, 禁止发表费舍尔的任何东西,他唯二的两篇文章都是戈塞特介绍发表的。后来费舍尔不得不找一些不知名的学术期刊发表自己的成果,还得是自费。
但戈塞特是天才中的异数,也许是他在大企业中从基层一直干到总工的缘故,他善长和各类人士培养良好的个人关系,整合集体的力量实现企业的目标,没有人知道他的意识形态,但他和势不两立的皮尔森和费舍尔保持了终生的友谊。同时他也是一个谦虚低调的人,当费舍尔把大量的数学证明寄给他,他会老老实实给皮尔森写信说这些高维几何问题我看不懂,请你定夺。当有人恭维他在t检验上的杰出贡献,他谦虚地回答“即使没有我,费舍尔早晚也会做出来”。
戈塞特一生在吉尼斯酒厂任职,收入丰厚衣食无忧,同时在学术上做出杰出贡献,应该是人生无憾了。但如果一定要找出美中不足的话,还真有一个,那就是他不是院士。
他的两位忘年交皮尔森和费舍尔,都是英国皇家学会会员,但他不是。
在目前的“茅台院士”的争议中,有人质疑茅台总工的学术贡献不够,于是有人检索了一下发现王工发表了40-60篇酿酒类文章。而当年吉尼斯的制度是,任何研发人员的工作都是为了雇主的盈利而服务的,发表文章可能会造成商业机密的外泄,因而不许发表。
但是戈塞特的老朋友皮尔森在Biometrika有一言九鼎的地位,所以他利用职务之便,允许戈塞特使用Student的化名发表,而且不提及吉尼斯酒厂的大名。所以,在很长一个历史阶段,尽管t检验被世界公认,戈塞特却是一个陌生的名号。
如果不是吉尼斯这个规定,戈塞特肯定能评上院士,我们今天使用的将会是戈塞特检验,而非Student’s t test。
(如果喜欢本文,请点击最下方六角形的“在看” Wow)
(图片来自网络)
参考资料:
https://theconversation.com/the-genius-at-guinness-and-his-statistical-legacy-93134
The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century by David Salsburg
FDA新冠疫苗专家评审会,他们纠结的是什么?