小寒:数说23,图画24。
今天小寒,继续分享:
一、背景介绍:
1、自然常数:
当x=1,本息共计=2,
当x=2,本息共计=2.25,
当x=4,本息共计≈2.4414……
付息频率越大本息越高,x趋近无穷大时,本息的增长极限为e=2.7182818284......
自然常数e还有什么用?在《数学模型话安全》、《化工大楼装修和搬迁中的责任体系、任务分工、项目推进和统筹方法研究》,我均已用到了e:前者是能垒模型,后者是欧拉公式。数理化生处处都有e的身影,跟e相关的等角螺线在大自然中更是比比皆是:星系、气旋、海螺壳图形、DNA双螺旋结构等等。
在中学阶段,我们学习了统计学正态分布:
图1:正态分布图(来自知乎)。
在大学阶段,学了统计热力学玻尔兹曼分布:
其中β=1/kT,系统温度有限,粒子数守恒N=∑Ni,能量守恒E=∑Ei=∑piεi。玻尔兹曼分布的分子Ni=e^(-βεi),即能级εi上有Ni个粒子,分母被称为配分函数N=∑e^(-βεi),即总微观状态数。分子和分母都是含有e的指数函数,实质是能量和粒子数按指数分布。配分函数在热力学中特别重要,可以说一切热力学量的计算归结于配分函数的计算,下文会多次涉及。由玻尔兹曼能量分布推导的麦克斯韦-玻尔兹曼速率分布,是正态分布在热力学的具体体现:
玻尔兹曼也得到熵的统计学定义:1854年克劳修斯首先引进了熵的概念,给出熵的宏观定义ΔS=Q/T。1877年,玻尔兹曼给出熵的微观定义,用S∝lnΩ表示衡量系统无序性大小,其中Ω是微观状态数。1900年,普朗克引进了玻尔兹曼常量k,得出玻尔兹曼公式S=klnN。这个自然对数公式里同样包含着e,这个e来自配分函数。并且克劳修斯熵与玻尔兹曼熵本质相通,可以用配分函数推导出来。一百年来熵增定律(热力学第二定律)逐步从统计热力学延伸到信息学、哲学、天文学、社会学等各个学科,但回归熵的定义,最经典的莫过于玻尔兹曼熵,即系统熵正比于微观状态数的对数。
——————————————————————————————————————————
3、睡眠与熵:
睡眠与统计学熵听起来很遥远,但当我获得了近六年的睡眠数据(包含每日起床、午休和晚睡时间),又迫切呼唤以上知识工具了,再次感慨“不是学了没有用,而是没有设法去用”!!
睡觉是人类维持作息平衡的重要途径,是最自然的生命活动之一。一个人每一天大约有30~40%的时间花在睡觉上,睡眠质量直接关系生活质量和工作效率。为此,我从2018年开始统计个人睡眠情况。学习竺可桢《中国近五千年来气候变迁的初步研究》,我尝试对过去五年睡眠状况进行统计分析,以践行学以致用理念。
数学角度怎么衡量睡眠?睡眠作为自然的生命活动,能否从中引入e?我发现了正态分布和熵的定义,因为两者都有e。玻尔兹曼熵的定义S=klnN,可还原为对数形式N∝e^S,N定义为睡眠微观状态数,S定义为睡眠熵,即离散程度;正态分布也可简化f∝e^-s,或s∝-lnf,f代表频数,s代表睡眠偏差:
数学上正态分布f=f(x)为概率密度函数,对它积分得到概率函数,正态分布的总积分面积为1,即概率100%(如图1)。统计热力学玻尔兹曼分布中微观状态数归一化后也是概率,即每个微观状态数的概率1/N。f对s的积分面积S=f0-f对应正态分布图的面积(复合函数的积分,f对s的总积分面积为S=f0=
4、定量计算:
状态函数指表征体系特性的宏观性质,变化值只取决于系统的始态和终态,与中间变化过程无关,可以定量计算变化量或基准值,比如温度和熵。统计上通常用方差或标准差表示一组数据的离散程度,几组数据的离散程度可以用方差或标准差进行比较,但方差或标准差不是状态函数,不能计算变化量或基准值。为了定量研究五年的睡眠变化,本文在方差或标准差基础上,引入睡眠熵。先从基本粒子角度阐述睡眠熵——
玻尔兹曼熵具有量子性:基本粒子有物理极限,即不连续性,还有运动不确定性。本文睡眠熵也具有量子性,最基本“粒子”是一天睡眠情况,包括早起、晚睡和午休等。玻尔兹曼熵基本粒子具有空间性,睡眠熵基本“粒子”具有时间性。每个基本“粒子”都在时间里做无规则运动,微观状态呈现不确定性:比如六点起床或十点起床。热力学第三定律(绝对零度)统计学意义:在绝对零度时,基本粒子停止运动,固体或液体微观状态数N为1,则熵S=klnN=0。同理当绝对自律时,比如每天早上六点整准时起床、晚上十点整准时睡觉,睡眠基本“粒子”停止变化,睡眠的微观状态数N为1,睡眠熵S=klnN=0。但正如绝对零度永远不能达到,绝对自律同样不能达到(即便人能做到按时作息,也有入睡快慢和起床快慢的误差)。所以睡眠熵总是大于零。再做个思想实验:在一个封闭无外力做功的系统里,类比两组玻尔兹曼熵的基本粒子混合,对两组睡眠熵的基本“粒子”混合,都符合熵增定律,这也是本文理论预测的结论。
如何计算睡眠熵?根据玻尔兹曼公式S=klnN,可知睡眠熵是状态函数,基准值只与睡眠微观状态数N有关。但实际应用中,睡眠微观状态数跟观察者的观察精细度有关,如果观察精细度达到物理极限,可以采用玻尔兹曼公式计算出睡眠熵的基准值,但理论上不可行。故本文采用本质一致且应用更广泛的信息熵公式(信息学偏爱二进制,采用对数底数2。我偏爱e,选择保留玻尔兹曼公式的自然对数ln,两个定义只是相差一个常数ln2):
其中某偏差区间si的概率pi=Ni/N,∑pi=1,pi可以通过正态分布面积计算。例如:
当pi=1,即N=Ni,
S=-k∑pilnpi=0;
当p1=p2=0.5,N=N1+N2,
S=-k∑pilnpi=kln2;
当p1=p2=p3=p4=0.25,N=N1+N2+N3+N4,
S=-k∑pilnpi=2kln2……
有趣的是:这种拆分概率计算的方法,是不是与前面谈到拆分利率相似,且随着概率拆分得越精细,是不是存在一个类似本息极限e的上限?事实S确实存在一个上限:在统计热力学中,在粒子数守恒N=∑Ni,能量守恒E=∑piεi系统中,当Ni=e^(-βεi)或pi∝e^(-βεi),即玻尔兹曼分布时,S最大。在统计学中,∑pi=1,μ=∑xipi,2∑pisi=1条件下,当pi∝e^(-si),即正态分布时,S最大。通俗理解:正态分布和玻尔兹曼分布是出现概率最大的分布(又叫最概然分布),即微观状态数最多,熵最大。
综上,抽象的睡眠熵S,是不是可以定量计算了?看看五年统计分析的过程和结果。
二、数据处理:
苏霍姆林斯基认为能力是获得知识的工具,故本文还要重点介绍数据处理方法。
1、平均值计算公式:
或标准差:
可利用excel计算方差:VARP是总体方差,分母为n,VAR是样本方差,分母为n-1。样本方差和总体方差有什么区别?想到大一时龙老师在分析化学课上曾讲过标准偏差分母n-1且n>5,以控制误差范围。此处类似:因总体数据和平均值难以获得,故常以样品方差近似代表总体方差。对于样本方差,采用n-1作为分母,使得样本方差的期望值近似等于总体方差。如果采用n作为分母,每个样本点与样本均值之间的距离,包含了样本均值与真实均值的距离,计算结果偏小,即:
当样本容量足够大时,分母为n-1或n几乎不影响方差结果,本文的样品容量足够大,可不计较分母取值。
本文中平均值μ、标准差σ属于年整体分析,方差在一定程度上反映睡眠熵。
3、正态分布:
若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为:
获得五年睡眠数据的平均值μ方差σ后,可直接利用desmos作图。也可利用origin画正态分布直方图。
4、需要说明:
数据处理过程中,我通过excel公式批量处理2018-2023年的平均值μ、标准差σ。其中2018年数据缺失,样本容量小对方差影响很大,故舍弃2018年方差统计,重点对比2019-2023这五年睡眠数据的平均值和方差。
由于数据量庞大,往年睡眠统计采用分组(周)整化处理方法,数据以周为单位,即以一周七日睡眠数据的算术平均值代替每日实测值,再以各周平均值进行统计分析。这样处理的好处:简化了数据运算且不影响年平均值计算,并减小了睡眠数据的不确定性,突出周平均值稳定性的现实指导意义。不足是产生一定的误差,特别是方差计算。本文在此基础上,五年睡眠数据还进行了月整化处理方法。整化处理误差计算可参考周生祥《数据分组整化求平均值的误差分析》等论文,本文略。
三、结果分析:
1、五年睡眠统计:睡眠时间含昼夜两部分
2023年平均早起时间6:35;平均晚睡时间23:06;平均睡眠时间8.50h;
2022年平均早起时间6:13;平均晚睡时间23:12;平均睡眠时间8.69h;
2021年平均早起时间6:21;平均晚睡时间23:01;平均睡眠时间7.84h;
2020年平均早起时间5:42;平均晚睡时间23:02;平均睡眠时间7.03h;
2019年平均早起时间5:24;平均晚睡时间22:56;平均睡眠时间6.40h;
2018年平均早起时间4:56;平均晚睡时间22:34;平均睡眠时间6.51h。
2、历年平均值、标准差曲线、玫瑰图及正态分布:数据如下,记作年份(μ,σ)
2019-2023年晚睡时间2019(22.93,0.430)、2020(23.03,0.304)、2021(23.02,0.306)、2022(23.20,0.454)、2023(23.11,0.481)。
2019-2023年睡眠时间2019(6.40,0.504)、2020(7.03,0.453)、2021(7.84,0.426)、2022(8.69,0.661)、2023(8.50,0.776)。
3、睡眠熵曲线:
图7:2019-2023年来睡眠熵变化曲线,与标准差相对应,近三年趋势上升。
4、数据分析:
年平均值又升了,方差普遍更大了!
四、总结展望:
1、总结:睡眠总体状况逐年懒散、熵增。前几年的年平均睡眠统计结果,我已初步发现了自己逐年变“懒”的迹象,五年来睡眠方差统计进一步发现自己逐年变“散”的迹象,究其原因,是自然熵增过程。
2、展望:加强自律,多做减法。以上统计学工具都很经典,我没有新的创新,只是将其引入到熟悉的睡眠领域。首先是促进知识的流动,即学以致用;其次,通过统计的过程和结果,建立睡眠反馈机制,更好指导改善睡眠状况的实践,比如加强自律,多做减法,远离电子产品等。
3、收获:有机质和无机质的连接是植物的光合作用,苹果和月亮的连接是牛顿的万有引力,现象与本质的连接是数学的想象力,睡眠和熵的连接是大自然的常数e。
4、说明:本文主体内容是2023.12.20写的,统计图是2023.12.29画的。原因一是统计内容完整性需要,二是先理论推导后应用并检验。
正是:
熵简单又不简单,最后,我从四个方面再简单谈谈不简单的熵——
1、我的作息:
有时会有人问我,我的自律习惯是不是来自部队?我通常回答:不是。一是实事求是,我的早起习惯自幼养成;二是我的军旅期间睡眠是极其混乱的,撇开站岗不提,还要经常通宵出黑板报。但客观来讲,部队的严格纪律让大家保持了低熵状态:正常情况下,几乎到点起床、到点睡觉。但需要注意:这种自律是一个开放系统,有外力做功的,比如不起床、不睡觉会有惩罚的压力。所以很多战士退伍后,缺乏纪律约束,熵会很快反弹。后来我读研时,看到睡眠熵增现象,意识到这个问题的根源在于缺少信息熵输入,于是我开始了长达六年的睡眠统计,通过自我反馈来维持低熵状态。但即便如此,熵还是逐年惊人增长。
2、熵的历史:
熵增定律被冠为科普重灾区,因为始终存在历史渊源和学术争议,比如熵的正式定义就有许多种,绝对零度熵值到底为不为零?像我这样的不良学者还一直在往里添乱,本文再次申明上面谈了的睡眠熵是玻尔兹曼熵的应用,也是信息熵的一种。熵概念泛滥也是熵增的表现,因为信息总是朝着未知和无序的方向发展,唯有用实践检验、数学工具和历史唯物才能抵制熵概念的熵增现象!
回顾历史源头,克劳修斯熵极为重要:克劳修斯熵首次给出熵的定义dS=dQ/dT。热温比也是“熵”中文字义来源:胡刚复教授(1936年后被竺可桢聘为浙大教授,随即跟随浙大西迁之路)于1923年5月23日为普朗克( Planck)来南京东南大学作《热力学第二定律及熵(Entropie)之观念》讲学的翻译时,第一次将Entropie译为‘熵’,读音也读作“商”,表示S的量纲为热量与温度的之商,并且还与火有关,就加上了火字旁。在蒸汽时代,熵回答了热能多大程度转化为有价值功的问题,熵是能量的品质,打破了第二类永动机的幻想——热不能全部转化为功。理想的卡诺热机热功效率:η= 1 - (T1/T2) ;现在路上跑的油车的热功效率:柴油机35-45%、汽油机25-35%;电车(电动机)的热功效率在85%左右。从热功效率看,电动车要经济多;从熵值来看,电车的熵值低、价值高。
3、熵的辩证:
熵增定律的泛滥,让熵背负了许多悲观消极的骂名,我再从辩证唯物角度为熵正名。首先,作为一个状态函数和一个名词,熵不但是无辜的,而且是有价值的,它让我们看到了浑沌世界中有价值的东西:在原始社会,让天然火为我们做功;在蒸汽时代,让热为我们做功;在信息时代,让信息/知识为我们做功;在上文中,让睡眠统计数据为我和大家做功。其次熵增也是无辜的,它是大自然的普遍规律,宣布了第二类永动机的破产,告诫人们不要妄想一劳永逸,只有勤劳能创造财富,只有自律才能到达自由。
之所以人们畏惧熵增,因为熵增意味着无序、未知、分散、不确定等,但一分为二看:熵增是把双刃剑——无序与有序相对,分散和集中统一,自由同自律并存;信息熵增加表明,信息(知识)越多越未知,但子曰知道的未知也是知识;吉布斯自由能公式ΔG=ΔH-TΔS表明低熵是不稳定的:分散后ΔS>0、自发反应ΔG<0且绝对值增加,能量降低更稳定,所以冬天睡觉蜷缩一团熵增大,和露珠一样自然。极寒ΔS小,低熵电车也罢工。
4、宝贵的熵:
品质越好越稀缺,越稀缺的越宝贵,因为熵增也让我们看到熵的宝贵:“一年之计在于春,一日之计在于晨”,把最宝贵的时间用来做最重要的事情,比如春季和早晨的熵最低;社会主义的优越性,在于集中力量办大事,因为越集中熵越低;项目管理中,资源(也包含人力)、精力、目标、时间等集中有序则高效,因为熵值低;“少就是多”,话越少错也越少,影响效果也越好,因为熵低。所以就说得这里。
参考资料
1、知乎:自然常数e是怎么来的?
一候雁北乡
二候鹊始巢
三候雉始鸲(qú)