查看原文
其他

小寒:数说23,图画24。

小樟 小樟的成长日记
2024-09-04
2024年1.06小寒:数说23,图画24。
2023年进一步补充了
个人睡眠统计数据库,

今天小寒,继续分享:

过去五年来睡眠变化的初步研究
2023.12.20文
2023.12.29图
6828字)

一、背景介绍

1自然常数

先从自然常数e谈起,为什么叫自然常数,它从哪里来?自然常数字母e是数学家欧拉引入,也被称为欧拉数。定义:
e用在金融领域:单位本金在单位时间里投资,利率为100%,若单位时间里分成x次投资,则拆分利率单次为1/xx次本息共计

x=1,本息共计=2

x=2,本息共计=2.25

x=4,本息共计2.4414……

付息频率越大本息越高,x趋近无穷大时,本息的增长极限e=2.7182818284......

自然常数e还有什么用?《数学模型话安全》《化工大楼装修和搬迁中的责任体系、任务分工、项目推进和统筹方法研究,我均已用到了e:前者是能垒模型,后者是欧拉公式。数理化生处处都有e的身影,跟e相关的等角螺线在大自然中更是比比皆是:星系、气旋、海螺壳图形、DNA双螺旋结构等等。

等角螺线

2、统计分布
再说跟e相关的的两个重要的统计分布:

在中学阶段,我们学习了统计学正态分布

1:正态分布图(来自知乎)。

在大学阶段,学了统计热力学玻尔兹曼分布

其中β=1/kT,系统温度有限,粒子数守恒N=Ni,能量守恒E=Ei=piεi。玻尔兹曼分布的分子Ni=e^(-βεi),即能级εi上有Ni个粒子,分母被称为配分函数N=e^(-βεi),即微观状态数。分子和分母都是含有e的指数函数,实质是能量和粒子数按指数分布。配分函数在热力学中特别重要,可以说一切热力学量的计算归结于配分函数的计算,下文会多次涉及。由玻尔兹曼能量分布推导的麦克斯韦-玻尔兹曼速率分布,是正态分布在热力学的具体体现:

玻尔兹曼也得到的统计学定义:1854克劳修斯首先引进了的概念,给出熵的宏观定义ΔS=Q/T1877年,玻尔兹曼给出熵的微观定义,用S∝lnΩ表示衡量系统无序性大小,其中Ω微观状态数1900年,普朗克引进了玻尔兹曼常量k,得出玻尔兹曼公式S=klnN。这个自然对数公式里同样包含着e,这个e来自配分函数。并且克劳修斯熵玻尔兹曼熵本质相通,可以用配分函数推导出来。一百年来熵增定律(热力学第二定律)逐步从统计热力学延伸到信息学、哲学、天文学、社会学等各个学科,但回归熵的定义,最经典的莫过于玻尔兹曼熵,即系统熵正比于微观状态数的对数

——————————————————————————————————————————

3、睡眠与熵

睡眠与统计学听起来很遥远,但当我获得了近六年的睡眠数据(包含每日起床、午休和晚睡时间),又迫切呼唤以上知识工具了,再次感慨“不是学了没有用,而是没有设法去用”!!

睡觉是人类维持作息平衡的重要途径,是最自然的生命活动之一。一个人每一天大约有30~40%的时间花在睡觉上,睡眠质量直接关系生活质量和工作效率。为此,我从2018年开始统计个人睡眠情况。学习竺可桢《中国近五千年来气候变迁的初步研究》,我尝试对过去五年睡眠状况进行统计分析,以践行学以致用理念。

数学角度怎么衡量睡眠?睡眠作为自然的生命活动,能否从中引入e?我发现了正态分布熵的定义,因为两者都有e。玻尔兹曼熵的定义S=klnN,可还原为对数形式N∝e^SN定义为睡眠微观状态数S定义为睡眠熵,即离散程度;正态分布也可简化f∝e^-s,或s-lnff代表频数s代表睡眠偏差:

图2:睡眠偏差s与频数f关系图。特定正态分布内的平均值μ、标准差σ不变

数学上正态分布f=f(x)概率密度函数,对它积分得到概率函数,正态分布的总积分面积为1,即概率100%(如图1)。统计热力学玻尔兹曼分布中微观状态数归一化后也是概率,即每个微观状态数的概率1/N。fs的积分面积S=f0-f对应正态分布图的面积(复合函数的积分,fs的总积分面积为S=f0=),这与玻尔兹曼分布微观状态数本质相同,都有概率的意义。睡眠偏差s可以反映睡眠离散程度,偏差为零说明睡眠稳定,偏差越大,睡眠状况越离散。某一睡眠偏差区间si正态分布面积Si等于该偏差区间睡眠微观状况的概率pi,有pi=Sie^-si睡眠偏差区间si类似能级εi,概率pie^-si也是含e的指数函数,实质也是频数和概率按照指数分布,这一点与配分函数N=e^(-βεi)高度吻合。

4定量计算

状态函数指表征体系特性的宏观性质,变化值只取决于系统的始态和终态,与中间变化过程无关,可以定量计算变化量基准值,比如温度和熵。统计上通常用方差标准差表示一组数据的离散程度,几组数据的离散程度可以用方差标准差进行比较,但方差标准差不是状态函数,不能计算变化量基准值。为了定量研究五年的睡眠变化,本文在方差标准差基础上,引入睡眠熵。先从基本粒子角度阐述睡眠熵——

玻尔兹曼熵具有量子性基本粒子有物理极限,即不连续性,还有运动不确定性。本文睡眠熵也具有量子性,最基本“粒子”是一天睡眠情况,包括早起、晚睡和午休等。玻尔兹曼熵基本粒子具有空间性,睡眠熵基本“粒子”具有时间性。每个基本“粒子”都在时间里做无规则运动,微观状态呈现不确定性:比如六点起床或十点起床。热力学第三定律(绝对零度)统计学意义:在绝对零度时,基本粒子停止运动,固体或液体微观状态数N1,则熵S=klnN=0。同理当绝对自律时,比如每天早上六点整准时起床、晚上十点整准时睡觉,睡眠基本“粒子”停止变化,睡眠的微观状态数N为1,睡眠熵S=klnN=0。但正如绝对零度永远不能达到绝对自律同样不能达到(即便人能做到按时作息,也有入睡快慢和起床快慢的误差)。所以睡眠熵总是大于零。再做个思想实验:在一个封闭无外力做功的系统里,类比两组玻尔兹曼熵的基本粒子混合,对两组睡眠熵基本“粒子”混合,都符合熵增定律,这也是本文理论预测的结论

如何计算睡眠熵?根据玻尔兹曼公式S=klnN可知睡眠熵状态函数基准值只与睡眠微观状态数N有关。但实际应用中,睡眠微观状态数跟观察者的观察精细度有关,如果观察精细度达到物理极限,可以采用玻尔兹曼公式计算出睡眠熵的基准值,但理论上不可行。故本文采用本质一致且应用更广泛的信息熵公式(信息学偏爱二进制,采用对数底数2。我偏爱e,选择保留玻尔兹曼公式的自然对数ln,两个定义只是相差一个常数ln2):

S=-kpilnpi

其中某偏差区间si的概率pi=Ni/N,∑pi=1pi可以通过正态分布面积计算。例如:

pi=1,即N=Ni

S=-kpilnpi=0

p1=p2=0.5,N=N1+N2

S=-kpilnpi=kln2

p1=p2=p3=p4=0.25,N=N1+N2+N3+N4

S=-kpilnpi=2kln2……

有趣的是:这种拆分概率计算的方法,是不是与前面谈到拆分利率相似,且随着概率拆分得越精细,是不是存在一个类似本息极限e上限?事实S确实存在一个上限:在统计热力学中,在粒子数守恒N=Ni,能量守恒E=piεi系统中,当Ni=e^(-βεi)或pi∝e^(-βεi),玻尔兹曼分布时S最大。在统计学中,∑pi=1μ=xipi,2pisi=1条件下,当pi∝e^(-si),即正态分布时S最大。通俗理解:正态分布玻尔兹曼分布是出现概率最大的分布(又叫最概然分布),即微观状态数最多,熵最大。

综上,抽象的睡眠熵S,是不是可以定量计算了?看看五年统计分析的过程和结果。

二、数据处理

苏霍姆林斯基认为能力是获得知识的工具,故本文还要重点介绍数据处理方法。

1、平均值计算公式:

获得各年/月/周平均值,可利用excel或origin画出折线图兰丁格尔玫瑰图。兰丁格尔玫瑰图也能看出各阶段睡眠集中或离散程度。
2、方差计算公式:

或标准差:


可利用excel计算方差VARP是总体方差,分母为n,VAR是样本方差,分母为n-1。样本方差和总体方差有什么区别?想到大一时龙老师在分析化学课上曾讲过标准偏差分母n-1n>5,以控制误差范围。此处类似:因总体数据和平均值难以获得,故常以样品方差近似代表总体方差。对于样本方差,采用n-1作为分母,使得样本方差的期望值近似等于总体方差。如果采用n作为分母,每个样本点与样本均值之间的距离,包含了样本均值与真实均值的距离,计算结果偏小,即:

样本容量足够大时,分母为n-1或n几乎不影响方差结果,本文的样品容量足够大,可不计较分母取值。

本文中平均值μ、标准差σ属于年整体分析方差在一定程度上反映睡眠熵。

3、正态分布:

若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为:(μ,σ)期望值μ决定了位置,标准差σ决定了分布的幅度。

获得五年睡眠数据的平均值μ方差σ后,可直接利用desmos作图。也可利用origin画正态分布直方图。

4、需要说明:

数据处理过程中,我通过excel公式批量处理2018-2023年的平均值μ、标准差σ。其中2018年数据缺失,样本容量小对方差影响很大,故舍弃2018年方差统计,重点对比2019-2023这五年睡眠数据的平均值和方差。

由于数据量庞大,往年睡眠统计采用分组(周)整化处理方法,数据以周为单位,即以一周七日睡眠数据的算术平均值代替每日实测值,再以各周平均值进行统计分析。这样处理的好处:简化了数据运算且不影响年平均值计算,并减小了睡眠数据的不确定性,突出周平均值稳定性的现实指导意义。不足是产生一定的误差,特别是方差计算。本文在此基础上,五年睡眠数据还进行了月整化处理方法。整化处理误差计算可参考周生祥《数据分组整化求平均值的误差分析》等论文,本文略。

三、结果分析:

1、五年睡眠统计:睡眠时间含昼夜两部分

2023年平均早起时间6:35;平均晚睡时间23:06;平均睡眠时间8.50h;

2022年平均早起时间6:13;平均晚睡时间23:12;平均睡眠时间8.69h;

2021年平均早起时间6:21;平均晚睡时间23:01;平均睡眠时间7.84h;

2020年平均早起时间5:42;平均晚睡时间23:02;平均睡眠时间7.03h;

2019年平均早起时间5:24;平均晚睡时间22:56;平均睡眠时间6.40h

2018年平均早起时间4:56;平均晚睡时间22:34;平均睡眠时间6.51h

图3:五年来早起、晚睡和睡眠时间曲线及玫瑰图(注:绿总高度为早起时间)

2、历年平均值、标准差曲线、玫瑰图及正态分布:数据如下,记作年份(μ,σ)

2019-2023年早起时间2019(5.40,0.292)、2020(5.70,0.517)、2021(6.35,0.223)、2022(6.22,0.460)、2023(6.58,0.468)

2019-2023年晚睡时间2019(22.93,0.430)、2020(23.03,0.304)、2021(23.02,0.306)、2022(23.20,0.454)、2023(23.11,0.481)

2019-2023年睡眠时间2019(6.40,0.504)、2020(7.03,0.453)、2021(7.84,0.426)、2022(8.69,0.661)、2023(8.50,0.776)。

4:2019-2023年早起时间年平均值、标准差曲线、玫瑰图及正态分布。

图5:2019-2023年晚睡时间年平均值、标准差曲线、玫瑰图及正态分布。
图6:2019-2023年睡眠时间年平均值、标准差曲线、玫瑰图及正态分布

3睡眠熵曲线:

如何计算熵值呢?熵值计算与分辨能力有关,为简化计算,假如我的观察记录的分辨能力是平均值前后半小时(实际是一分钟)。根据以上正态分布数据求以下概率:p1代表平均值前半小时以内概率,p2代表平均值前半小时以外概率,p3代表平均值后半小时以内概率,p4代表平均值后半小时以外概率。由S=-kpilnpi得:

图7:2019-2023年来睡眠熵变化曲线,与标准差相对应,近三年趋势上升

4数据分析:

年平均值又升了,方差普遍更大了!

为什么会变懒散?符合熵增定律。
另外,兰丁格尔玫瑰图有趣的现象:年初白昼短日出晚气温低任务重,看起来早起困难种种,反而起床时间早且集中。因为外界困难激发内在斗志,加强自律,局部方差降低,睡眠变得更有序(此外,创作效率、运动和洗澡频率等在一定程度提升了)。看似S减了?但通过数据统计和反馈产生了信息熵,自律实践也对系统做了功,外界输入的物质、能量和信息,比如气温、气压、湿度、生活动力和工作压力等对睡眠造成影响,打破了内在的封闭系统,故不违背热力学第二定律。

总结展望:

1、总结:睡眠总体状况逐年懒散、熵。前几年的年平均睡眠统计结果,我已初步发现了自己逐年变“懒”的迹象,五年来睡眠方差统计进一步发现自己逐年变“散”的迹象,究其原因,是自然熵增过程。

2、展望:加强自律,多做法。以上统计学工具都很经典,我没有新的创新,只是将其引入到熟悉的睡眠领域。首先是促进知识的流动,即学以致用;其次,通过统计的过程和结果,建立睡眠反馈机制,更好指导改善睡眠状况的实践,比如加强自律,多做减法,远离电子产品等。

3、收获:有机质和无机质的连接是植物的光合作用,苹果和月亮的连接是牛顿的万有引力,现象与本质的连接是数学的想象力,睡眠和熵的连接是大自然的常数e

4、说明:本文主体内容是2023.12.20写的,统计图是2023.12.29画的。原因一是统计内容完整性需要,二是先理论推导后应用并检验

正是:

封闭不做功,无序熵值蹭。
覆水应难收,化雨乘秋风。
后记:化腐朽为神奇——熵

熵简单又不简单,最后,我从四个方面再简单谈谈不简单的熵——

1我的作息

有时会有人问我,我的自律习惯是不是来自部队?我通常回答:不是。一是实事求是,我的早起习惯自幼养成;二是我的军旅期间睡眠是极其混乱的,撇开站岗不提,还要经常通宵出黑板报。但客观来讲,部队的严格纪律让大家保持了低熵状态:正常情况下,几乎到点起床、到点睡觉。但需要注意:这种自律是一个开放系统,有外力做功的,比如不起床、不睡觉会有惩罚的压力。所以很多战士退伍后,缺乏纪律约束,熵会很快反弹。后来我读研时,看到睡眠熵增现象,意识到这个问题的根源在于缺少信息熵输入,于是我开始了长达六年的睡眠统计,通过自我反馈来维持低熵状态。但即便如此,熵还是逐年惊人增长。

2熵的历史

熵增定律被冠为科普重灾区,因为始终存在历史渊源学术争议,比如熵的正式定义就有许多种,绝对零度熵值到底为不为零?像我这样的不良学者还一直在往里添乱,本文再次申明上面谈了的睡眠熵玻尔兹曼熵的应用,也是信息熵的一种。熵概念泛滥也是熵增的表现,因为信息总是朝着未知和无序的方向发展,唯有用实践检验、数学工具和历史唯物才能抵制熵概念的熵增现象!

回顾历史源头,克劳修斯熵极为重要:克劳修斯熵首次给出熵的定义dS=dQ/dT热温比也是“熵”中文字义来源:胡刚复教授(1936年后被竺可桢聘为浙大教授,随即跟随浙大西迁之路)于1923523日为普朗克( Planck)来南京东南大学作《热力学第二定律及熵(Entropie)之观念》讲学的翻译时,第一次将Entropie译为‘熵’,读音也读作“商”,表示S的量纲为热量与温度的之商,并且还与火有关,就加上了火字旁。在蒸汽时代,熵回答了热能多大程度转化为有价值功的问题熵是能量的品质,打破了第二类永动机的幻想——热不能全部转化为功。理想的卡诺热机热功效率:η= 1 - (T1/T2) ;现在路上跑的油车的热功效率:柴油机35-45%、汽油机25-35%;电车(电动机)的热功效率在85%左右。从热功效率看,电动车要经济多;从熵值来看,电车的熵值低、价值高。

3熵的辩证

熵增定律的泛滥,让熵背负了许多悲观消极的骂名,我再从辩证唯物角度为熵正名。首先,作为一个状态函数和一个名词,不但是无辜的,而且是有价值的,它让我们看到了浑沌世界中有价值的东西:在原始社会,让天然火为我们做功;在蒸汽时代,让热为我们做功;在信息时代,让信息/知识为我们做功;在上文中,让睡眠统计数据为我和大家做功。其次熵增也是无辜的,它是大自然的普遍规律,宣布了第二类永动机的破产,告诫人们不要妄想一劳永逸,只有勤劳能创造财富,只有自律才能到达自由。

之所以人们畏惧熵增,因为熵增意味着无序未知分散、不确定等,但一分为二看:熵增是把双刃剑——无序与有序相对,分散集中统一,自由同自律并存;信息熵增加表明,信息(知识)越多越未知,但子曰知道的未知也是知识;吉布斯自由能公式ΔGH-TΔS表明低熵是不稳定的分散后ΔS>0、自发反应ΔG<0绝对值增加,能量降低更稳定,所以冬天睡觉蜷缩一团熵增大,和露珠一样自然。极寒ΔS小,低熵电车也罢工。

4宝贵的熵

品质越好越稀缺,越稀缺的越宝贵,因为熵增也让我们看到熵的宝贵:“一年之计在于春,一日之计在于晨”,把最宝贵的时间用来做最重要的事情,比如春季和早晨的熵最低;社会主义的优越性,在于集中力量办大事,因为越集中熵越低;项目管理中,资源(也包含人力)、精力、目标、时间等集中有序则高效,因为熵值低;“少就是多”,话越少错也越少,影响效果也越好,因为熵低。所以就说得这里。


参考资料

1、知乎:自然常数e是怎么来的?

2、知乎:一文讲透自然对数底数e到底有多自然?
3、知乎:麦克斯韦速率分布推导及分子动理论。
4、知乎:信息熵与热力学统计物理中的熵有什么区别和联系?
2023年1.05小寒:数说22,图画23。

2022年1.05小寒:数说21,图画22。

个人认知数据库之研究

一候雁北乡

二候鹊始巢

三候雉始鸲(qú)

大雁始北移;喜鹊始筑巢;野鸡始鸣叫。

20211.05小寒:数说NH3,图画Sc。

20201.06小寒:数说19,图画20。

继续滑动看下一个
小樟的成长日记
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存