“集智百科精选”是一个长期专栏,持续为大家推送复杂性科学相关的基本概念和资源信息。作为集智俱乐部的开源科学项目,集智百科希望打造复杂性科学领域最全面的百科全书,欢迎对复杂性科学感兴趣、热爱知识整理和分享的朋友加入!
本文是对集智百科中“自由能原理”词条的摘录,参考资料及相关词条请参阅百科词条原文。本词条由集智俱乐部众包生产,难免存在纰漏和问题,欢迎大家留言反馈或者前往对应的百科词条页面进行修改,一经修改,可以获得对应的积分奖励噢!
目录
一、背景二、定义三、自由能最小化四、神经科学中的自由能最小化
五、主动推理
六、编者推荐七、百科项目志愿者招募自由能原理 Free energy principle是一个正式的陈述,它解释了生物系统和非生物系统如何通过将自己限制在有限的几个状态而保持在非平衡稳态。它表明系统最小化了内部状态的自由能函数,而内部状态包含了对环境中隐藏状态的信任。自由能的内隐最小化在形式上与变分贝叶斯方法 Variational Bayesian methods有关,最初由Karl Friston引入,作为神经科学中对具身知觉的解释,在那里它也被称为“主动推理”。
自由能原理解释了一个给定系统的存在,它通过一个马尔可夫毯 Markov blanket建模,试图最小化他们的世界模型和他们的感觉和相关知觉之间的差异。这种差异可以被描述为”出其不意” ,并通过不断修正系统的世界模型来减少这种差异。因此,这个原理是基于贝叶斯的观点,即大脑是一个“推理机”。弗里斯顿为最小化增加了第二条路线: 行动。通过积极地将世界改变为预期的状态,系统也可以使系统的自由能最小化。弗里斯顿认为这是所有生物反应的原理。弗里斯顿还认为,他的原则即适用于精神障碍也适用于人工智能。基于主动推理原则的人工智能实现比其他方法显示出优势。关于这一原则的讨论也受到批评,认为它引用的形而上学假设与可检验的科学预测相去甚远,使这一原则不可证伪。在2018年的一次采访中,弗里斯顿承认,自由能原理不能被恰当地证伪: “自由能原理就是它的本来面目——一个原理。就像汉密尔顿的静止作用原理一样,它不能被证伪。这是不能被推翻的。事实上,除非你问可衡量的系统是否符合这一原则,否则你用它做不了什么。”
自由能原理被批评为很难理解,甚至对专家来说也是如此。对这一原则的讨论也被批评为援引了形而上学远离可检验的科学预测的假设,使这一原则成为不可证伪的。在2018年的一次采访中,弗里斯顿承认自由能原则并不恰当可证伪性:“自由能原则就是它的本来面目一个原则。与哈密顿定常作用原理一样,它是不可证伪的。这是无法反驳的。事实上,除非你问可测量系统是否符合这一原则,否则你对此无能为力。”
自我组织的生物系统——比如细胞或大脑——可以被理解为最小化变分自由能的概念,是基于亥姆霍兹在无意识推理以及随后的心理学和机器学习治疗方面的工作。变分自由能是观测值及其隐含原因的概率密度的函数。这个变分密度的定义关系到一个概率模型,从假设的原因产生预测观测。在这种情况下,自由能提供了一个近似贝叶斯模型的证据。因此,它的最小化可以被看作是一个贝叶斯推断过程。当一个系统积极地进行观测以最小化自由能时,它隐含地进行了积极推理并最大化其世界模型的证据。
然而,自由能也是结果自信息的一个上限,长期的平均值是熵。这意味着,如果一个系统采取行动来最小化自由能,它将隐含地放置一个熵的结果-或感官状态-它的样本上限。与其他理论的关系
主动推理与良好的调节器定理以及自组织的相关理论,如自组装、模式形成、自创生和拓扑实践密切相关。它涉及控制论、协同学和具身认知理论中所考虑的主题。由于自由能可以用变分密度下观测值的期望能量减去其熵来表示,因此它也与最大熵原理有关。最后,由于能量的时间平均值是作用量,因此最小变分自由能原理是最小作用量原理。
主动推理与好调节器定理密切相关以及与自组织的内容相关,例如自组装,模式形成,自生和实践。
它解决了控制论,协同学中考虑的主题以及具身认知。由于自由能可以表示为变分密度下观测值的期望能量减去其熵,因此它也与最大熵原理有关。最后,由于能量的时间平均是作用量,最小变分自由能原理是一种最小作用原理。
这些示意图说明了如何将状态划分为内部状态和隐藏状态或外部状态,这些状态由一个马尔可夫毯(包括感觉状态和活动状态)分隔开来。下面的面板显示了这个分区,因为它将应用于大脑中的动作和感知;活动和内部状态将感官状态的自由能功能最小化。随后内部状态的自组织与感知相对应,而动作将大脑状态与外部状态耦合。上面的面板显示完全相同的依赖性,但重新排列,使内部状态与细胞内状态相关联,而感觉状态成为细胞膜的表面状态覆盖活性状态(例如,细胞骨架的肌动蛋白丝)。
这些示意图说明了将状态划分为内部状态和隐藏状态或外部状态,这些状态由一个马尔可夫毯(包括感觉状态和活动状态)隔开。下面的面板显示了这个分区,因为它将应用于大脑中的动作和感知;活动和内部状态将感官状态的自由能功能最小化。随后内部状态的自组织与感知相对应,而动作将大脑状态与外部状态耦合。上面的面板显示了完全相同的依赖性,但重新排列,使内部状态与细胞内状态相关联,而感觉状态则成为细胞膜上覆盖活性状态的表面状态(例如,细胞骨架的肌动蛋白丝)其目的是最大限度地提高模型的证据,或者最大限度地减少惊喜。这通常涉及隐状态的棘手边缘化,因此用变分自由能上界代替惊奇。这个公式建立在一个马尔可夫毯子(包括行动和感官状态) ,分离内部和外部状态。如果内部状态和作用力使自由能最小化,那么它们在感觉状态的熵上设置了一个上限行动与感知
目标是最大化模型证据 p(s | m)或最小化意外 -logp(s | m)。这通常涉及隐藏态的难以处理的边缘化,因此意外被一个较高的变分自由能边界所取代。然而,这意味着内部状态也必须最小化自由能,因为自由能是感官和内部状态的函数:这导致了一个双重最小化的行动和内部状态,分别对应于行动和感知。
自由能最小化和自组织
变分自由能是一种信息论泛函,不同于热力学(亥姆霍兹)自由能。然而,变分自由能的复杂性项与亥姆霍兹自由能具有相同的固定点(假设系统是热力学闭合的,而不是孤立的)。这是因为如果感觉干扰暂停(适当长的时间) ,复杂性是最小的(因为准确性可以忽略)。在这一点上,系统处于平衡状态,内部状态通过最小能量原理使亥姆霍兹自由能最小。
自由能最小化被认为是自组织系统的一个标志。这个公式建立在一个马尔可夫毯(包括行动和感觉状态)分离内部和外部状态。如果内部状态和行为使自由能最小化,那么它们就给感官状态的熵设置了一个上限。自由能最小化相当于最大化感观状态和内部状态之间的互信息,使变分密度参数化(对于固定熵变分密度)。利用信息论描述最优行为的相关处理。
这是因为在遍历假设下,惊喜的长期平均值是熵。这个界限抵抗了一种自然的无序倾向,这种无序倾向与热力学第二定律和涨落定理有关。自由能最小化与贝叶斯推理
自由能最小化为在不确定性条件下建立神经元推理和学习的规范(贝叶斯最优)模型提供了一种有用的方法,因此符合贝叶斯脑假设。由自由能最小化描述的神经元过程取决于隐藏状态的性质:它可以包括时间相关变量、时不变参数和随机波动的精度(逆方差或温度)。最小化变量、参数和精度分别对应于推理、学习和不确定性编码。
所有的贝叶斯推断都可以用自由能最小化来表示,例如,当自由能相对于内部态最小化时,隐态上变分密度和后验密度之间的Kullback–Leibler散度最小化。当变分密度的形式固定时,这对应于近似的贝叶斯推理,否则对应于精确的贝叶斯推理。因此,自由能最小化提供了贝叶斯推理和滤波的一般描述(例如,卡尔曼滤波)。它也用于贝叶斯模型选择,其中自由能可以有效地分解为复杂性和准确性:
具有最小自由能的模型提供了数据的精确解释,降低了复杂性成本(参见奥卡姆剃刀和计算成本的更正式的处理方法)。这里,复杂性是变分密度和关于隐藏状态的先验信念(即用于解释数据的有效自由度)之间的差异。自由能最小化与热力学
变分自由能是一种信息论泛函,不同于热力学Helmholtz自由能。然而,变分自由能的复杂性项与Helmholtz自由能具有相同的不动点(假设系统是热力学封闭而非孤立的)。这是因为如果感官干扰被暂停(一段适当长的时间),复杂性被最小化(因为准确度可以忽略)。此时,系统处于平衡状态,内部状态根据最小能量原理使亥姆霍兹自由能最小化。自由能最小化与信息论
自由能最小化相当于最大化感官状态和内部状态之间的互信息,使变分密度参数化(对于固定熵变分密度)这将自由能最小化与最小冗余原则联系起来。并且联系到用信息论描述最优行为的相关处理。
自由能最小化为在不确定性条件下建立神经元推理和学习的规范(Bayes最优)模型提供了一种有效的方法因此符合贝叶斯脑假说。由自由能最小化描述的神经元过程取决于隐藏状态的性质:它可以包括时间相关变量、时不变参数和随机波动的精度(逆方差或温度)。最小化变量、参数和精度分别对应于推理、学习和不确定性编码。感性推理与分类
自由能最小化使知觉中的无意识推理概念正式化并提供了神经元处理的规范(贝叶斯)理论。神经元动力学的相关过程理论是基于通过梯度下降最小化自由能。这对应于广义贝叶斯滤波(其中~表示广义运动坐标中的变量,D是一个导数矩阵运算符):通常,定义自由能的生成模型是非线性和层次结构的(就像大脑中的皮层层次结构)。广义滤波的特殊情况包括卡尔曼滤波,它在形式上等价于[预测编码]一种关于大脑中信息传递的流行隐喻。在分层模型下,预测编码涉及到上升(自下而上)预测错误和下降(自上而下)预测的循环交换这与感觉器官的解剖学和生理学以及动力系统是一致的。知觉学习与记忆
在预测编码中,通过自由能(自由作用)时间积分的梯度上升来优化模型参数会降低到联想或 Hebbian可塑性,并与大脑中的synaptic可塑性相关。知觉的精确性、注意力和显著性
优化精度参数对应于优化预测误差的增益(参见Kalman增益)。在预测性编码的神经元似是而非的实现中,这对应于优化浅表锥体细胞的兴奋性,并被解释为注意增益。在多目标环境下,通过对名为PE-SAIM的SAIM进行贝叶斯重构,模拟选择性注意任务的结果。图表显示了知识网络中FOA和两个模板单元激活的时间过程。
关于自上而下与自下而上的争论,已经被作为一个主要的开放性问题的注意,一个计算模型已经成功地说明了自上而下和自下而上机制之间的往复循环性质。利用已建立的注意涌现模型SAIM,作者提出了一个称为PE-SAIM的模型,与标准模型相比,该模型从自上而下的立场接近选择性注意。该模型考虑了发送到同一级别或更高级别的转发预测误差,以最小化表示数据及其原因之间的差异的能量函数,换句话说,生成模型和后验模型之间的差异。为了提高有效性,他们还在模型中加入了刺激物之间的神经竞争。该模型的一个显著特点是仅根据任务执行过程中的预测误差来重新构造自由能函数。是神经网络的总能量函数,是生成模型(先验)和后验随时间变化的预测误差。)
比较这两个模型的结果发现他们的结果之间有显著的相似性,同时指出了一个显著的差异,即在SAIM的标准版本中,模型的重点主要是兴奋性连接,而在PE-SAIM中,抑制性连接将被用来进行推断。该模型对人体实验的脑电和功能磁共振数据具有较高的预测精度。该模型还被证明适合以高精度预测从人体实验中提取的 EEG 和 fMRI 数据。同样,Yahya 等人。还应用自由能原理提出了一个主要依赖于 SAIM 的隐性选择性视觉注意中的模板匹配计算模型。根据这项研究,通过在原始神经网络中插入自上而下的信号来达到整个状态空间的总自由能,由此我们推导出一个包含前馈和后向预测误差的动力学系统。
时,运动控制可以理解为通过下降(皮质脊髓)预测参与的经典反射弧。这提供了一种形式主义,将平衡点解推广到自由度问题移动轨迹。主动推理与最优控制
主动推理与最优控制有关,它用状态转移或流的先验信念替换价值或成本函数。这充分利用了贝叶斯滤波和Bellman方程解之间的紧密联系。然而,主动推理从状态空间的标量V(x)和向量W(x)值函数(c.f.,Helmholtz分解)指定的流 f=Γ·▽V+▽×W开始。这里,Γ是随机波动的幅度,成本是c(x)=f·▽V+▽·Γ·V。流上的先验诱导了一个先验的超状态 p(x | m)=exp(V(x))这是相应的正向Kolmogorov方程的解。相反,在假设<math>W=0的情况下,最优控制优化了给定成本函数的流量(即,流量没有旋度或具有详细平衡)。通常,这需要向后求解Kolmogorov方程。主动推理与最优决策(博弈)理论
最优决策问题(通常表示为部分可观测马尔可夫决策过程)通过将效用函数吸收到先验信念中,在主动推理中处理。在此设置中,具有高效用(低成本)的状态是代理希望占用的状态。通过给生成模型配备模型控制的隐藏状态,最小化可变自由能的策略(控制序列)会导致高效用状态。
神经生物学上,神经调节剂多巴胺被认为通过调节编码预测误差的主细胞的增益来报告预测误差的准确性。这与多巴胺在报告预测错误“本身”中的作用密切相关,但在形式上与之不同以及与计算账户相关。主动推理与认知神经科学
主动推理已被用于解决认知神经科学、脑功能和神经精神病学的一系列问题,包括:行动观察,镜像神经元,扫视和视觉搜索,眼球运动,睡眠,幻觉,注意,动作选择,意识,hysteria还有精神病。对主动推理中行为的解释常常依赖于这样一种观点,即大脑有“顽固的预测”,它无法更新,从而导致使这些预测成真的行为。
自由能专题1:原理及常见方法https://zhuanlan.zhihu.com/p/365654509
集智课程
临界现象的标度性与超标度关系
https://campus.swarma.org/course/1525
本课程中,将从自由能的奇异部分的齐次性,推出临界现象的标度性与超标度关系。
知乎文章
https://zhuanlan.zhihu.com/p/365732420
作为集智百科项目团队的成员,本文内容由水流心不竞翻译,Evangeline审校,薄荷编辑。我们也为每位作者和志愿者准备了专属简介和个人集智百科主页,更多信息可以访问其集智百科个人主页。以上内容都是我们做这项目的起点,作为来自不同学科和领域的志愿者,我们建立起一个有效的百科团队,分配有审校、翻译、编辑、宣传等工作。我们秉持:知识从我而来,问题到我为止的信念,认真负责编撰每一个词条。
在这里从复杂性知识出发与伙伴同行,同时我们希望有更多志愿者加入这个团队,使百科词条内容得到扩充,并为每位志愿者提供相应奖励与资源,建立个人主页与贡献记录,使其能够继续探索复杂世界。
如果你有意参与更加系统精细的分工,扫描二维码填写报名表,我们期待你的加入!
点击“阅读原文”,阅读词条自由能原理原文与参考文献