齐夫定律(Zipf’s law)是一种典型的幂律分布,从语言中词汇的出现频率,到国家人口在不同规模城市间的分布,再到网页访问频率、收入的排序,都遵循齐夫定律。不过,齐夫定律为什么普遍存在?齐夫本人认为,这是因为系统要遵循最省力原则。2021年9月 PRL 发表的题为“最大化多样性和齐夫定律”的论文,通过求解统计模型指出,齐夫定律总是与组成部分规模的多样性最大化同时发生。而最大化多样性背后反映的,或许正是更一般的最省力原则和物理学中的最小作用量原理。
齐夫在自己一部著作《最省力原则——人类行为生态学导论》中给出了一个基于人类行为和经济学的解释。他认为,人本身作为一个「能量-物质」系统,为了解决某个问题,一定会遵循所做全部功(work)最小、或成本(cost)最小的路径移动,这既包括系统本身的物质-能量流动,也包括整体单位在环境中的移动,并称之为最省力原则(Principle of Least Effort)。
这种说法有道理吗?时过境迁,从过去到当代,对这个问题的探究也从经验转向了理论。今年5月 PRL 发表的一篇论文 Maximal Diversity and Zipf’s Law 中,多名研究者联合通过求解一个统计模型,定义了一个系统多样性指数 D,计算发现系统组成部分大小的多样性最大化总是与齐夫定律同时发生,并随系统总维数增加而增加。随后研究者测试了语言学和城市人口分布,发现数据与模型非常吻合。
一本书的总大小 S 是它包含的总单词数,不同的单词数是实体的数量 N,每个实体大小 s 是其绝对频率,即这个词出现了多少次。因此,多样性指数D是一个给定文本显示的不同频率的数量。分析结果与 τ=2 的公式(11)曲线一起显示在图4中,理论预测与实验点分布相当一致,显示表明大量书籍的 τ 接近于2。
第二个例子,考虑一个国家的总人口 S 在其城市中是如何分布的。研究者使用了 GeoNames 中欧洲国家的数据[26],Simini 和 James [46]曾研究表明,城市的人口规模 s 密切遵循齐夫分布(τ≃2.02)。多样性指数D显示在图4底部。这里考虑了城市大于某个下限问题。尽管数据具有噪声,但与理论之间具有很好的一致性。
图4:上面板:单词数据集的多样性指数 D。绿点是古腾堡数据库中30000多本英文书,黑方块则是超过20个点的平均值。实线为 τ=2 下公式(11) 的曲线,这对应于最大的多样性。下面板:GeoNames 数据库中的城市的多样性指数 D。每个绿点是一个欧洲国家,黑方块是相应的平均值。实线是补充材料[11]中考虑了每个国家最小城市人口下限(sL≈1313)的曲线,虚线是的曲线,随着国家总人口 S 不断增大,二者逐渐重合。
至此总结一下,这篇论文证明了,一个总大小为 S 的有限资源系统,对其 N 个组件的尺寸进行分配,最大多样性划分总会伴随齐夫定律出现,并与特定系统的具体机制无关。具体而言:
[1] Fagan, Stephen; Gençay, Ramazan (2010), "An introduction to textual econometrics", in Ullah, Aman; Giles, David E. A. (eds.), Handbook of Empirical Economics and Finance, CRC Press, pp. 133–153, ISBN 9781420070361. P. 139: "For example, in the Brown Corpus, consisting of over one million words, half of the word volume consists of repeated uses of only 135 words."[2] L. Jost, Oikos 113, 363 (2006).[3] H. Tuomisto, Oecologia 164, 853 (2010).[4] A. R. Ives and S. R. Carpenter, Science 317, 58 (2007).[5] C. S. Elton, The Ecology of Invasions by Animals and Plants (Methuen & Co. Ltd., London, United Kingdom, 1958).[6] D. Tilman, P. B. Reich, and J. M. Knops, Nature (London) 441, 629 (2006).[7] F. Arese Lucini, F. Morone, M. S. Tomassone, and H. A.Makse, PLoS One 15, e0228692 (2020).[8] A. Tacchella, M. Cristelli, G. Caldarelli, A. Gabrielli, and L.Pietronero, Sci. Rep. 2, 723 (2012).[9] A. Rényi et al., in Proceedings of the Fourth Berkeley Symposium on Mathematical Statistics and Probability (The Regents of the University of California, Berkeley, 1961), Vol. 1.[10] C. Tsallis, J. Stat. Phys. 52, 479 (1988).[11] See Supplemental Material at http://link.aps.org/ supplemental/10.1103/PhysRevLett.127.128301 for an account of Rényi entropies, their connection with diversity indices and arguments for studying specifically the diversity index D considered in this paper based on numerical simulations, an explicit expression for the probability distribution of the diversity pSðDÞ, an exact computation of the dressed probability distribution pSðsÞ and pSðNÞ, motivations for the approximation pSðsÞ ≃ pðsÞ, the case of power law bare distributions with a lower cutoff sLblue and details of the analysis of population datasets, and an account of the behaviour of diversity in the random allocation model, which includes Ref. [12][12] F. Corberi, Phys. Rev. E 95, 032136 (2017).[13] X. Gabaix, Q. J. Econ. 114, 739 (1999).[14] S. T. Piantadosi, Psychon. Bull. Rev. 21, 1112 (2014).[15] C. Furusawa and K. Kaneko, Phys. Rev. Lett. 90, 088102 (2003).[16] G. K. Zipf, Human Behaviour and the Principle of Least Effort: An Introduction to Human Ecology (AddisonWesley, Cambridge, MA, 1949).[17] M. E. J. Newman, Contemp. Phys. 46, 323 (2005).[18] A. Clauset, C. R. Shalizi, and M. E. Newman, SIAM Rev. 51, 661 (2009).[19] M. Cristelli, M. Batty, and L. Pietronero, Sci. Rep. 2, 812 (2012).[20] R. L. Axtell, Science 293, 1818 (2001).[21] J. C. Willis and G. U. Yule, Nature (London) 109, 177 (1922).[22] L. Oddershede, P. Dimon, and J. Bohr, Phys. Rev. Lett. 71, 3107 (1993).[23] A. Corral, I. Serra, and R. Ferrer-i-Cancho, Phys. Rev. E 102, 052113 (2020).[34] A. de Azevedo-Lopes, A. R. de la Rocha, P. M. C. de Oliveira, and J. J. Arenzon, Phys. Rev. E 101, 012108 (2020).[25] I. Moreno-Sánchez, F. Font-Clos, and A. Corral, PLoS One 11, e0147073 (2016).[26] GeoNames, www.geonames.org.[27] L. Lü, Z.-K. Zhang, and T. Zhou, PLoS One 5, e14139 (2010).[28] G. De Marzo, A. Gabrielli, A. Zaccaria, and L. Pietronero, Phys. Rev. Research 3, 013084 (2021).[29] L. Lü, Z.-K. Zhang, and T. Zhou, Sci. Rep. 3, 1082 (2013).[30] M. Marsili, I. Mastromatteo, and Y. Roudi, J. Stat. Mech.(2013) P09003.[31] R. J. Cubero, J. Jo, M. Marsili, Y. Roudi, and J. Song, J. Stat.Mech. (2019) 063402.[32] Mandelbrot B 1954 Word 10 1-27, 424-25[33] Principle of least effort vs. maximum efficiency: deriving Zipf-Pareto’s laws,https://arxiv.org/abs/2003.02376[34] https://www.thegreatcourses.com/courses/the-hidden-factor-why-thinking-differently-is-your-greatest-asset[35] 智能优化算法及其MATLAB实例(第2版) [36] 演化学习:理论与算法进展[37] M. Joshi, M. Gyanchandani and D. Rajesh Wadhvani, "Analysis Of Genetic Algorithm, Particle Swarm Optimization and Simulated Annealing On Benchmark Functions," 2021 5th International Conference on Computing Methodologies and Communication (ICCMC), 2021, pp. 1152-1157, doi: 10.1109/ICCMC51019.2021.9418458.[38] Realet al.,2017[39] Corominas-Murtra B, Fortuny J, Solé R V. Emergence of Zipf’s law in the evolution of communication[J]. Physical Review E, 2011, 83(3): 036115.[40] B.V. Gnedenko, A.N., Kolmogorov: Limit distributions for sums of independent random variables, Addison-Wesley.1954[41] 稳定分布与广义中心极限定理 http://swarmagents.cn.13442.m8849.cn/bs/files/jake2011616211724.pdf[42] https://link.springer.com/article/10.1007/s12064-020-00313-7#Sec10