谁是最“复杂”的小说:文学叙事中的长程关联与多重分形
现代主义以来,小说在形式和内容上都愈加繁杂多样、甚至晦涩难懂,这种复杂趋向是否有内在原因推动?我们能否进行有效度量?在 2016 年一个来自波兰的物理学家团队,通过采用统计短句和长句句长变化分布的方法,对一百多部世界名著进行了文本复杂度分析,发现绝大多数作品都存在长程相关性和分形结构,尤其是多重分形可以作为文学作品复杂度的度量指标,并指出这种结构的成因与生物和社会活动高度相关。
论文题目:
Quantifying origin and character of long-range correlations in narrative texts
论文地址:
https://www.sciencedirect.com/science/article/pii/S0020025515007513
被诋毁的塞万提斯的遗产
小说是什么?为什么小说在现代世界里会越来越复杂?
对这个问题的回答,也许不仅关乎文学本身,更关乎我们当下的生活,和人类历史与未来的道路。
在经历过一战创伤后,20 世纪哲学家、现象学创始人胡塞尔,在去世前谈到欧洲人性危机时曾说[1],危机的根源其实不在现代,而在前现代世界的初期,在伽利略和笛卡尔那里。自从欧洲理性主义和科学兴起,就将世界缩减成了科学探索的一个简单对象,从而将具体的生活世界排除在外了。因此专业愈是分工,人们掌握的知识越深,就变得越盲目,既无法看清世界的整体,又无法看清自身。
在这个过程中,传统价值也逐渐趋于崩溃,人们不再有确定不移的信仰,世界被祛魅,基于简单规律的机械世界和工具理性,在人们眼中,渐渐取代了复杂而丰富的生活与人性本身。
无可否认的是,世界的复杂是无法掩盖的。二十世纪两朵乌云[2]催生的相对论与量子力学,罗素悖论引发的第三次数学危机,以及非线性科学与混沌革命下诞生的复杂系统科学,让即使在科学内部也已经窥见到了确定性的丧失。这些源与于笛卡尔的理性遗产,一种简单、还原、确定价值的世界观,与复杂世界的矛盾开始在近代开始爆发,它包括人性加剧异化、国家与民族主义兴起,两次世界大战、现代性与后现代主义思潮。
在胡塞尔看来,这就是人的异化与现代性危机的由来[3]。
然而,人们真的遗忘了存在的本真、遗忘了生活世界的复杂与丰富吗?
捷克小说家米兰·昆德拉认为,实际并非如此。只是哲学家忽视了,在笛卡尔之外,还有另外一位现代的奠基人,他就是西班牙文学巨人塞万提斯。在火药胜过骑士精神的年代,《唐吉坷德》这部终结骑士传奇的最后一部骑士传奇,穿梭于虚构和现实之间,开创了真正意义上的现代小说:一种立足于整个人类延续性,探索世界复杂性和生活何以可能的叙事艺术:
从现代的初期开始,小说就一直忠诚地陪伴着人类。它也受到“认知激情”(被胡塞尔看作是欧洲精神之精髓)的驱使,去探索人的具体生活,保护这一具体生活逃过“对存在的遗忘”;让小说永恒地照亮“生活世界” ——《小说的艺术》
图2:捷克著名小说家米兰·昆德拉
小说告诉我们,世界是不能被简化的,不是实验室这台冰箱里的大象,是一个活生生的、充满各种可能性、复杂而丰富的整体。
——作为哲学家的胡塞尔,和作为小说家的昆德拉说得有道理吗?
这些我们心中的疑惑与不确信性,也许简单的科学已不足以做出结论。
小说的叙事复杂度
作为一种基于文本书写叙事的艺术,小说在故事情节和内容不仅可以超出现实逻辑,长度也不受限制。之前我们曾经介绍过,对结构复杂度的衡量[4]是预测人们图像偏好的良好指标。美和复杂度之间具有一种相似关系。
那么对于文学艺术呢?在叙事文本中是否可以找到类似的复杂性的度量指标,可以用来评判一部叙事文本的优劣程度?
一个很自然的想法就是文本所蕴含的信息量。然而,文学的艺术不是记事——它要求叙事内容之间有高度的关联,仅仅是对各种信息的罗列并不构成小说,否则一部辞典的信息量会超过任何一部经典名著了。
在2016 年的《Information Sciences》杂志上,一个波兰物理学家团队研究了这个问题,并发表了一篇名为《量化叙事文本中长期关联的来源和特征》的论文,他们选取了世界范围内的一百多部文学作品进行了文本复杂度分析。
通过研究这些名著中句子长短和结构的变化,他们发现,绝大多数作品中都有一个十分有趣、同时又具备美学价值的最佳结构。这种结构不仅包含了一定程度上的自相似性,即作品每一个小部分在延展开之后和整体的结构协调一致,不同句子间的长度变化还呈现出一种级联性的长程动力学 (the dynamics of a cascade)关联。显然,前者是分形结构的典型特征,而后者则是复杂网络系统的一种属性[5]。
在此基础上,研究者们提取了两个指标作为评判一部作品叙事复杂度标准:长程相关性(long-range correlations)与多重分形复杂度(Multifractal)。
什么是多重分形?
多重分形系统是分形系统的推广,对后者单个指数的分形维数已不足以描述整个系统的动态。在直观上可将多重分形形象地看作是由大量维数不同的单一分形交错叠加而成的。多重分形系统在自然很常见,包括海岸线的长度、完全展开的湍流、太阳磁场的时间序列变化、心跳的动力过程、人类的步态和活动、人类的大脑活动等等。
对于多重分形,可以通过定义广义维度,或者采用一个连续的指数谱即奇异谱(Singularity spectrum,也被称为多重分形谱)函数进行描述[6]。
图3:自然形成的多重分形地貌
长程相关性与多重分形
在人类原本的自然语言中,使用短句一直是有效的交流方式。但是,仅仅由此类句子组成的文本看起来很机械,读起来很无趣。相对的,由长句组成的文本则需要大量的理解力,这是以书写为主要载体的小说的特征。在文字媒介上,人们可以反复阅读一段文字以进行深入理解。因此,可以着眼于文本的句长变化开始对小说进行研究。
研究者们首先定义了句长变异性(sentence length variability,SLV)的统计变量,然后选取了选择了113种英语,法语,德语,意大利语,波兰语,俄语和西班牙语文学文本的语料库。
设一个连续的句子 j 包含一系列的单词,长度以所包含单词数l(j)表示。可以看到,句子是纯粹由语法定义的,是一个以大写字母开头并以句号结尾的单词序列。由此,可以由傅里叶变换的模平方(Fourier Transform modulus squared)得到代表短句和长句长度分布的谱密度(power spectra)分布函数 S(f) :
通过对这些文学名著文本中的句长变异性SLV研究发现,在短句和长句二者之间存在一种具有周期规律性的分布,其中涉及到各种长度句子的自相似分布、级联式交替。如图4所示:
图 4:所统计作品的谱密度分布,横坐标是频率,纵坐标为句长
从图中可以看到,表征 SLV 的谱密度分布函数 S(f) 普遍展现出了明显的“ 1 /(f^β)”缩放比例,即存在 β 使得 S(f) = 1/(f^β),且经计算平均标度 β ≈ 1/2。
S(f) 的标度β意味着文本中存在长程相关性(long-range correlations),绝大多数被研究文本都具有这样的分形属性。非常有趣的是,β的值接近之前研究者在音乐作品或脑电波中测量的的水平,它体现了文字作品和生命活动的高度相关。这点在后面还会说到。
对于时间序列事件上有相关性事件的度量,一个重要的指标是赫斯特指数(Hurst exponent)。它起初被用来分析水库与河流之间的进出流量,后来被广泛用于各行各业的分形分析。利用赫斯特指数可以表征网络流量的自相似性,数值越大,说明流量的自相似程度就越高,即整个系统是一长串相互联系事件的结果。
这项研究计算了所有作品的赫斯特指数 H 以度量文本之间的长程相关性。
绝大多数被研究文本都单纯服从以上的分形属性。但令人瞩目的是,具有超文本形式的“意识流”小说,表现出了一种相互交织、不可还原的分形集结构特征,即被称为多重分形的非线性结构特征。为了提取多重分形指标,论文使用针对 SLV 的小波分解(Wavelet Decomposition)进行可视化呈现,以及数值上更稳定和准确的多重分形趋势波动分析(MFDFA)[7] 的方法。
最终计算结果表明,多重分形的度量与赫斯特指数决定的霍尔德指数(Hölder exponent)α 以及其函数 f(α)有关。如图5所示,f(α)是具有特定α点集的分形维数,即多重分形谱。对于一个模型的多重分形序列,f(α)通常被假设为类似于倒抛物线。其中抛物线宽度 ∆α =αmax-αmin 代表多重分形程度,即被视为文本复杂度的的一种度量。
图 5:意识流小说家乔伊斯名著《芬尼根的守夜灵》的多重分形特征
谁是最复杂的小说?
在对一百多部名著进行分析后,研究者们发现,意识流小说具有最高的多重分形复杂度。
结果如下图 6 所示:
横坐标 H (degree of persistency),即赫斯特指数,H 越大说明文本单词之间的长程相关性越大。
纵坐标∆α (degree of complexity) 是霍尔德指数的极值差,数值越大则越说明文本的多重分形复杂度越高。
从图中我们可以看到,几乎所有作品的赫斯特指数都大于 0.6。而当0.5<H<1时,表明时间序列存在长期记忆性,这说明了几乎所有的统计的世界名著都存在长期记忆性。
这项对文本复杂性统计指标的计算结果很有趣,也非常符合人们对名著们的直观感受。
例如,不仅意识流作品往往具备更高的多重分形复杂度,其中最高还是著名意识流作家乔伊斯的《芬尼根的守夜灵》(Finnegans Wake), ∆α=0.74,H= 0.77。
图 7:粉丝用各种颜色对《芬尼根的守夜灵》中语言相关的一页手绘
这部作品本身就是一个正在进行时的传奇,它被称为比意识流神作《尤利西斯》还晦涩难懂的一部真正的天书。乔伊斯在写完这本书之后,就曾经说,这本书的谜题至少可以让评论家们忙上三百年。而粉丝们为了早日破解甚至成立了加速进程的网站,但至今尚未完全破解。也正因为如此,它的翻译异常艰巨,日本曾经有过三个人先后翻译《芬尼根的守灵夜》,第一个失踪了,第二个神经出了毛病,第三个才翻译完[8]。
这部作品还有很多趣事,比如物理学中“夸克”( Quark)这个代表基本物质单元的的词就来自这部小说。
如今看来,伟大的作家果然就是自信,这部所有统计文本复杂度最高的作品,至少说明他当年没有吹牛,深知自己文学水平和创造能力。
除此之外,同样是乔伊斯的尤利西斯,拉美作家胡利奥· 科塔萨尔的《跳房子》(Rayuela),罗贝托·波拉尼奥的《2666》,伍尔夫的海浪《The Waves》,都具有相当高的多重分形复杂度。在图中可以看到,希伯来圣经和莎士比亚的作品,作为前现代文本,也具有可圈可点的表现。经典作品总是读之不尽、常读常新,必然具有一定的复杂的丰饶,这种直观经验无疑符合本文研究的统计结果。
还有一些书,例如《A Heartbreaking Work of Staggering Genius》(中译:怪才的荒诞与忧伤)这本书,在出版后评价一般,然而却具备很高的多重分形复杂度。回想历史,有很多作品刚出现后长期埋没,后来才被文学评论家或作者们挖掘成名著。因此,通过这项研究的结果或许可以进行预测,具备高复杂度、高长程关联的作品,结合评论者的主观感受预测,会不会很可能就是未来被热捧的经典?
小说的复杂与复杂的世界
从前面的分析我们已经看到,长程相关性与多重分形复杂度,是代表小说叙事复杂程度的两个良好指标,与我们对小说直观经验和文艺评论相吻合。
那么,小说是否真的如昆德拉所说,是人类复杂性的反映呢?
除了以上两个指标之外,让我们关注下最开始的指标 β,它是文本中词频缩放的频率幂值,在图6中可以看到在 β= 2H-1 附近分布,取值几乎都在 1/4 到 3/4 之间,平均为 1/2。在这些文本的β的取值同样非常有趣,它不仅符合人类音乐和声音[11]的频率, 还包括心率[12]、认知[13],甚至自发性大脑活动[14]以及其他“天籁之声” [9,10]的频率。同时,与审美偏好的研究类似,它也代表了某种随机性和有序性的平衡。
从频率分布作为一种活动韵律角度来看,人类写作似乎真的与生命和自然高度相关。《诗经·毛诗序》言,“诗者,志之所之也,在心为志,发言为诗”。唐宋八大家之一的韩愈,曾说“气盛,则言之短长与声之高下者皆宜”。也就是说,文章风格甚至能反映出一个人的精神气质与人格境界,见字如面了。
正因为如此,人类世界和人主观精神的复杂性就会在作品中体现出来。
在本文引用的后续研究中,一个中国团队用类似的方法研究了中国两千多年主要文本单词长程相关性的演变[15]。他们发现,对于篇幅较大的文本,其赫斯特指数有明显增长。并认为导致汉语中字长和句长的增加的原因,是由于社会文化发展和语言结构的自适应特性(词距与词长)。
这涉及到了语言进化的问题。一项生物语言学的研究曾经表明[16],增加更多的信号并不能提高语言的准确性,相反,语言进化是通过仅使用少量信号来描述更多有价值的概念来实现的。而通过将信号(音素)组合成单词,使用构词法组合成单词来扩展,就可以克服语言固有误差导致的通信阈值。这样单词长度虽然变长了,但通信最大值也因之呈现出指数级增长。
因此,不仅人类个体生命活动,随着人类社会发展、世界新的知识增加,新的语言词汇也会以新的构词的方式涌现,将世界的复杂度反映到语言中去,尤其是文艺作品中。在《TRENDS in Cognitive Sciences》期刊上有一篇语言研究综述指出,语言的演变受到与个体、生物因素循环作用的文化三方面综合影响[17]。
图8:个体学习、生物演化、文化传播与语言关系
同时,更为重要的是,语言和社会,文艺和文化之间的影响不是单方面的。语言和文艺不是单纯反映世界,相反,符号和文字系统的发明是人类最早创造复杂系统的尝试。语言学家已经证明,语言的能力就是从一组有限的元素中产生无限范围表达的能力 [18,19]。
在有限元素经过无限递归后,“多即不同” [20],一个复杂的精神世界,便能由物质世界自行诞生,这种“虚构”的能力[21],通过人类心智的循环效应(The Looping Effect of Human Kinds)再反过来推进人类现实世界的发展。但这种影响主要通过人类持续对世界的范畴化和归类活动,而非简单所谓萨皮尔-沃尔夫假设(Sapir–Whorf hypothesis)的语言相对论。一项研究指出[22],语言主要从四个方面对文化和社会产生影响:
1. Efficiency in Transmitting Category Information:(比行动)更准确稳定地传达信息
2. Conceptual Innovation and Change:概念创新,新的归类、隐喻、时空观
3. Scope of Application:超过生存范围规范的探究,如个体美的体验、宗教体验等
4. From Models to Moral:超越模型和顺从,进行反思和道德评价
相关阅读:
Philip Anderson,公众号:集智俱乐部多者异也:破缺的对称性与科学层级结构的本质 | 经典回顾
科普大师卡尔·萨根在《伊甸园之龙》中曾说,文字这种体外信息的能力出现,让人摆脱了对预先编码遗传信息的依赖。非虚构的书写用来记录和探索自然与社会,形成历史、哲学或科学。而虚构书写——即文学,无论是脱胎于神话的史诗,模拟人世悲欢的戏剧,抒发个人情志的抒情诗,抑或是探索人可以有怎样生活的小说,都付诸于人类生存意义的激发和生命可能性的创造。如果说代表物理世界的 Nature 是来自造物主造化,那么在第六天后,人所能真正从事的创造活动,便是基于文字在精神世界的创造了。
别林斯基曾说评价莎士比亚,“他的每一个剧本都是一个世界的缩影,包含着整个现在、过去及未来”。而最近去世的文学评论家哈罗德·布鲁姆则说“正是莎士比亚创造了我们”,法国小说家大仲马亦言“创造得至多的是莎士比亚,他仅次于上帝”。
图9:今年去世的文学评论家哈罗德·布鲁姆,他能背诵全部莎翁作品
这些伟大的作家,通过在语言上的创造,不仅带给我们一双观看世界新的眼睛、创造出了新的文化世界,还能直接影响社会现实,成为改变世界的力量。管理学大师詹姆斯· 马奇在教学生涯都不讲授管理了,就讲诗,讲《哈姆雷特》和《唐吉坷德》。鲁迅在《摩罗诗力说》亦曾快言:“意太利分崩矣,然实一统也,彼生但丁,彼有意语”。一个民族,一个国家,就此因一部史诗而成。
最终,我们得以看清,在科学之外,最好的文学作品,一直创造着世界,并塑造着我们,让我们得以应对愈加不确定性的世界,与我们在复杂的世界中共同起舞。
人类将去往何方?这是一部波澜壮阔的宇宙史诗。
1
列表可上下滑动
作者:十三维 编辑:张希妍
推荐阅读
Science经典回顾:贫穷妨碍认知功能 | 诺贝尔奖掀起“贫穷”问题讨论
集智俱乐部QQ群|877391004
商务合作及投稿转载|swarma@swarma.org
◆ ◆ ◆
搜索公众号:集智俱乐部
加入“没有围墙的研究所”
让苹果砸得更猛烈些吧!