查看原文
其他

论文荐读 | 从细读到远观:数智时代人文研究的新路向

刘海涛 隆蝉忆 计量语言学
2024-09-03

近年来,ChatGPT等新一代数据智能技术扑面而来,改变着人类的认知过程,人类正步入数智时代。面对这数百年来人类社会从未经历过的震动,我们不禁开始思考:数据何以涌现出智能?在这场不同于此前“体力”革命的重大“脑力”革命中,人文工作者应该如何融入数字化潮流,在数智时代贡献人文学者的智能?


近日,《当代修辞学》于2024年第3期刊发文章《从细读到远观:数智时代人文研究的新路向》。这篇文章是刘海涛教授数字人文巡讲的内容概要,文中展示的大多数研究成果都源于刘海涛教授的团队。过去8年间,他们在国际数字人文的标志性刊物Digital Scholarship in the Humanities(DSH)上已刊发了10篇研究性论文,是全世界在这本久负盛名的期刊上发表研究论文最多的研究团队之一。

本号节选文章中的主要内容,与读者分享。
数智时代,即“数(据)智(能)时代”,指在信息技术推动下,人类社会各领域向数字化和智能化深度融合的方向发展。ChatGPT等新一代数智技术正改变人类认知过程、重新定义人类知识,这是数百年来人类社会从未经历过的震动。随着其能力的扩展,人工智能不仅将重新定义人类知识的边界,还将转变我们对现实世界的认知,并在此过程中重新塑造政治和社会结构。互联网通过积累和操作不断增长的数据来获取知识。在这个过程中,人类认知不再具有个体性特征,个体被简化为数据,而数据则成为了新的统治性力量。
人类在数智时代面临的一个挑战在于,为何机器无法以我们人类可以理解的方式执行任务,同时,机器在某些领域的优越表现超越了人类的认知能力。我们需要探究为何某些知识规则或模型一旦应用于计算机便失效?是因为这些规则本身存在问题,还是因为它们的形式化方法不当?深入探究这些问题,可能会揭示出我们未曾意识到,但每天都在使用的规律模式,为未来人机交互和智能系统的发展提供新的思路和方法。

数字人文触及到了人文学科的根本,那么,究竟什么是数字人文?首先需要厘清人文学科的本质,明确它与自然科学的区别何在。按照维基百科有关条目的说法,“人文”是以观察、分析及理性批判来讨论人类情感、道德和理智的各门学科和知识的总称,定义相对开放,研究范围涵盖文学、哲学、历史、宗教、艺术、人类学、语言学等多个学科和知识领域。简言之,人文学科是用人来探讨人的“软件”的学科。

当我们聚焦这项定义时,不难发现人文学科面临的矛盾与挑战。第一,人文学科用人来研究与“人”相关的因素,而人类并非类似机器的理性存在,其行为与思维难以被简单规范,但在探讨自身时却需要运用理性;第二,人文本身具有历史性,历史知识和历史精神都无法超越社会历史,而研究人员却身处当下,同时还要面对大量的史料数据带来的挑战;第三,相较于自然科学主要采用实证研究方法,且往往有明确中心学科的特点,人文学科主要采用批判性和推理性的方法,且没有明确的中心学科,那么,研究者如何确保研究的理性和客观?
人们通常认为,科学追求客观性,而人文学科则具有主观性和思辨性。自然科学试图“解释”世界,而人文学科则旨在“理解”世界。然而,人文的“理解”并不是凭空得来的,往往是基于文本、绘画、艺术品、音乐作品、电影等人类产品中出现的“规律”“模式”精心分析、构建的。从古至今,人文学科从未中断对“规律”和“模式”的探寻。人文学科与自然科学两者的区别只在于研究对象不同:自然科学探索自然界的奥秘,人文学科研究与人相关的一切。
不管是自然科学还是人文学科的研究者,对于“模式”的探寻实际上都是一种对于某个领域的知识的探寻,而“模式”实际上就是知识的一种表示方式,自然科学的“模式”反映了“自然界”的规律,人文学科的“模式”反映了“人”的规律,社会科学研究的“模式”则是社会的规律。可见,人文学科并不是与自然科学截然不同、相背而行的领域,而是与之并行的智力活动,两者并无本质差异,同样追求对其研究对象深层次的理解和解释,发现纷杂多样的现象背后的秘密,寻找所研究系统的模式与知识。

智能时代的推动力源于数据,在技术方法转变的同时,我们需要重新审视人文研究的根本任务和研究范式,从根本上思考过去知识获得与表征方法的有效性,以及这些方法是否反映了人类“软件”运作的真实情况。
自20世纪中叶以来,传统人文偏向采用所谓“细读”(close reading)的文学批评方法对小规模文本进行深入详细的分析。“细读”的本质,是通过逐字逐句阅读来对文本进行详细、彻底的解释,注重从字词、修辞等细节中获得文本的特点、理解文本的艺术成就。然而,在数智时代种种技术支持下,获取数据已不是难事,人文工作者想要在海量数据中发现规律和模式,只依靠“细读”是不够的。
21世纪初,弗朗科·莫雷蒂(Franco Moretti)提出 “远读”方法,即通过聚合和分析大量数据来理解文学,而不是止步于研读特定文本,从少量的、“代表性”的文本中得到随机的知识。莫雷蒂认为,距离是知识的一种条件,它允许你聚焦在比文本更小或更大的单位上。如果我们想对系统的整体性有更多的了解,就必须接受失去些什么的现实,而这种忽略细节的做法,使“远读”被视为“数字人文”起点。沿着舍弃阅读文本的角度来看,“远读”更精确地说应该是“远观”

传统人文向数字人文的转变,是研究视角从“细读”到“远观”的转变,即从对单一或少量文本进行深入阅读和精细分析,向利用计算工具对大量文本数据进行综合性的计算分析和可视化表示的转变。数字技术使人文传承、传播的工具和范式得以更新,人文学科的研究内容得以拓展,人文研究者要抓住机遇,为人工智能及现代化发展贡献自己的智慧。
数字人文的核心在于如何将数字(数据)与知识、社会、文化、历史、人联系在一起,不能满足于把一本书、一幅画保存在计算机里,而是要努力从“细读”走向“远观”。从大量文本中发现趋势、模式等通过普通阅读难以发现的现象,从而更科学地发现、解释人类行为的模式以及人与社会、自然交互的规律,更准确地预测人类社会的未来

模式是构成人类知识体系的要素,在技术、方法受限的时代,对于“模式”的探索程度有限。数智时代的到来,使人类有可能回归到没有学科细分的时代,创造了对“模式”进行更好的探索的新窗口。那么,如何从人文数字(据)中更快捷地发现我们需要的“模式”呢?
此前说过,数字人文的核心在于透过海量的人文数据“远观”其人类“软件”系统的运作规律。“细读”方法犹如一个适合短距离观察的放大镜,可探索范围有限,要想在大规模文本数据中发掘人文的普遍模式、规律,我们需要一支适合远距离观察的望远镜。
“远观”方法的精髓在于其从具体到抽象,从细微见整体,从微观到宏观,从字词寻模式,“远距离”更易发现模式,而发现模式是人文学的根本任务。数字人文将“可操作、可重复、可传授”的科学方法应用到人文研究领域,人文研究的解释力和预测力得以提高,因此其兴起是必然的。数字人文也有助于缓解长久以来人文领域难以进行有组织科研的局面。
发现模式是人文学科的根本任务,“可视化”是发现模式的利器。计算工具能以一种直观的、便于分析和理解的方式来呈现这些数据,而“可视化”能够使庞大复杂的数据关系和模式变得直观易懂,通过图形、图表等形式更直观地展示数据,通过数据可视化技术,数据的趋势、集群和异常点等一目了然,帮助我们发现过去难以发现的规律和模式。
用量化的方法研究人文由来已久,且以往的定量研究同样以发现各种规律为目标。如今数据材料的获取已变得轻而易举,为数智时代的人文研究者创造了有利条件。然而,仅有海量数据并不能保证发现规律,因为数据无法完全取代人类思维。我们需要思考如何在数据基础上进行更加科学的解释,以及如何利用数据发现人文规律。
规律性是所有科学研究的核心。通过这些规律,我们可以解释和预测特定的模式。通过大数据分析,我们能够揭示文学作品中的模式,并发现其中的数学定律,如著名的“齐普夫定律”。齐普夫定律(Zipf Law)是一项词频分布规律。美国语言学家乔治·齐普夫在研究人类语言的真实文本时,发现如果将文本中的词出现的频率逆序排列,则序数与频率之间呈幂律关系。尽管文学被视为表达自由度最高的方式之一,但即便是类似莎士比亚和狄更斯这样的文学大师,其作品也同样受到齐普夫定律的支配。通过“数据—模式—定律—解释—预测”这条科学研究链,齐普夫定律完美地展现了数据驱动知识发现的魅力。

数据和可视化的透镜能显著提升我们对人文学科诸多领域内规律和模式的发现效率与理解深度,而且由于所用的研究材料与大语言模型是同源的,所以所得到的结果,更容易解释和预测大模型的行为。值得强调的是,数字人文的本质在于“远观”,众多研究案例表明,只要拥有适宜的“望远镜”,任何人都能够“远观”世界。
新时代的智能是由数据催生的智能,这意味着数据和智能之间具有密切的关系。了解这种关系,并对数据产生智能的过程进行逆向工程,将是未来科学家面临的挑战和机遇,对专门研究人类“软件”的人文学者而言,则更是如此。因此,人文学科的发展必须适应智能时代的召唤,数字人文是人类展现自身智能和破解智能之谜千年难遇的机会。
智能的本质是适应不断变化的环境的能力,这种能力体现在获取知识并运用这些知识解决问题的过程中,而模式是构建人类知识体系的基本要素。我们理解世界、学习新事物、解决问题,都依赖于识别和应用各种模式。
“细读”是文科人的看家本领,毫无疑问仍应坚守,但人文学科的发展也须适应社会发展的需要,因此,我们不仅要“细读”,更要“远观”。现代计量语言学的奠基人之一阿尔特曼先生在为《计量语言学导论》写的序言中的最后一句话是:“进来,就有希望!”这应该也是最适合结束本文的一句话。

·END·

欢迎对本文有兴趣的读者阅读、引用原文

原文引用信息:

刘海涛, 隆蝉忆. 从细读到远观:数智时代人文研究的新路向[J]. 当代修辞学, 2024(03): 37-50. DOI:10.16027/j.cnki.cn31-2043/h.2024.03.002.

继续滑动看下一个
计量语言学
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存