用数字工具探索中国古典诗歌:语言学、文学及历史视角之例证
文本分析
刘昭麟 / 台湾政治大学资讯科学系
余泰明 / 美国加州大学圣芭芭拉分校东亚语言及文化研究系
康森杰 / 美国芝加哥大学人文学院数字人文系
潘亦迎(译) / 上海纽约大学文理学院
------------------------------------
摘要:在当下开放的大数据时代,数字工具为研究中国古典诗歌提供了便利。文章选取自周至明(公元前1046—公元1644)的九部代表性诗集,用以展示一系列精心设计的文字分析软件。这些软件使研究者得以按照词汇、诗人、文集、著述年代等标准提炼文本材料,为从语言学、文学、艺术、历史等视角探索古典诗歌提供了新方向。这些分析工具可以帮助研究者发现隐匿于诗作中的信息,如美学表达、个人风格、社会网络、社会影响、时代变化等。日益开放的数字化文本与精密的数字工具将使研究者更高效地探索、研究中国古典诗歌。
关键词:词语搭配 词汇模式 时域分析 社会网络 文体学
------------------------------------
研究中国古典诗歌对于理解中国的语言及文学至关重要。随着诗歌文本的日益数字化,数字工具使研究者得以灵活地用广泛的视角研究、比较、分析中国古典诗作。本文将讨论、展示一系列数字工具,以呈现诗歌研究的诸多新方向。
数字工具能对诗歌进行基本的数据分析,从而为细读及远读提供启发。此类基本分析包括统计词频或分析特定词汇在诗歌中的位置。例如,可以分析用以描绘颜色、天气、花木、星象、山川甚至感官的特定词汇在诗作中有何意义,亦可研究词汇位置与诗歌意象之间的关系。
数字工具还能帮我们发现诗人之间的关联。我们可以研究并比较不同诗人择取、搭配词汇的不同方式。尽管选词及搭配往往受押韵规则的支配,诗作仍能反映特定诗人的经历、精神状态及社会地位。这些信息能为诗歌研究与人文领域的其他研究搭建关联。我们可以按照不同层次的单元(granularity)进行上述比较研究,比如以诗人或文集为单元。通过在诗歌的标题及内容中检索特定诗人的名字或其他称谓,可以对其社交网络(social network)展开分析。此类社交网络信息不仅能深化我们对于特定诗人风格的理解,亦能丰富既有的人物传记资料库,如“中国历代人物传记资料库”(CBDB)。[1]
目前,共有九部诗集可用以试验我们的软件。这些诗集所涵盖的诗作上自周代,下至明代。它们分别是《诗经》《楚辞》、汉赋(出自《昭明文选》)、《先秦汉魏晋南北朝诗》《全唐诗》《全宋词》《全宋诗》《元诗选》《列朝诗集》。这些诗集使我们得以探究中国古典诗歌是否在历史上发生过重要的变化。
已有不少学者运用计算机技术研究中国古典诗歌并提出了不少洞见。[2]我们的工具则能帮助研究者从词汇、诗人、年代等角度研究诗作。总体而言,这些工具可用以回答谁于何时何地以怎样的方式创作了哪些诗作等问题。这些设计精良的工具应能促发诗歌研究的新方向并满足不同研究者的特定研究需求。
下文将引介若干数字工具所能为研究者提供的辅助。首先,介绍所选择的诗集以及若干数字工具的基本功能。其次,陈列这些工具的具体运用方法并提供运用示例,以呈现这些工具的诸多研究可能性。最后,讨论尚待解决的问题与挑战。
一、诗集样本
我们在表1中列出了自周至明的九部代表性诗集,并为每部诗集设置了便于索引的缩写代码(Acronym)。该表格还注明了每部诗集所涵盖的历史时期。由于浙江大学传统文化研究所的《全清诗》编纂筹备委员会仍在对《全清诗》进行数字化工作,该表格目前并不包括清代的诗集。[3]
表1 本研究所用语料库:中国古典诗歌(公元前1046—公元1644)
我们将以《全唐诗》(QTS)及《全宋词》(QSC)为样本来呈现我们的工具。《全唐诗》中的作品往往被称作“一首诗”,而《全宋词》中的作品往往被称作“一阕词”。尽管《全宋词》中的作品并不属于严格意义上的诗,但为了表达简洁,我们在本文中将之统称为“诗”。
除去由后世编辑所加标点,这九部诗集共包含16,500,000个汉字。[4]表2列出了这九部诗集所分别包含的条目数(items)、字型数(types)以及字例数(tokens)。我们选择统计条目数而非诗歌数,是因为这些诗集中的部分条目并非完整的诗歌。例如在《全唐诗》中,部分条目的标题为《句》而其内容仅包含两三行诗,不易判断是否为完整的作品。表2中的“字型”指诗集中不重复的汉字数,而“字例”指诗集所包含的所有汉字数。在统计中,并未包括需要使用特殊输入法的汉字。此类汉字在我们所选取的诗集中极其少见,尽管忽略这些汉字确实降低了本文数据的精确度。
表2 表1所示诗集之基本数据
我们选用的数字文本尚未达到足够的全面与权威。目前,有不少网络平台提供古籍的电子文本,如WikiSourc[5]、Chinese Text Project[6]、Wenxue[7]、殆知阁[8]。然而,由于我们无法确保这类平台上的电子文本足够精确,故未用作研究样本。[9]
本文将通过表1中的诗集来呈现若干软件的功能。我们将通过一系列案例来讨论将这些软件应用于研究的可能性。然而,也需提醒读者,这些案例的结果同样受制于数字化文集的质量。目前,我们所使用的数字文本尚未达到尽善尽美。
二、基本功能
我们的软件主要有三个基本功能。用户可以检索特定词汇、词语搭配以及诗歌中的特定规则的词汇组合(specifi c patterns of words)。检索特定词汇的位置是最基本的功能。基于词汇检索,我们可以统计词频并提供有助于远读的词频数据分析。我们的软件还能比较同一或不同文集,用以研究词汇、词语搭配以及词汇模式在不同年代间的传承。
(一)词汇、词语搭配、词语索引
图1 杜甫诗中的“白”字用法
(由上至下,图中所引诗句分别出自《全唐诗》卷225第2424页、卷225第2426页、卷225第2426页、卷225第2427页、卷225第2427页、卷225第2428页、卷225第2428页、卷225第2429页、卷225第2430页、卷225第2432页。)
我们的软件最基本的功能是在诗歌中检索特定的汉字。许多纸本书籍亦有类似功能,如词语索引。[10]
图1所列为一些使用了“白”字的唐诗。图1中的每一行均为唐诗节选,且均包含了“白”字前后的汉字,字数上限各为20。在原系统中,研究者能进一步阅读检索结果中的诗歌原文或检索对象(如“白”)所处的语境。若研究者想要研究语境,可以自定义检索窗口的大小,即自定义将检索对象前后的多少个汉字纳入解读范围。
当我们将纸本书内容数字化以后,数字工具能帮助我们探究比汉字检索更为灵活的问题。我们无法列出纸本书中的所有词汇,因为中文词汇无穷无尽。相反,数字具可以高效地统计特定词汇的出现位置。图2所列为包含“白日”一词的部分唐诗。为便于比较,我们在此同样将检索对象(“白日”)作为对齐标准。
图2 白居易诗中“白日”用法
(由上至下,图中所示诗句分别出自《全唐诗》卷432第4774页、卷433第4788页、卷433第4795页、卷434第4801页、卷434第4801页、卷435第4810页、卷435第4810页、卷435第4823页、卷435第4823页、卷438第4861页。)
中国古诗的研究者常会研究构成固定搭配或对仗的词组。与普通的固定搭配相比,对仗词组需遵循更严格的位置、韵律、句法及语义对应。固定搭配及对仗词组均能在诗中塑造特定的意象(imagery),故通过数字工具检索这类词组对研究者颇具意义。
图3列出了《全唐诗》中“白日”与“青山”的搭配或对仗案例。我们在图中将“白日”设为这些诗句的对齐标准(亦可按“青山”对齐),并为方便读者阅读,手动为“青山”加上下方横线。
图3 唐诗中的“白日”与“青山”
(由上至下,图中所示诗句分别出自《全唐诗》卷285第3267页、卷306第3477页、卷378第4244页、卷431第4754页、卷432第4771页、卷515第5887页、卷529第6047页、卷586第6791页、卷589第6833页、卷711第8188页。)
图4 《全唐诗》三十首七绝中“白日”之位置
(由上至下,图中所示诗句分别出自《全唐诗》卷150第1560页、卷871第9876页、卷477第5436页、卷542第6259页、卷538第6138页、卷698第8031页、卷446第5004页、卷858第9702页、卷334第3751页、卷442第4947页、卷804第9052页、卷344第3864页、卷514第5865页、卷587第6812页、卷699第8042页、卷250第2821页、卷574第6688页、卷681第7810页、卷711第8188页、卷450第5079页、卷784第8854页、卷365第4123页、卷477第5439页、卷491第5560页、卷551第6386页、卷574第6683页、卷784第8848页、卷391第4411页、卷511第5837页、卷689第7914页。)
在语言学中,图1及图2中被用作对齐标准的检索字词可称为“词语索引”。这一陈列方式便于研究者对比检索字词所处的不同语境。当需要呈现两个词的搭配关系时(如图3),研究者可以自己选择用以对齐的检索词。
图4以另一种方式呈现了“白日”在唐诗中的用法。图4中的每一行均为一首唐诗,每首诗包含两联诗句,两联之间以句号分隔。[11]我们根据“白日”在诗中的位置对这些诗进行组合排列。图4即是以视觉方式呈现“白日”在这些唐诗中的分布情况。这一信息是普通的词语索引所无法做到的。
(二)定量分析:词频与比例
与细读诗歌原文相比,通过计算机统计特定词汇的出现频率及搭配能使我们从新的角度理解诗歌。如果我们能通过数字工具找到包含了特定字、词及词语搭配的诗歌,我们相应也能统计这些字、词、词组的频率。
在制作图1至图3的过程中,我们发现在《全唐诗》中,“白”共出现8,453次,“白日”共出现698次,在前后20个汉字(包含标点)的范围之内,“白日—青山”共出现18次。[12]
(三)文本比较
我们设计了FindCommon算法以对大量诗歌进行高效比较(图5)。设定共有N部诗集,分别为S1、S2、……SN,每部诗集(Si)均包含一定数量(qi)的诗歌。将特定诗集(Si)中的特定诗歌(如第k首)标注为Pi,k。具体而言,如果仅处理两部诗集(如《全唐诗》《全宋词》),则N=2。若《全唐诗》有50,000个条目,而《全宋词》有20,000个条目,则q1=50000,q2=20000。
FindCommon的基本步骤非常直观(intuitive)。步骤1是标识(identifies)诗集中的汉字。每个汉字都对应一个特定的标识号码,用以指示FindCommon首次遇到(encounter)每个汉字的顺序。这些标识号码并不代表特定汉字在诗歌中的位置。步骤2.1则是根据步骤1所产生的标识号将一首诗中的汉字转译为一组数字。步骤2.2则对两首已被转译为数列的诗歌进行比较。步骤2.3则通过“筛选条件”(F)及“输出形式”(O)这两项设定生成比对报告。
图5 比较诗歌所用之算法
我们可以通过该算法比对不同诗歌中相同的汉字、词语及词语搭配。FindCommon还能使研究者调整筛选条件,根据他们的研究需要细化他们对于相似度的要求。“输出形式”设定则使研究者可以根据他们的研究视角呈现比对结果,我们将在下文对此作介绍。
我们将通过一个案例来解释FindCommon的主要步骤。假设我们仅有《全唐诗》与《全宋词》两部诗集,分别为S1与S2。我们进一步假设《全唐诗》仅包含两个条目,而《全宋词》仅包含一个条目。《全唐诗》所包含的是刘禹锡(772—842)的以下两首诗:
P1,1:[13]
山围故国周遭在
潮打空城寂寞回
淮水东边旧时月
夜深还过女墙来
P1,2:[14]
朱雀桥边野草花
乌衣巷口夕阳斜
旧时王谢堂前燕
飞入寻常百姓家
《全宋词》所包含的则是周邦彦(1056—1121)的以下这首作品:
P2,1:[15]
佳丽地
南朝盛事谁记
山围故国绕清江
髻鬟对起
怒涛寂寞打孤城
风樯遥度天际
断崖树
犹倒倚
莫愁艇子曾系
空余旧迹郁苍苍
雾沉半垒
夜深月过女墙来
伤心东望淮水
酒旗戏鼓甚处市
想依稀王谢邻里
燕子不知何世
入寻常巷陌人家
相对如说兴亡
斜阳里
首先,列出数据库中所有诗中的不同汉字,生成序列V。为便于查询,序列V中的所有汉字均有索引号,为比较不同诗歌的基础。就以上三首诗而言,序列V会如下陈列所有汉字及其索引号:{山:0,围:1,故:2,……,月:20,夜:21,深:22,还:23,过:24,女:25,墙:26,来:27,……}。为了便于比较在这三首诗中重复出现的汉字,将索引细化至每一个汉字。
该序列所呈现的是FindCommon算法首次遇到每个汉字的顺序,而非这些汉字在诗歌中的位置。每个汉字仅会在序列V中出现一次,即使这个字在多首诗歌中出现。
通过步骤2.1,将每首诗转译为一组数字。我们会根据序列V中的索引号转译每个汉字。在本案例中,诗歌P1,1被转译为I1,1(0,1,2,……,27)。诗歌P2,1中的“夜深月过女墙来”则会被转译为“21,22,20,24,25,26,27”(索引I2,1)(注:数字23所对应的汉字为“还”,并不在该诗句中,而被编号20的“月”取代了)。
在步骤2.2中,可以通过比较两首诗(Px与Py)的索引号序列来寻找重合的字。通过数字软件比对索引号序列比直接比对汉字更为高效。第一首诗(PX)中所包含的由两首诗共有汉字所组成的字符串输出为CX,而第二首诗(PY)所包含的由两首诗共有汉字所组成的字符串输出为CY。由于在两首诗中,共有汉字的出现顺序并不相同,CX与CY并不完全一致。在比较了两首诗的索引序列后,我们发现“月”“夜深”“过女墙来”同时出现在了P1,1与P2,1中。需要注意的是,P2,1并不包含“还”,所以C1,1为{……,月,夜深,过女墙来}。C1,1所记录的是由P1,1与P2,1共有汉字所组成的P1,1中的字符串。相应地,P2,1“夜深月过女墙来”一句中的每个字均出现在了P1,1中。C2,1所记录的是由P1,1与P2,1共有汉字所组成的P2,1中的字符串,故C2,1显示为{……,夜深月过女墙来,……}。
在步骤2.3中,筛选在最终报告中出现的字符串。如果研究者对单字(unigram)并不感兴趣,如本例中的“月”字,则可以通过设定筛选条件移除低于预设值的字符串。
上述案例是非常典型的从多个来源提取并整合多个词汇的诗作。在本案例中,基于对比视角的不同,所生成的重合字词的字串也会不同,如C1,1与C1,2便有所不同。可以通过设定输出形式(图5中的R)来决定所生成的字串。视角的选择会在很大程度上影响输出结果。例如,比较P1,2与P2,1时,C1,2与C2,1会分别包含“阳斜”与“斜阳”。它们所对应的原诗句分别为P1,2中的“乌衣巷口夕阳斜”与P2,1中的“斜阳里”。
总而言之,如果以P2,1为基准输出P1,1与P2,1共有汉字所组成的字符串(包括单字),则结果为{山围故国,寂寞打,城,空,旧,夜深月过女墙来,东,淮水}。若以P2,1为基准输出P1,2与P2,1共有汉字所组成的字符串,则结果为{旧,王谢,燕,入寻常巷,家,斜阳}。
通过比较S1(《全唐诗》)与S2(《全宋词》),列出以下所有与P2,1有重叠的字符串。以下比对结果不仅注明了共有词汇,还注明了诗歌的作者及编号。比对结果呈现为由“|||”间隔开的三栏。我们将P2,1放在最左栏,因为最右栏的字串是以P2,1为基准生成的。
Zhou-Ban-Yan_P2,1 ||| Liu-Yu-Xi_P1,1 ||| [山围故国,寂寞打,城,空,旧,夜深月过女墙来,东,淮水]
Zhou-Ban-Yan_P2,1 ||| Liu-Yu-Xi_P1,2 ||| [旧,王谢,燕,家,入寻常巷,斜阳]
研究者可以通过不同的视角来对比不同诗歌所共有的词汇。尽管P2,1包含“夜深月过女墙来”一句,该字符串实则包括了P1,1中的三个更短的字符串:“月”“夜深”“过女墙来”。研究者可以通过设定FindCommon算法中的R选择按照以下哪种方式排列共有词汇:
Zhou-Ban-Yan_P2,1 ||| Liu-Yu-Xi_P1,1 ||| [山围故国,寂寞打,城,空,旧,夜深月过女墙来,东,淮水]
Liu-Yu-Xi_P1,1 ||| Zhou-Ban-Yan_P2,1 ||| [山围故国,打空城寂寞,淮水东,旧,月,夜深,过女墙来]
以上案例呈现了一种典型的诗歌创作方式,即从多个出处提取词汇并将之整合于一首新诗中。[16]周邦彦的诗P2,1实则还借鉴了谢眺(464—499)的作品及一首匿名乐府诗。[17]本文并不提及这些诗歌,因为他们并不在《全唐诗》与《全宋词》中。
FindCommon所直接输出的文本形式并不易读。我们可以用特定颜色标识共有词汇,以方便研究者阅读。图6所示即为一种处理方法。P1,1或P1,2中与P2,1重叠的字词标为红色。P2,1与P1,2所共有的词汇标为蓝色。P2,1与P1,2共有的词汇标为橙色。在所有诗歌中均出现的词汇标为绿色。为了方便黑白打印输出,我们也在图6中为有颜色标识的字词加了下划线。
图6 FindCommon算法结果案例
三、应用
以上述基本功能为基础,可以设计不同的工具以帮助研究者从不同的角度研究古典诗歌。这些视角包括词汇、诗人、诗作、年代或这些要素的集合。本节将呈现这些工具及其用途。
(一) 基本数据
我们可以对数字化的诗歌语料库进行前文所提及的基本搜索与比较。除了检索特定字词及词语搭配的出现语境和频次,还可以对特定信息的出现频次进行检索、计算、比较。例如,我们发现《全唐诗》包含了大约2,500位诗人,而《全宋词》包含了大约1,300位诗人。图7与图8分别呈现了《全唐诗》及《全宋词》中作品条目最多的50位诗人的相关数据。
图7 《全唐诗》中作品条目最多的50位诗人
图8 《全宋词》中作品条目最多的50位作者
在《全宋词》中,不仅可以检索诗人的名字,还能检索词牌名。图9所示为《全宋词》中出现频次最高的50个词牌名。如图所示,这些数据差异很大。我们的软件还能检索诗歌中的词频。图10及图11所示即《全唐诗》及《全宋词》中出现频次最高的50个双字词。
图9 《全宋词》中出现频次最高的50个词牌名
图10 《全唐诗》中50个频次最高的双字词
图11 《全宋词》中50个频次最高的双字词
通过比较图10及图11中频次最高的词,研究者可以考察“风”字在《全唐诗》及《全宋词》中的不同用法。在《全唐诗》中,“春风”与“秋风”属于出现频次位居前50的双字词。在《全宋词》中,“东风”与“西风”属于频次位居前50的双字词,而“东风”为出现频次最高的词。从唐至宋,“东风”与“西风”使用频率的提高值得研究者深思。在这个案例中,数字工具能帮助研究者更方便地考察《全唐诗》及《全宋词》中与“风”相关的词汇。
表3 10个含“风”双字词在《全唐诗》及《全宋词》中的词频及比例
表3所示为10个带“风”字的双字词的相关数据。第二及第四行所显示的分别是这些词在《全唐诗》及《全宋词》中的词频。《全唐诗》与《全宋词》中词频最高者分别为“春风”与“东风”,各出现了1,128次与1,360次。如表3所示,我们还可以将词频除以每部诗集中的总条目数,从而得出一部诗集中有多少比例的诗歌使用了特定的词汇。在《全唐诗》中,2.63%的诗作包含了“春风”一词。《全宋词》中,7.01%的诗作包含了“东风”一词。
如果对《全唐诗》及《全宋词》中的用词比例作比较,会发现“东风”“西风”“春风”在《全宋词》中的出现比例更高。尽管“秋风”在《全宋词》中的词频有所降低,《全唐诗》及《全宋词》中包含“秋风”一词的条目比例依然相近。值得注意的是,尽管《全宋词》中包含“春风”一词的总条目数少于《全唐诗》中包含“春风”的总条目数,《全宋词》中含“春风”词作的出现比例实则高于《全唐诗》中含“春风”诗作的出现比例。“夏风”与“冬风”在《全唐诗》与《全宋词》中均极少出现。
表3的数据还说明,“夏风”与“冬风”或许更常被表述为“暖风”与“寒风”,如“暖风花绕树,秋雨草沿城”。[18]“夏风”与“冬风”极为少见,而“暖风”与“寒风”反倒常见。进一步的研究可以验证“夏风”与“冬风”是否适用于“暖风”与“寒风”所出现的语境。
(二) 词语位置
词汇在诗歌中的位置会影响诗歌所塑造的整体意象,如电影存在场景顺序一般。我们可以用定量的方法研究图4呈现的词语位置信息。在图4中,“白日”两次出现在诗句的句首,四次出现在诗句的句尾。同时,“白日”曾三次出现在七言诗句第五个字开始的位置,如“堪锁千年白日长”一句。[19]
表4以另一种方式总结了“白日”在四类唐诗中的出现位置。表4的第一行指示“白日”出现在了一首诗的第几句诗中。我们用“5_JUE”“5_LU”“7_JUE”“7_LU”分别指称“五言绝句”“五言律诗”“七言绝句”“七言律诗”。表4第一行中的数字代表一首诗中特定序位上的诗句(如“2”代表第二句诗)。在该表中,五言绝句与七言绝句仅包含了前四句的数据。
表4的上半部分呈现了“白日”一词在五绝、五律、七绝、七律中的出现次数。“七绝”一行的数据源自图4中的七绝诗;如图4所示,在《全唐诗》的七绝诗中,“白日”在第二句诗的位置共出现了9次。该表其他栏的数据对应《全唐诗》中其他类型的诗歌。
表4 “白日”在《全唐诗》四类诗歌中的位置
以表4上半部分的数据为基础,该表的下半部分指示“白日”一词在五绝、五律、七绝、七律不同位置的诗句中的出现比例。我们将“白日”在某类诗歌特定诗句的出现次数除以“白日”在该类诗歌中出现的总次数,从而得到这一比例。例如,在五言绝句中“白日”在第一句诗中出现的比例为5/13≈38.46%。由于按整数呈现数据,故每一行比例数据相加并不一定等于100%。
表4显示,“白日”一词往往出现在诗歌的前半部分,即五绝与七绝的前两句或五律与七律的前四句。在五绝、五律、七绝、七律中,“白日”出现于诗歌前半部分的比例分别为69.3%、63.8%、56.7%、55.7%。[20]具体言之,在五律与七律中,“白日”更常出现于诗歌的第二联,即第三句与第四句中。[21]
(三) 颜色与意象
诗歌中的颜色正如电影中的声道一般:它们都能起到生成意象与铺垫情绪的作用。当统计《全唐诗》中出现频次最高的单字词时,我们发现“白”是最常使用的表示颜色的词。[22]以此为线索,我们进一步研究了该现象产生的原因。[23]
我们可以锁定一系列以“白”为首的词,并统计《全唐诗》中的特定诗人在其多大比例的作品中使用了这些词。表5所示为13位著名诗人的数据;该表分为两大部分。表5的“频次”(Freq.)一栏列出了在13位诗人的作品中出现10次以上的“白”字词的具体出现次数。表中的比例指示特定的诗人以多高的频率使用“白”字词;标红及标蓝的数字则指示特定诗人使用频率最高的“白”字词。[24]
在表5的比率(ratio)一栏中,比率A指使用“白”字词的诗歌占某位诗人所有诗作的比率。在“李白”(701—762)一列中,该比率为“频率”栏下所有数据的总和,即46.65=6.92+2.34+……+0.89。表5的数据显示,李白比其他诗人更喜欢用“白”字词。比率B指某位诗人使用表中标蓝并加粗词的比率:这些词分别为白发、白头、白首、白须、白骨、白髭。就“李白”一列而言,这六个词所对应的数据分别为2.34、0.67、1.56、0.11、1.23、0.00。这六个词往往出现在情绪基调悲观的诗作中。
通过比率B,能大致了解不同诗人主要关注的主题。表中孟浩然(689—740)、李商隐(812?—858?)、温庭筠(812—870)的比率B数据均低于2%。相反,杜甫(712—770)与白居易(772—846)的比率B数据则均高于7%。根据传统观点,孟浩然属于田园诗派,而李商隐与温庭筠的诗作往往被认为能塑造“唯美秾丽的意境”。[25]与此相反,杜甫与白居易则往往被视为对社会深怀忧思的诗人。
表5 《全唐诗》13位诗人作品中的“白”字词
我们还发现,“红”是《全宋词》中使用频率最高的颜色词。包含“红”的词,如“红尘”“残红”“红妆”“红袖”,常用以隐射艰难的目标或转瞬即逝的事物。因此,“红”在《全宋词》中的使用频率某个程度上反映了宋代诗人的社会地位。[26]
以下王安国(1028—1074)词作中的“残红”便意指时间的流逝。[27]
留春不住
费尽莺儿语
满地残红宫锦污
昨夜南园风雨
小怜初上琵琶[28]
晓来思绕天涯
不肯画堂朱户
春风自在杨花
除了研究诗集中最常使用的颜色词外,[29]我们还可以研究对仗诗句中成对出现的颜色词。在下面的两个案例中,白居易便用“白”与“红”塑造了缤纷的景象(表6列出了其他诗人作品中更多的例子):[30]
引手攀红樱
红樱落似霰
仰首看白日
白日走如箭
又:
君不见南山悠悠多白云
又不见西京浩浩唯红尘
表6 《全唐诗》对仗诗句中的颜色对应
(四)社会网络分析
诗人往往在其诗作的标题与内容中提及他们的朋友或其他人名。因此,可以通过关联人名来分析诗人之间的社会网络,[31]这些有关诗人社交网络的信息可以丰富如CBDB这样的数据库。我们还能探究相互指称的诗人是否会在诗歌选词与风格上类似。
在《全唐诗》中,李白曾如此在作品中指称自己:“李白乘舟将欲行,忽闻岸上踏歌声”[32]以及“虽为李白妇,何异太常妻”。[33]至少有8位诗人在15首诗歌中提及李白,其中有7首为杜甫所作。类似地,罗隐(833—909?)也曾在其作品中提及杜甫,如“杜甫诗中韦曲花,至今无赖尚豪家”。[34]
自然,在诗作中提及其他诗人的名字并不一定意味着诗人之间有交往。例如,《长沙过贾谊宅》一诗的标题并不说明其作者刘长卿(726?—790?)与贾谊有私交,因为贾谊在公元前168年以前便已逝世,而刘长卿生于8世纪前叶。[35]相应地,尽管罗隐在“洛阳贾谊自无命,少陵杜甫兼有文”一句中提及贾谊,这也并不意味着罗隐认识贾谊。[36]我们所能推断的则是罗隐在创作这首诗时,或许拜访了与贾谊有关的纪念或贾谊的故居。因此,两者之间的联系是纪念性(commemorative)或文学(literary)的,而非具体的社交关系。
我们还可以结合CBDB中诗人的传记信息来扩大针对人名的检索。例如,通过结合字、号信息,可以发现皮日休(834?—883?)曾经在两首诗的标题中提及陆龟蒙(?—881?)的字“鲁望”,如《初夏即事寄鲁望》[37]与《奉和鲁望白鸥诗》。[38]白居易则时常在其作品(如“早闻元九咏君诗”)或标题(如《蓝桥驿见元九诗》)中对元稹以“元九”相称。[39]
在诗作中发现诗人互称较为容易,但判断直接的交往关系则须谨慎。例如,“李白桃红满城郭”中的“李白”并不指诗人李白,而是指白色的李树花;“开元九年燕公说”中的“元九”也并非是指元稹。[40]诗人高骈(821—887),字“千里”,而“千里”在诗歌中十分常见,因此诗歌中所提及的“千里”自然并非处处皆指高骈。
我们可以通过启发式算法(heuristics)将非人名类字串筛选掉,如仅在某位诗人同时提及另一位诗人的全名时识别该诗人的别名,但设置这样的筛选机制也会筛选掉一些确实指涉诗人别名的字串。[41]筛选机制的质量也会影响结果的准确性与召回(recall rate)。
图12 盛唐时期诗人的社交网络(引自罗国峰《〈全唐詩〉的初步分析》)
如图12所示,我们还能通过视觉化技术呈现特定年代的诗人间的社交网络。图中箭头代表某位诗人曾提及箭头所指的另一位诗人,而箭头的宽度则显示了相互指称的次数(箭头越粗,指称次数越多)。在CBDB项目中,历史学家已在录入数据前,根据《唐五代人交往诗索引》确认诗人之间的交往关系。[42]
(五)对于诗人的比较
在文体学领域,研究诗人的选词偏好与创新是一个热议的方向。蒋绍愚曾对李白与杜甫对于“风”及“月”的运用作过比较。[43]以这样的对比为基础,蒋氏再对相关的诗作内容作具体分析,并解析李白与杜甫对于“风”与“月”的不同用法。
识别与“风”“月”有关的词汇并统计它们在不同诗作中的词频能启发我们从新的角度解读李白与杜甫的不同。[44]表7所示为李白与杜甫最常使用的“风”字用法。对比表中的数据时,需注意《全唐诗》中杜甫的总作品数高于李白。这些数据显示,李白比杜甫更常使用“风”。表7还列出了李白与杜甫各自最常用的五个词。这些词反映出两位诗人对于“风”的运用略有不同。
表8列出了李白与杜甫诗作中出现频次最高的“月”字词。“月”是一个意义模糊的字,因为它既可以表示月亮,也可以表示月份。不难发现,杜甫在诗作中比李白更常使用“月份”这一意涵。与之相反,该表说明了李白为何会以其诗作中的月亮意象闻名:他会在诗作中以更多样、更精彩的方式使用“月”字词。
表8 《全唐诗》李白(上表)及杜甫(下表)作品中的“月”字用法
这类比较李白与杜甫对于“风”“月”运用的研究还可以进一步拓展。表9所示为四位诗人作品中的高频双字词。这四位诗人分别为李商隐、李白、杜牧、杜甫。这些双字词颇具特色,因为它们都是“春”或“秋”与另一个字的组合,且均与春秋这两个季节有关。[45]例如,在“李商隐”(LSY)一列下的“春风;秋风”一行中,数据“14;2”指李商隐的作品中“春风”共出现14次,而“秋风”出现2次。
表9的数据显示了诗人们的不同选词偏好。当然,表9所用样本有限,故我们还需要通过细读来得出更精确的结论。尽管存在这样的局限,我们依然可以通过不同的角度对这些诗人进行比较。“春风”与“秋风”是所有诗人最常使用的词。[46]相反,没有一位诗人使用“春月”,而唯有李白与杜甫曾使用过“秋月”。就个人偏好而言,李白诗作中的“春风”使用次数是“秋风”的三倍。李商隐对于“春风”的偏好与李白类似,而杜甫则更常使用“秋风”。[47]
表9 特定双字词在四位诗人作品中的词频
(LSY:李商隐;LB:李白;DM:杜牧;DF:杜甫)
数据为0的栏目反映了显著的个人偏好。例如,李白不使用“春雨”或“春来”,但他会使用“秋雨”与“秋来”。杜牧的独特之处在于他不使用“春天”或“秋天”。
(六)对于诗作的比较
通过前文所提及的FindCommon算法,我们能比较诗歌并发现诗歌间的多种联系。[48]诗人有时会直接借用在其他作品中出现过的诗句。[49]在《全宋词》中,贺铸(1052—1125)借用过杜牧被收入《全唐诗》的两句诗(加粗标示):
杜牧:[50]
清时有味是无能
闲爱孤云静爱僧
欲把一麾江海去
乐游原上望昭陵
贺铸:[51]
闲爱孤云静爱僧
得良朋
清时有味是无能
矫聋丞[52]
况复早年豪纵过
病婴仍
如今痴钝似寒蝇
醉懵腾
在另一首诗中,贺铸借用了李商隐诗中的一些词并进行了重新组合:
李商隐:[53]
为有云屏无限娇
凤城寒尽怕春宵
无端嫁得金龟婿
辜负香衾事早朝
贺铸:[54]
章台游冶金龟婿
归来犹带醺醺醉
花漏怯春宵
云屏无限娇
绛纱灯影背
玉枕钗声碎
不待宿酲销
马嘶催早朝
以下例子中,贺铸一首词中的用词与三位诗人有重合,分别为张籍(766?—830?)、许浑(788?—858)、崔塗(约888年前后)。在初步研究中,我们无法判定贺铸是有意借用了后三位诗人的用词还是四者从同一套诗歌语汇汲取灵感。但无论如何,这些材料能帮助研究者从新角度更仔细地研究诗歌。
张籍:[55]
青山历历水悠悠
今日相逢明日秋
系马城边杨柳树
为君沽酒暂淹留
许浑:[56]
红花半落燕于飞
同客长安今独归
一纸乡书报兄弟
还家羞著别时衣
崔塗:[57]
海棠花底三年客
不见海棠花盛开
却向江南看图画
始惭虚到蜀城来
贺铸:[58]
排办张灯春事早
十二都门
物色宜新晓
金犊车轻玉骢小
拂头杨柳穿弛道
篿羮鲈鲙非吾好
去国讴吟
半落江南调
满眼青山恨西照
长安不见令人老
贺铸并非唯一一位在用词上与《全唐诗》有重叠的诗人。FindCommon算法显示辛弃疾(1140—1207)与文丙(唐)在用词上也有重叠。
文丙:[59]
可怜同百草
况负雪霜姿
歌舞地不尚
岁寒人自移
阶除添冷淡
毫末入思惟
尽道生云洞
谁知路崄巘
辛弃疾:[60]
暗香横路雪垂垂
晚风吹
晓风吹
花意争春
先出岁寒枝
毕竟一年春事了
缘太早
却成迟
未应全是雪霜姿
欲开时
未开时
粉面朱唇
一半点胭脂
醉里谤花花莫恨
浑冷淡
有谁知
我们还可以对《全唐诗》中的诗歌进行比较。通过对比,我们发现了用《全唐诗》研究唐代诗歌的一些局限性。我们的算法能识别列于不同诗人名下的相似的诗歌。这样的检索反映出《全唐诗》编纂者所面临的一些问题。[61]例如,在《全唐诗》中,以下两首诗分别列于卢纶(737?—799?)与卢尚书名下且标题不同。然而,除了两个字不同外(加粗标示),这两首诗内容完全相同:
卢纶:[62]
夕照临窗起暗尘
青松绕殿不知春
君看白发诵经者
半是宫中歌舞人
卢尚书:[63]
夕照纱窗起暗尘
青松绕殿不知春
君看白首诵经者
半是宫中歌舞人
根据卢纶的传记信息,他曾在户部担任尚书。因此,上述卢尚书很可能是卢纶,而《全唐诗》的编纂者不小心将同一首诗重复归名于他的两个称谓之下。在一些早期的文集如11世纪晚期的《唐语林》中,文集编纂者或许曾将这首诗归于卢尚书名下。在更晚期的文集中,编纂者才开始将这首诗归名于卢纶,从而造成了重复冠名的现象。[64]我们的软件可以发现这类问题,以待文学研究者进一步探究。
以下是《全唐诗》中另外两组作者可能相同的诗歌。在下面这组诗中,两首诗内容相似,标题不同但又关联(分别为《别佳人》《别妻》)。这两首诗的作者崔膺(8世纪中后期)与崔涯(9世纪前叶)虽然不同,但姓名发音十分相似。诗中不同“垅”“陇”二字,其发音与字形也非常相似。
崔膺:[65]
垅上流泉垅下分
断肠呜咽不堪闻
嫦娥一入月中去
巫峡千秋空白云
崔涯:[66]
陇上泉流陇下分
下面这两首罗隐与卢殷(746—810)的诗仅差两个字。两首诗标题均为《遇边使》,而两位作者姓名的发音也十分相似。
卢殷:[67]
累年无的信
每年梦边城
袖掩千行泪
书封一尺情
罗隐:[68]
累年无的信
每夜望边城
袖掩千行泪
书封一尺金
结合数字方法以外的考证研究,我们核实该诗的作者应为卢殷。结合相关的历史资料,我们发现这首诗曾被收入由令狐楚(766—837)在9世纪早期所编的诗集《御览诗》中。在该诗集完成至少13年后,罗隐才出世。因此,有可能是《全唐诗》的编者或他们所引用的文集误将这首诗归名于罗隐。[69]
以下两首《全唐诗》中的诗作仅差一个字。两首诗的标题均为《归桐庐旧居寄严长史》,而其作者分别为章八元与朱放。在纸本的《全唐诗》中,我们核实原诗中确实存在“夫”“天”二字的差异,亦即“夫子”“天子”二词的差异。这个案例让我们注意到了另一类与作者冠名相关的问题。
章八元:[70]
昨辞夫子棹归舟
家在桐庐忆旧丘
三月暖时花竞发
两溪分处水争流
近闻江老传乡语
遥见家山减旅愁
或在醉中逢夜雪
怀贤应向剡川游
朱放:[71]
昨辞天子棹归舟
我们需要结合传统考证方法与其他史料才能判断真正的作者。诗歌标题中的“严长史”应指严维(8世纪中叶),而唯有章八元与之相识。再者,章八元生于桐庐,故更有可能会用“旧丘”一词。此外,在更早的文集如《文苑英华》与《唐诗纪事》中,这首诗均被归名于章八元。[72]因此这首诗的作者更有可能是章八元。我们的数字软件可以发现这类问题,但需要结合文献学方法才能解决这样的问题。
以下几首诗反映了另一类研究难题。这些诗的作者分别是戴叔伦(732—789)、清江(8世纪晚期)、可止(860—934)。其中,戴叔伦最年长,而可止至少在清江逝世后50年才出生。清江与可止诗作的标题均为《精舍遇雨》,且内容完全一样。戴叔伦的标题则为《精舍对雨》。此外,清江、可止的诗与戴叔伦的诗仅差两个字。[73]然而,由于我们很难通过诗的内容与标题寻找有关作者的线索,目前很难判断这首诗的作者是谁。
戴叔伦:[74]
空门寂寂澹吾身
溪雨微微洗客尘
卧向白云晴未尽
任他黄鸟醉芳春
清江、可止:[75]
空门寂寂淡吾身
溪雨微微洗客尘
卧向白云情未尽
任他黄鸟醉芳春
通过比较《全唐诗》与《全宋词》中的所有作品,可以检索并发现诗歌间更多的联系。值得注意的是,《全唐诗》中共有42,863项条目,而《全宋词》中共有19,394项条目(参见表2)。即使仅从两个视角任选两组诗进行比较,也需通FindCommon算法进行1,900,000,000次计算,才能对两部诗集进行完整的比较。[76]尽管可以在个人电脑上完成这样的计算,但这对计算机造成的负荷依然较大。本文的第一作者曾在其他文章中讨论过这些技术细节。[77]
(七)时域分析(temporal analysis):齐夫定律及其他
许多研究者都曾对中、英文学作品作过齐夫分布(Zipfi an Distribution)分析,如胡进锟与Kuo Wei-Cheng的研究。[78]由于我们所使用的诗集时间跨度在两千年以上,研究并比较这些诗集的齐夫分布颇具意义。[79]我们主要根据以下典型的齐夫定律(Zipf's Law)公式来制作图表:[80]
其中,w、f(w)、r(w)分别代表特定的词、其词频及其词频排序。一部诗集中出现频次最高的词,其序位便是1。N代表诗集的汉字总数,而k与a为常数。
我们可以对表1所有诗集中的所有字进行字频统计。我们将出现频次最高的字标为1,将第二高的标为2,以此类推。在统计了所有字的字频及排序后,我们便可以进行齐夫分布分析。
图13所示为表1九部诗集的齐夫分布曲线。尽管这九部诗集的时间跨度在两千年以上,图中所示曲线却极为相似。仅通过图示,我们便能发现《诗经》《楚辞》、汉赋的曲线与其他六条曲线不同,后六者十分接近。通过计算不同曲线间的log(f/N)值平均方差或关联系数,我们可以得出与上述图像观察相同的结论。[81]
图13 《诗经》(SJ)、《楚辞》(CV)、汉赋(HF)的齐夫分布曲线与表一中其他六部诗集之曲线并不吻合
尽管同一首诗可能会出现在多部诗集中,这些重复出现的情况并不会对曲线的分布产生很大的影响。以《全唐诗》《全宋词》《全宋诗》为例,这三部诗集中词频排序位列1000的字出现次数不超过500、2,000、250。除非重复出现于多部诗集中的诗歌都使用了同一个汉字,从而数以百计地提高了该字的字频,否则诗歌的重复出现并不会严重影响字频的排序。不少学者都曾讨论过这一现象。[82]
针对图13中曲线重叠的六部诗集,我们在表10中列出了每部诗集中出现频次最高的10个字。这六部诗集所生成的高频字十分相似。尽管理论上我们可以在该表中列出60个字,实际统计结果仅涉及16个不同的字。[83]事实上,我们可以比较任意两部诗集中的高频词来探究它们的相似性,如比较《全唐诗》与《全宋诗》。[84]我们发现,《全唐诗》与《全宋诗》中出现频率最高的1,700个字是相同的,尽管这些字在两部诗集中的字频排序各不相同。
表10 历代诗词中频次最高的十个字
表11所示为《全唐诗》与《全宋诗》的四类诗歌中出现频次最高的10个双字词。该表中理论上会出现80个双字词,但实际仅统计得29个词。其中,“不知”“何处”“春风”三个词在表11所示的八类诗歌中均有出现。
表11 历代诗词中频次最高的十个双字词
(八)时域分析:词汇史
由于所研究的诗集横跨不同的年代,还可以对词汇史进行研究。[85]我们可以观察特定字词在不同年代诗歌中的消长,也能研究特定字词会出现的语境,从而探究其意涵是否随时间而变化。
我们按以下公式统计特定的双字词β在诗集C中的出现比例(occurring portion):[86]
在计算过程中,我们将β乘以2,因为β每次出现都涉及两个字。图14中的两张图表显示了两组词在不同年代诗集中的比例变化。在横轴上,我们根据年代顺序排列诗集。在竖轴上,我们从表11中选择了一些词并呈现了这些词在不同诗集中的出现比例。从唐前期至《全唐诗》再至《全宋词》与《全宋诗》,图(a)所选词的出现比例呈持续上升的趋势。图(b)则反映《全宋词》在用词上比较特殊。在《全宋词》中,有六个词的出现比例高于它们在《全唐诗》与《全宋诗》中的出现比例。“不可”“白云”二词在《全宋词》中的出现比例则远低于它们在其他诗集中的出现比例。
图14 特定词在不同诗集中之比例
结合CBDB中诗人的生卒年信息,我们制作了图15,以呈现哪些诗人使用了上述词组。图15的横轴显示了唐、宋之年份,而带人名的长方形的宽度代表着特定诗人在世的时间。[87]在绘制图15时,我们用《全唐诗》来探究唐代,用《全宋词》及《全宋诗》来探究宋代。该图未包括生卒年不明的诗人,故在信息上并不完整。该表由上至下被分为四个部分,分别对应并指示“红颜”“玄发”“空门”“惺忪”四个词的使用情况。
图15所示的界面比传统的词典提供了更多有用的信息。首先,该图使我们得以对字词史进行远读,并统计诗人对于特定字词的使用。尽管《全唐诗》所涉及的总诗人数比《全宋词》与《全宋诗》少,《全唐诗》中有更多的诗人使用“空门”一词,这是一个值得深究的问题。不难发现,“惺忪”一词很可能是晏殊(991—1055)在宋代的首创。[88]如果将研究范围扩大至《楚辞》,则还能发现“抱璞”这一用词的起源。[89]
图15 “红颜”“玄发”“空门”“惺忪”在《全唐诗》《全宋词》《全宋诗》中的使用情况
其次,软件开发者还能增加图中的功能以辅助细读,如进行体例比较等。研究者能点击人名查阅使用了特定字词(如“红颜”)的具体诗歌。由于横轴提供了年代信息,我们可以研究特定年代(如盛唐或南宋时期)的诗人如何使用“红颜”一词。通过更高级的技术如词嵌入,我们还能自动将使用了特定词语的诗歌选取出来并研究其意涵是否发生了变化。[90]此外,这一工具还能辅助中文学习,因为诗歌可以帮助中文学习者了解特定词语的用法。
结语
目前有许多对于中国古典诗歌的研究,且并不局限于文学和语言学领域。在文学领域中,已有不少研究用到了本文所提及的一些应用软件。[91]刘殿爵及其团队曾为《楚辞》与谢眺的作品中的汉字编纂索引;[92]赖宜欣对李商隐五律诗中的词汇(包括有关颜色的词汇)进行过详细研究。[93]我们自然也可以专门对诗歌中与鸟类、动物或植物相关的词进行研究,[94]姚圭研究过唐代两位诗人间的交诗,而这一针对社会网络的研究方向值得进一步探索。[95]王伟勇多年致力于对唐诗与宋词进行比较。[96]研究中英文诗歌中的重复现象也有意义。[97]上述胡、郭二人对于中国文学作品的齐夫分布分析正是一例。[98]尽管过去也能研究自汉至唐的诗歌中与鸟有关的词汇,[99]在数字时代进行这样的长时段分析会更高效,也能使我们有更多时间去深入研究相关作品。
“大数据”对于研究古典诗歌很有助益。积累更多古典诗歌的数字文本十分重要。如果我们将分散于不同数据库中诗人与诗歌的数据整合起来,数字工具能大大拓宽我们的研究视野。例如,《全唐文》或许包括了唐代诗人的交往信息。我们也可以结合CBDB这样的数据库获取诗人的传记信息,从而更好地理解诗人的经历与诗作。整合特定类别的诗歌,如有关僧侣或佛教徒的诗,对于研究中国文学与文化亦很重要。[100]
当然,数字研究也有许多有待提升之处。开发数字工具仅是完成研究计划的第一步。本文的一个局限性就是使用的可靠数据量有限。虽然尽力确保数据来源可靠,也确实提供了一些通过数字工具进行研究的新方向。然而,我们所使用的数据并非全然精确。此外,我们仍需拓宽古典诗歌的数字化范围。例如,尽管《全唐诗》是一部有代表性的唐代诗集,但它并未涵盖所有的唐代诗歌。若想更多了解杜甫这样的诗人,还需从《全唐诗补编》中收集更多杜甫的作品。[101]
图16 《全唐诗》杜甫五律及七律中“春风”“秋风”之位置
(由上至下,图中所示诗句分别出自《全唐诗》卷234第2581页、卷228第2475页、卷229第2493页、卷225第2422页、卷227第2469页、卷225第2423页、卷224第2396页、卷225第2409页、卷228第2473页、卷225第2426页、卷225第2419页、卷225第2422页、卷229第2489页、卷230第2520页、卷231第2549页、卷230第2523页、卷228第2483页、卷222第2369页、卷227第2467页、卷227第2458页。)
收集更多的原始数据自然非常关键,但这还远远不够。本文所提及的案例主要关注诗歌中的汉字与常见的双字词。由于本文所用语料库尚未分割到词(segmented into words),这限制了我们所能开展的研究。虽然可以通过细读解决某些研究缺憾,但仍需将语料库进一步分割。[102]此外,若数字文本能同时包含发音、词性、语法等注释,则将大大拓宽研究的可能性。[103]
我们应尽可能地开发足够灵活的工具,以方便研究者使用。104图16列出了20首出自《全唐诗》的杜甫诗,为使用了“春风”或“秋风”的五律与七律诗。该图根据“春风”“秋风”二词的出现顺序及诗歌类型对这些作品进行排序。该图显示,“秋风”比“春风”更有可能在杜甫律诗的前半部分出现。这一词语位置特征是否说明了杜甫对于春风与秋风的不同观感?本文之所以能呈现图16所示的现象,在于结合使用了上述软件及功能。
Exploring Classical Chinese Poetry with DigitalAssistance: Examples from Linguistic, Literary, and Historical Viewpoints
Liu Zhaolin,Thomas J. Mazanec, Jeffery R. Tharsen
Keywords: Collocation; Word Pattern; TemporalAnalysis; Social Networks; Stylometry
编 辑 | 王波
向上滑动 查看注释:
[1]有关该数据库的使用方法,参见:Michael A. Fuller, The China Biographical Database User’s Guide, Harvard University, 2015,
https://projects.iq.harvard.edu/files/cbdb/files/cbdb_users_guide.pdf。
CBDB数据库网址:
http://projects.iq.harvard.edu/cbdb/home。
[2]Hu Junfeng, Yu Shiwen,“The Computer Aided Research Work of Chinese Ancient Poems,” ACTA Scientiarum Naturalium Universitatis Pekinensis, vol. 37, no.5, 2001, pp. 725-733; 罗凤珠:《试论引用资讯科技作为诗学研究辅助工具的发展方向与建构方法》,罗凤珠主编:《语言、文学与信息》,台湾新竹:清华大学出版社, 2004年,第 319—363页。
[3]朱则杰:《〈全清诗〉编纂筹备委员会成立》,《清史研究》 1994年第 3期。
[4]“字”与“词”所指不同。字是词的基本单元,而一个词可以由单个或多个字组成。例如,“水”与“果”是两个字。它们分别意指“水”与“结果”。在语言学中,一个包含n个汉字的词可称为“n元词”。例如,“水果”便是一个二元词。在白话文中,大部分词为二元词或三元词。然而,在古汉语中,单字词的比例非常高。没有字典能够穷尽所有的汉语词汇,因为中文使用者能源源不断地创造新词。
[5]zh.wikisource.org/zh-hant.
[6]http://ctext.org.
[7]www.wenxue100.com.
[8]www.daizhige.org.
[9]本文作者感谢辽宁大学的耿元骊老师提供殆知阁平台上的数字文本。
[10]例如,刘殿爵主编:《楚辞逐字索引》,香港:商务印书馆, 2000年;刘殿爵、陈方正、何志华主编:《谢眺集逐字索引》,香港:香港中文大学出版社, 2000年。
[11]这些诗为七言绝句。
[12]为方便起见,我们用“XXX—YYY”来标注一对词语搭配。
[13]《石头城》,《全唐诗》卷 365,第 4117页。
[14]《乌衣巷》,《全唐诗》卷 365,第 4117页。
[15]《西河·大石金陵》,《全宋词》卷 2,第 612页。
[16]陈友冰、王德寿:《宋词清赏(北宋篇)》,台北:正中书局, 2001,第 138—139页。
[17]谢眺的诗为《隋王鼓吹曲十首(其四):入朝曲》。乐府诗为《莫愁乐二曲(其一)》。
[18]李白:《送袁明府任长沙》,《全唐诗》卷 185,第 1890页。
[19]《全唐诗》卷 391,第 4411页。
[20]以五绝诗的数据为例, 69.3%是 38.5%与 30.8%的总和。五律诗的数据 63.8%是 6%、 8.6%、 25.9%、23.3%的总和。
[21]五律与七律共包含四联,每联包含两句连续的诗句。根据传统诗论,第二联往往被称作颔联。
[22]Chao-Lin Liu et al., “Color Aesthetics and Social Networks in Complete Tang Poems: Explorations and Discoveries,” Proceedings of the Twenty-Ninth Pacific Asia Conference on Language, Information, and Computation, 2015, pp. 132-141.
http://aclweb.org/anthology/Y/Y15/Y15-2016.pdf.
[23]郑文惠等:《情感现象学与色彩政治学:中唐诗歌白色抒情系谱的数位人文研究》,项洁主编:《数位人文在过去、现在和未来之间》,台北:台大出版中心, 2016年,第 207—257页。
[24]所谓“频率”,指某位诗人使用某个词的次数除以《全唐诗》所收入的该诗人的总诗作数。
[25]李玮质:《晚唐“温李”作品对南朝宫体诗之传承与创变》,硕士学位论文,台湾“中央大学”,2009年。
[26]孙艳红:《唐宋词本体特征的表现形式》,《中国社会科学学报》 2016年 7月 8日。
[27]《清平乐(春晚)》,《全宋词》卷 1,第 216页。
[28]冯小怜为北齐后主高纬(557—577)的妃子,以擅长舞蹈与琵琶闻名。
[29]Chao-Lin Liu et al.,“Color Aesthetics and Social Networks in Complete Tang Poems,” pp. 132-141.
[30]这两首诗分别为《花下对酒二首(其二)》(《全唐诗》卷434,第 4801页)与《雪中晏起偶咏所怀兼呈张常侍韦庶子皇甫郎中》(《全唐诗》卷 453,第 5123页)。
[31]Chao-Lin Liu, Kuo-Feng Luo,“Tracking Words in Chinese Poetry of Tang and Song Dynasties with the China Biographical Database,” Proceedings of the Workshop on Language Technology Resource and Tools for Digital Humanities, The Twenty-Sixth International Conference on Computational Linguistics, Osaka: Coling, 2016, pp. 172-180, https://aclanthology.coli.uni-saarland.de/volumes/proceedings-of-theworkshop-on-language-technology-resources-and-tools-for-digital-humanities-lt4dh; Chao-Lin Liu et al., “Color Aesthetics and Social Networks in Complete Tang Poems,” pp. 132-141.
[32]《赠汪伦》,《全唐诗》卷 171,第 1765页。
[33]《赠内》,《全唐诗》卷 184,第 1884页。
[34]《寄南城韦逸人》,出自《全唐诗》卷 657,第 7550页,亦可参见李定广校注:《罗隐集系年校笺》卷 3,北京:人民文学出版社, 2013年,第 141页。罗隐的这句诗呼应杜甫《奉陪郑驸马韦曲二首(其一)》中“韦曲花无赖,家家恼杀人”一句,出自《全唐诗》卷 225,第 1413页。亦可参见萧涤非:《杜甫全集校注》,北京:人民文学出版社, 2014年,第 1064页。Stephen Owen trans., The Poetry of Du Fu, Berlin: De Gruyter, 2016, sec.3.1。罗隐在诗中将“家家”改成了“豪家”。
[35]《全唐诗》卷 151,第 1566页。
[36]《全唐诗》卷 656,第 7543页。
[37]《全唐诗》卷 609,第 7027页。
[38]《全唐诗》卷 614,第 7082页。
[39]《全唐诗》卷 459,第 5226页;《全唐诗》卷 438,第 4870页。
[40]羊士谔(762—862 ?):《山阁闻笛》,《全唐诗》卷 332,第 3696页;顾况(727 ?—816 ?):《八月五日歌》,《全唐诗》卷 265,第 2944页。
[41]罗国峰:《〈全唐诗〉的初步分析:版本比对、诗歌对应与社群网络》,硕士学位论文,东海大学, 2016年。
[42]这项工作由西北工业大学的张淑华完成。参见吴汝煜主编:《唐五代人交往诗索引》,上海:上海古籍出版社, 1993年。
[43]蒋绍愚:《李白杜甫诗中的“月”和“风”——电脑如何用于古典诗词鉴赏》, Proceedings of the First International Conference on Literature and Information Technologies, 2003,
http://cls.lib.ntu.edu.tw/LIT/papers/summary2_c.doc。
[44]Chao-Lin Liu et al.,“Color Aesthetics and Social Networks in Complete Tang Poems,” pp. 132-141.
[45]单独使用时,“春”与“秋”分别指春天与秋天。
[46]它们一共出现了 192(16+98+29+49)次。
[47]在李白诗中,“春风”与“秋风”对应比率为 72:26,李商隐诗中为 14:2,杜甫诗中为 19:30。
[48]Chao-Lin Liu, Kuo-Feng Luo,“Tracking Words in Chinese Poetry of Tang and Song Dynasties with the China Biographical Database,” pp. 172-180.
[49]例如,集句诗便是一种借用并重组其他诗句的诗歌类型。
[50]《将赴吴兴登乐游原一绝》,《全唐诗》卷 521,第 5961页。
[51]《太平时七首(其六):爱孤云》,《全宋词》卷 1,第 505页。
[52]“聋丞”指地方副佐,在此对应本诗第一人称。这一称法典出班固《汉书》中许丞,意指即使年迈耳聋也保持为官廉明。班固:《汉书》卷 89,北京:中华书局, 1962年,第 3631页。
[53]《为有》,《全唐诗》卷 539,第 6168页。
[54]《菩萨蛮》,《全宋词》卷 1,第 520页。
[55]《别客》,《全唐诗》卷 386,第 4354页。
[56]《送杨发东归》,《全唐诗》卷 538,第 6137页。
[57]《海棠图》,《全唐诗》卷679,第7784页。海棠:蔷薇科苹果属;江南:泛指长江下游地区;蜀城:指成都。
[58]《凤栖梧三首(其三):望长安》,《全宋词》卷 1,第 506页。
[59]《新栽松》,《全唐诗》卷 887,第 10028页。
[60]《江神子(其一):赋梅寄余叔良》,《全宋词》卷 3,第 1957页。
[61]有关《全唐诗》的编纂过程,参见:Paul Kroll,“Ch'üan T'ang shih,” The Indiana Companion to Traditional Chinese Literature, ed. William Nienhauser, Bloomington: Indiana University Press, vol. 1, 1986, pp. 354-365.
[62]《遇玉真公主影殿》,《全唐诗》卷 279,第 3169页。
[63]《题安国观》,《全唐诗》卷 783,第 8843页。
[64]参见王谠著,周勋初注解:《唐语林校注》卷 7,北京:中华书局, 1987年,第 881—882页。
[65]《別佳人》,《全唐诗》卷 275,第 3119页。
[66]《别妻》,《全唐诗》卷 505,第 5741页。
[67]《遇边使》,《全唐诗》卷 470第 5342页。
[68]《遇边使》,《全唐诗》卷 665,第 7622页。
[69]李定广校注:《罗隐集系年校笺》,北京:人民文学出版社, 2013年,第 991—992页。
[70]《归桐庐旧居寄严长史》,《全唐诗》卷 281,第 3193页。
[71]《归桐庐旧居寄严长史》,《全唐诗》卷 315,第 3540页。
[72]李昉等编:《文苑英华》卷 254,北京:中华书局, 1966年;计有功撰,王仲镛校注:《唐诗纪事校笺》卷 26,成都:巴蜀书社, 1989年,第 702—704页;辛文房著,傅璇琮主编:《唐才子传校笺》卷 4,北京:中华书局, 1995年,第 109—114页。
[73]《全唐诗》卷 812第 9147页注明可止或许是该诗的作者。
[74]《精舍对雨》,《全唐诗》卷 274,第 3111页。
[75]清江诗见《全唐诗》卷 812,第 9147页;可止诗见《全唐诗》卷 825,第 9292页。
[76]要从 62,257(42863+19394)项条目中任选两首进行比较,我们一共要进行 62257*62256/2项计算。
[77]Chao-Lin Liu, Kuo-Feng Luo, "Tracking Words in Chinese Poetry of Tang and Song Dynasties with the China Biographical Database," pp. 172-180.
[78]Chin-Kun Hu, Wei-Cheng Kuo, "Universality and Scaling in the Statistical Data of Literary Works," POLA Forever: Festschrift in Honor of Professor William S.-Y. Wang on His Seventieth Birthday, eds. Dah-an Ho, Ovid J. Tzeng, Taipei: Academia Sinica, 2005, pp. 115-139.
[79]Chao-Lin Liu et al.,“Character Distribution of Classical Chinese Literary Texts: Zipf's Law, Genres, and Epochs,” Proceedings of the 2017 International Conference on Digital Humanities, 2017, pp. 507-511, https://dh2017.adho.org/abstracts/080/080.pdf.
[80]George K. Zipf, Human Behavior and the Principle of Least Effort: An Introduction of Human Ecology, Boston: Addison-Wesley Press, 1949; George K. Zip, Selected Studies of the Principle of Relative Frequency in Language, Cambridge: Harvard University Press, 1932.
[81]由于每部诗集所包含的不相重复的汉字数(即语言学意义上的“字型”)有差异,我们在比较不同的曲线时,需要选定相同的字型数。由于《诗经》所包含的字型数最少,不妨以其字型数为基准。我们先统一将每部诗集中出现频次最高的 1,000个字作为计算、比较的数据。若将《全唐诗》的曲线分别与《先秦汉魏晋南北朝诗》《全宋词》《全宋诗》《元诗选》《列朝诗集》的曲线进行比较,则不同诗集曲线间 log(f/N)值的方差平均值低于 0.00006。若将《全唐诗》曲线与《诗经》《楚辞》、汉赋的曲线进行比较,则所生成的log(f/N)值方差分别为 0.0129、0.0080、0.0071。若以《诗经》中的字型数为基准比较不同曲线的关联系数,《全唐诗》与《先秦汉魏晋南北朝诗》《全宋词》《全宋诗》《元诗选》《列朝诗集》比较所生成的数据均大于0.999,而《全唐诗》与《诗经》《楚辞》、汉赋对比所生成的数据分别为 0.989、 0.991、 0.995。
[82]Qinghua Chen, Jinzhong Guo, and Yufan Liu,“A Statistical Study on Chinese Word and Character Usage in Literature from the Tang Dynasty to the Present,” Journal of Quantitative Linguistics, vol. 19, no.3, 2012, pp. 232-248; Chin-Kun Hu, Wei-Cheng Kuo,“Universality and Scaling in the Statistical Data of Literary Works,” pp. 115-139.
[83]这 16个汉字可能是多义词汇,例如,“日”可以是“太阳”或者“日子”。本文并没有把一字多义的汉字依照它们在诗歌中的意义分开计算频次。
[84]Chao-Lin Liu et al.,“Character Distribution of Classical Chinese Literary Texts: Zipf's Law, Genres, and Epochs,” pp. 507-511.
[85]Chao-Lin Liu,“Quantitative Analyses of Chinese Poetry of Tang and Song Dynasties: Using Changing Colors and Innovative Terms as Examples,” Proceedings of the 2016 International Conference on Digital Humanities, 2016, pp. 260-262, https://arxiv.org/abs/1608.07852; Chao-Lin Liu,“Flexible Computing Services for Comparisons and Analyses of Classical Chinese Poetry,” Proceedings of the 2017 International Conference on Digital Humanities, 2017, pp. 505-507, https://dh2017.adho.org/abstracts/612/612.pdf; Chao-Lin Liu and Kuo-Feng Luo, “Tracking Words in Chinese Poetry of Tang and Song Dynasties with the China Biographical Database,” pp. 172-180.
[86]C在此代表诗集,而在图 5中 C代表相同字的位置。
[87]图 15方框中的汉字均为诗人的人名,在此未附拼音。
[88]参见《蝶恋花》:“碧簟纱厨,向午朦胧睡。莺舌惺忪如会意。”(《全宋词》卷1,第 104页)。这首词曾被误归于苏轼名下,参见邹同庆、王宗堂编校:《苏轼词编年校注》,北京:中华书局, 2007年,第 936页。
[89]如《楚辞》中《谬谏》:“和抱璞而泣血兮,安得良工而剖之。”参见洪兴祖编:《楚辞补注》卷13,北京:中华书局, 1983年,第254页;David Hawkes trans., Song of the South: An Anthology of Ancient Chinese Poetry by Qu Yuan and Other Poets, Harmondsworth: Penguin, 1985, p. 257。
[90]Thomas Mikolov et al., “Distributed Representations of Words and Phrases and Their Comsopositionality,” Proceedings of the Twenty-Sixth International Conference on Neural Information Processing Systems, 2013, vol. 2, pp. 3111-3119, https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrasesand-their-compositionality.pdf.
[91]参见Jack W. Chen, The Poetics of Sovereignty: On Emperor Taizong of the Tang Dynasty, Cambridge: Harvard University Asia Center, 2010.
[92]刘殿爵主编:《楚辞逐字索引》,香港:商务印书馆, 2000年;刘殿爵、陈方正、何志华主编:《谢眺集逐字索引》香港:香港中文大学出版社, 1999年。
[93]赖宜欣:《李商隐五言律诗词汇风格之研究》,硕士学位论文,台中教育大学, 2002年。
[94]如高旖璐:《〈全唐诗〉中“禽鸟入诗”之研究》,博士学位论文,台湾彰化师范大学,2009年;许静宜:《中唐动物寓言诗研究》,硕士学位论文,台湾师范大学, 2008年;林珍莹:《唐代茶诗研究》,台北:花木兰文化出版社, 2007年;潘富俊:《草木缘情:中国古典文学中的植物世界》,台北:商务印书馆, 2015年。
[95]姚圭:《皮日休、陆龟蒙唱和诗研究》,硕士学位论文,台湾大学, 1980年。
[96]王伟勇:《宋词与唐诗之对应研究》,台北:文史哲出版社, 2003年。
[97]Ceclie Chu-Chin Sun, The Poetics of Repetition in English and Chinese Lyric Poetry, Chicago: University of Chicago Press, 2011.
[98]Chin-Kun Hu, Wei-Cheng Kuo,“Universality and Scaling in the Statistical Data of Literary Works,” pp. 115-139; Qinghua Chen, Jinzhong Guo, and Yufan Liu,“A Statistical Study on Chinese Word and Character Usage in Literature from the Tang Dynasty to the Present,” pp. 232-248.
[99]吴仪凤:《咏物与叙事—汉唐禽鸟赋研究》,台北:花木兰文化出版社, 2007年。
[100]罗文伶:《六朝僧侣诗研究》,博士学位论文,台湾东海大学, 2002年;Thomas J. Mazanec,“The Invention of Chinese Buddhist Poetry: Poet-Monks in Late Medieval China,” Ph.D. Diss., Princeton University, 2017。
[101]陈尚君:《全唐诗补编》,北京:中华书局, 1992年;Stephen Owen trans., The Poetry of Du Fu.
[102] Fengju Lo,“Design and Applications of System for Word Segmentation and Sense Classification for Chinese Poems,” Proceedings of the Fourth Conference on Technologies for Digital Archives, 2005, http://datf.iis.sinica.edu.tw/Papers/2005datfpapers/B-4.pdf.
[103]竺家宁:《听唐诗的交响—由声韵分析诗歌的音乐性》,《声韵论丛》 2009年第16期。Jeffrey R. Tharsen, “Chinese Euphonics: Phonetic Patterns, Phnorhetoric and Literary Artistry in Early Chinese Narrative Texts,” Ph.D. Diss., University of Chicago, 2015; John Lee,“A Classical Chinese Corpus with Nested Partof-Speech Tags,” Proceedings of the Sixth EALC Workshop on Language Technology for Cultural Heritage, Social Sciences and Humanities, 2012, pp. 75-84, http://www.aclweb.org/anthology/W12-1011; John Lee, Yin Hei Kong, Mengqi Luo,“Syntactic Patterns in Classical Chinese Poems: A Quantitative Study,” Digital Scholarship in the Humanities, vol. 33, no.1, 2018, pp. 82-95; 还可参见:Jack Chen的演讲:“The Quan Tang Shi and Topic Modeling: An Experiment in Macroscopic Literary Analysis,” http://ceas.yale.edu/events/quantang-shi-and-topic-modeling-experiment-macroscopic-literary-analysis。
[104]Chao-Lin Liu,“Flexible Computing Services for Comparisons and Analyses of Classical Chinese Poetry.”
原刊《数字人文》2021年第2期,转载请联系授权。
点击下方链接,下载原文
基于关联数据和IIIF的数字文献资源再组织研究——以上海图书馆历史人文大数据平台近代报纸资源为例
校对 | 肖爽
美编 | 徐璇
数字使人文更新
投稿邮箱:dh2020@tsinghua.edu.cn
数字人文门户网站:www.dhlib.cn