查看原文
其他

人机共读与人文“影像学”——关于数字人文的一些思考

李明晖 田晓萌 DH数字人文
2024-09-09
专题:数字人文的可能性与边界

李明晖 / 吉林大学文学院

田晓萌 / 吉林大学文学院



摘 要:就根本逻辑而言,数字人文研究支持者的立足点是人文学科抽象领域研究的大势所趋,数字人文研究质疑者的立足点是人文学科具体领域研究的精髓与灵魂。任何研究都处在抽象与具体的张力之中,比较“人体透视技术之于医学”和“现代数字技术之于人文学科”,可将医学面临的上一次挑战,作为我们人文学科面临这一次挑战时的镜鉴,以“人机共读”概念为基础建立人文“影像学”,作为数字人文学术训练体系的框架。

关键词: 数字人文 人机共读 人文影像学



01数字人文论争的根本逻辑

人文学科研究如何运用数字技术和大数据技术,是近来学术界讨论的一个焦点。一些学者认为数字人文是大势所趋,另一些学者认为人文学科的精髓恰恰是反数字化的,追求数字化会丢失人文研究的灵魂。与此同时,数字人文的研究实践已经在国内外展开,一些成果相继发表,而这些成果究竟应如何评价,也同样存在很大争议,赞之者以为开拓新境,贬之者以为华而不实。这些争论也许在很长时间里都会继续,而实践是检验真理的唯一标准。数字人文的原理性问题或曰“底层逻辑”亟待广泛探讨,不然,争论和实践皆有可能难以高效和深化。本文期望以跨学科的视角,提供一种新的思路,以参与到这一原理性问题的探讨之中。

为什么自然科学研究的数字化理所当然,社会学经济学等狭义社会科学研究的数字化也是题中应有之义,而文学等人文学科研究的数字化转型却必然地遭遇疑虑?这当然是因为人文学科本身的特质。现代人文学科作为学科体系中的一类,无疑存在着与其它学科共同的性质,但是与自然科学、狭义社会科学比较,又的确有着情感性与多义性这两个突出特点。自然科学与狭义社会科学的研究工作有必要过滤研究对象携带的情感因素,或者将其情感因素化约为特定的“刺激—反应”模型;而人文研究却必须以研究者的情感,体会研究对象的情感。简单地说,自然科学、狭义社会科学的追求重在“明事理”,人文研究的追求则涵纳“知人心”。自然科学与狭义社会科学的研究工作规定:研究的结论必须是关于研究对象的确定且唯一的描述,否则即为无效研究,至于研究结论的对错评判,则必须符合矛盾律,即关于同一对象的相反描述不能同为“对”。[1]而人文研究的成果,却不必然给予研究对象以确定且唯一的描述,也不必然以矛盾律作为评判研究成果的基准;我们是将研究对象区分为事实对象与意义对象,前述规则都只适用于事实对象,不适用于意义对象,也就是说,普遍认为文本的意义是多重、流动的。通俗的说,人文研究的成果是“文无第一”的,自然科学、狭义社会科学的结论则是“武无第二”的。既然以情感体会情感这个事是不能数字化的,多重、流动的意义也是不能数字化的,那么人文学科研究数字化的效用与价值当然就是可质疑的了。

但是,我们还应想得再深一步:情感性与多义性的本质到底是什么?

刚才说过,在自然科学与狭义社会科学研究中,可将情感化约为特定的“刺激—反应”模式。这也意味着,情感本质上就是“刺激—反应”模式。人文研究的特殊性其实在于关注的“刺激—反应”细节较之自然科学、狭义社会科学远为具体和丰富。而所谓多义性,其成因不也正是有意存留了研究对象较多的具体细节吗?

概而言之,任何研究都处在抽象与具体的张力之中。离开抽象,便无概括、类比、演绎的可能;离开具体,抽象便无根据和边界。差别只在于二者的程度。相比而言,自然科学和狭义社会科学追求较高的抽象度,人文学科追求较高的具体度。但前者仍然必须指向具体,后者也同样必须运用抽象。而只要是具体的,就是有着多重的、流动的意义的,也必定是“有情”所即时体会的。人文学科的情感性和多义性特点,只是源于其放大了科学研究活动的这个共通品质而已。

所以,我们可以大致得出这样的一个认识:人文研究中,研究事实对象的部分,是可以而且应该广泛运用数字化方法的;研究意义对象的部分,其抽象性领域的研究也可以而且应该借力数字化方法,其具体性领域的研究,则不适合采用数字化方法。这个认识或可划清数字人文研究的边界。

将这个认识落实到研究实践,难点在于如何划分意义对象的抽象性领域与具体性领域。正像前文所言,这是一个张力场,或者说,是一体两面的。这其实也正是现今数字人文研究可行性存在争论的根本逻辑:可以说,数字人文研究支持者的立足点,是抽象性领域研究的大势所趋,数字人文研究质疑者的立足点,是具体性领域研究的精髓与灵魂,而这两个领域偏偏是互相牵制、荣损与共的,因此双方的焦虑都真实、必要,却又难以兼顾。这个根本逻辑理应是我们进一步思考的起点。

02破解数字人文逻辑困局的医学史资源

既然抽象与具体的张力是科学研究活动中普遍存在着的,那么我们是否能从兄弟学科的历史中获得思考这个困境的借鉴与启发呢?医学的历史,或许是一个合适的资源。

其实医学和人文学科有着很相似的地方。医学的理论是高度抽象的,但医学的实务总是针对具体而丰富的个体。物理、化学、机械工程学可以造出标准化的模型和物料,再以此为基础进行后续工作,其大量实务只须与前期制造的成果发生互动,即可创造真实的价值;而医学若只与标准化成果发生互动则是无价值的,其价值必须体现在与真实生命体的互动中。古今中外,许多名医都讲过,治病是人与人之间的事,治疗方案因人而异,千变万化,运用之妙,常在医者一念之间。研究医学正像研究人文学科一样,既需要实实在在的知识积累、学术训练,也需要“玄之又玄”的所谓灵性、悟性。如今医学领域的数字化研究体系远远走在人文领域前方,我们当然可以从中汲取经验。

但是,其实早在大数据技术形成之前,医学就经历过了一次类似的历史情境,其本质同样是如何处理人与新技术在研究实务中的分工合作,造成这次革命的新技术,就是人体透视技术。

1895年,X线发现,1969年,计算机体层成像(CT)技术设计成功,随后磁共振成像(MTI)技术也发展起来,差不多在同一时期,超声检查技术也日益成熟并得到广泛应用。核医学的兴起以及近年来腔镜技术的发展等,则又将人体透视技术推进到了一个新的层次。可以说,从20世纪到现在,医生已经能够在基本不破坏机体的情况下将活体内部的情况看得越来越全面、越来越清晰。

今天,以人体透视技术为基础进行诊断,我们早已见惯不怪。但在古代,这当然不会。今天的患者们,并不是去医院里拍了一个透视相片就自己给自己诊断——除非这个患者自己就是接受过系统医学训练的人。诊断还是要医生来做的,我们一般人拿到自己的透视相片,其实基本什么都看不懂。透视技术只是专业人士的工具,透视影像只是专业人士的参考,肺腑“能言”,但只有“医师”却是奇想,而且是挑战医学学科存在根基的奇想。在医学史的绝大多数篇章里,根据观察症状、化验分泌物等方法诊断患者的疾病,都是医生最重要的基本功,可以说是看家本领,在医生的职业训练之中至少是半壁江山。而之所以如此,原因就在于人体内部的情况是“看”不到的。能通过人体外部的表现,知道人体内部“看”不到的实际情况,这就是医生神奇的“慧眼”。这就好像,大侦探的厉害之处就在于能从显露出来的蛛丝马迹“看”到隐藏起来的犯罪实情或罪犯行踪,如果犯罪实情和罪犯行踪都在360°全景摄像头拍摄的视频中,那大侦探“看”到的就变成谁都能看到的了。中国有句谚语:“肺腑若能言,医师面如土”,表达的就是这样的意思。可是人体透视技术却好像真的让肺腑“能言”了,那么“医师”们真的“面如土”了吗?

当然不会。今天的患者们,并不是去医院里拍了一个透视相片就自己给自己诊断——除非这个患者自己就是接受过系统医学训练的人。诊断还是要医生来做的,我们一般人拿到自己的透视相片,其实基本什么都看不懂。透视技术只是专业人士的工具,透视影像只是专业人士的参考,肺腑“能言”,但只有“医师才能“听懂”。

其实不只如此,人体透视技术的发展历程本身也始终有着医学界的深度参与——需要看到什么,需要如何看到,乃至如何能实现这样的看到,都体现着医学界的经验、知识、理论、智慧。当然,技术创新也给了医学界以启发,让医学界中的卓越者们想到了之前想不到的需求和思路。但归根结底,技术只是为医学提供和扩展了“看到”的可能,是医学的专业积累才真正让技术“看到”。

这也正是为什么会有“医学影像学”这门分支学科的原因。医学影像学研究的,是如何理解人体透视技术提供的影像以做出正确诊断,以及如何更好地运用和发展人体透视技术以进一步了解有利于诊断的精确信息。

在人民卫生出版社出版的教材《医学影像学》中,概括了四项“影像诊断原则”:“全面观察、具体分析、结合临床、综合诊断”,每一项原则都有一些具体的要求,我们在此摘录其中的几句,以作为下文与人文学科进行对比思考的基础。在“全面观察”一项中,有:“在认识正常解剖和变异影像的基础上,发现异常影像表现。”在“具体分析”一项中,有:“要注意从病变的位置和分布、边缘及形态、数目及大小、密度信号和结构、周围情况、功能变化、动态发展等方面逐一进行分析。”在“结合临床”一项中,有:“存在‘同影异病,同病异影’的问题,……必须结合临床症状、体征、实验室检查和其他辅助检查进行分析,……除应了解现病史和既往史、临床体征和治疗经过外,分析时还应注意患者的年龄和性别、生长和居住地区、职业史和接触史以及结合其他重要检查,以尽量达到正确的诊断。”在“综合诊断”一项里,有:“现代影像检查技术多种多样,相互之间具有互补性,在很多情况下需利用不同检查方法提供的信息互相补充、互相参照、互相对比,从多方位、多角度反映疾病的本质。……并且按照由影像分析所推断的基本病变的疾病谱和概率分布,在密切了解临床资料的情况下,作出初步诊断,对于有关相似的疾病提出鉴别诊断和进一步相关检查的意见。”[2]

我们首先可以概略地发现:上述的这些工作,都是由人来做的,而且是由经过严格专业训练、掌握大量抽象和具体知识的人来做的,抽象知识如“正常解剖”(正常影像),具体知识如“现病史和既往史、临床体征”等。当然,这里说的是大数据、人工智能等现代数字技术之前的影像诊断情况,当这些抽象和具体知识的存储和运用能够交给人工智能去做,对于医学当然又是一次新的挑战与机遇;但是,我们现在比较的是“人体透视技术之于医学”和“现代数字技术之于人文学科”,是将医学面临的上一次挑战作为我们人文学科面临这一次挑战时的镜鉴。

毕竟,“肺腑若能言,医师面如土”这句谚语,并非是只针对医界,甚至,主要地不是用在医界,而是作为譬喻的,大意是,如果人、事、物自己能表达,那么猜测揣度便毫无意义了。比如,若孔子自己归来讲学,那两汉经师们的皇皇巨著就失去了意义,遑论八股名篇中的那些“若曰”。近些的比方,放在史学领域,这话就类似于说若起历史当事人于地下,自述当时见闻行思,那今人的考据便成了笑话;放在文学领域,这话就类似于说若能问问写作者自己“为什么这么写”,那语文老师的阅读理解便成了笑话。从新历史主义或新批评的立场看,当然上述两个观点都是谬见。但是,这句谚语里还藏着一个潜在观念,那就是有些学问存在的意义和可能,就在于“不可知”或“不可确知”。新历史主义和新批评亦不出此观念之外,反而是将这个观念明晰化,让这个观念在人文学界愈加深入人心。因此,人体透视技术给予医学的新局,其实正是今天数字技术给予人文学科的新局,而人文学界对于这个新局的不适感,却远比当年医学界的不适感强烈得多。真正的医生不会担心人体越来越“可确知”,可是人文学者却会担心数字技术的运用让人们将那些“不可知”轻易地理解为“可确知”。这个担心不是多余的,但解决这个担心的办法当然不是拒绝数字技术的“侵入”,而是汲取医学影像学的经验与智慧:首先,医学影像学的经验清楚地告诉我们,凭借新技术看到原来不可能看到的,不会动摇学科的价值根基与方法论本质,只会增强学科的力量;其次,医学影像学的智慧结晶——“影像诊断原则”也启发了我们运用新技术的学术训练路径。

03人文学科的“影像”是什么?

但是我们在进一步讨论这两个方面之前,还需要再论证一个新概念,那就是“人机共读”。毕竟借用自医学的“影像”一词须经“转义”才能成为人文学科的术语,那么这个“影像”,即数字人文研究方法能够呈现的数据分析结果,到底是人文的“什么”?它和我们原本认知的人文知识有哪些联系和区别?如何实现类似于医学影像学那样的与学科传统的顺畅对接?这些就是“人机共读”这个概念试图回答的问题。

顾名思义,人机共读就是人类和计算机共同对于文本进行读解;具体来说,是人类的阅读活动与计算机的读取分析活动形成合力以求理解文本的过程。

人类的阅读行为,是人文学科的根基和标志性符号之一,也是人文学科关注的重点领域之一,从古代的“学而思”“思而学”等辩证认识,中外“释经学”的实践与理论,到近代的“快速阅读法”,现代的阐释学、“细读”等,都是关于这一领域的探索。

信息读取分析功能则是计算机科学的基础和本质,从作为构想的“图灵机”到今天的AI,从二进制编码到汇编语言再到软件,围绕的都是这个功能。

那么,人类的阅读和计算机的读取分析,到底是什么样的关系呢?应该说,两者从根本上就是全然不同的两回事,就像人眼成像与超声波成像、核成像的区别一样。对于最早的计算机技术研发者和使用者来说,这是一个不言而喻的常识,只是后来的科学家、工程师、企业越来越擅于实现计算机界面的“友好度”与“人性化”,才让我们产生了两者似乎同源同质的错觉。

计算机读取的只是有信号(1)和无信号(0)这二者的排列组合,它的分析功能,只是按照一定的规则对于读取的信号序列做变形输出。汇编语言是用尽量接近人类语言习惯的字段和“语法规则”对应特定的信号序列组,计算机读取到的仍然是二进制信号序列。至于人类语言的计算机处理,最简原理是将字母或音素对应特定的信号序列组,而像汉字这样的复杂系统,处理起来也自然复杂一些,但无论如何,计算机能读取和分析的,还是二进制信号序列,一个字母也好,一个单词也好,一个汉字也好,一个词组也好,对于计算机来说,都只是增加了一个信号序列组特征识别和变形输出的规则而已。当然,它输出的也同样还是二进制信号序列,我们的科学家、工程师、产品经理只是越来越善于让序列再以人类喜欢和易懂的方式在输出端对应特定的色块或振动而呈现为声画而已。GPT生成的语篇,本质上对应的也是机器依计算规则变形输出的二进制信号序列。

这就意味着,除非计算机科学发生底层范式的剧变,不然,机器就不可能会阅读,只能是“模拟阅读”。它的行为如果看起来和阅读几乎一样,那是因为人类的刻意设计。但在人机共读中,我们真正需要的显然是它自身的独特能力,即信息读取分析的能力。因为同样的,除非人类生理发生剧变,不然,人类就不可能普遍地达到像计算机那样高速和稳定的算力,而计算机的信息读取分析能力正是建立在这样的算力之上。

这样,我们就知道,数字人文研究中的“影像”,其实就是文本信息分析的输出结果,而人文“影像学”就是获取、理解、运用这些输出结果的知识和能力。

谈到迄今运用人机共读方式实现的比较成功的人文研究范例,《纳博科夫最喜欢的词》[3]应该算作其中之一,虽然写这本书的本·布拉特并不是一位传统意义上典型的学者。正像中文版书名突出的那样,这本书的问题意识非常清晰。当然,其实并不是整本书都在研究纳博科夫,这本书的原名是Nabokov's Favorite Word Is Mauve: What the Numbers Reveal About the Classics, Bestsellers, and Our Own Writing(《纳博科夫最喜欢的词是Mauve——关于经典、畅销书和我们自己的写作,数字透露了什么?》),书中的内容涉及到诸多作家作品和文学现象,聚焦于纳博科夫的只有两页多。但是,全本书的确都是以解答像“纳博科夫最喜欢哪个词”这样一些具体问题的方式构造起来的,而解答的工具当然是计算机的大规模文本信息分析结果。

只有人类,而且是关心文学的人类,才会想知道纳博科夫写作时最喜欢用哪个词,计算机自己不会关心这样的问题;但只有计算机才擅长统计纳博科夫所有作品中所有单词的出现次数——这个工作人类也不是绝对不能做,只是效率会非常低,而且,如果问题变成“俄裔作家在英语创作时最喜欢哪个词”呢?

其实,效率低还不是最大的困境,我们会本能地感到,让人类做“数词”的工作这个想法,本身就让人不适。这不应该是人类阅读文学的方式,或者说,不应该是人类与文学相遇的方式。矛盾之处正是在这里:想知道纳博科夫写作时最喜欢用哪个词,这是植根于人性、人文情怀的,但将纳博科夫全集拆成单词,统计每个词出现的次数,却是反人性的。数字人文的人机共读,解决了这个矛盾。

这其实就构成了布拉特这次人机共读实验的第一步:人类提出问题,交给机器去统计。但可想而知,如果仅仅用汇编语言给机器这样一个指令:统计纳博科夫所有作品中每个不同单词出现的次数,输出那个出现次数最多的单词,那么,输出结果就是定冠词,而且将纳博科夫换成别的任何一个用英语写作的作家,结果也都一样。如果换成中国现当代作家,结果就是“的”;如果换成中国古代作家,结果大概是“也”。这当然不是我们想知道的,或者说,这是我们用不着机器的协助也本来就知道的。我们说过,计算机不会阅读;而刚才我们假设的那条指令,其实潜意识里还是说给会阅读的人类听的。人类必须继续“教”计算机如何做这个工作,也就是还要对这里的“单词”做一些人类不言自明的进一步限定,具体到纳博科夫这个英语作家的文本分析,就是把定冠词、不定冠词、系词、人称代词列入“黑名单”,机器读取到这些单词时就跳过不做统计。这应该是实验的第二步:剔除指令中所有的“不言而喻”,严谨地将人类的意图“翻译”成运算逻辑。学者赵薇曾指出数字人文研究呼唤“中间概念”,[4]这是很有洞见的观点。“中间概念”的功能正是为了在人类与机器之间进行“翻译”,因此,这类概念既可以是新创的,也可以是计算机学概念和人文学科概念的“映射”,长期来看,前者必然以后者为基础,后者必然以前者为归向。经过这一步,我们可以获得纳博科夫作品中按照出现次数排序的名词、动词、形容词、副词等词类的单词表,如果导入英语词类数据库,再简单增加几行命令代码,还可以看到每个词类之中单词出现次数的排序。但这就是我们想看到的“纳博科夫最喜欢的词”吗?

大概有很多人在进行这项实验时会认为这就是我们寻求的结果,只要将此时机器输出的第一个单词或前十个单词记录下来,研究就圆满完成了。这或许就是学界普遍认为数字人文研究“肤浅”和“形式大于实绩”的原因之一。幸运的是,本·布拉特并未止步于此,作为一个语言感觉敏锐的人,他意识到,即使已经排除了定冠词、代词等干扰数据,单词的使用次数本身仍不能直接等于使用偏好,因为纳博科夫可能只是“需要”这些词而不是“喜欢”这些词。毕竟文学作品的语言必须兼具功能性和审美性,而不可能只是为了审美。比如一个作家认为street这个单词毫无美感,但是他或她很难不让作品中的人物上街,或不写人物上街,而如果每次遇到street就换成同义词或别的表达方式,行文也会太过做作,所以这位作家大约还是会多次使用这个自己不喜欢的单词,这就是文学作品语言的功能性决定的现象。文学研究者希望看到的是那个最能体现纳博科夫审美趣味和语言风格的单词。这么一说,似乎这个实验就变得毫无意义了——既然审美趣味无法“量化”,只能在长期、细致的阅读中体会,而机器又是不会阅读的,那么机器怎么可能在这个研究中有任何贡献呢?

但这其实还是一个“翻译”的问题,即我们如何将我们的意图“翻译”成机器的运算逻辑,只是这个“翻译”的思路比第二步时复杂而已。实验的第三步其实是这样的:导入“语料库”作为对比组,进行相同的前两步运算,然后,在刚才第二步输出的运算结果中,按照与对比组重复率的高低进行逆序加权,重新输出。这个设计的依据,简单说就是:语言使用在审美性上体现的人类个体差异,远大于在功能性上体现的人类个体差异,所以,出于表意功能而大量使用的单词在写作者之中是高度一致的。经过这一步,我们得知,“平均下来,他作品中的mauve的使用率是语料库的44倍。与普通作品相比,纳博科夫的作品中再没有其他的词如此突出。”[5]这就意味着,纳博科夫是出于审美趣味而非表意需要而多次使用了这个单词。Mauve这个词在词典中的释义为“pale purple”,即浅紫色、淡紫色。熟悉纳博科夫作品的人会立即意识到这的确是个很“纳博科夫”的词;但是如果不是巧妙运用机器的读取与分析能力,恐怕即便是纳博科夫研究专家也难以指认这个词是“纳博科夫最喜欢的词”。

在这个堪称精彩的数字人文实验中,研究者做的事情其实就是向机器“提问”,而向机器“提问”的两个关键就是:真正清楚自己想问什么,以及将问题准确“翻译”成运算指令。

04如何借力机器读懂孔子的真意?

我们再来看一个中国的人机共读范例,这个范例的研究对象至为经典——《论语》,研究的主要目的是考释《论语》中一些疑难句的句意。这是一个延续了数千年的课题,属于经学和训诂学领域,如果说这个课题曾聚集了许多人类顶尖头脑,应不为过。那么,机器还能有何作为呢?难道连阅读都不会的机器,反而能准确地读懂几千年前孔子话语的真意?做过高校教师的人大概都知道学生若只用“谷歌翻译”之类的软件翻译自己的论文摘要或外文文献,其成品是何等荒唐,难道我们还能指望有什么运算程序可以准确“语译”《论语》吗?这样的运算程序或软件当然至少目前还是没有的,但《论语新注新译》的著者杨逢彬先生却成功地利用计算机的数据读取与运算能力,对许多长期聚讼纷纷的问题给予了很有说服力的论断。说到底,他用的方法,其实就是传统训诂学的方法,特别是以高邮王氏父子为代表的成熟期训诂学方法,只是他将一些工作交付给机器完成,从而大大克服了研究者难以避免的个人局限可能造成的误判,大大提升了研究的效率。

杨逢彬先生认为,王氏父子最精彩、最无懈可击的考释篇章都是将“审句例”这一原则和方法运用得炉火纯青之作。所谓“句例”,类似今天说的“固定句式”,其本质是语法结构。语法作为人类社会交流的工具,在一个语言场中,比如在一个时代使用同一种语言的书面典籍中,其结构是相对稳定的,所以如果能发现一个疑难句中存在着固定句式,就可以遵照固定句式理解其句意,“审句例”的依据即在于此。这个方法的重点在于发现“句例”,而发现“句例”的难处则在于必须十分熟悉大量的语料,这样才能既避免视而不见,又避免以偏概全。王氏父子释“终风且暴”,引用了《诗经》中《燕燕》《北门》《伐木》《那》《甫田》等诗中的诗句,雄辩式地论证了“终……且……”是个固定句式,而这必须研究者将全本《诗经》烂熟于胸才能做到,若只是能从头到尾地背诵这部经书,也无法获得这样识别“句例”的慧眼,何况王氏父子的考释范围涵盖群经诸子,可见其腹笥之广。而在今天,能于一部《诗经》中触类旁通、贯珠无碍的学者都是凤毛麟角,遑论先秦典籍一一烂熟于胸、纵横排比。这并不是说今世学者不及古代学者聪明或用功,实在是因为今人需学的知识门类和数量都远大于古代文人,所以不可能再自幼及长一心浸淫经史数十载了。但这也的确造成今人的训诂新作难继古人鸿业。而机器日益强大的数据读取与分析能力恰恰可以弥补今人治学的这个天然短板。

我们就以《论语新注新译》中作者自己最得意的考释篇章之一为例,鉴赏其人机共读的妙处。这个篇章考证的是《子路篇第十三》中的“言不可以若是其几也”,这句有两种句读方式,朱熹主张一气读下,而古今也有很多学者主张在“若是”后点断,也就是将“言不可以若是”看作是一个意义段落,将“其几也”看作是又一个意义段落。两种句读方式,意思都能读得通,但孔子当年对鲁定公说的意思到底是“说话不能像这样地不留余地”,还是“不可能有这样的话,但有近乎于这样的话”?其间却大有差别。如何评判孰是孰非呢?杨逢彬团队用电脑检索发现,《孟子》的《梁惠王上》《梁惠王下》,《庄子》的《则阳》,《荀子》的《仲尼》《王霸》《强国》,《晏子春秋》的《内篇杂下》,《吕氏春秋》的《季秋纪》,《韩非子》的《难四》《五蠹》中,都有“若是其+形容词”这个“句例”,从而论证出这个固定句式在当时是存在的,意思是“如此”即“这样地”,而“几”在先秦汉语中正是一个形容词。所以,结论是,朱熹的句读方式是正确的。[6]

这个研究的方法逻辑,和本·布拉特的前述研究有共同之处,那就是人类向机器“提问”,而研究成功的关键也在于准确地提出机器可以执行的指令。但在这个研究中,其实另有一个隐秘的前提,那就是研究者其实在检索之前就“已知”存在着“若是其”这个“句例”——这种“已知”也许是语感或模糊隐约的印象,也可能有具体的语料支持,总之心中是有这么一个“若是其”的。机器可以迅速读取作为汉字序列的全部先秦传世文献,却不能自行“读懂”其中任何一句,而且即便将“言不可以若是其几也”这个疑难句做成特殊标记后的编码段落,机器本身对其也无任何解释力。只有研究者凭借自己的“已知”,准确地框定“若是其”作为检索对象,这个研究才发生了突破性的推进。但即便是有具体语料支持的“已知”,大约也只能是三两条语料,像这样纵横6部典籍、汇聚10条语料,从而稳稳支撑这个固定句式,实非人力能为,不但今人做不到,恐怕即便高邮王氏父子也难以做到。而检索“若是其”这个编码段落、将全部检索结果与来源信息进行有序输出,对现代计算机来说却是极轻而易举的事。因此,在这次人机共读的研究行动中,学者的学识、经验起着主导的作用,而计算机的辅助作用却也是决定性的。而且这个分工方式其实正体现了机器的本质功能:节省人类精力,放大人类力量。从最原始的石块、棍棒,到滑轮、杠杆,再到蒸汽机、电动机,以至于今天的芯片、人工智能,这个本质功能从未改变,此之谓“底层逻辑”。

计算机检索功能的辅助,的确大大增强了《论语》疑难句释读的水平,杨逢彬先生所言非虚:“即便如王氏父子,如释‘终风且暴’‘夫佳兵者’那样的精湛篇什也不是很多的。”而《论语新注新译》中与上述“言不可以若是其几也”的考释“处于同一水准的大约不下60—70篇”。更为重要的或许是,借力于计算机检索功能,杨逢彬团队做了任何古代、近代的经学与训诂学大师大概都做不到事:为了考释“揖让而升下而饮”究竟是“揖让而升,下而饮”还是“揖让而升下,而饮”,穷尽式地考察了《左传》《论语》《国语》《孟子》中的5,736个“而”,证明当时以“而”连接动词不存在“V1而V2,而V3”的结构,只能是“V1而V2,V3而V4,……”,另外“V1而V2,且V3”的大量存在也从语言系统性的角度“大大排除了表达同一意义的‘……而……,而……’句式存在的可能性”,于是得到结论,此句应是“揖让而升,下而饮”。[7]可以想象,再博学强识的学者,也无法只凭诵读记忆而有信心断言这四部先秦古书中绝无“……而……,而……”之语法,而如果用笔一一检录,则工程浩繁且极易漏误;这个研究步骤的确是理应计算机来做的事情。

05人机共读叙事类文本的可能性

关于人机共读的“底层逻辑”,我们再举最后一个例子,这个例子借用自社会学研究,但对于人文研究可以有很大、很直接的启发。Interactions, Actors, and Time: Dynamic Network Actor Models for Relational Events(《互动、行动者与时间:关系事件的动态网络行动者模型》)一文是克里斯朵夫·史岱菲尔德和佩尔·布洛克两人2017年发表在Sociological Science(《社会科学》)杂志的一篇近40页的论文,研究的大致是如何在算法中同时引入时间变量和行动者意愿变量,以构建精确度较高的模型来描述和分析动态社会网络中的事件。从人文学科的眼光来看,这个模型如果成立,其实也可用于历史事件、叙事性文艺等研究对象的描述和分析。这是我们借鉴这一研究的基础。但是,也许真正启发我们的是这篇论文中体现的机器“理解”人际关系事件之方式,换句话说,就是机器到底将社会事件“读作”什么。我们引用论文中的一张图表(图1),笔者以为,这是一张足以冲击我们大多数人文研究者思维习惯的图表。

图1 示例性的多变量过程状态


这是他们论文中的第一张图片,也可以看成是全文研究的起点,此处与论文的创新之处还有很远的距离,只是描述了研究对象的基本颗粒,即“动态社会网络事件中的稳定状态”。我们可以近似地说,这样的图片按照时间顺序排列起来,就是机器“眼中”的人际关系事件。在计算机学术语中,这是一个“进程状态”。它由以下种类的元素(即计算机可以识别和处理的信息对象)构成:A(1)所表示的行动者集合,A(2)所表示的行动者群体集合,z(1)和z(2)所表示的行动者属性,z(3)和z(4)所表示的行动者群体属性,z(5)和z(6)所表示的全局变量,x(1)和x(2)所表示的行动者之间关系,以及x(3)所表示的行动者与群体之间的关系。[8]比如,在某一个具体的历史事件中,A(1)表示参与这个历史事件的5个人,A(2)表示当时的5大势力,z(1)可以表示人的性别,z(2)可以表示人是否年满30周岁,z(3)可以表示势力是否有独立武装,z(4)可以表示势力是否已稳定存续达10年,z(5)可以表示当时这个社群的人口总数,z(6)可以表示当时这个社群的经济总量,x(1)中的连线可以表示5个人之间存在的姻亲关系,x(2)中的连线可以表示5个人之间存在的利益争夺关系,x(3)中的连线表示5个人归属于5大势力的情况(1个人可以同时归属2个或2个以上的势力)。只要这11个对象中有任何1个发生了变化,便生成一个新的稳定状态。此时再添加一个元素,即相邻两个稳定状态之间的时间间隔,我们就基本能够对于这个历史事件做一个全面的描述了。

这样的描述,与史家的传统描述当然是大相径庭的,但又的确是对于同一个事件的同样已知信息的描述。客观地说,两种描述方式并无优劣之分,只是一个适合于人类阅读和理解,一个适合于机器读取和运算而已。在计算机技术还不具备相应运算能力的时候,人们不大可能想到这样的描述方式,但既然技术达到了相应运算能力,这样的描述方式就能起到很大的作用。史岱菲尔德和布洛克的论文中给出了一系列的公式,可以对经过这样描述的事件进行分析和阐释,得出诸如各变量对于行动者行动时间与行动方向的影响函数、各变量对于事件进程与结果的影响函数等规律性的发现,而且还有可能推理未知变量存在的概率与方式(类似于当代物理学中关于暗物质的理论)。其中的数学方法是大多数人文研究者未曾了解过的,比如:费舍尔得分,即体现随机变量携带的概率相关未知参数的方差得分,可以用来衡量“关系的异常度”;寻找方程近似根的牛顿迭代算法,在这里可能是用来寻找最接近的参数值;COX回归模型,这个模型以生存结局和生存时间为因变量,分析多因素对生存期的影响,在此以一个稳定状态的延续作为“生存期”,则运用这个模型可以呈现各种变量如何影响了行动者做出特定行动(如结盟、攻击等)的时间、频率及对象选择。

这些运算结果有意义吗?也许见仁见智。但至少,这种理解事件的角度本身,就可以给人文研究以有益的启发。即便我们说这些函数都是无用的,那么这个“无用”也就进一步明晰了我们的研究目的和研究意义究竟是什么。何况,这个理解角度大概是能够从我们熟知的历史现象或叙事文本中发现新的研究课题的。简而言之,机器的读取与运算(可以简称“机器读算”)作为人类阅读的第一个真正的“他者”,理应也必将激发人类阅读的诸多潜力。

06“人文影像阐释原则”

现在,我们回归人文“影像学”这个新概念的讨论。关于医学影像学给予我们的第一点启发,我们已经得到确证,即人机共读的实践的确能够拓展人文学科的研究视野,增强我们解决既有学术问题的能力,启迪我们发现新的学术问题。因此,人机共读可以作为数字人文的基石概念和人文“影像学”的逻辑起点。在此之后,我们理应探讨的就是我们运用新技术的学术训练路径,即如何形成像医学中的“影像诊断原则”那样可积累、可传承的“人文影像阐释原则”。这些原则应该有利于数字技术在人文学科的大规模运用,同时避免数字技术的运用损害人文学科的根基与精髓。

借鉴“影像诊断原则”,那么“人文影像阐释原则”的“总原则”应该是以人类为主导的人机合理分工。人类的主导地位体现为“目标主导”“方案主导”和“结论主导”。人类设立明确和有意义的研究目标,将目标转化为运算方案,根据机器运算状况进行方案的评估和调整,再根据机器运算结果,调整完善现有认知架构,得出研究结论。在这个过程中,可能运用多样算法,将多个运算结果进行参照对比。计算机的分工,则是进行检索、统计和模型解析,即承担任何重复性、机械性、公式化的工作。人类负责与人文文本进行思想碰撞、情感交流,机器则负责将人文文本作为数据集进行读取和分析。这两大方面之中,思想碰撞、情感交流这一方面是出发点和归宿,数据读取和分析这一方面是工具和借鉴。

基于此,数字人文的学术训练体系构建,无疑传统的基本人文养成都是必要的,而其中尤为必要的,则是养成学人的情怀、胸襟、悲悯、风骨、灵思等这些机器永远都无法承载的精神品质,也就是说,人文专业的重点将是培养能够聆听与呼应伟大灵魂的健全身心,能够理解君子的贤人。这正是人文教育的本色与源头,就此而言,数字人文不特不是颠覆,甚且不是新变,而正是返本还源。

据研究者们统计,目前,国外已有三十余所高校开设了数字人文课程,我国也有至少9所高校已开设数字人文课程,这些课程普遍的构成内容,是编程技术培训、人文社科知识、案例解读与实操,其中编程技术主要包含数据的挖掘、分析、可视化等;我国高校的课程框架中特别突出了与图书情报学的衔接。[9]作为跨学科知识集合,这样的教学可以说是涵盖很广泛的,但是作为一门课程,或者说作为一个学术训练体系,这样的教学或许还可进一步凝练思路,从追求平衡兼顾“数字技术”与“人文知识”,走向以锻炼“人机共读”中的问题意识和解读能力为清晰主线。

我们今天无疑有必要在人文专业的学术训练中新增计算机学的知识与能力教学,但是,重点应在于原理、思维方式的学习,而非应用技术的培训。术业有专攻,正像医生不可能取代光学科学家和仪器工程师的工作一样,人文学者也不能取代数学家和软件工程师的工作。人机共读的数字人文,对于人文学者的真正要求是能够将研究方案表述为运算指令,即在清楚自己真正想解决哪个具体问题的基础上,能知道这个具体问题以计算机学的术语来说“是什么”。只要能做到这一步,其它的工作就是软件工程师的专长了。至于新数学方法的发明则有待于数学家的探索,人文学者应关注这个领域的重要创新,考虑这些创新是否对应人文研究的哪些问题,但不大需要(也不大可能)自己在这方面达成多少创新,这也和影像生成方法的创新实现着医学影像学的迭代,但医生不是也不应是这些创新的主力一样。但是,医学关于人体的知识,是人体内部影像生成方式创新的重要技术资料;医生的诊断与研究需求也成为影像技术创新的动力。所以,我们焉知数字人文的蓬勃发展和人文“影像学”的日益成熟不会促进算法的发展甚至突破呢?人文学者不必是机器领域的工程师,但是必须懂得机器的原理、知道机器的功能;机器不会阅读,但是机器也可能因人机共读而“成长”。因此,数字人文教育的本质、主体和意义还是在于人文,正如医学影像学教育的本质、主体和意义还是在于医学。

总之,以实现分工明确、比较优势突出为方针和鹄的,作为数字人文阐释理论体系和人才培养体系的人文“影像学”将是一个前途宽广的交叉学科。


Human-computer Co-reading and 'Imaging Science': Some Thoughts on Digital Humanities

Li Minghui, Tian Xiaomeng

Abstract: In terms of the fundamental logic, the foothold of the supporters of digital humanities research is the general trend of the abstract field of humanities research, while the foothold of the doubters is the essence and soul of the concrete field of humanities research. Any research is in the tension of abstract and concrete. By comparing “human fluoroscopy to medical” and “modern digital technology to humanities”, we could take the last challenge which the medical faced as a mirror for the challenge which the humanities are facing, and establish the humanities “imaging” on the basis of the concept of “human-computer co-reading”, as the framework of digital humanities academic training system.

Keywords: Digital Humanities; Human-computer Co-reading; Medical Imaging Science


编辑 | 许可






注释


[1]也许有人会以波粒二象性等理论为例,否定这一学科规定性的存在。但这里所指的是,例如作为物理定律,光有波粒二象性光无波粒二象性不能同时为

[2]金征宇、龚启勇主编:《医学影像学(第3版)》,北京:人民卫生出版社,2015年,第28—29页。

[3]本·布拉特著:《纳博科夫最喜欢的词》,杜森译,北京:北京联合出版公司,2019年。

[4]赵薇:《“网络分析”——以李劼人〈大波〉为例》(发言记录),见项蕾等整理:《数字与文学的对话——“数字人文规范对传统文学研究方法的挑战”研讨会纪要》,《中国现代文学研究丛刊》2020年第8期。

[5]本·布拉特著:《纳博科夫最喜欢的词》,第179页。

[6]杨逢彬:《论语新注新译》,北京:北京大学出版社,2016年,第249—250页。

[7]杨逢彬:《论语新注新译》,第49—50页。

[8]Christoph Stadtfeld, Per Block,“Interactions, Actors, and Time: Dynamic Network Actor Models for Relational Events,” Sociological Science, vol. 4, May 2017, pp. 322-323.

[9]参阅王涛:《数字人文的本科教育实践:总结与反思》,《图书馆论坛》2018年第6期;张久珍、韩豫哲:《北京大学“数字人文”课程教学实践及经验探索》,《图书情报工作》2019年第19期;袁一帆:《国外高校数字人文教育的调研与思考》,《图书情报工作》2021年第13期。


校对  |  肖爽

美编  |  王秀梅







继续滑动看下一个
DH数字人文
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存