查看原文
其他

王 峰丨生成式人工智能与文学知识系统的创新

文艺争鸣 文艺争鸣 2023-09-22

生成式AI的兴起对整个社会的震动很大,有研究表明,生成式AI(或称大型语言模型)将对高校文科教育产生巨大的影响,甚至在某种程度上威胁到高校文科教师的职位,文学研究者是高校文科教育的有机组成部分,我们必须冷静客观地面对生成式AI对高校中文教学和研究的冲击,找出规律,寻找到切实可行的改造与适应路径,应对这一技术的挑战。

生成式AI是自然语言处理类人工智能的一种简称,此前自然语言处理方法只能完成有限任务,功能相对局限,无法适应丰富复杂的应用场景,更不用说在绝大部分场景中接近或达到人类语言理解和生成水平。但是,现阶段的人工智能已经开始在语言理解上接近甚至部分超越人类水平了,尽管无法比拟人类整体语言功能,但限定场景的卓越表现让我们意识到,必须分析和评判生成性AI对中文语言处理学科的影响,以进行有效的应对。

文学向来被视为人类文化的核心,创作者是这一文化核心的动能。我们相信,语言是人类心灵最好的镜子,它是我们区别于其他生物的主要因素,有着耀眼的光辉。因此,一旦相信“语言使用出自人类最自由的心灵活动”,就很难接受不具备人类心灵的生成式AI能够进行有意义的语言活动。从人类整体语言活动来看,心灵散落在语言活动的结果中,我们天然具备将两者联系在一起的能力,由此,个体的语言活动就与精神活动画上了等号。从这个意义上说,意义即语言与实际对象发生关联。

维特根斯坦认为,语言就是实际情况的图像:

一幅图像所表现的东西是其意义。

它之为真的或者假的,这点取决于它的意义与实际是一致的还是不一致的。

为了认出一幅图像是真的还是假的,我们必须将其与实际加以比较。

仅仅从一幅图像本身我们无法认出它是真的还是假的。

不存在先天真的图像。

相比之下,生成式AI本质上不直接产生意义,即便生成式AI所使用的语言材料是人类心灵活动的呈现,但它在产出语言组合的过程中不产生专属于AI的精神活动。它只是使用计算的方式来进行语言组合,并利用组合的结果造成一种类似人类语言意义的效果,这也是AI最伟大的地方——以计算的方式达成人类使用语言的水平。

乔姆斯基提出,语言分为强生成概念和弱生成概念,这两种概念都是语言—思想模型。强生成概念的语言是一种内在语言,“代表内在的、个人的以及意图性的:我们感兴趣的是发现实际的运算过程,而非生成的内容,它大致类似于一个公理系统生成的证据”。弱生成概念的语言“代表外部语言,很多人将其视为数据库,或者视为弱生成的某种无限集合。哲学家们,语言学家们,还有认知和计算机科学家们经常把语言理解为弱生成的产物”。生成式AI的语言机制恰好类似于乔姆斯基这里所说的弱生成概念,而我们一般所理解的生成则接近乔姆斯基的强生成概念。记住这样的区分有利于我们深入理解生成式AI能够做什么,以及不能够做什么。生成式AI从根本上讲与内在心灵无关,它更像乔姆斯基所说的弱生成,是一种外部语言。

生成式AI对那些基于语言处理的工作产生了巨大冲击,因为其本质就是语言组合,且会随着调试达到越来越高的水平。同时,生成式AI基本没有语法错误,但会不断产生事实性错误,需要进行人工调适,减少这样的事实性错误。在语言意义上,生成式AI与人最大的不同是,人的语言意义是在生活实践中自然形成的,语词从来不是单独产生,而是与使用方式相伴产生,“当我们说,‘语言中的每一个词都标示着某种东西’,这时候还什么都没有说出来。除非我们确切地说明我们所做的是何种区分”。可见,人的语言意义正是在使用中与事实一块形成的。与之相对,生成式AI的语言使用本质上是对人类语言使用在语词层面上的调用,人类语言的事实伴随这一层面在生成式AI的语言呈现结果中是天然缺失的,两者不具有因果关联,只具有偶然的关联,但这一偶然性并不完全显示为绝对的偶然,反而显示出语言表面上的逻辑性,这是生成式AI的伟大贡献。将语言表达与事实重新连接就要通过人工筛查的方式进行,即去除偶然性,只留下必然性的逻辑关联。这当然是一个巨大的工作量,但从工作方式上是可以行得通的。

与人相比,生成式AI在语言处理上无疑还是具有很大局限性的,且不说它存在事实相符性即意义真实问题,在语料范围上无疑也是受到限定的,它以网络公开材料为基础,这当然已经非常广阔,但与人类语言的无限可能性相比,还是不充分的。

我们必须看到生成式AI的能力与局限,才能以文学知识系统为基点,更好地对待它,分析其冲击的真实表现,并找出应对之策,虽然对文学知识系统的具体冲击还只是潜在的,但我们必须见微知著,提前做好预警方案、发展方案,以应对未来的快速变化。

一、文学计算化的趋向

文学计算化的动能不只来自生成式AI,近些年兴盛的数字人文向既有的文学研究方法发起了挑战,也为文学研究带来崭新的研究视野。从原理上说,既有文学研究方法的核心是细读,即人力工作;而数字人文的核心是计算机技术支持下的类型阅读,可以在特定场景中对文学作品进行量化分析,在效率上具有巨大优势。在新的计算时代,研究者可以通过设定控制流程来实现相对精确的研究目标,这些具有客观性表征的目标与依赖大量细读完成的目标不同,客观性目标依赖于确定的场景,需要经过计量分析设定,因此,当这种模式介入文学研究后,我们会不可避免地认为数字人文的研究方法是狭隘的,至少不如细读研究方法全面和普适性。实际上,数字人文作为细读研究方式的补充,已经逐渐对文学研究领域产生了整体性影响,整个学界也慢慢接受了细读与数字人文联通互补的情况。这本身就是一种进步。

如果说通过数字人文的方式对特定场景下的文学进行计算研究是可行的,那么计算能否进一步拓展到文学创作呢?一直以来,文学创作都被认为是人类独有的创造方式,因为文字组合的多样性和意义达到的复杂性使得机器生成有意义的句子难上加难,但是生成式AI却完成了具有意义的语言概率性生成,这不能不对既有文化造成冲击。它像一头难以描画的怪兽,闯入本来由人类独享的精神领地,击碎了语言的人类独尊迷梦,从此,归属于人类的“创造力”“想象力”等一系列排他性称号开始大权旁落。

从微软“小冰”开始,自然语言处理就在文学艺术领域攻城略地。“小冰”的现代诗,清华“九歌”系统的古体诗,都具有相当的质量。当然,所有诗歌系统写作的特点是,必须加入人工遴选。但哪怕有人工的参与,诗歌系统的创作质量也是相当可观的,更何况还具有创作速度上的优势。从目前的情形来说,诗歌写作的水准相对较高,难度也较小;小说写作要困难许多,表现不佳;散文写作处于两者之间。随着大语言模型的兴起,限定字数和体裁的散文写作已经达到了相当高的质量。之所以存在这样的差异,是因为语词生成的长度决定了难度。诗歌字数少,意思表达跳跃性大,其表达的情境相对模糊,而欣赏者会对跳跃性表达进行自发补充,这是诗歌自动写作的最大优势。

从自动写作角度来说,生成字数越少,越需要借助格式的力量,越容易实现;而字数达到几百字以上,达到逻辑顺畅、语义准确则具有相当难度,生成式AI初步解决了这个难题,在散文体写作上具有出色的质量。相对而言,字数增加,自动写作的难度就会增加,这也是截至目前,小说自动写作没有产生有质量的作品的原因。如果未来某一天,生成式AI能够制造对人类阅读者有意义的长幅篇章,那么,此类小说就会成批量地制造出来,势必造成对人类写作者的巨大冲击,甚至导致人类文学创作堤坝的全面崩溃:一方面,小说写作的难度将直线下降;另一方面,生成式AI的创作质量不断上升,任意一个受过一定教育,懂得操作生成式AI的个体都可以宣称自己写出了一定篇幅的小说作品,并借此成为一个小说家。这不仅会导致小说作品良莠不齐,也会让文学写作领域一片狼藉。但是,这也给我们带来了一个新方向——人机融合写作。人类写作与生成式AI写作融合后产生的新作品可能在质量上不如优秀的人类写作者,但是出产速度快、时间短,普通人也可以拥有天才作家“下笔千言,倚马可待”的能力,此前“高端”的长篇写作被普通人掌握,这势必会对文学创作产生巨大的冲击,而我们也不可能对这一现象视而不见。

二、个体知识形态的塑造

掌握丰富的学科知识是学生培养的核心议题。进入现代社会以来,中国文学学科发展受到了西方文学系统8和苏联文学系统的深刻影响,同时也形成了中国文学学科知识的独特面貌。我们也许会感叹中国文学知识的某种缺憾,比如,受到苏联知识系统的影响,过度学科化而导致的知识固化,等等,但这又是历史发展的独特轨迹,无法否认。文学系统知识是不断向前发展的,它的每一段历史本质上都是一个改变面貌的机遇,作为一种独特的文化形态,文学与一个国家、民族的独特发展轨迹是密不可分的,正是特殊的历史时刻形成了现在面对的文学知识系统。因此,对缺憾的弥补往往并不是通过恢复原初纯粹设定完成的,而是通过改变系统设定的目标,部分性弥补此前缺憾而达到的。当然,目标的偏移可能会带来其他缺憾,如果我们集中于某种发展的缺憾,总是可以收集大量的相关证据,但转过来想,正是缺憾才促成了不断修正的努力,这也是文学知识系统不断向前发展的活力所在。

生成式AI能够以百科全书式知识形态对个体知识形态造成特殊影响。在此之前,“百科全书式知识”只是一种观念或知识汇编,在个体这里并不容易实现,尤其是现代以来,学科分野日渐精细,每一学科都需要经过严格而长期的专业训练才能获得完备的知识系统,百科全书式观念起于启蒙时代,离我们这个时代却渐行渐远。生成式AI带给我们些许改善的希望。

生成式AI为我们提供的是新的文学系统的发展可能性,它以知识数字化为基础完成了对现有文学知识体系的较为全面的占有,从而不可避免地为我们提供了一个新的对照系统。在这一系统中,我们发现,此前文学知识系统所悬设的文学知识整体性某种程度上可以达成了。在生成式AI这里,“文学整体”以具体的、可实践的知识形态出现,这在传统文学研究体系中不可想象,因为后者依赖于个体对整体的把握和表征,并且以这种个体化为典范。比如,英国文学评论家利维斯的著作《伟大的传统》列选了历史上伟大作家,进行细读评价,认为文学传统正体现在这些伟大作家之中。整体知识是以专业图书馆的形态出现的,而且往往不是一个专业图书馆可以完成的,纸质书籍本身就占据庞大空间,随着书籍的增加,收藏空间也要不断扩张。个体与总体知识之间存在某种经过调试的恰当比例,而这一比例会使得我们对个体文学知识者进行不同层次的划分:具有大量丰富的文学知识的研究者会成为传统学科建制下的博学者,并获得崇高的声誉;具有相对丰富的文学知识的文科从业者和学生;具有一定文学知识的社会公众和文学爱好者;只有少量甚至不具有文学知识的社会公众。数字化解决了空间和数量的困难,也改变了文学知识的形态。传统博闻强记型学者变得不那么关键,因为数字化材料和搜索引擎可以帮助获得大部分知识,相对冷僻的专业知识则在专业知识库里存储丰富。在生成式AI系统的支持下,文学知识进一步升级,逻辑性增强,数字化散点知识在生成式AI支持下可以进行有效的知识聚焦,具有相对丰富知识的文学研究者都有可能通过恰当的询问技巧达到对整体文学知识的挖掘和占有。因此,文学培养的关键环节就变成了文学知识的议题设置;相应地,文学研究的目标也在生成式AI的影响下发生了巨大的偏移,适度的判断力、议题与整体知识方案相契合的设置能力、对知识内容的深刻反思会变成培育文学人才的关键目标。

当然,我们也会看到,虽然新的文学知识系统与传统的文学知识系统区别很大,但两者是可以并存的。我们完全可以想象到,未来会有一部分研究者仍然坚持使用传统的研究方式,另一部分研究者则会从新的研究方法入手,还有一部分研究者会两者兼用。这里并不存在某种方式更好——文学研究中并不存在最好的研究方式,只有最合适的方式。固守传统或只追求前沿技术显然不是文学研究知识系统建设的最佳方式,我们必须对文学知识的研究与学生的培养结合起来,具体的课程安排应当根据学生的发展来设定,同时还要保持文学系的博雅传统。面对新形态,高校中文教育有责任教授学生细读实践,同时还要有意识地教授大语言模型新系统的知识,使学生具备两种系统知识,并不断进行磨合重塑,否则可能出现教育与社会相脱节,与实际的技术发展相脱节。

三、细读与远读:文学培养的两翼

将细读与远读并列,是为了揭示生成式AI所导致的文学研究方式的分野。“细读”原本是形式主义的文学研究方法,这里扩展为人文主义文学研究方式的代称,之所以这样做,是因为细读更强调贴近文本细节;相对而言,生成式AI偏重于基于类型的统计学方法,是一种非人文式的研究方式。从本质上来说,细读是人类阅读者才能做的事情,细读强调一个独特的个体阅读者与一个独特的文本(小说、诗歌、戏剧、散文等)的相遇。世界上没有两片相同的树叶,浩瀚书海中的一本,与广阔人口中的一个相遇,两者要同频共振,要产生共鸣,就要求阅读者要尽自己的阅读能力,在阅读中产生一种难以量化的、直观的判断力,从而基于具体文本做出具有普泛意义的判断或结论。我们无法以科学的名义衡量这一判断或结论是否客观、准确,只能通过多次验证来反推其可行性,或由其所处的共同体达成一致赞同。可以肯定的是,这一判断或结论中包含了阅读者个人的整体人文素养。阅读者在一贯的阅读行为中会表现出某种稳定的判断和传统人文主义细读训练留下的痕迹,正因如此,我们才会信任这种判断的准确性,这也是细读传统为文本判断带来的必然视野。

借数字人文之名兴起的机器阅读明显背离了细读传统,两者甚至呈现出并行态势。机器阅读最重要的特征就是忽略个体性,基于类型制定清晰的规则,完成对某一类文学的阅读。数字人文的始倡者意大利学者莫拉蒂提出与细读传统相对的远读概念,就是基于计算机、统计学之上的新文学研究法。从此观之,阅读策略是明确的,如何设定这一阅读策略却需要大量的考察和分析,它可能出自某个个体睿智的批评或反省,也有可能是集体讨论的结果,但有一点是确定的:这一阅读策略可以在机器阅读面对的大量类型文学作品时成功获取数据,进而作出某种判断。生成式AI进一步将学术研究扩展到学术写作,全面完成了从分析到文本生成的任务,可以对文献材料进行抽取、整理,并进行相应文字连缀,形成类似于科研论文的写作成果,这看起来和人类科研者的写作顺序很相似,但工作机制却天差地别,这是两种不同系统的研究方式。

生成式AI与数字人文的阅读是不同的。数字人文是标准的人机融合研究方式,由人类阅读者制定阅读方案和分析程序,对大量的类型文学进行分析处理,得出数据,并对数据进行分析,再由人类阅读者或研究者写成文章;而生成式AI则更进一步,它不仅能根据人类研究者设立的研究线索自动抓取相关文献,并从文献中建立类型,得出数据,还可以根据这些数据生成文章。看起来,这基本能够代替人类科研者的工作了,因此也确实会让很多人心生恐惧。事实上,即便是在生成式AI的工作中,人类研究者依然占据支配地位,因为研究线索是人类研究者制定的,即便生成式AI发展到了可以提供研究线索的程度,也需要人类研究者对其价值进行判定。在此前的科研活动中,人类研究者要做好文献梳理、文献分析,获取数据,并进行判断和分析,生成式AI优化这些环节后,人类研究者扮演的角色更接近编辑,主要负责思路方向的把控和文献语义内容准确度的核实。在这种情况下,人类研究者可以从大量繁重的研究工作,如材料收集和整理、研究论文的初步撰写、数据分析等中脱身,专注于问题的方向和思路,这必然会带来整个研究方式和研究体系的变化。

无论如何,我们已经要面对一个新的状况:生成式AI不断侵入科研流程,并逐渐在部分环节中占据主导地位。但这种入侵也确实带来了很多便利,比如图书的数字化正在入侵纸质书,纸质书的阅读大量减少,但是数字图书的阅读在大量增加,数字阅读器销量进入爆发增长期;更进一步,由于数字书籍和论文的增多,只要进行适当关键字的搜索,就可以掌握大量学术资源。传统纸籍对记忆力的至高要求变得没有必要,只要是一个记忆力正常的人,就可以进行有效的研究,个体研究者通过一键搜索可以获得需要的文献,无须进行艰苦的记忆训练。研究方式也发生了变化,强化式的记忆力训练变成了对可搜索资源的了解,以及适当的搜索工具和搜索方法的掌握。同样,生成式AI进入科研流程,它所能够替代的是相对程式化的部分,当然可能包括某些创新性部分,因为一个未经充分训练的研究者往往并不能像生成式AI那样找到一条有效线索,还不如依靠它帮助寻找线索,就像一个研究生需要导师进行指导一样,但科研的目标是创造性地做研究,只有不断寻找新框架,才能进行适当的解释和发现,而这一过程中程式性和重复性的工作,是可能交给生成式AI来完成的。

四、人机融合式创作:从可能性到事实

当下,有一个我们不愿意接受的窘境:所有的文学形式都有可能由AI生成。古体诗和现代诗都已经完成了AI化的过程,即便质量不佳,但数量庞大,再经过人类监控者的严格筛选,优秀的AI诗歌也能够被生产出来。相对而言,AI写作小说的难度比较大,因为它基于当前词对下一个词进行预测,这里面当然包含预先设定的控制参数,但目前来看尚不完善。随着生成式AI的不断优化和探索,AI写作的水准一定会不断提升,作品质量能够不断提高。这里面包含一个悖论:AI诗歌的写作程序是人类设定的,其作品标准也是人类制定的。所以,真正完全由AI创作的作品是不存在的,从本质上,AI写作就是人与机器相融合的写作。虽说如此,AI写作的成就也是了不起的,它造成人类文化形态的巨变。可以说,我们面对一个新的时代可能性:生成式AI所产生的文学重启。

从质量上来看,AI生成的文本质量比不上人类文学作品,只是效率上占据优势。同时,AI写作相对程式化,AI生成的文本虽然没有语法错误,但是语义质量却并不高,而人类写作往往有特定场景,在表达方面也有特定的语词走向与惯性,这就带来一种特殊的写作风格,从而形成对个体独特性的展现。因此,我们更倾向于认为AI的目标群体是网络文学写作者和读者,人类写作者则更适合耕耘富有人类主义精神表征的文学形式,两者更像是某种意义上的通俗文学与精英文学的分野。因此,这必然带来文学写作方式的改变——文学创作将由一个个体化行为转变为个体与机器结合的行为,即AI创作+人工修订。这虽然能够带来写作速率的提升,但也会让好作品的比率不断下降,甚至有人提出,人类写作者那种精益求精的心态可能会逐渐被迎合大众趣味的心态取代。短时间内,高效率的写作会赢得大量读者,而且,一旦人机融合写作成熟,它所达成的总体写作与阅读收益相较于AI产生之前不会有本质性的区别,也就是说,依赖生成式AI的人类写作者虽然在写作速率上大幅提升,但是其产出的具体作品的阅读者会越来越少,因为阅读者的阅读总量是均衡的,随着产品的增多,相应的阅读量会降低。这样一种状态带来的是文学写作和阅读的巨大改变。

五、计算性文学知识

随着生成式AI不断成熟,本属于数字人文研究领域的文学计算研究获得了迅猛的发展。以往,数字人文只是在特定领域进行有目标的研究,生成式AI则突破了狭隘的场景限定,不仅可以应用在相对复杂的研究场景,还能够进行超预期的长文本写作,可以完成逻辑通畅而无语法错误的文本。在传统观念中,文学创作被认为是心灵的表达,长期而艰苦的语言训练则是表达的关键环节,我们也因此将表达能力视为人类独有的天赋,现在,生成式AI同样具备了写作功能。虽然我们将之视为模仿,但是这种模仿并非对人类能力的替代,而是基于强化学习的智能计算对人的语言生成方式的替代。换句话说,两者在机制上并不相同,而是效果上的相同。从根本上来说,人脑是不能完全计算化的,但我们有可能通过复杂计算设计完成人脑的部分功能,即通过计算将此前被认为隶属于人脑的整体意识、整体性心理转化为复杂的计算系统,从而完成相关人脑功能。从此以后,文学不再止步于一种生产形态,而是更进一步,离开人的劳动范围,变为人机协作的劳动。

在这里,一个巨大的改变发生了:无意识的文学知识计算系统正在与有意识的文学知识系统发生融合。回顾此前对文学系统知识的研究,我们会发现,文学知识的反思是基于个体的,通过个体所掌握的知识和反思结构达成知识的公共性。也就是说,我们必须预设个体心灵的独特性,并将这份独特性与其他个体的独特性叠加,从中寻找具有公共性的文学规则,这些规则并非客观的刚性标准,而是充满“人性”的弹性标准。这种观念是无法忍受计算性知识的存在的,即便容纳计算性内容,也只是将之视为文学研究的边缘方案,不能成为文学研究的主体。现代文学对具有整体性、独特性的个体心灵的高扬是文学知识系统的核心部分。因而,在生成式AI的冲击下,哪怕我们已经能够使用计算性方法生成创造性文本,也要继续面对大家对计算性因素的反感。

六、文学计算的限制与潜力

一般来说,传统文学知识依赖于纸面的记录与头脑的记忆,因此我们习惯性地认为一个文学知识丰富的人,一个具有高超的文学判断力的人,一定拥有高超的记忆力。作家也许不需要很好的记忆力,批评家的记忆力却必须很好,因为他/她需要记住很多文学史知识。看起来,批评家的工作是在文本中进行细读体验,但这种体验却需要丰富的文学史知识储备和大量相关作品的阅读,“书籍的世界对他来说很快地成为一个真实的世界。这至少给批评提供一个牢固的基础和某些可以咀嚼的食物。只是阅读不像人们所想象的那样快罢了”。后者显然需要比较好的记忆力。因此,学院派的批评家和文学研究者的记忆力通常很好,他/她必须知道有哪些文献与当下的阅读材料相似,在哪里能够找到这些资料,甚至需要将资料的出处记住。文献数字化终结了对良好记忆力的要求,个体研究者只需要具备优秀的数据搜索能力即可。学术研究的方式从以记忆力为主转变为以数据搜索驱动为主,对学者广泛搜罗材料的要求也逐渐转变为对既有材料进行融会贯通的能力。后者是决定研究质量的根本因素。

为了形成大量的数据,我们必须事先总结出文学知识的规则,这些规则可能是显而易见的,也有可能是潜在的。使用文学知识时,我们会依赖某种具体、简单、具有可操作性的规则来对数据进行归类整理。也就是说,数据本身必须清晰化,这会牺牲文学知识本身的弹性,即便这种弹性正是文学的特点甚至魅力所在。在文学数据库面前,我们会面临一些难题,比如对海量数据无从下手,比如规则过于具体而适用范围过窄,甚至导致数据不可用。要解决这些难题,就要沿着文学知识数据化的道路进行知识扩展和延伸,这就带来文学知识数据的一系列建设:纸质书的全面电子化、数据化知识的可识别化、不同数据库的接口普适化以及对文学数据进行处理的广泛工具化等,这些都有赖于相关研究的不断拓展和相应技术的不断提高。这样的建设也许会在前期产生高昂的成本投入和适用范围小的弊端,但是随着内部系统和逻辑环节的广泛闭合,应用范围和场景不断扩大,从而带来相关文学研究规模的扩张,文学知识数据化将逐渐占据重要份额,甚至成为文学研究的新方向。如此一来,基于大量记忆训练的内化规则将转变为普遍性的数据库规则的可调用参数,后者将是整个文学知识系统转换过程中的主要着力点。这可能是一个过渡形态,也有可能是一个长久形态,目前正在发展的过程中。近三十年的文学发展过程中,文学知识以某种特殊的加速变化的形态演进,数据文学知识系统同样如此。我们很难想象传统文学知识系统彻底地转变为数据文学知识系统,虽然后者看起来是最前沿的,但它仍会在未来受到挑战,因为一定会有更优化的系统出现,甚至可能取代它。到那时,我们也会面临新的知识系统转变问题,当下看来如此前卫的数据文学知识系统也会成为过去时。

以细读为主的文学知识系统所训练的是一种内在调制性的判断。借用康德的主观合目的性判断力(反思判断力)模型来解释这一判断:文学目标是一种主观合目的性判断,它没有可以依赖的客观规则,但也并非没有规则,只是它所依赖的规则更基础,这些基础规则就是康德意义上的“原则”,即人进行反思判断时必须遵循的原则。相对来说,规则更狭窄,适用场景更明确;原则更宽广,适用范围更大。当然,这并不意味着原则可以涵盖规则,它只是更粗放,适用场景更复杂。一旦要在具体的场景下进行具有确定性的判断,就需要在诸多的复杂性规则中选择某一不违背基本原则又符合场景的判断进行表述。这一表述没有对错,只有合适与否,因为它涉及一个复杂的判断过程:一方面,判断主体会发出主观的然而合乎目的性的判断;另一方面,我们要依照某一原则对这个判断进行反省,即再次判断,来确定其是否合适。具体来说,当一个判断发出时,如果判断发出者与其他判断者共享同一种判断模式,那么他/她发出的判断就会被认为是合适和准确的,反之则是有偏差的。通常来说,我们会认为判断是有层次的,低层次要服从高层次的判断,这似乎是一种天然的秩序。高层级的判断必须依赖某种社会结构将其固定住,如果没有社会结构的固定,它会被低层级的判断认为是无聊或无意义的。

虽然我们在不断推进文学知识数据化,但从具身性的角度来看,这一推进并不是无限进行的。从原则上来说,由我们的身体信息所达成的数据化无法成为彻底完整的、闭环的数据化具身。因为具身信息会不断随着不同场景的变化而变化,场景是无限的,具身性数据也是无限的,身体与环境的相遇方式的多样性无法被模型所全部涵盖。即便某种模型能够接近全面涵盖的程度,由此模型产生的数据必须保持与模型的稳定关联,我们的目标才有可能实现。这一目标可以想见难以实现。因此,可能性更大的情况是出现一种超出既有模型的新数据,这自然会对此前模型产生破坏作用。此时,我们就会发现既有的数据模型存在的不足。我们当然可以补足它以完成进一步的数据化,但仍会面临一个难题:这一数据化是否值得做?它是否需要充分进行?

细读传统会一直存在。我们不妨做一个推论:文学不可能完成全面的数据化,但也不能不进行数据化,这两者拉扯的结果便是人机融合,这是一个不得已的状态。区分不同的文学知识系统是出于知识描述的需要,但两者并非截然对立,而应该是一个不断角力和拉扯的状态,这是一种多维方向的推动。与其说这是新系统对传统系统发起的挑战,倒不如说只是在既有的文学形态中增加了一些我们不熟悉的内容。数字人文方法超出了传统工作方式,需要借助计算机学或统计学来完成相关的框架设计和数据采集分析。这看似挑战,但实质上是对研究的丰富。那种认定只有传统的研究方法才是正当的,生成式AI所带来的新方式伤害了既有的细读方式或写作惯性的心态,实际上只是太依赖既有系统的缘故。新系统让我们感到神秘,也让我们不适应,但如果把眼界投向未来,就会发现年青一代比我们更习惯于生成式AI和数字人文的研究方法,并将之视为研究的必备方式之一。也许就像《科学革命的结构》中所提出的那样,由于在传统系统与新知识系统之间存在不可通约性,“两组在不同的世界中工作的科学家从同一点注视同一方向时,他们看到不同的东西。这并不是说他们能看到任何他们喜欢的东西。他们都在注视这个世界,而且他们所注视的东西并没有改变。但是在有些领域中他们看到不同的东西,而且他们所看到的东西彼此间的关系也不同。这就是为什么对一组科学家而言根本无法证明的定律,另一组科学家有时却认为直觉上很明显”。那么,“是什么促使一个团体放弃一种常规科学传统而转向另一种?”库恩的回答是,传统模型对新模式抗拒的消失,然而,这可能需要一代人的时间,比如,“有些科学家,特别是那些较年长、较有经验的科学家会一直抗拒下去,大部分科学家总能以这种或那种方式被打动。每一段时间都会有些人改宗,直到最后抗拒者死光以后,整个专业又会在一个单一的新范式内工作了”。这一判断自然让人感到些许悲凉,但假如我们以开放的研究心态来对待它,就能够理解文学研究本来就是一个开放的领域,其研究样态存在多种可能性。我们之所以被称为学者,不是因为我们掌握了某种精密而高深的知识,而是因为从根本上讲,我们是终身学习者,只有不断理解和使用各种媒介技术的新发展带来的新型研究方案,我们才能与时代研究同步。

人机融合的研究方式实际上是上述两种方案的混合状态,它之所以引人注目,是因为AI技术还没有真正成熟,它所带来的革命性力量也没有真正显现出来。一旦生成式AI技术达到相当成熟的程度,我们会理所当然地认为,学术研究就应当采用研究者与生成式AI结合的研究方式。因此,对当下尚未成熟的生成式AI,我们需要保持一种开放且乐观的心态,哪怕它现在对学术研究的帮助并不完善,甚至是粗糙的,但仍不失为一类可贵的学术手段。

结语:可期待的未来

我们之所以关注生成式AI对学术研究的影响,本质上是因为它处于发展过程中,必然会对学术研究领域产生很大影响,进而改变学术研究的知识形态和生态。从目前的学术研究状态来看,未来10~20年内,生成式AI是无法完全取代人类学者的,最多只能占据部分学术知识生成的份额。哪怕生成式AI能够胜任大部分研究工作,我们也需要研究者个体的直接判断,因为后者才是研究最可信赖的部分。从根本上来说,如果我们想要不断完善生成式AI所生产的广泛的知识系统形态,那么,我们就需要对人类所有的知识形态进行深入理解并不断开掘,以此让生成式AI的效用更像人类所为,同时也能在效率上高过人类水平。

看起来,生成式AI对高等教育、学术探索方法和文学知识产生方式的改变并不愉快,因为人类似乎被逐渐推到了边缘地带。但是,如果我们用一种弹性的、发展的眼光来看待这一态势,就会发现新技术虽然在不断入侵传统的文学知识系统,但也为我们提供了一个反思的契机:人类知识体系是固定的吗?既有知识体系是否天然正确?两种知识系统也许并非简单的此消彼长的关系,而是相互融合联结为一体的关系。在两种系统相互冲击、纠缠的历程中,人机融合的研究方式才逐渐成形,这是新技术冲击带来的必然结果。

我们也注意到,两种知识系统能够形成互补形态。AI知识在量上更广阔,人类知识探索性更强。生成式AI能够帮助人类完成很多具体的工作,这些工作放在以前,需要大量的专业人力来完成,比如此前只有大型公司或大规模组织才能进行的科学探索,在生成式AI的帮助下,可能只需要几个人甚至某个人就能够完成工作。这对学术探索而言无疑是个很好的机遇。这样一来,知识数量会明显呈现出爆炸式增长的态势,但是我们依然可以借助生成式AI对这种爆炸式知识形态进行选择,无须再激励和训练自己去面对海量数据。这样一来,文学学者就可以将更多精力放在探索型工作上,比如,设计计算模型开发海量数据,微调既有模型进行试验探索,使用成熟模型进行深入挖掘,不断提升数据质量,如此等等。对于成型于20世纪初期的中国现代文学知识系统来说,这是不可思议的,但是对当代的我们而言,却是一个即将面对的状态。只有努力把握变化多端的未来可能性,我们才能够从容地面对现在,去创造更有想象力的未来。

刊于《文艺争鸣》2023年第7期。

本文系未编排稿,成稿请查阅本刊。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存