讲座回顾 | 数字人文与中国古典文学研究

上师大数字人文 2023-04-27

上海师范大学“数字人文与中国古典文学研究”主题讲座回顾

大数据时代古典文学研究中的考证：以宋代为例

6月28日上午，华东师范大学中文系古籍所教授、博士生导师刘成国先生做客上海师范大学人文学院“人文大讲堂”，为师生做了一场精彩的线上学术讲座，题目为“大数据时代古典文学研究中的考证：以宋代为例”。本次讲座由上海市“中华典籍与国家文明”重点创新团队承办，上海师范大学人文学院中文系主任李贵教授主持，共有近300名校内外师生参与了讲座。

讲座伊始，刘成国教授介绍了中国古代文学研究中的考证范式，并指出考证在二十世纪古典文学研究中取得的巨大成就。接着，刘教授从机遇、挑战、应对三个方面展开了阐述。

首先，他谈到过去二十年古籍数据库的发展，在文献的搜集、整理层面，取得了革命性的突破，这给古代文学研究带来了很多机遇。

其次，刘教授认为，大数据时代的古代文学研究也面临一些挑战。第一，以往以博闻强记为功底的考证，随着数据库检索日益流行和强大，可能会逐渐沦为纯粹而又简单的“技术活”。第二，考证类成果会贬值。技术手段进步提高了考据研究的门槛，刊物编辑对考证类稿件审读也更加警惕严格。第三，数据检索也会衍生弊端，体现在硕博学位论文中，相关文献搜索即得，但篇幅冗长，解读粗糙，不知区分材料类型和史源。

再次，刘教授解析如何应对大数据时代所面临的机遇和挑战。第一，数据库时代古典文学中的考证应追求高度的精确性、严谨的批判性、立体的动态化。第二，对文献史料作批判性解读。除了细读、精读文献史料外，还要置于广阔的文化背景下，多学科、多视角观照，注重阐释。第三，论证的过程尤当寻求逻辑的严谨性、理路的内在一致性，如关于所谓北宋“太学新体”的学术讨论就反映出这个问题。

最后，刘教授结合他本人对“元祐体”本义和引申义的考证，总结认为：大数据时代，面对唾手可得的浩瀚文献史料，古典文学研究者所需基本功的全面训练变得空前迫切与重要。

文学研究大数据的4W

2022年7月5日下午，由上海师范大学人文学院、上海师范大学数字人文研究中心、上海市“数字人文资源建设与研究”重点创新团队主办，四川大学文科讲席教授、中南民族大学文学与新闻传播学院教授、中国词学研究会会长王兆鹏先生主讲，上海师范大学人文学院博士生导师吴夏平教授主持的讲座“文学研究大数据的4W”在线上顺利开展。来自各大高校的数百名师生齐聚一堂，共同学习讨论了相关问题。

在讲座正式开始之前，王兆鹏教授指出“数字人文”近几年热点在于“平台”构建，即如何利用平台数据分析、解决文学研究中的问题，进而引出了本场讲座的话题：文学研究大数据的4W。“4W”指数据的四个问题：一是数据种类，要什么数据？（what）。二是数据来源，数据从哪里来？（where）。三是数据转换，怎样提取挖掘数据？（how）四是数据意义，为什么要数据？（why）。接着，王教授对此四个问题依次展开论述。

首先，关于数据种类：要什么数据？

王教授指出，做文学研究需要两大方面的数据：一是文学史数据，二是学术史数据。文学史数据包括个体作家和群体流派两大核心内容。其中，王教授将个体作家层延伸到了具体的诗、文、词、曲等文学体裁，并借此告诫年轻学子做研究要有逻辑性，要层层深入，当关注到了第七、第八层之后，思维就有了深度。如关于作家人生历程和创作历程研究，以前研究一个作家一生经过了哪些地方，有哪些创作地，各地创作数量的多少，有何特点，都是通过举例子的方式来说明，但现在可以通过大数据来宏观考察。随后，王教授又举例介绍了如何利用大数据研究作家作品数量和质量的问题。如关于最具影响力的唐诗名篇问题，王教授认为经过他长期的大数据研究，最具影响力的反而不是李杜的作品，而是崔颢的《黄鹤楼》。关于学术史，王教授将其分为专题研究论著篇目、其他研究论著涉及、文学史著作的章节设置三大数据类型。

其次，关于数据来源：数据从哪里来？

这部分内容主要讲解文献史料数据的来源问题，包括文学史史料和学术史史料。王教授指出，可以从作家年谱、别集编年笺注、生平考证论文、正史、野史、总集、作品批评、序跋、选本等文献中寻找所需要的文学史和学术史数据。

再次，关于数据转换：怎样提取挖掘数据？

这一部分介绍了数据挖掘的步骤、途径、案例。数据挖掘的步骤包括建模和建库。王教授提醒大家要明确自己建模的目的，并分享了建模前、建模中、建模后的各种注意事项和以及自己的经验教训。数据整理完毕后须建立一个数据库，其过程如下：数据试用、数据统计、数据清洗、数据定型、数据分析、结果呈现。数据挖掘途径有人工提取和机器挖掘两种方法。机器挖掘虽有智能化、全域化、海量化的优点，但王教授强调应该先学会人工提取再使用机器挖掘。随后，王教授带领大家利用“知识图谱”这一数据库检索了“塞下秋来风景异”（范仲淹《渔家傲·秋思》）的出处、引用、同韵作品、自动笺注等，使其前后影响与传播接受情况清晰地呈现了出来。为了进一步让大家切身体会到利用数据库做文学研究的便利，王教授展示了李白生平资料的数据库这一案例，指出建立李白活动的时间、地点、对象，以及衍生数据等其他事项的必要性。为强调数据格式的标准化和统一化，列举了宋人诗、文、词数据库、宋词排行榜数据库、学术史数据库3个案例。王教授告诫大家，建立数据库的目的是要让数据说话，要让数据跳舞，要探究数据背后的意义所在。

最后，关于数据意义：为什么要数据？

王教授指出，文学研究中大数据的意义主要是：其一，文学数据有变零散为集中、变无序为有序、变隐藏为突显的功能。其二，数据具有发现新知、修正已知的作用。例如，王国维先生“词中老杜”之说，从大数据中可得到验证。

数字人文的技能与实践

2022年7月11日晚，由上海师范大学人文学院、上海师范大学数字人文研究中心、上海市“数字人文资源建设与研究”重点创新团队主办，浙江大学文学院（筹）教授、博士生导师、数字人文研究中心主任徐永明先生主讲，上海师范大学人文学院博士生导师吴夏平教授主持的“数字人文的技能与实践”在线上顺利开展。来自全国各高校师生数百人齐聚一堂，共同探讨相关学术问题。

讲座伊始，徐教授以中办、国办印发的《关于推进新时代古籍工作的意见》《关于推进实施国家文化数字化战略的意见》的文件精神开启会议，指出国家对数字人文的高度重视、数字人文技能与实践对学术研究的重要性和必要性。讲座内容由以下几部分组成。

一是技术、工具和平台。徐教授指出，人文学者不一定要掌握尖端的计算机技术，但也应有所了解。有一些技术是很值得我们学习的，如这几年关注度较高的众包技术，对古籍整理工作确实有很大的帮助作用。随后，徐教授又介绍了图谱技术、文本处理技术、图像处理技术、云端技术、gephi工具、pajek工具等多种技术和工具在人文学科领域的运用。

二是掌握数字人文技能的重要性。徐教授通过哈佛大学的调查问卷，向大家介绍了Text Analysis、Programming、Databases、Spreadsheets、SpatialAnalisis、NetwordAnalysis等多种数字人文技术。其中关于正则表达式、Phthon等各种语言的编程、数据透视、软件制图等研究方法的运用让广大师生耳目一新。并举例说明掌握这些技能的重要性，有不少青年教师和研究生，掌握了相关数字人文技术，获得哈佛大学访学资格。

三是数字人文课程。徐教授以浙江大学为例，介绍了数字资源、工具软件、GIS与制图、CBDB、文本转数据库、Python六门课程的大致内容，并详细演示了几种工具软件的使用方法。文件查询和处理软件，如FIPLIST（目录自动生成软件）、Listary（文件查询软件）、ha_EmEditor（地毯式搜索和正则表达式查询软件）。数据库技术，如Vlookup。图形技术软件，如Gephi、Pajek、Xmind、Visio2016等。编程语言，如Python。徐教授特别指出，Python功能强大，运用范围宽广，是目前文科生在掌握基本原理后就可以使用的工具。通过演示如何使用Python对在线古籍图片进行切割和批量改名、如何运用正则表达式搜索文献等，说明工具软件确实有助于提高学术工作效率。

四是数字人文实践。徐教授介绍了浙江大学的数字人文实践活动、“智慧古籍平台”的功能和使用方法。“学术地图发布平台”（AMAP），已发布了大量古人行迹图、诗人分布图等学术地图。部分研究生通过参加该平台实践活动，较好地掌握了学术地图制作等技能。徐教授肯定了平台的建立有利于学术发展，也指出此平台虽将数据结构化，但仍存在碎片化、与文本结合相对较弱的缺点。而“智慧古籍平台”则能弥补学术地图与文本之间结合较弱的缺憾。

五是数字人文发展总趋势。徐教授认为，“智能化”是数字人文未来发展的总趋势。数据平台由原先的传统数据（如国学宝典、中国基本古籍库等），通过结构化数据（CBDB、AMAP等）向智能化数据（MARKUS、DokuSKY、CSAB等）发展。在大数据背景下，知识结构发生了变化，学术研究应在传统的义理、考据、辞章等方法之外，还应具备“算法”知识。徐教授强调，人文学者应当拥抱新技术、学习新技术。虽然数字人文的基础技术和设施建设还处于起步阶段，但可以肯定，数字人文未来对文化发展的影响会越来越大。

中国古典诗歌声律分析系统及其应用举隅

2022年7月23日下午，由上海师范大学人文学院、上海师范大学数字人文研究中心、上海市“数字人文资源建设与研究”重点创新团队主办，上海师范大学人文学院博士生导师吴夏平教授主持，北京大学中文系教授、博士生导师、系主任杜晓勤先生主讲的讲座“中国古典诗歌声律分析系统及其应用举隅”在线上顺利开展。来自各大高校的师生齐聚一堂，共同学习讨论了相关问题。

杜教授以中国古典诗歌声律分析系统的研发缘起开启讲座。杜教授认为，传统诗歌声律的例举式研究、手工标注统计分析研究存在一些弊端和短板。而中国古典诗歌声律分析系统的研发正是基于整合传统诗律学与数据库分析的理念。

随后，杜教授强调了诗歌体式研究的重要性。他指出，中国古典诗歌体式研究主要包括体、格、律等方面的问题。南朝齐永明之后，中国古典诗歌讲求声律，可分为句律、联律、联间律、韵式等。永明体与五言近体诗虽有相近相同之处，但也有本质不同，五言诗律化是一个漫长而复杂的过程。

杜教授介绍，在对五言诗律化过程的研究中，他意识到计算机对于辅助研究的重要作用。经过多年努力，终于建成了中国古代音韵数据库、中国古代诗歌文本数据库、中国古代诗律分析系统。

中国古典诗歌声律分析系统的主要功能是四声标注与句式判别，即平仄、近体句式、永明句式、近体联式、永明联式、联间式、黏对式的标注判别。该系统收录了先秦至唐代所有的诗歌文本，各个时段的作品有相应的音律数据库与之匹配，如汉代的作品属于上古音系统，隋唐作品属于中古音系统等。此外，该系统还可用于永明体到近体诗的病犯情况研究，宋、元、明、清近体诗的声律也可以用该系统进行分析。尤其是该系统的4.0版，功能尤为强大，可同时分析、导出数千首作品。最终可导出病犯、蜂腰、鹤膝等大数据的汇总，这极大提高了我们的研究效率。另外，该系统从3.0版开始，增加了异文校勘、多音字判断等功能，这是其他系统所不具备的。杜教授指出，中国古代诗歌的异文现象很常见，不同版本之间存在差异，这就要求对文本进行预先处理，该系统设有人工介入端口，比较好地解决了这个问题。

杜教授以自己的研究为例，详细阐述了该分析系统对学术研究的帮助作用。一是其博士毕业论文《齐梁诗歌向盛唐诗歌的嬗变》的再版。再版应用中国古代诗律分析系统，其结果与此前人工分析相差无几，证明了该系统的可靠性。二是六朝诗律史诸问题、汉魏六朝五言诗“篇中转韵”现象等研究实例。其中，吴声西曲与永明诗律形成之关系、盛唐“齐梁体”诗等问题都成功应用到了该系统。三是诗歌韵脚字异文校考。例如，王粲的“荆轲为燕使”诗、陆机《折杨柳行》等，其韵脚字异文问题均可借助分析系统来发现并解决。四是唐代诗歌的辨体研究与格律分析。应用该系统统计分析，发现唐太宗李世民、王绩等人的一些诗歌在诗律上深受“庾信体”影响。

最后，杜教授强调了诗律分析、数据统计与诗歌体式研究的关系，认为应当落实到具体问题的提出与解决中来。

延伸阅读

最新数字人文人才招聘信息汇总

2022年中国数字人文年会火热征稿中

2022年国家社科基金项目（数字人文类）

编辑：赵懿宁

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

亲密关系中，比“不爱了”更残酷的，是这3种相处模式

三联，刺痛了多少中国人

讲座回顾 | 数字人文与中国古典文学研究

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

亲密关系中，比“不爱了”更残酷的，是这3种相处模式

三联，刺痛了多少中国人

生成图片，分享到微信朋友圈

讲座回顾 | 数字人文与中国古典文学研究

您可能也对以下帖子感兴趣