历史语言学的数字成像:“古音小镜”网站——兼议数字人文项目生长
历史语言学的数字成像:“古音小镜”网站——兼议数字人文项目生长
盛一涵(中国人民大学国学院)
田雨娇(中国人民大学信息资源管理学院)
古音小镜官网首页
中国传统语言学的数据库建设成果丰硕。2009年始建的“搜韵网”立足于诗词创作,深度挖掘整合中国古代韵书、类书资料,开发出众多诗词工具,并通过网络技术传播诗词文学资源,在全球诗词界影响广泛。2011年,“韵典网”由众多爱好者支持建立并得到持续维护运营,它是一个集合了的中国古代各大韵书的查询工具,包含《广韵》《中原音韵》《洪武正韵笺》《分韵撮要》和《上古音系》等中国古代主要韵系,为音韵、方言、古诗词专业人士和爱好者提供服务。2013年,“小学堂甲骨文资料库” 由台湾大学中国文学系和台湾中研院共同开发,共收录甲骨文字头2548个、字形24701个,使用者可根据字号、字形、《甲骨文编》的卷数、甲骨文部件、楷书字形等多种信息进行甲骨文查询。2019年,北京师范大学“数字化《说文解字》”平台正式上线,将《说文》及其历代研究成果数字化,实现了《说文》形音义分项检索和多元系联的研究功能,为汉字教学和研究提供了权威的演示、查询工具。上述网站在数据的连接、查询和人工智能的应用方面都各有特色,但一方面它们的数据库内容趋于专门,一个网站往往只有韵书或只有字书,没有在音韵和文字间建立联系,另一方面在数据呈现形式上都比较单一,很少有直观的可视化。与此相比,2017年建立的“古音小镜”网站(http://www.kaom.net/index.php)基本囊括了中国历史语言学研究的最重要的文字、音韵、方言材料,并且将其深度结构化,并通过数据可视化呈现了音韵与文字、上古与中古、古与今、中与外的联系,网站丰富的功能也为数字人文方法和思维在传统语言学领域的应用提供了示范。
胡恒在《从数字典藏走向数字人文:中国大陆数字史学发展浅思》一文中提出史学数字典藏发展面临的五方面的问题:商业化、长远规划、资金支持、资料来源、数据质量,这些问题同样也是其他领域数字人文数据库建设的痛点。而“古音小镜”由始创者个人负责总体建设和运营,在持续更新的同时一直保持着非盈利的公益性,上述问题似乎并没有给这个网站带来太多困扰。深究其中原因,“古音小镜”独特的生长路径功不可没,这对当前数字人文项目组织与建设有很大借鉴意义。因此,本文以“古音小镜”网站为例,在展示数字人文在传统语言学研究中的应用潜力的同时,探讨数字人文项目建设模式的更多可能。
1.1 建设历程
“古音小镜”诞生于2017年,由站长顾国林先生独立创建并运营至今。顾国林先生是计算机行业的资深从业者,小学研究是他的业余爱好,网站最早是为了放置个人积累的历史语言学材料而建立。许多像顾先生一样的小学爱好者通过网络相识,组建了一些方言、古音的兴趣社群。方言群内的爱好者们非常关注方言“定字”的问题:已知方言的音和义,根据古代的韵书、字书推定方言中该字的字形。群友收集了当时能收集到的所有韵书、字书(约15种,后来扩充到37种),希望能通过数字技术实现所有释文的同时查询,“古音小镜”的第一个功能——“古代韵书、字书查询”由此诞生。该功能上线后,社群内反响很好,很多爱好者开始使用。此后,沿着同样的路径,即在站长自己和爱好者们的研究需求推动下,“古音小镜”的内容一步步扩充。
随着数字技术的发展,在检索查询之外, “古音小镜”开始关注如何更高效地服务于语言学研究。站长自身熟悉计算机技术前沿,他发现许多代码界的可视化技术非常适合历史语言学领域的研究,如清人用近三百年完成的诗经分部研究,今天用“多元关系网”可以快速解决这个问题;假借字之间的关系向来是古汉语研究的难题,今天用可视化工具也有望解决。站长希望小学学者能够多考察这些工具,为其研究所用。基于这种认识,“古音小镜”推出了《诗经》韵系联、假借字系联、汉语字音时空关联等统计及可视化功能,在众多语言学数据库中可谓独树一帜。站长本人也将自己的统计结果分析也写成论文上传至网站,充分展现了数字人文在传统语言学研究中的应用空间。由此,“古音小镜”成为一个全面、系统的历史语言学资料与工具共享平台,至今仍在不断更新。
1.2 资料来源
表 1“古音小镜”2020年至今更新情况
图1 网站致谢说明
(2)其他数据库。台湾“引得市”网站录入了《古字通假会典》《简帛古书通假字大系》两书的电子目录,提供了2.4万个假借对,是“古音小镜”网站“简帛假借字系联查询”功能的基础。CBETA(中华电子佛典协会)网站分享有几乎全部的佛经音义类资料,“古音小镜”收录的《玄应一切经音义》《慧琳一切经音义》《新集藏经音义随函录》等材料来源于此。蒋门马先生建立的“白云深处人家”网站共享了海量的道家文献、训诂学文献电子资源,也为“古音小镜”提供了很多材料。
(3)网友主动提供。“古音小镜”上许多难得的材料都来自于小学爱好者们的慷慨帮助。如苏州石汝杰先生提供了《明清吴语词典》电子版及自己制作的勘误表,实现查询功能后,便利了吴语的考字研究;温州潘悟云先生提供了他和学生共同整理的《集韵》电子版;复旦大学李豪先生赠予了一部国内少见的汉越音字典,于是网站增设了“日韩越音”这一功能。还有一些领域此前并没有专门的研究成果,“古音小镜”相关栏目的建立完全基于爱好者们编制的原创材料,如“汉语地理”栏目的粤语寻旺方言,是由寻旺本地的冯志铭先生自主调查记录,于2020年提供给网站的。
(4)外包录入。对于一部分没有电子数据的重要资料,网站也会将工作交给录入公司,如李荣主编的《现代汉语方言大词典》就是由录入公司整理完成。
二、网站架构
2.1 前端呈现结构
图2 “古音小镜”网站栏目结构与功能概览
2.2 后端数据库架构
2.2.1 数据库与要求
2.2.2 数据库管理
“古音小镜”的数据库建表过程和前端查询过程如图3所示。
图 3 “古音小镜”数据库建表过程与查询过程
三、内容及功能
3.1 工具书
以韵书、字书模块(即二级栏目“韵书35种”)为例,简要介绍工具书查询方法。输入“系”字,如图4(上)所示,网站在查询入口以表格的形式说明了可查文献情况,数据条目非常清晰,部分文献提供了两种及以上版本供参考,使用者可在此页面自行选择查询范围。查询结果如图4(下)所示,首先提供了查询字在汉字演变过程中的所有异体字、关系字,然后在所选文献中辑录出包含这些字的文本,并以表格的形式注录文本的相关信息,以及所查字的部首、读音。
图 4 古代韵书、字书查询示例(上:查询入口;下:查询结果)
3.2 上古音
《诗经》韵为“古音小镜”研究和建设最为完善的一部分,本文将以《诗经》韵研究为例对网站内容架构进行详细解析。《诗经》韵板块由“韵网”“韵部”“语音”“材料”四个小项(二级栏目)组成。“材料”项为《诗经》语言学资料缉要数据库,包含了《诗经》诸版本和音韵研究的众多材料,是网站进行《诗经》韵分析的基础。图5为《周南·关雎》的信息页面,页面顶端为网站提供的《诗经》诸版本电子书链接,点击可直接查看各版本的《关雎》原文,为研究者溯源、引用提供了很大的便利。页面下部为《关雎》韵脚字分析,韵脚、韵部、韵段都以王力《诗经韵读》为标准,同时也提供了中古韵书《广韵》《集韵》的分韵对比。
图 5 “诗经韵·材料”栏《关雎》页面
图6 《诗经》韵系联查询示例
图7 《诗经》韵部统计表
图 8 《诗经》鱼韵内部相压案例
3.3 古文字
图9 甲骨文字形库查询结果示例
3.4 汉语地理
(1)结合地图呈现单字的声母/韵母/声调等在不同方言中的对比。如图10,“江”的声母在全国方言中有十余种读音,从地图中可以看出北方大部分地区读作/tɕ/(汉语声母[j]),南方大部分地区读作/k/(汉语声母[g]),南北之间则有很多地区/tɕ//k/混读。
图10 汉语字音地理分布查询结果示例
图 11 方言字音统计示例
图 12 方言音系对比示例
图 13 方言古今演变示例
3.5 地名
图 14 中国聚落地名分布查询示例
四、“古音小镜”的特色
(一)、内容丰富,功能创新
在数据呈现形式上,“古音小镜”更是独树一帜。国内虽然早已有研究论文引入系联节点图、桑基图、地图和统计表等形式,但尚未有其他数据库如此大规模地采用可视化形式输出查询结果。图具有直观生动的特点,便于研究者把握语言的整体特征,因此这样的呈现方式让“古音小镜”格外适合作为教学和初步研究的工具。
数据的检索与呈现是其核心功能,检索条件输入的便捷度与结果呈现的速度直接影响用户体验。而在这两方面,“古音小镜”皆具有优势。除了点选和关键词输入外,网站对部分资源还提供下拉框式的预设检索条件供用户选择,提升运行速度则是站长的个人强项,很好地保障了核心功能的实现。
(二)、基于需求,自发生长
(三)、个人主导,资源众包
图 15 网站贡献者与所承担工作
五、结语
作为爱好者自发建设的数字人文项目,“古音小镜”在建设的各个环节,都做出了成功且成熟的别样示范,向我们展示了数字人文项目生长路径的更多可能。首先,“主流”的数字人文项目往往是“庖丁解牛”式的,在立项之初通即通过对研究领域的解构确定网站框架;与此相比,“古音小镜”则可以说是“精卫填海”式的,它基于不断收集的新材料发展新的功能,进而积累成新的板块,建设过程实质上是反向的对其研究领域的重构。其次,“古音小镜”网站收录的各种材料、创设的各个功能都建立在研究者切实的需求上。需求本身是会发展变化的,很难一次述清,因此“古音小镜”这种无规划的自由生长项目反而更能灵活地满足使用者的需求。再次,“古音小镜”一直能够保持低成本运营,其中一个重要原因是网站前端设计与后端数据库构架的合理性,这背后又是因为网站建设者和使用者角色的统一。站长顾国林先生在计算机和小学两个领域皆有精深造诣,既了解用户需求,又能基于此恰到好处地构建网站,减去了一般数字人文项目建设过程中使用者和建设者的沟通成本和误差,这同时也启示我们培养真正的数字技术与人文知识兼备的人才之重要性。
在实用价值之外,网站的建设过程所体现的精神价值也令人感动。“古音小镜”能够长期以非营利性质保持发展活力,归功于众多爱好者对知识纯粹的热爱和无私的分享。从个人网站到集体协作的知识分享平台,“古音小镜”已经走过了四年有余,这个网站是诸多分享者共同的劳动成果,也记录了他们为兴趣而凝聚、交流和创造的过程。“古音小镜”的建设没有明确的组织结构和任务划分,但从中可以感受到每一个参与者的热爱与共享精神,这样的建设过程正契合了数字人文知识共享的初衷和理念,让“古音小镜”得以生长成为一个理想的数字人文项目。
[刊载于《数字人文研究》2022年第1期]
“语言学”专门发布最新的语言研究资讯、社会热点话题的语言学解析等内容;
“简牍学”专门发表简牍学及出土文献相关研究成果、学术信息;
“讲座与学术”专门发布语言、文学、历史、教育、哲学、社会、出土文献 等人文社科讲座预告和学术会议。
敬请新老朋友关注“语言学”“简牍学”和“讲座与学术”公众号,以便及时获取最新资讯。
推荐阅读:
3月28日-3月30日讲座28场!明代以后的汉语研究论文:论文类、研究个案与方法启示、黑暗森林、文明冲突:《三体》中的哲学思想
新书速递丨蔡万进主编《里耶秦简编年考证》(第一卷)出版 附前言、后记
温馨提示:
推广内容如有侵权请您告知,我们会在第一时间处理或撤销;互联网是一个资源共享的生态圈,我们崇尚分享。其他平台转载请注明(来源:语言学)。
转载仅供思考,不代表【语言学】立场。
今日文章就到这~近期,微信公众号信息流改版。每个用户可以设置常读订阅号,这些订阅号将以大卡片的形式展示。因此,如果不想错过“语言学”的文章,你一定要进行以下操作:进入“语言学”公众号 → 点击右上角的 「菜单」→ 选择「设为星标」
编辑:潘宇琪
审核:李佳遥
来源:公众号“数字人文研究”