其他
古汉语通假字资源库 | 助力古诗文学习与研究
快来关注我们吧!
阅读本文前,请先点击上方的蓝色字体“语言学”,再点击关注,这样就能天天免费收到精彩文章了。每天都有更新,完全是免费订阅,请放心关注!
古汉语通假字资源库:
助力古诗文学习与研究
破假字纷繁之扰,寻正字本来之容文丨王兆基、张诗睿、张学涛、胡韧奋
近日,北京师范大学科研团队的论文《古汉语通假字资源库的构建及应用研究》获得了第二十二届中国计算语言学大会(CCL 2023)最佳中文论文奖。这项研究首先提供了包含通假字标注语料库、通假字知识库和通假字识别评测集在内的通假字资源库,并基于资源库构建了通假字自动识别算法,旨在为文言文教学、古籍整理和相关研究提供基础性资源。
让我们先来看看它可以做什么吧!
01通假字语料检索如下图所示,在资源库中输入关键字,选择检索字段,可查询通假字语料,语料标注了通假字用法、出处、时代、释义、读音等多种信息。
02查看大规模通假字关系网络如下图所示,因为空间有限,只详细列出了两个字节点与他们之间的通假关系边、形声关系边。在图中,字节点属性标注在蓝框内;红色的有向边表示通假关系,通假关系的详细属性参见红框,与通假关系相关联的语料以紫框标注;绿色的有向边表示形声关系,对应的绿框为形声关系的具体属性。由图中内容可见,“辟”与“譬”之间存在3条通假关系连边,对应三种释义,同时,二者之间还包括一条形声关系连边,标识“辟”是“譬”的声符。
03通假字自动识别
04提升大模型文言理解能力即使是当前最先进的大型语言模型GPT-4,面对包含通假字的古汉语文本,也很容易犯“以文害辞”的错误。
但将通假字用法连同文本一起输入给GPT-4后,它便可以推理出正确的结果。
看完上述几则用例,我们再来一起看看资源库的内部构成和更多潜在的应用场景。
通假字资源库分为三部分,第一,标注语料库,含有上万条高质量标注语料,覆盖数千个通假字;第二,图结构的通假字知识库,包含大量的通假字、通假关系、形声关系;第三,通假字识别评测集,旨在为计算机识别通假字提供“教材”+“测试题”。下面将逐一介绍。
01通假字标注语料库
目前,学界尚无专门标注通假字的文言文语料库,包含通假字的句篇信息主要见于各类辞书和专门的通假字字典,如《会典》、《简帛古书通假字大系》等。在初步探索阶段,团队希望能够兼顾古汉语信息处理、文史研究与文言文教学的一般性需求,选择参考《汉语大词典》中的通假字标准,配合人工加工,构建通假字标注语料库。未来还有必要基于面向出土文献和传世文献的通假字辞书资源引入更大范围的通假用例数据,对现有的语料库和知识库进行扩充。
目前,该库包含语料文本、标注位置、通假字字头、正字字头、出处、时代、释义、拼音、注音、古音等属性。该库可为通假字相关研究和应用提供较高质量的基础性数据。
02通假字知识库
目前的通假字标注语料库在本质上是一个能支持检索的加强版字典。为了进一步建模通假字与通假关系,团队构建了图结构的通假字知识库,融合了来自汉语大词典、康熙字典、汉典、国学大师网汉语字典、以及之前学界构建的形声关系数据与汉字部件数据,加工层面涉及字音、字形、字义和字用。使用者可以根据自己的需求将其可视化后查看。
从传统视角出发,知识库作为查询工具可以帮助研究者开展字词考证、词汇语义研究等。更重要的是,通假字知识库能够提供传统辞书无法呈现的大规模通假字关联网络信息,潜在的应用场景包括:
第一、有些通假关系分布广泛,存在大量例句,如上图“信”通“伸”,而有些则用例少见,如“勝”通“伸”。古代文献中字与字的通假关系不是简单二元的“有”或“无”,它们有的强,有的弱,我们可以用图结构知识库来量化通假强度,支持字用层面研究。
第二、我们可以根据分割条件迅速将所有数据划分为多个子图,研究子图中所有通假字节点与通假关系边的内在规律,并探讨子图间的联系,例如,研究一个通假字的所有通假变化轨迹,实际上就是寻找该节点所在的子图并获得一个子图的生成树。
第三、不少汉字的读音在历史上经历了变化,我们可以利用通假关系边的“出处时代”作为时间属性,将图动态化呈现,进而量化估计在某一特定时代,两个字的发音相似度,从历时角度利用图知识库为语音演变研究提供支持。
03通假字自动识别评测古汉语信息处理研究需要立足传统,面向未来,面向算法,而算法的研究与评测集息息相关,有了评测集,才能为算法研究提供标准。团队提出了“通假字识别评测任务”,包括两个子任务:通假字检测和正字识别,两个任务的评测集均包括训练集和测试集,其中,训练集用于模型学习,而测试集用于评估模型识别效果,分为基础版和拓展版两种类型:基础版测试集包含的通假字和训练集一致,拓展版测试集中包含了大量训练集中未出现过的通假字,识别难度更高。
在通假字识别评测中,团队构建了从统计语言模型到预训练语言模型的22个基线模型,分为N-gram、GPT2、利用MLM能力的BERT模型和BERT微调模型四类,每一类模型都按照训练数据分为殆知阁版与四库全书版两个版本,详情可参见论文。下面示出了一些自动识别的案例。
在本例中,“考”通“拷”,“考”字通假用法在训练集中未出现,模型正确预测其为通假字,这说明模型具有一定的泛化能力,能够探测出训练阶段未见过的通假用法。
欢迎试用在线资源库或下载数据集,并为资源建设提出宝贵意见,共同开拓人文研究的新视野。如果您在使用在线资源库时,发现语料存在漏标、错标或部分字段错误的情况,请点击“报错”按钮向研究团队提交反馈,研发人员将尽快完成修正。
文史优质公众号推荐:
“语言学”专门发布最新的语言研究资讯、社会热点话题的语言学解析等内容;
“简牍学”专门发表简牍学及出土文献相关研究成果、学术信息;
“讲座与学术”发布人文社科讲座信息和学术热点话题。
敬请新老朋友关注“语言学”“简牍学”和“讲座与学术”公众号,以便及时获取最新资讯!
快讯丨《古汉语研究》入选CSSCI(2023-2024)来源期刊
语言学CSSCI编委:撰写一篇优秀的学术论文须把握这“九大要点”
推广内容如有侵权请您告知,我们会在第一时间处理或撤销;互联网是一个资源共享的生态圈,我们崇尚分享。其他平台转载请注明(来源:语言学)。转载仅供思考,不代表【语言学】立场。今日文章就到这~近期,微信公众号信息流改版。每个用户可以设置常读订阅号,这些订阅号将以大卡片的形式展示。因此,如果不想错过“语言学”的文章,你一定要进行以下操作:进入“语言学”公众号 → 点击右上角的 「菜单」→ 选择「设为星标」
END
编辑:蒋明玉
审核:陈晓梅
来源:“章黄国学”公众号
扫 码 关 注