查看原文
其他

古汉语通假字资源库 | 助力古诗文学习与研究

语言学 语言学 2024-02-19















快来关注我们吧!


















阅读本文前,请先点击上方的蓝色字体“语言学”,再点击关注,这样就能天天免费收到精彩文章了。每天都有更新,完全是免费订阅,请放心关注!




古汉语通假字资源库: 

助力古诗文学习与研究

破假字纷繁之扰,寻正字本来之容

文丨王兆基、张诗睿、张学涛、胡韧奋


古籍文本中的文字通假现象较为常见,这为准确理解文意造成了困难。如王引之在《经义述闻·经文假借》中所述:“学者改本字读之,则怡然理顺;依借字解之,则以文害辞。”除了专业学者整理古籍或考证词义时需要释读通假字,在中学文言文教学中,通假用法也是一项重点和难点。那么,如果能从语言信息处理视角构建通假字资源库,并实现通假字的自动识别,会为我们的学习和研究带来什么样的帮助呢?
近日,北京师范大学科研团队的论文《古汉语通假字资源库的构建及应用研究》获得了第二十二届中国计算语言学大会(CCL 2023)最佳中文论文奖。这项研究首先提供了包含通假字标注语料库、通假字知识库和通假字识别评测集在内的通假字资源库,并基于资源库构建了通假字自动识别算法,旨在为文言文教学、古籍整理和相关研究提供基础性资源。
让我们先来看看它可以做什么吧!

01通假字语料检索如下图所示,在资源库中输入关键字,选择检索字段,可查询通假字语料,语料标注了通假字用法、出处、时代、释义、读音等多种信息。


地址:https://tjz.zhaoji.ac.cn/corpus

02查看大规模通假字关系网络如下图所示,因为空间有限,只详细列出了两个字节点与他们之间的通假关系边、形声关系边。在图中,字节点属性标注在蓝框内;红色的有向边表示通假关系,通假关系的详细属性参见红框,与通假关系相关联的语料以紫框标注;绿色的有向边表示形声关系,对应的绿框为形声关系的具体属性。由图中内容可见,“辟”与“譬”之间存在3条通假关系连边,对应三种释义,同时,二者之间还包括一条形声关系连边,标识“辟”是“譬”的声符。




03通假字自动识别


将图中所示例句交给训练好的语言模型识别,便可以分析出“考”通“拷”。表示笞击拷问。

04提升大模型文言理解能力即使是当前最先进的大型语言模型GPT-4,面对包含通假字的古汉语文本,也很容易犯“以文害辞”的错误。



但将通假字用法连同文本一起输入给GPT-4后,它便可以推理出正确的结果。







看完上述几则用例,我们再来一起看看资源库的内部构成和更多潜在的应用场景。
通假字资源库分为三部分,第一,标注语料库,含有上万条高质量标注语料,覆盖数千个通假字;第二,图结构的通假字知识库,包含大量的通假字、通假关系、形声关系;第三,通假字识别评测集,旨在为计算机识别通假字提供“教材”+“测试题”。下面将逐一介绍。
01通假字标注语料库

目前,学界尚无专门标注通假字的文言文语料库,包含通假字的句篇信息主要见于各类辞书和专门的通假字字典,如《会典》、《简帛古书通假字大系》等。在初步探索阶段,团队希望能够兼顾古汉语信息处理、文史研究与文言文教学的一般性需求,选择参考《汉语大词典》中的通假字标准,配合人工加工,构建通假字标注语料库。未来还有必要基于面向出土文献和传世文献的通假字辞书资源引入更大范围的通假用例数据,对现有的语料库和知识库进行扩充。

目前,该库包含语料文本、标注位置、通假字字头、正字字头、出处、时代、释义、拼音、注音、古音等属性。该库可为通假字相关研究和应用提供较高质量的基础性数据。



02通假字知识库

目前的通假字标注语料库在本质上是一个能支持检索的加强版字典。为了进一步建模通假字与通假关系,团队构建了图结构的通假字知识库,融合了来自汉语大词典、康熙字典、汉典、国学大师网汉语字典、以及之前学界构建的形声关系数据与汉字部件数据,加工层面涉及字音、字形、字义和字用。使用者可以根据自己的需求将其可视化后查看。
蓝边表示通假关系,区分释义,粗细由语料数量决定;黄边表示形声关系;点击汉字或者连边后,可获取更多信息。
从传统视角出发,知识库作为查询工具可以帮助研究者开展字词考证、词汇语义研究等。更重要的是,通假字知识库能够提供传统辞书无法呈现的大规模通假字关联网络信息,潜在的应用场景包括:
第一、有些通假关系分布广泛,存在大量例句,如上图“信”通“伸”,而有些则用例少见,如“勝”通“伸”。古代文献中字与字的通假关系不是简单二元的“有”或“无”,它们有的强,有的弱,我们可以用图结构知识库来量化通假强度,支持字用层面研究。
第二、我们可以根据分割条件迅速将所有数据划分为多个子图,研究子图中所有通假字节点与通假关系边的内在规律,并探讨子图间的联系,例如,研究一个通假字的所有通假变化轨迹,实际上就是寻找该节点所在的子图并获得一个子图的生成树。
第三、不少汉字的读音在历史上经历了变化,我们可以利用通假关系边的“出处时代”作为时间属性,将图动态化呈现,进而量化估计在某一特定时代,两个字的发音相似度,从历时角度利用图知识库为语音演变研究提供支持。
03通假字自动识别评测古汉语信息处理研究需要立足传统,面向未来,面向算法,而算法的研究与评测集息息相关,有了评测集,才能为算法研究提供标准。团队提出了“通假字识别评测任务”,包括两个子任务:通假字检测和正字识别,两个任务的评测集均包括训练集和测试集,其中,训练集用于模型学习,而测试集用于评估模型识别效果,分为基础版和拓展版两种类型:基础版测试集包含的通假字和训练集一致,拓展版测试集中包含了大量训练集中未出现过的通假字,识别难度更高。
在通假字识别评测中,团队构建了从统计语言模型到预训练语言模型的22个基线模型,分为N-gram、GPT2、利用MLM能力的BERT模型和BERT微调模型四类,每一类模型都按照训练数据分为殆知阁版与四库全书版两个版本,详情可参见论文。下面示出了一些自动识别的案例。

在本例中,“考”通“拷”,“考”字通假用法在训练集中未出现,模型正确预测其为通假字,这说明模型具有一定的泛化能力,能够探测出训练阶段未见过的通假用法。


在本例中,模型未能识别“台”通“嗣”的用法,这说明通假字的检测和识别是一个复杂的的问题,本文搭建的基线模型对于不常见的通假关系仍然处理欠佳。


在本例中,词典中标注“共”通“恭”,而模型认为“共”通“供”。进一步查阅文献发现,不同学者的通假释读观点存在差异:唐代陆德明《经典释文》注此句中“共”音“恭”,成为清代中期之前学者共识。而以俞樾《群经平议》为代表的晚清学者观点认为该字通“供”,并为现代人所继承,如杨伯峻《春秋左传注》、中华书局版《左传》(郭丹等译注)皆同此观点。可见,模型判定虽不同于评测集中的“标准答案”,亦有其合理之处。
问题反馈
本文所开展的通假字资源库建设和自动识别算法研究只是该领域的初步探索性工作,研究还存在不少待改进之处。例如,针对文言文教学需求,有待细化数据标注;针对汉语史研究需求,有必要从出土文献和传世文献的专用通假字辞书资源中引入更大范围的通假用例数据,对现有的语料库和知识库进行扩充。
欢迎试用在线资源库或下载数据集,并为资源建设提出宝贵意见,共同开拓人文研究的新视野。如果您在使用在线资源库时,发现语料存在漏标、错标或部分字段错误的情况,请点击“报错”按钮向研究团队提交反馈,研发人员将尽快完成修正。




关于资源使用和建设,如果您有任何问题或建议,欢迎通过如下邮箱联系我们:zhaoji.wang@mail.bnu.edu.cn或 irishu@bnu.edu.cn 
开源共享
目前,最新版资源库已在Github开源共享,欢迎研究者参考使用。资源库在线浏览:https://tjz.zhaoji.ac.cn/资源库下载:https://github.com/frederick-wang/tongjiazi-resources评测实验代码:https://github.com/frederick-wang/tongjiazi-evaluation论文下载链接:https://aclanthology.org/2023.ccl-1.47/
致谢
本研究得到国家语委重大项目“古籍整理智能化关键技术研究”(ZDA145-9)、国家自然科学基金青年项目“面向古籍整理智能化的知识表示与加工研究”(62006021)、北京市社科重点项目“古典文献的智能化分析与关联技术研究”(21DTR037)资助。北京师范大学李隽琪、陈青、孟琢等师友为资源库设计提出了宝贵的建议,在此表示感谢。

文史优质公众号推荐:


“语言学”专门发布最新的语言研究资讯、社会热点话题的语言学解析等内容;


“简牍学”专门发表简牍学及出土文献相关研究成果、学术信息;



“讲座与学术”发布人文社科讲座信息和学术热点话题。



敬请新老朋友关注“语言学”“简牍学”和“讲座与学术”公众号,以便及时获取最新资讯!

推荐阅读

广外教授:语言学如何撰写一篇可发表的文献综述?


《语言学论丛》2023年第3期目录


快讯丨《古汉语研究》入选CSSCI(2023-2024)来源期刊


2023年8月 | 语言类公众号热度榜


CSSCI来源期刊目录(2023-2024)全名单来了!


黄德宽:努力践行“第二个结合” 深入开展汉字文明研究


语言学CSSCI编委:撰写一篇优秀的学术论文须把握这“九大要点”


光明日报丨金针度人 绝学不绝——唐作藩与音韵学的普及传播

温馨提示

推广内容如有侵权请您告知,我们会在第一时间处理或撤销;互联网是一个资源共享的生态圈,我们崇尚分享。其他平台转载请注明(来源:语言学)。转载仅供思考,不代表【语言】立场。今日文章就到这~近期,微信公众号信息流改版。每个用户可以设置常读订阅号,这些订阅号将以大卡片的形式展示。因此,如果不想错过“语言学”的文章,你一定要进行以下操作:进入“语言学”公众号 → 点击右上角的 「菜单」→ 选择「设为星标」






END




编辑:蒋明玉

审核:陈晓梅

来源:“章黄国学”公众号

语言学
扫 码 关 注
继续滑动看下一个

古汉语通假字资源库 | 助力古诗文学习与研究

语言学 语言学
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存