冯志伟序 | 基于注疏文献的《孟子》信息处理研究
欢迎关注我们,一站式获取海量语言学资源
感谢冯志伟先生授权分享
转载编辑:应用语言学研习
推荐阅读:
基于注疏文献的《孟子》信息处理研究
作者:梁社会
北京大学出版社,2021.5
序 言
冯志伟
本书选取了《孟子注疏》《孟子集注》《孟子正义》三部有代表性的注疏文献作为语言资源进行先秦经典《孟子》的信息处理研究;利用基于范围检查的句子对齐算法以及基于字符串相似度的句子对齐算法,对这三部注疏文献进行了句子对齐,并利用基于正则表达式匹配的注释对齐方法对这三部注疏文献中的注释进行了抽取,并与原文中的各级语言单位进行对齐,形成了一个数目大约在700条左右的注释对齐平行语料库,这些有一定规模的、真实客观的语言资源为基于注疏文献的《孟子》信息处理工作奠定了良好基础。
在这些语言资源的基础之上,本书研究了《孟子》的各项自动分词技术,使用基于规则的自动分词方法,利用几种不同的词表,对《孟子》进行自动分词实验,又利用条件随机场模型,对注疏文献进行了基于机器学习的自动分词实验,实验结果良好。
本书还制定了《孟子》的词性标记集,根据条件随机场模型的原理,对《孟子》全文进行了基于条件随机场的词性标注实验,还对词性标注的错误做了统计,分析了注疏文献中的三种词性提示信息。作者还选用《孟子集注》中的去声信息来进行词性自动校正,这是作者的一个创新,实验结果表明,这种利用去声字表进行词性自动校正的方法是行之有效的。
本书又考察了古代汉语和现代汉语在词义消歧方面存在的异同,探讨了关于古汉语词义消歧的特点与难点,研究了上下文对词义的影响,提出了基于词义消歧树的消歧算法,还采用了条件随机场模型的算法进行词义消歧,并比较了这两种消歧算法的效能。
本书还根据计量语言学的原理,从语言的计量特征出发,广泛采集并统计了《孟子》及其相关注疏文献的字、词、句等各级语言单位的数据,分析了这些文献的文本特征及语言风格特征;并与《论语》《左传》的相关统计结果做了比较分析,对于字型数目、字例数目、平均字频数、高频字、字的熵值、字频曲线图、文献相似度、词型数目、词例数目、平均词频数、高频词、平均词长、词长离散度、词语词长分布、高频多字词、带词性标记的词型数目、带词性标记的词例数目、带词性标记的平均词频数、词语词性分布、多兼类词语、句子类型、句长、句长离散度等诸多语言特征进行了定量研究和计量分析。作者还总结了《孟子》中排比句的特点,提出了一种有效的自动识别古代汉语排比句的方法,并且将该方法用于《论语》中排比句的自动识别。
本书研究内容充实,研究方法正确,研究数据有说服力,是先秦文献信息处理的重要成果。本书的研究对于其他先秦文献信息处理的研究,也有很好的借鉴价值。
本书属于先秦文献的专书研究,所选取的研究对象是《孟子注疏》《孟子集注》和《孟子正义》三部有代表性的注疏文献,其中,《孟子注疏》约27万字、《孟子集注》约12.1万字、《孟子正义》约33.3万字,它们的字数都是固定的,是封闭的文献集合。由于研究对象的这种封闭特性,非常便于使用计算机进行信息处理和研究结果的评估。我国的古典文献浩如烟海,采用这种专书的研究方法分别使用计算机进行深入的分析,不失为一种聪明的处理策略。本书为我国古典文献的信息处理研究提供了一个成功的范例。
本书的研究对象是古典文献,属于人文科学的范畴,本书的研究方法是计算机信息处理,属于自然科学的范畴。本书把古典文献研究与计算机技术结合起来,是非常典型的跨学科研究。梁社会老师在这种跨学科研究中,努力进行更新知识的再学习,不仅学习了古代文献的知识,还学习了数学的知识和计算机的知识,成为了文理兼通的新一代语言学家。希望梁老师在这样的基础上,继续努力,更上一层楼,为我国语言学的现代化和新文科的建设做出新的贡献。
冯志伟
2020年岁末于北京
转载编辑:应用语言学研习
微信公众平台审核: 梁国杰
数说 | 国家社科思政专项2020年立项题目和2021年选题指南
文献延伸阅读(研习人指引)
本平台友情整理相关文献索引链接,
欢迎感兴趣的朋友按需选购。
精选推荐
定价:¥48
限时优惠价:34.56
定价:¥55.90
扫码即享限时优惠价:44.5
在线公益论坛 | 线上线下混合式教学:理论与实践(复旦新学术承办)
扫码关注↑↑↑ 即可获取最新入群二维码!
目前已有2.94万语言文学、区域国别学
研习者关注本公众号
欢迎加入交流群,分享学习,共同进步!
亲爱的研习人,
一起来点赞、在看、分享三连吧!