点击蓝字,关注学界动态
新书推介
《字书字料库的理论、实践与应用》
著者:柳建钰
出版社:中华书局
书号:ISBN 978-7-101-15122-0
出版时间:2021年5月
开本:32开
字数:290千字
定价:68.00元
内容提要
《字书字料库的理论、实践与应用》
当前利用计算机技术来整理和研究汉字的工作整体上比较薄弱,远远落后汉字整理规范工作的客观要求,因此必须借助汉字字料库,并在此基础上建立字料库汉字学,用来指导汉字整理研究的实践工作。本书对与字书字料库相关的一些理论问题进行了探讨,并对字书字料库实体建设及实践应用方面的一些问题进行了研究。全书共分三编。上编为字书字料库理论篇,中编为字书字料库实践篇,下编为字书字料库应用篇。
字书字料库是与语篇字料库相对应的字料库两大类型之一,它是在大规模历代字书文本基础上生成的真实的汉字刻写形态的有序集合,是利用计算机对字书汉字形体进行各种分类、统计、检索、综合和比较等研究的基础,它能为汉字学及其他相关学科研究提供高度结构化的字书汉字数据信息。字料库与语料库之间既有联系,又相互独立,不能等同视之。字料库可以从不同角度划分出不同的类型,不同类型的字料库均有自己独特的价值。字书字料库建设是当前汉字整理研究工作的迫切需要,是推动汉字学研究信息化的内在要求,也是与语料库语言学并驾齐驱的必然选择。字书字料库建设在物质基础、技术支持及理论指导诸方面均具有可行性。
汉字字料库理论的形成,是在当前多学科交叉综合研究方法日益受到学界重视的历史条件下,在汉字整理研究的实践过程中,在总结历代及当前汉字整理研究的经验教训的基础上,通过借鉴语料库理论及语料库语言学成功发展的宝贵经验,逐步形成和发展起来的。也是学者对汉字整理研究工作进行长期探索与前瞻性研究的必然结果。汉字字料库理论是对科学汉字学理论体系的丰富和发展,能够有效指导当前及未来的汉字整理研究实践工作,还蕴涵着一种全新的、科学程度更高的汉字整理研究方法和思路。它不仅丰富了汉字学理论体系,是对学科交叉综合研究方法的一种新尝试,还可以用来指导当前的汉字整理研究实践,在汉字学研究方法论上也将产生重要的影响。
字料库汉字学是以真实文本中出现的汉字字料为界定和描述汉字现象的起点,通过字料的采集、存储、标注、检索和统计分析,用来提出全新的汉字学理论或验证、修正已有汉字学理论,并对字料库如何应用于汉字教学与中文信息处理及其他相关学科进行研究的一门交叉学科。其研究领域可为“字料库驱动”的汉字学研究、“基于字料库”的汉字学研究、应用字料库汉字学研究以及字料库在其他学科领域中的应用研究等。字料库汉字学具有社会科学和自然科学双重属性,又具有理论科学和应用科学双重属性。字料库汉字学研究的主要内容包括字料库本体研究及实体建构、基于字料库的汉字属性与汉字整理研究、字料库汉字学应用研究等。字料库汉字学的研究方法主要包括字料库驱动和基于字料库的研究方法、定性与定量相结合的方法、共时与历时相结合的方法、实证与内省相结合的方法、学科知识综合交叉的方法等。就研究步骤来说,“字料库驱动”的汉字学研究和“基于字料库”的汉字学研究有明显区别。
字书字料库系统建设的主要原则包括科学性、真实性、代表性、前瞻性、先进性、共享性。基本流程划分为规划、需求分析、设计、实现、字料采集、字料标注、使用及维护等7个阶段。属性库要遵循从字书实际出发、具有完整性与准确性、强调规范化等三个基本原则。
字书字料标注,就是把字书字料所具有的汉字学、字典学及其他重要信息按照既定原则一一标注出来。字书字料标注的原则包括生字料和标注内容的数据独立性原则、公开性原则、通用性原则、标准化原则、多维度原则。字书字料标注的内容主要包括基本属性信息标注、汉字构形信息标注、汉字字际关系信息标注三个方面。其中,基本属性信息标注是基础,汉字构形信息标注是核心,汉字字际关系信息标注是重点。字书字料标注可以采取人工标注和机器标注相结合的方式。初期的标注任务可以先定位在浅层次上,以后再根据相关研究结果逐级递增标注深度。
字书字料库日常维护管理工作包括录入新字料和更新在库字料数据、监视系统运行状况、备份及恢复数据库文件、创建用户信息表并授权、执行安全保障措施等。
字书字料库能够在字书汉字的考辨工作中起到较好的辅助作用,有助于提高考辨工作的效率和考辨结果的信度。字书字料库在字书汉字层积流变的考察方面具有重要价值,借助字书字料库中调查得到的第一手数据,可以很方便地对字书收字总体状况以及共收字形、单见字形、歧出字形状况进行调查统计。字书字料库在通用规范汉字8105字的构件组合的动态特点、结构的层级数、各级构件及其功能、构形模式、布局图式等五方面构形属性的调查研究方面也可以发挥重要作用。
作者简介
《字书字料库的理论、实践与应用》
柳建钰,男,1981年出生,宁夏中卫人,中共党员。渤海大学文学院教授。先后于宁夏大学及北京师范大学攻读汉语言文字学专业硕士学位及博士学位,2009年获文学博士学位。香港中文大学访问学者。现任语言学教研室主任,汉语言文字学专业硕士点负责人。系辽宁省百千万人才工程“千”层次人选,北京语言大学中国语言政策与标准研究所兼职研究员,国家语委科研工作专家库入库专家,辽宁省语言学会副会长,院语言文字信息处理研究中心主任。主要从事文字训诂研究、汉字字料库研究、古典文献学研究。主持国家社科基金重点项目、青年项目、国家社科基金重大项目子课题、教育部人文社科青年项目、全国高校古委会项目、辽宁省社科基金项目等各级各类项目十余项,参与省部级以上项目七项。在国内外学术刊物发表论文近四十篇,出版学术著作四部。科研成果获第七届辽宁省哲学社会科学奖·成果奖(省政府奖)二等奖、锦州市第十七届哲学社会科学成果奖一等奖等。
序
《字书字料库的理论、实践与应用》
当前,信息化社会已进入高速发展阶段,信息技术的进步推动人类社会生活各领域发生了革命性的变化。它不仅推动了科学技术的进步,提高了整个社会的工作效率,也快速改变着整个社会的生活形态。可以毫不夸张地说,谁掌握了信息技术的尖端,谁就掌握了未来。
信息技术的进步,业已使得人类社会语文生活和科研手段产生了革命性变化。听说读写方式的改变导致了个人语文能力的变化,信息传播模式和知识获取方式的变化推动着整个社会语文生态的变化;互联网、大数据、云概念、智能化等技术的参与促使科研手段发生了重大变化,同时也正在改变包括语言文字研究在内的科研生态。
语言文字是人类最重要的交际工具和信息载体,是信息化工作最为重要的基础性资源,语言文字的信息化是全部信息化工作中最为重要的基础工作,而语言文字资源库的建设又是语言文字信息化最重要的基础性工作。就基本类型而言,语言文字资源库可以划分为基于口语的资源库和基于书面语的资源库。书面语的信息化处理,是以字的处理为起点,进而进入到语言处理再到概念处理的连续过程,与这个过程相对应,需要建设为字处理提供基础性资源的字料库、为语言处理提供基础性资源的语料库和为内容处理提供基础性资源的概念库。我们可以把字料库的基本单位确定为字,把语料库的基本单位确定为词,把概念库的基本单位确定为概念。字料库的核心工作是在确定汉字基本单位字的定义的基础上,解决字单位的认同、别异问题,聚合同一汉字的不同变异形式,离析同一形体的不同汉字,以字为基本单位,建立个体字符属性标注完备、整体序化编排的汉字库藏;语料库的核心工作是在确定语言的基本单位词的定义的基础上,解决词单位的认同别异问题,聚合同一词语的变异形式,离析同一词形表达的不同词语,建立个体词语属性标注完备、整体序化编排的汉语词语库藏;概念库的核心工作是在确定概念的定义的基础上,解决概念单位认同别异问题,聚合同一概念不同语言表达方式,离析同一语言形式表达的不同概念,建立序化的概念库藏。在此基础上,还要进一步解决字料库与语料库以及语料库与概念库的接口问题,实现字料库、语料库、概念库的统合,真正实现从真实文本出发,达到内容处理的目标,以满足信息化处理对语言文字的要求。同时,字料库和语料库本身也为文字和语言的研究提供了新思路和新方法,也必然推进语言文字本体研究的现代化进程。
柳建钰的《字书字料库的理论、实践与应用》是第一部探索汉字字料库理论的专著,该书首次对字料库的理论进行了系统思考,对字书字料库的实践经验作了总结,并初步展示了字料库应用的状况与前景。
全书框架共分为三大部分。在理论篇中,作者在介绍字料、字料库等基本概念的基础上,讨论了字料库与语料库的联系与区别,并对字料库的分类、字书文字研究的价值以及字书字料库建设的必要性与可行性进行了分析。其后,作者对字料库理论的提出及其价值进行了深入剖析。最后,作者提出了建立字料库汉字学的设想,并对字料库汉字学的学科定义、研究领域、学科性质、主要内容、研究方法、研究步骤、学科地位等一系列学科理论问题进行了充分阐释,这些内容都是作者对字料库理论不断开拓挖掘所取得的最新成果。
在实践篇中,作者首先介绍了当前国内外字料库与类字料库建设的基本情况,之后对字书字料库系统建设的七个主要原则与七个阶段进行了讨论。作者详细介绍了渤海大学CCFD字书字料库数据库及软件的设计情况以及字书字料库四大界面属性库的建设情况,并对包括标注原则、内容、方式、层次等在内的字书字料标注相关问题进行了分析。最后,作者举例对字书字料异体关系等七种字际关系的系联进行了展示,这为同类型字料库的设计研发和数据填充提供了可资借鉴的宝贵经验和参考实例。
在应用篇中,作者举例分析了字书字料库在字书疑难字考辨过程中能够发挥的重要作用,并开展了基于字书字料库的字书汉字层积流变状况调查研究和通用规范汉字构形属性调查研究,研究数据详细可靠,结论严谨可信,进一步展示了字料库在当前汉字整理与汉字学研究方面的巨大潜力。
该书研究具有鲜明的创新意识和问题意识,对字料库理论研究、实体建设及应用研究方面的问题进行了深入思考,提出了不少有价值的学术观点,让人耳目一新。研究成果无论是在科学性、理论性方面,还是在实践性方面都已经达到了一个比较高的学术水平。
不过,该书仍然带有初创期著作的稚嫩与粗疏,字料库理论有些内容还没有说透,字书字料库实体设计还有可商榷之处,字料库应用领域有待于进一步拓展。这也为未来的研究留下了充足的空间。在本书排印的过程中,我们高兴地获悉,作者申报的国家社科基金项目“字料库字料标注规范研究”获批重点项目,这说明作者对字料库的探索并未停止。我们有理由相信,在不远的未来,作者将为学界提供更为成熟而细密的研究成果,从而推动字料库研究的不断深入。与此同时,随着实体建设的日渐成熟和应用领域的逐渐广泛,字料库也一定会在推进我国语言文字研究的信息化进程中贡献自己的独特力量!
李国英
二〇二〇年十一月二十四日
后 记
《字书字料库的理论、实践与应用》
本书是我所主持2014年度国家社科基金青年项目“字书字料库的理论与实践研究”的最终成果,该项目已于2019年结项,等级为“良好”。原计划只打算就理论与实践两部分展开研究,应用部分可以算是超额完成的内容。
字料库理论是由李国英师与周晓文于2009年提出来的。我初次接触字料库概念是在2011年,弹指一挥间,已经快要十年了。刚开始对于字料库的认识还比较肤浅,但初生牛犊不怕虎,我首先申报了省社科基金,侥幸获批。这极大地鼓舞了我的研究热情和干劲。接着,我又相继获批2013年度教育部项目和2014年度国家社科基金项目,顿时觉得肩上的担子更重了。于是我开始天天游走于网络,调查各种汉字数据库和经典的语料库,并着手设计字书字料库框架和字料属性库。之后便与锦州国信科技有限公司合作研发字书字料库系统。2014年10月完成了1.0版,2015年9月完成了2.0版,2016年12月“CCFD字书字料库系统”荣获锦州市科学技术进步奖二等奖,2018年8月又完成了3.0版。目前字书字料库运行正常,在库数据量和数据的复杂程度都远远超出了我的预期。虽然整体来看也许还不太成熟,但随着字书字料库这棵大树慢慢生根发芽、开枝散叶,开始有更多的人关注它并进行基于字书字料库的汉字学研究,有学者还参考字书字料库的架构,尝试去建设其他类型的字料库,这对于我来说,不啻是一种莫大的鼓舞。
如果说字书字料库实体建设难度不小的话,字料库理论研究则更富有挑战性。这方面的工作前贤时俊做的不多,还有不少难点问题需要系统深入地探讨。我比较喜欢从事材料整理工作,理论功底比较薄弱,涉足这一领域时自觉如履薄冰。只有敢于突破自我,才能永远走在前列。为了顺利完成项目,我决定挑战一下自己的极限。而要想在理论研究方面开拓创新,不付出巨大的艰辛是办不到的。除了大量阅读汉字学、语料库语言学等方面的论著外,我还给自己定下了项目周期内年均发表1篇理论文章的小目标。现在看来,这个小目标应该已经实现了。尤其是《字书字料库中字料标注若干问题刍议》和《字料库汉字学初探》发表在《语言文字应用》上,前文主要观点还被人大复印报刊资料《语言文字学》2015年第11期摘编。当意识到这些年来自己的工作已经将字料库实体建设与理论研究的进程向前推进了一小步时,我倍感自豪!这种喜悦,是其他任何东西都无法替代的!
近十年来,背靠着字书字料库这棵大树,我相继申请到了六个项目,发表了十多篇文章,获得了三项学术奖励,还顺利评上了正高职称。付出的努力终于得到了回报。欣喜之余,我深知,这些成绩的取得与很多师友的支持和鼓励是分不开的。饮水思源,在这里必须向诸位表达我衷心的感谢。
首先要特别感谢我的博士导师李国英教授。李老师对汉语和汉字始终怀有深情厚意。他不仅在传统语言文字学研究上倾注了常人难以想象的心血,而且对在信息时代为何要以及如何去借助数据库整理研究汉字也有着非常深刻的理性认识,故而能够审时度势,提出字料库建设与研究的设想。当初申请国家社科基金项目时,李老师就给予了充分肯定。之后每次登门拜访,李老师都会问我最近在研究什么,字料库建设的进展如何。可以说,我的每一点进步背后都有李老师的支持和鼓励。现在这本书就要出版了,尽管离李老师的要求可能还有很大距离,但我仍想将它首先献给李老师,并要跟李老师说一声:“谢谢老师,您辛苦了!”
感谢北京师范大学齐元涛、陕西师范大学党怀兴、辽宁师范大学洪飏、郑州大学张青松等诸位老师对项目及书稿的高度认可!
这些年来,北京师范大学周晓文、北京语言大学陈双新、河北大学杨宝忠、渤海大学夏中华、天津师范大学王世凯、辽宁省委宣传部肖明江等老师在教学科研工作上给予了我无私教诲和大力提携,在此一并致以最诚挚的谢意!
感谢我指导的硕士研究生:史晓丹、安冬雪、王伊佳、单志鹏、邢蕴荠、李超、徐丽雪、王海孟、李美璇、程银燕、马健、王健洁、姜泽兵、董倩、韩鼎新、曲波、张梦、郑琼、秦冕、冯宝成、王修竹。他们在字料库建设(尤其是字料数据的录入与标注)方面给予我重要支持。他们基于字料库的字书汉字研究成果对于字料库汉字学理论的发展颇有助益。现在他们或在读书,或已工作,希望他们未来的路能越走越宽!
感谢师弟许庆江。如果没有他的引介,本书绝难在享誉海内外的中华书局出版,而且是以超常规的进度快速出版:从交定稿到出一校,只用了短短1个月,从寄交一校到收到二校,则只用了15天时间,让我也享受了一次“大佬”的待遇。书稿校编和排版过程中给他添了很多不必要的麻烦,在此要向他郑重道一声:兄弟,请多担待!
首都师范大学中国书法文化研究院孙学峰教授欣然命笔为本书题写了书名,使本书增色良多,谨致以最诚挚的谢意!
做学问需要资金做后盾。所以要特别感谢全国哲学社会科学规划办公室、教育部社会科学司、辽宁省社会科学规划基金办公室等单位为我提供了比较充足的资金支持,保证了字料库研发工作的顺利开展。
需要感谢的人还有很多:曹晓波、陈才、但诚、邓福禄、何林英、何瑞、华建光、蒋海宝、梁春胜、沈德海、宋龙、苏芃、孙建伟、汪银峰、王虎、王晓明、魏晓燕、谢铁强、邢爱贤、熊加全、杨清臣、于全有、俞绍宏、张素格、张义、郑贤章、朱翠萍……这份名单还可以罗列很长,感谢诸位在字书字料库软件研发、使用及鉴定过程中提出的宝贵意见!
感谢我的父母、妻子和儿女。他们的支持是我奋力前行的不竭动力!当然,我也想感谢一下自己。感谢自己的认真踏实与坚持不懈,期待在前行路上遇见更好的自己!
需要在此特别说明的是,为保持称呼上的统一,本书对学界前辈与时俊均直书姓名,未加“先生”二字,如有冒犯,恳请海涵!
书稿就要出版了,第一阶段的字料库建设与研究工作已经可以画上句号了。但这项工作还需要继续进一步拓展。当前,字料库建设与研究的重要性和紧迫性日益凸显,故而我也殷切希望大家都能够积极关注并主动投身于这项伟大事业中来!
限于本人的学识,本书错误疏漏之处在所难免,敬请各位同行专家提出批评和建议!我的邮箱是prcmap@163.com,期待您不吝赐教!
柳建钰
2020年7月25日
略记于修业堂
(感谢柳建钰教授惠赐书讯)
微刊投稿:hanzixueweikan@126.com
网站链接:http://www5.zzu.edu.cn/hzwm/
郑州大学汉字文明研究中心
国家语委科研机构汉字文明传承传播与教育研究中心
编辑|李哲儒
Go to "Discover" > "Top Stories" > "Wow"