王宁先生:汉字全息数据库的学术理念(附系统使用指南)
本文根据 章黄国学 “王宁先生:汉字全息数据库的学术理念” 和北京师范大学 “重磅丨读懂汉字前世今生!“汉字全息资源应用系统”正式上线!” 两篇微信推送整理改编而成。
北京师范大学汉字研究与现代应用实验室开发的“汉字全息数据库”于1月11日正式发布,引起了社会各界的广泛关注。今天小编带你一起聆听王宁老师在全息库发布会上的讲话,介绍汉字全息库背后的学术理念——汉字的信息化发展,始终要建立在学术思考的不断深化之上。有没有小伙伴还不知道这个数据库是什么以及如何使用它?文末有详细介绍喔~
汉字全息数据库的学术理念
文丨王宁
王宁,1936年生,北京师范大学文学院资深教授,北师大章太炎黄侃学术研究中心主任,章黄学术在当代中国的重要传人。
2015年,我们通过竞标,接受了国家语委 “通用汉字全息数据库建设” 这一重大项目,这个项目被列入《教育部2018年工作要点》和《国家语言文字事业“十三五”发展规划》,也是教育部“奋进之笔行动”的一项重要措施。经过3个月的顶层设计和试点,1年零8个月的分部设计和实施,完成了总体框架,又用了1年时间补充、修改、完善,于2018年7月经过专家验收正式结项。
相关媒体报道
结项后,我们在申请知识产权的同时,继续进行调整内容、更新技术的工作,使这一成果的科学内涵和应用价值进一步提高。“汉字全息资源应用系统”,是这个项目的现有成果。在这里,我代表设计团队和制作团队,介绍这个项目设计的三个主要理念。
1.属性的分解
这个项目以推进语言文字信息化建设为主要目的,具体说,是运用现代中文信息处理技术,构建一个具有多角度关系的汉字实用数据库。完成这样的项目,必须以汉字的属性为底层的依托。我们从上世纪90年代总结汉字的属性,从传统的形、音、义三方面的属性,增加了码和用两方面,由于汉字简化有大量字用合并的做法,造成简繁字存在“一对多”的情况,“用”就成为汉字不可不关注的属性;又由于汉字进入计算机后是以“内码”的形式存储,又是以“交换码”来调用的,所以,“码”便成为人机对话不可或缺的属性。
在这5个属性确立后,我们做了大量的属性细化研究,将这5种属性细化了4个层次,这样就有条件将笼统的汉字个体的资源库,升级为汉字的属性库,解决关联的多层次、多角度问题。笼统的汉字关联信息量很小,而多角度的属性关联才能获得足够的信息,满足人和机两方面的需要。
“汉字全息资源应用系统”上线仪式
2.层次的确立
在《通用规范汉字表》的研制中,我们采用了两个大型语料库,证实了周有光先生提出的“汉字效用递减率”,也就是说,汉字字频逐步降低,对汉语语料的覆盖率越小,应用的效用也就越小。这个原理是《通用规范汉字表》确定6500通用字的主要根据。之后,这个原理被用在《古籍印刷通用字字形规范》的项目中,以确定古籍印刷通用字的字数和字集。这一次,面对汉字UNICODE编码已经扩充到8万多字,加之这个字符集整理的程度不高,根据我们多次调查,其中有实用价值的字不过36000个,如果让那些冗余的信息与有用的信息混杂在一起,只会增加信息提取的难度,降低系统的应用效率。盲目求全、求大而鱼龙混杂,是这些年数据库研制一个偏差。
所以,这个项目的现代汉字字集,我们分为常用-通用-适用-罕用-无用5个层次,工作程序以3500-6500-8105为第一层次(再分3个小层次),首先解决简繁字关联的问题;再以27000-36000为第二层次,进一步解决异体字问题,其他字只存记忆,不作深度开发,随着属性的关联自动进入系统。这就把无限的关联变为可以操作的有限关联,而且没有影响属性库数据的完整与周全。这样做,一方面在应用中扩大有用信息的使用度,另一方面,经过使用,垃圾信息、无用信息、重复信息会由于“0关联”逐步退出系统,不再干扰有效信息的集合和调用。
“汉字全息资源应用系统“首页界面
3.中介的寻求
项目要求既有现代汉字,也要关联古文字和多种字体。如此众多的字样,实际上是历时汉字的积淀。汉字是表意文字,形制相同又共时的汉字各自成为系统,受汉语的话语系统的制约和影响,无法完全对应。例如,甲骨文记录的是卜筮语言、金文和战国文字多为应用器皿的铭文,均非自然语言,现代汉字是现代汉语的书写载体,与古文字的对应更是难以全然实现。很多次“全息”“字谱”等项目的研制,都只能实现局部,信息大量失落,关联出错的情况比比皆是。要避免这种现象,吸取以往的教训,我们继承传统语言学的研究成果,以多年《说文》学研究的优势,把《说文解字》的9353个小篆(加上重文10516个)字样为中介,不论何种联系,凡是不能直接联系的,都以《说文解字》小篆为中介来间接关联。
《说文》小篆所以能负起作为关联中介的任务,是经过论证的。根据我们的研究,《说文》依托的是五经的话语体系,《说文》中的形义被汉语双音词词素承袭的概率几乎是100%,而古文字的确切识读,绝大部分是从《说文》开始的。系联的结果证明,这个中介寻求完全正确,保证了不同形制、不同字体、不同时代汉字的最大限度关联。
以上三点,是我们设计这个应用系统主要的理念,也是这个项目能够在3年这样短的时间顺利完成的保证。
“汉字全息资源应用系统“训释系联结果示例
在完成项目的过程中,我们深刻体会到两点:
第一,理论先行,是项目有序而顺利完成的主要原因。应用若无理论指导,面对海量的数据只能迷失。我们的工作几乎步步有理论先行:不仅分级、分层、设置中介有足够的根据,共时的系联和历时的认同也是有规则在先的。解决字义问题是本项目的难点,所以采用古代训释的系联来体现,也是在我们多年论证过的“词汇意义系统论”和“古今词义沟通”的理论前提下才做到的。所以,若无汉字本体研究的理论积累,只凭计算机处理大数据的能力,只能堆砌材料,无法形成系统。
第二,学科交叉十分重要,这样复杂的问题,只凭一个学科的知识与能力是难以完成的。理论在应用系统研制中是重要的,但是,没有计算机这样先进的手段和技术,光凭人脑,理论走向应用难以实现,即使是理论的发展,以及理论在大量的事实中的验证实也只能束手无策。
我们是一支继承和发展中国传统语言文字学的团队,致力于传统语言学走向现代和语言文字学与信息科学的交叉,已经走过了20个年头,在这个项目里,我们经受了又一次考验。习近平总书记在纪念改革开放40周年大会上的发言提出,要推动中华优秀传统文化创造性转化和创新性发展。感谢国家语委给了我们这个传统语言学文字学的研究队伍一个对传统创造性转化的尝试机会,也感谢学校给了我们一个交叉学科的研究和应用的平台,以很大的力度支持我们的研究和开发。我们将更加深入地推进理论的研究,为国家和人民多做实事,也在工作中促进自己的成长。
“汉字全息资源应用系统”是什么?
“汉字全息资源应用系统”在新型汉字理论的指导下,充分运用当前的数据库技术、信息挖掘技术等现代化手段,对海量的汉字信息资源进行有机整合,从形、音、义、用、码五大维度,较为全面地呈现古今汉字的属性体系,构建出一个科学、系统、实用的汉字全息资源应用平台。
该系统具有先进的设计理念,采取深层和表层两级结构模式,使纷繁复杂的汉字属性信息有条不紊。系统所开发的深层系联工具,可以深入揭示汉字之间的复杂关系。
而汉字演变动画模块,则又直观形象地展现出汉字从古到今生动的演化过程。系统将检索范围设置为常用字集、通用规范字集、古籍印刷通用字集等不同级别,针对不同层级的字集提供不同的属性体系,有效满足不同领域汉字应用的多元化需求。
系统发布后,可作为基础教育及汉语国际教育领域的教学平台、汉语言文字学领域专家学者的科研平台、汉字类数字化产品的开发平台,以及国内外文化爱好者的学习平台。
“汉字全息资源应用系统”怎么用?
如此高大上的系统,到底要如何使用呢?跟随小编一起来看一看吧。
首页分为单字检索、综合检索、专书检索、历代字形和帮助五部分,也可以进行注册/登录,注册用户和非注册用户的权限是不一样的。帮助可以调出操作指南,主页直接可以进行单字检索。
单字检索
单字检索:以“汉”为例
以“汉”字为例,我们进行单字检索:输入“汉”(字),进入单字检索;在界面构成的左边为条件部分,右边为结果部分,包含介绍形、音、义、用、码五大属性。
字形包括介绍字形模块的通用属性和历代字形,点进去可以显示字形出处;
字音包括汉语拼音、注音字母、近代音(中原音韵)、中古音(广韵)、上古音(黄侃、王力);
字义既有《通用规范汉字字典》权威释义,也提供历代辞书的释义;
字用分现汉、古汉两大类,其中,有现代汉语语料库字频参考,也提供十三经、二十五史、二十二子的用例与字频;
编码提供Unicode编码、big5码、四角号码、五笔输入法编码等。
综合检索
综合检索与单字检索的理念不同,单字检索为“以字查息”,综合检索为“以息查字”,提供条件字和目标字两种选项。
以“木”部为例,可添加其他属性字段;也可点击字头,回到单字检索。
专书检索
专书检索暂时提供了四种训诂文献,即《说文》、《尔雅》、《释名》、《方言》的训释内容,使用者可以全选,也可以任意选择,通过选择训释词和被训释词、选择训释循环的级数进行检索,检索结果以连线图的方式展示。
重点介绍综合系联之训释系联;输入被释词“迎”和训释词“君”,展示结果,适合科研工作者的专业研究,将来提供多词关联的系联检索与形音义三者的深度系联。
历代字形检索
历代字形检索模块,设定条件找字形等,强调分类汇总,便于科研使用。与单字字形的区别,同综合系联与单字系联的区别,为古文字研究提供支持。
全息库可以提供各种权威的素材,为教材编写及其相关产品提供资源支撑。如汉字动画等。
“经”的字形演变
“典”的字形演变
应用领域
“汉字全息资源应用系统”可以供哪些人群使用呢?
作为文字和文化爱好者提高文化知识和综合素养的学习平台,“汉字全息资源应用系统”为传统文化爱好者提供权威的学习内容,还可以为学生学习、教师备课提供丰富的教学资源,如本系统提供的汉字演变动画类产品等。中小学古诗文库构建完成后,本系统还可以为中小学教师、教材编写者、教育主管机构提供更加丰富资源支撑,从而更好地服务于我国的基础教育。
此外,“汉字全息资源应用系统”作为文字学及相关专业领域专家学者的科研平台,为专家学者提供对数据资源进行深度挖掘的工具,弥补传统手工获取资源、系联资源方式的局限。
作为汉字类数字化产品的开发平台,“汉字全息资源应用系统”为开发者提供海量的经过专业学术加工的可靠汉字属性资源。
本期责编:祝天瑞
往期回顾
大家小文
想法丨发现丨习惯丨人文
让阅读成为习惯,让灵魂拥有温度
更
多
精
彩
请猛戳右边二维码
关注语言风向标
点击阅读原文进入“汉字全息资源应用系统”