其他

钱锺书与中国古籍数字化

2017-12-23 胡小伟 善本古籍

如果单指记忆力,钱锺书先生兴之所至,打通中外、信手拈来的功夫常给人“电脑数据库”的印象。但数据库毕竟只能罗列资料、显示异同,却不能分析辩证、触类旁通。其实,现代计算机被中国人俗称为“电脑”,似乎有一点言过其实。但是,现代计算机给时代、社会带来了飞跃,却是不争的事实。

上世纪80年代初,钱锺书先生的女儿钱瑗教授有机会到英国进修,回来后偶尔谈起英国学者用计算机研究莎士比亚戏剧,取得了显著成果。钱锺书先生受到启发,从1984年便开始倡导把计算机技术引入中国古典文献的搜集、疏证和整理中来。他想到“中国古籍电子数据化”这个课题,委托人付诸实施。当时,对于个人计算机信息处理能否中文化还有争论,更何况中国古籍汉字库数量远远超出了《康熙字典》收录的四万多字,所以字库容量必须充足。工作之初,研究小组搜求了当时所有的“中文系统”及相关资料,请钱锺书先生选定。经过深入了解之后,他决定采用“仓颉输入法”作为计算机汉字工作平台。这种输入法有两大优势:一是录入方法符合中国传统规则;二是字数全,不让古文献削足适履。钱锺书先生每次去社科院都会亲临研究小组,并多次用自己的稿费津贴资助研究小组的起步创业。

从1985年开始,研究小组首先进行了《论语》数据库建设,并顺利出版了第一部使用电脑编制的《论语数据库》一书,取得一大批科学化的《论语》数据。钱锺书曾为《论语数据库》题签,并在序言上增补了一段重要文字:从理论上来说,计算器和人类使用过的其它工具没有什么性质的不同。它在还未被人广泛使用的时候,除自身尚待完善以外,总会遭到一些抵抗……对新事物的抗拒是历史上常有的现象,抗拒新事物到头来的失败也是历史常给人的教训。

如果说《论语数据库》还只是利用计算机运算的快捷,算是牛刀小试的话,那么,钱锺书先生给研究小组布置的第二项任务,便瞄准了浩瀚如海的《全唐诗》。研究小组着手进行这项工作后,得出了一系列重要成果。比如,妥善解决汉字库以后,花了近3年时间输入《全唐诗》的全部正文、异文和注文,并经过11次校对。在大量程序软件的控制下,能在两分钟以内解决全部唐诗的检索问题,达到了准确和高速的目标。中外学人对这套当时海内外最庞大的古典文学数据库给予很高评价,这个项目也因此获得1990年国家科技进步奖。但钱锺书先生并未以此为满足。他认为,把唐诗输入计算机,靠的是在汉字库支持下的中文操作系统。没有相应的汉字库,如同拿来一只纸糊的小鞋,穿在有唐三百年诗歌的天足上,只能说是一种认真的滑稽。计算机里的唐诗已经开始成功地代替了书桌上的唐诗,但这绝不是放平鼾睡的句号,因为计算机里的唐诗难题还有很多。他特地在《电脑里的唐诗》这篇文章中增添了这么一句:实践证明,能帮助人的计算机需要人的更多的帮助。


如需参与古籍相关交流,请回复【善本古籍】公众号消息:群聊

欢迎加入善本古籍学习交流圈

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存