查看原文
其他

达摩院的扫地僧,两年“抄”了20万页古籍,专家期待的“游子”回家了

钱江晚报 2021-05-20

宋刻本《后村居士集》、清文澜阁《四库全书》零本……5月18日,20万页古籍以数字化的方式回归了。当天, “汉典重光”平台在北京中国科技馆正式发布,通过先进的人工智能(AI)技术,一批珍藏于美国加州大学伯克利分校的中文古籍善本,以数字化方式回归故土,落地“汉典重光”古籍平台。目前,首批20万页古籍已完成数字化,并沉淀为覆盖3万多字的古籍字典,公众可通过该平台翻阅、检索古籍。


“汉典重光”项目到底是怎么来的,背后藏着哪些黑科技,记者采访了阿里巴巴达摩院、浙江图书馆、浙江大学古籍研究所专家等,还原了这个与古籍做朋友项目背后的全过程。


100多年前古籍流落海外


1860年(清咸丰10年),清朝正处于风雨飘摇中。北有英法联军捣毁圆明园,逼迫中国签下《天津条约》、《北京条约》。南有太平军进入杭州,藏有《四库全书》的“南三阁”之一杭州文澜阁,次年毁于战乱。无数经典书籍,从此淹没在历史中。


文澜阁遭遇“灭顶之灾”后,杭州藏书家丁申、丁丙兄弟在逃难途中无意间发现文澜阁《四库全书》残编。相传,丁式兄弟买包子时,偶尔发现包食物的纸,“皆四库书也”,大惊。于是他们开始紧急救书,上下打点,四处寻访。


经历这轮战乱,文澜阁本《四库全书》的四分之一被丁氏兄弟抢救,四分之三消散飘零,不知所踪。



直到将近100年后的1950年代,清代曹庭栋辑纂的《宋百家诗存》 (卷七),出现在美国加州大学伯克利分校东亚图书馆。而这本《宋百家诗存》,正是丢失的文澜阁本《四库全书》之一。据不完全估计,近代散居海外的中国古籍超过40万部、400万册,包括甲骨简牍、敦煌遗书、宋元善本、明清精椠、拓本舆图、少数民族文献等。


流散海外的古书典籍,成了中国文学、历史研究,以及传统文化传承难以弥补的遗憾。



因邦交、贸易、战乱等,历史上中国古籍时有出海,近代以来,战争和动荡更加剧了古籍的损毁和流散。据不完全估计,散居海外的中国古籍超过40万部、400万册,包括甲骨简牍、敦煌遗书、宋元善本、明清精椠、拓本舆图、少数民族文献等。


达摩院“扫地僧”接下了AI录古书的任务


2019年,阿里巴巴和四川大学提出“数字化回归”设想,获得美国汉学研究重镇、中文藏书量排名全美第三的加州大学伯克利分校支持并达成共识,将伯克利东亚图书馆的中文古籍善本逐步数字化。


 

本次首批数字化的20万页古籍中,包含40余种珍贵宋元刻本、写本;明清至民国时期著名学者钱谦益、翁方纲、王韬的抄本、稿本;著名藏书楼嘉业堂、密韵楼的抄本,还有清文澜阁《四库全书》零本等。


鲜有接触古籍的达摩院“扫地僧”们,一开始还不知道AI录入古书是多么有挑战的任务。


为将伯克利提供古籍的扫描图片和编目数据全部文字化,阿里达摩院技术团队与四川大学专家联手研发出一套全新的古籍识别系统,以97.5%的准确率完成对20万页古籍的整体识别。目前,该系统已能批量识别百本古籍,并沉淀覆盖3万多字的古籍字典。



比起专家录入,这套人机交互的识别系统将效率提升近30倍。随着古籍识别规模的扩增,机器还会自我进化,不断提升准确率和效率。阿里巴巴达摩院院长张建锋表示,阿里计划将这套技术工具连同古籍数字化平台一并捐赠,交由权威公共机构长期运营,同时,阿里仍将在古籍数字化工作上持续投入人力物力。



教计算机学会认字有多难


教小朋友认字有多难?连北大教授都吐槽:“我教她认字,她教我认命。”


那教计算机认古文到底有多难呢?


古籍文字的类别极其庞大。现代汉语常用字不过6000多个,常见印刷体,算法能够覆盖到的文字基本上在2万字以内。但是据估计,古籍文字多达几十万。


古书中经常遇到“一对多”和“多对一”的问题,同一个字,在不同的时代有不同的刻法和写法。有时甚至在同一时代的同一本书里,也会出现不同写法。


最近网上谈论很多的“刺史”“刾史”,就是同一个字在不同时代有不同写法的案例。有位博士在一堂公开课中讲到,颜真卿《祭侄文稿》中写到的“蒲州刾史”之“刾”是错别字,正确的写法应当为“刺”。这随即遭到方家和网友的反驳,有学者指出,“刺”、“刾”为同一个字,都念cì。“刾”是“刺”的异体字,同音、同义、同用法。只是在不同的历史时期有不同的写法。


异体字与正字在汉字编码时通常有两个不同的编码,对于计算机来说,它们就是两个不同的字,“刾”、“刺”就是这样。对人类来说,则需要具备一定的文字学素养,才能理解两个不同的字符背后的同一种意思。


在达摩院汉典重光项目算法负责人何梦超眼中,“根本一模一样的”“鍊”“錬”二字情况也类似:


 

计算机能够区分它们。“鍊”的CJK的字符代码是“934A”,“錬”的CJK的字符代码是“932C”,因此计算机会按两个不同的字来对它们作处理。但对后一道的审校专家和技术人员来说,人眼区分“鍊”与“錬”却难得多。两个字字形上的区别极小,没有一定的文字学素养,很难看出其区别。


很多情况下“錬”“鍊”,互为通假字,都通“练习”的“练”。明明字形相近、发音相同、字意也一样,但在不同的书中,就是会出现不同的写法,汉典重光项目经常遇到这类情况,比如下图《尚書全解》中的“豈能練習而使之君天下”,用的是“錬”这个写法。


 

而在下图的《红楼梦影》中,“你和兰儿好好在家用工练练字”,用的则是“鍊”这个写法。



目前汉典重光的识别系统按照“所见即所得”的方式呈现机器识别文字的结果,也就是说,机器见到的单字图片为“錬”,就识别为“錬”字。机器见到的单字图片为“鍊”,就识别为“鍊”字。


在一组近似的字中找出不同的字,在看似相同的字中找出属于不同汉字编码的字,虽然它们可能是同一个字,如:



这是计算机识别的一组字,计算机将这组字识别为同一个字“襄”,实际这一组字中有四个不同的字符,分别是“襄”(即大多数字符)、“㐮”(“襄”的异体字)、“裏”,倒数第二个字不好查,还得根据上下文来确定是什么字。


诸如此类复杂的问题很细、很繁琐,有的区分很困难,如:



有的字只能根据上下文来区分,如“憧”与“幢”:



达摩院,专门为古籍识别开发出了新的系统的。达摩院的古籍识别算法,用AI替代人工,在两个环节大幅压缩了专家标注工作量。2年,20万页,平均下来每天280页。


在机器为主进行识别的97.5%的内容中,约有1%需要专家录入;机器不能识别的余下2.5%的文字,全部交给专家做后期标注。相比人工专家录入提升近30倍。


阿里达摩院的AI古籍识别算法,为中华古籍的回归提供了另一种可行可期的思路。


浙江图书馆也参与了汉典重光

想让更多人看见古籍


在这次汉典重光的项目中,浙江图书馆参与了项目的早期论证、以及产品不同阶段的跟踪检查,还参加了多次论证会,提供了参考意见。浙江图书馆古籍部主任陈谊告诉记者:“古籍的数字化回归,这件事情非常有意义。像这次把某个图书馆藏的中国古籍藏品善本数字化回来,是很少见的,很值得肯定。”他说,这次古籍数字化,还能实现刻本、写本的汉字识别,在技术上也是很大的突破。



“我们还以公共藏书机构参与其中,未来也会把本馆藏的数字化古籍资源,一起发布到汉典重光平台,建成这样的资源体系。我们也将组织读者试用,让更专业的科研工作者在‘汉典重光’的域界内使用古籍数字化资源,更大程度提高古籍数字资源使用率,发挥更好的社会效能。”陈谊表示,这次参与汉典重光也是浙江图书馆与省内科技企业的合作的一次探索,在数字化开发和使用上,为省内和国内数字化服务发展提供助力。



浙江古籍出版社社长王旭斌表示,中国有很多由于种种原因流失海外的古籍,分布在世界各地,其中有一些是十分珍稀的文献。“这些古籍的实物回归十分困难,但对我们中华文明的传承和弘扬具有非常重要的价值意义。通过数字化的方式回归,在学术上可以为国内学者专家研究提供便利,省去了很多查找古籍文献的时间和费用,是一件十分有意义的事情。”


专家:

古籍像朋友,但也是一个文化使者



冯国栋是浙江大学古籍研究所副所长、人文学院副院长,他告诉记者,他每天的任务就是跟古籍打交道,看竖排无标点的书是他们的日常。


冯国栋认为一部古书留传至今,都已经是一个生命体,它有它的生命历程。平时翻看古籍,他都一般戴上手套,因为这样对古籍有一种敬畏之心。


2011年,冯国栋在哈佛大学当访问学者一年,基本天天去哈佛燕京图书馆看古籍,他也曾去大英图书馆看过敦煌卷子。“这些书都是通过种种渠道外流的,当然希望这些‘孩子’能回家。古籍是中华文化的载体,中华文化正是通过古籍留存至今的,这是其大用。用山东大学杜泽逊先生的话,医生是为人续命的人,我们就是为书续命的人。”他说,另一方面,古籍是人类命运共同体的一部分,流落海外的这些古籍更像一个文化使者,说明我们古老的文明对全人类都具有吸引力。



“网上看到‘汉典重光’古籍数字化平台的开发,感到很兴奋。让深藏在各公私图书馆的珍贵古籍成为在书房里点击一下就可以获取的资料,这是每个古籍人心中的梦想。”浙江大学文科资深教授、中国敦煌吐鲁番学会前副会长张涌泉,毕生致力于敦煌文献研究,他说,汉典重光的开发,让他的梦想逐渐变得清晰。他希望汉典重光平台进一步完善,覆盖更多的古籍,并延伸到敦煌写本等其他流散文献。


最近浙江大学正在进行“中国写本文献数字资源库”的建设,其中就包括海外流散敦煌写本的数字化回归。借助原件或高清电子文件,学者能够清晰看到纸张上的细节、不同颜色的笔迹,更准确地理解1000年前甚至更早的文献。这是过去100年的敦煌学者没遇到的好时代。


“在相当长的时间里,从罗振玉、王国维到季羡林、姜亮夫等几代学者,这都是一个奢望。”现在,借助科技,他希望能整理流落在英法俄等国的敦煌文献,让海外流散敦煌写本的数字化回归。“期待我们的工作也能得到这个平台的有力支持。”张涌泉教授表示,目前《敦煌经部文献全集》已经出版,《敦煌史部文献全集》等其他几部大部头著作还在整理中。


点击这里,登录汉典重光古籍数字化平台,在线看20万页古籍


来源:钱江晚报·小时新闻记者 张云山 宋浩

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存