浙江大学“智慧古籍平台”上线
智慧古籍平台:
科技赋能,让古籍“活起来”
在漫长的历史岁月里,中华民族在华夏大地上繁衍生息、奋斗创造,留下了无数优秀的传统文化。浩如烟海的中华典籍,在千百年的流传中,成为中华民族历史记忆、思想智慧和知识体系的重要载体。这些典籍多为纸质文献,难以保存与传播,一旦遭到损毁便不可逆转。近年来,日新月异的数字技术,为传承中华优秀传统文化提供了新的可能性。大批古籍的数字化,让古籍文字实现从纸本到网络的空间转移,不仅能长久地留存古籍内容,延长古籍的文化生命力,而且还可以打破传统古籍的种种限制,提升了古籍文献的普及率。
习近平总书记指出:“中华优秀传统文化是中华民族的突出优势,是我们最深厚的文化软实力。”“中华民族伟大复兴需要以中华文化发展繁荣为条件。”推动中华优秀传统文化创造性转化、创新性发展,正是学术工作者应当肩负的文化使命。“让收藏在禁宫里的文物、陈列在广阔大地上的遗产、书写在古籍里的文字都活起来。”
为了充分发挥中华古籍在传承和弘扬中华优秀传统文化方面的重要作用,我们需要由古籍的“数字化”进一步向“智慧化”转变。通过构建智慧古籍平台,系统性地整合碎片化的信息,实现数据化、可视化建模,进行立体重构和生动再现。将有助于让古籍从“活下来”,真正转变为“活起来”。
为了让古籍活起来,浙江大学徐永明教授及其团队多年来致力于文史大数据结构化和智慧化的建设。2018年3月19日,以徐永明教授为首的“大数据+学术地图创新团队”与哈佛大学地理分析中心合作共建的中国首个综合性“学术地图发布平台”(http://amap.zju.edu.cn)上线,迄今已发布1600余幅地图,共有60余个国家数十万的读者访问,在海内外产生了广泛的影响。
结构化的文史数据与数字地图相结合,大大增强了人们的空间认知,激发了人们的时空想象,使高冷的象牙塔学术也快速地“飞入寻常百姓家”,将人们带入了一个读图的时代。
然而,不得不承认,结构化数据也存在着数据碎片化的遗憾,它不能将完整的文本有机地结合起来。为了使孤岛不孤,碎片不碎,徐永明教授及其团队始终孜孜不倦地探索将大数据技术与古籍进行深度融合的方式。2020年6月,徐永明教授承担了中央宣传部委托的智慧古籍大数据调研项目。2020年12月,徐永明教授成功申请国家社科基金重大招标项目“明代文学智慧大数据及平台建设”。经过近一年的努力,“智慧古籍平台”(http://csab.zju.edu.cn)终于应运而生。
01
探索智慧古籍新模式
“智慧古籍平台”是借鉴知识图谱理念,综合运用大数据的计量统计、定位查询、聚类查询、空间分析、数据关联、网络分析、机器标引、众筹众包等技术,将中国古典文献和研究成果图谱化、智能化,从而打造集浏览、查询、研究、欣赏于一体,熔审美阅读、知识学习、场景体验于一炉的古籍智慧大数据平台。该平台拥有强大的后台技术和完备的前台功能。
(一)强大的后台技术
1.OCR识别:OCR即“光学字符识别”技术,该技术可将图像中的文字转换成文本格式。平台现试用的OCR技术能较为精确地识别版刻古籍,准确率达到90%以上。
2.智能标点:借助计算机学习技术,智能标点以数亿字的已标点古籍为训练集,可根据特定算法为古籍文本自动标注现代中文标点符号。平台采用先进的机器古籍标点技术,标点准确率达到90%以上
3.智能标引:利用了结构化的地名、人名、职官、词典等数据库对上传的文本进行批量标引,从而使文本与后台的数据产生了关联。读者在平台点击已标引的字词即可查看释义。
4.众包技术:即一项工作,可以由不同地方的人员在线完成。平台利用众包技术在全国乃至世界范围内遴选和组建专业团队,突破团队人员数量和地域的限制,更高效地完成线上古籍整理。
5.空间分析技术:借助ArcGIS、QGIS等地理信息系统软件,结合在线地理信息系统,使古籍中留存的地理信息可视化。智慧古籍平台与学术地图发布平台相连接,点击著者详情,即可查看所连接的人物行迹图。该技术亦已应用于古籍文本地点释义功能中。
刘基行迹图
6.社会网络分析技术:平台以人物社会关系数据库为基础,借助图数据库的功能,已实现了社会网络和家族世系的可视化。可以在平台关系图谱页面查询人物的世系图及社会关系图。
刘基社会关系图
刘基世系图
上传到“智慧古籍平台”的文献资料将经过OCR识别、机器标点、人工对、专家审核、机器标引、标引审核,然后在前台发布。
(二)完备的前台功能
1.著述导览功能。
读者点击智慧古籍平台首页的“著述导览”页面,便可查阅著述的章节目录、著述提要等基本信息及相关作者的世系图、社会关系图。
2.篇目导览与作品阅读功能
点击“篇目导览”即可进入文本阅读界面。文本阅读是本平台的特色功能。首先,为提高文本的真实性和准确性,本平台提供了古籍图片与古籍数字化文本一一对应的功能。
其次,为降低阅读时频繁查阅相关资料的工作量,本平台提供关键字词的释义功能。文本中的重要信息及疑难词已按人名、地名、职官、时间、典故、名物不同类型以不同颜色显示,点击即可查看不同类型的释义。
(1)点击职官名词称将展示详细释义。
(2)点击地名词将显示该地点的地理定位。
(3)点击人名词可跳转到该人物到详细信息。
(4)点击传统纪年则展示现代公历的时间。
(5)点击疑难词将展示相关释义信息。
3.著者导览功能
读者点击智慧古籍平台首页的著者导览,即可查阅该人物的小传、名言、著述目录、人物行迹、世系图及社会网络关系图。
作为界面友好、功能齐全、技术先进的人机交互式智慧数据共享平台,智慧古籍平台将全面立体地展示古籍信息,满足读者一站式、查询、阅读与研究已经收录文学文献的需求。此外,读者还可以借助本平台的标引功能与数据库功能,借助本平台的标引功能与数据库功能,实现个性化的阅读方式。
02
打造古籍研究、阅读新范式
智慧古籍平台的建设,将为读者扫除古代文献阅读障碍,推动古籍阅读普及化,打造古籍阅读、整理和研究的新范式。同时激活学者的研究成果,突破学术圈的壁垒,将前沿的学术研究成果转化为社会大众共享的文化资源。让原本深藏闭锢的古代文献典籍和中国古典文学研究成果“活起来”,化身千百,“飞入寻常百姓家”,切实而高效地继承和宏扬传统文化。
此外,智慧古籍平台的建设将进一步推进古籍数据资源的整合和开放共享,改变“数据在中国,数据库在国外”的局面,帮助我们获得运用智慧化中国古代典籍资源的主动权,助力推动“数字中国”建设,促进文化和科技深度融合,更好地提高国家文化的软实力。
编辑 | 季紫菱
文稿及图片来自徐永明教授