查看原文
其他

推荐一个甲骨文在线数据库“殷契文渊”


推荐一个甲骨文在线数据库“殷契文渊

主页面


简介


  • “殷契文渊”平台是在当代甲骨学领军人物、中国社会科学院甲骨学殷商史研究中心主任宋镇豪指导下建立的一个集甲骨文字库、著录库、文献库为一体的甲骨文知识共享平台。


  • 该平台从2016年开始建设,目前完成了第一期建设任务,对甲骨文相关的基本数据进行了整理,包括自1899年甲骨文发现以来120年间公开发表的论文、学术会议论文、硕博论文等2万多篇,246种甲骨著录。平台建设的第二期任务将对基础数据进行补充,并进行人工智能技术的辅助研究,包括甲骨文知识图谱、甲骨文检测与识别、甲骨自动缀合系统、甲骨文献的全文检索等。

  • “殷契文渊”平台的设计、数据采集和整理工作由安阳师范学院甲骨文信息处理教育部重点实验室实施完成,“殷契文渊”平台是其取得的标志性成果。

——以上摘自百度百科

功能介绍

主要分为文献库、著录库、字形库三大模块,之后分节介绍。

这里要说的是左上角的“下载专区”栏目

这一栏目提供了三个数据集的资源下载


  • HWOBC数据集

手写甲骨字数据集,是一个面向手写甲骨字脱机识别训练的手写字符数据集。手写甲骨字的脱机离线识别是手写甲骨字数据法与手写甲骨学文献数字化必不可少的步骤之一。数据的搜集主要“殷契文渊”中的甲骨字字形库。22位来自不同专业(文字、书法、考古、历史、计算机等)的甲骨学研究者,通过手写甲骨字搜集软件比照甲骨字标准字形书写并整理而成。数据集共搜集了83245张样本图片,按照字库编码分为3881类。
  • 甲骨文字检测数据集

数据制作过程:本数据集图像来源于《甲骨文字合集》[1],《甲骨文字合集补编》[2]与《怀特氏等收藏甲骨文集》[3]。通过高分辨率扫描仪转为电子书后手工截选并标注。
本数据集共包含三个文件夹:
1.图像集(img)
2.训练标注集(train_gt)
3.测试标注集(test_gt)
图像集(img)包含包含所有的图像数据。训练标注(train_gt)8895张,测试标注(test_gt)411张,全部以json文件保存。
  • OBC306数据集

OBC306 是一款拓片甲骨文字形类别的数据库,其数据来自于以下八种甲骨文出版物:《甲骨文合集》、《小屯南地甲骨》、《英国所藏甲骨集》、《苏德美日所见甲骨集》、《甲骨文合集补编》、《怀特士所藏甲骨文集》、《东京大学东洋文化研究所藏甲骨文字》、《天理大学附属天理参考馆藏甲骨文字》。共包含309551 张甲骨字符图像,覆盖306个不同类的甲骨文字。
OBC306 数据库是第一款公开的拥有大量拓片单字符的数据库,也是第一款公开的包括多种不同甲骨文著录来源、多种甲骨文字及异形体的数据库。它为利用深度学习解决甲骨字形识别提供了丰富的数据,也为进行拓片单字符识别等研究领域提供了基础的数据,同时为计算机视觉技术应用于甲骨文字形研究工作提供领域知识桥梁。

以上三个都是免费资源

注册

注册很简单,只需要手机/邮箱即可免费注册,十分方便

文献库

文献库可以根据题名、作者、关键字、摘要、来源进行搜索,类似知网。

笔者搜索了“夷方”,共检索出16篇文献

最重要的是,文章可以免费在线阅读、免费下载

著录库

分为著录库、按甲骨字查询、著录简称说明、缀合库查询四个板块。查询比较简单。

需要提及的是,搜索栏右上有两个字体库下载,下载安装后才能看到网站上的甲骨文、隶定字等,不然看到的只能是空白图片。

  1. 著录库查询比较简单,可以查片号、释文、出处等信息,十分便捷

以这片著名的 (合)137正 为例,拓片图可以点开放大,清晰度不错。同时记述了以前著录的编号,并说明了分期(这里采用的应该还是5期说,若是改成分组会更好……);释文方面,采用了四家说法,这点极好。

2. 按甲骨字查询

可以直接用甲骨部首查字,可以说是相当方便了。

还有“手写输入法”,嗯,挺好玩的,简单字可以手写输入,但比较复杂的,电脑也不好判断识别。。希望以后技术进步

上图,感觉自己写的还行,但没有被识别出来

3. 著录简称说明

不赘述

4. 缀合库查询

这个也是很方便的功能,根据缀合查原著录,或者反查。

字形库

上面一栏是偏旁/字头,下面一栏是字。点击偏旁,自动跳转到字头对应的文字,挺方便。

字图也都是比较高清的,以后文章里插字形,可以从这里抠。。


展望:

希望可以把甲骨文诂林、古文字诂林、甲骨文字字释综览等吸收进来,就更方便单字的查询了


最后送上网址


http://jgw.aynu.edu.cn/


来源:知乎

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存