查看原文
其他

古籍整理成果与现代信息技术的融合——古联“自动标点系统”上线

经典古籍库 经典古籍库 2021-09-15

古籍自动标点系统上线了!




古联公司经过一年潜心研制,使用《中华经典古籍库》高质量整理本古籍作为训练文本的 “古籍自动标点系统”今日上线。本次上线一次性推出采用不同方法训练的两个模型,供用户选择。


自动标点系统界面


2019年10月,中华书局古联公司成立了“古联智能数据研究室”,致力于利用大数据技术和人工智能技术辅助古籍文献的整理、教学与科研等工作,“自动标点”便成为实验室的重要课题之一。同时,古联公司还与北京师范大学中文信息处理研究所合作成立了“古汉语信息处理联合实验室”,共同探索古籍自动化处理技术。


“古籍自动标点系统”就是分别由古联智能数据研究室和“古联-北师大联合实验室”基于不同训练方法研发的系统平台。


与其他团队自动标点模型训练不同的是,古联公司使用了《中华经典古籍库》独有的数据量高达15亿的整理本古籍作为训练集。模型效果在验证集上的标点F1值超过92%,断句F1 值超过96%。经过测试用户的实际感受,对于大部分文献的自动标点和句读效果还要好于数值表现,完全可以成为一般读者阅读古籍文献的得力助手。


纸上得来终觉浅  绝知此事要躬行

(http://autopun.ancientbooks.cn/)

体验一下吧!


有籍合网账号者,也可直接登录籍合网,点击“自动标点”图标进入哦


01

自动句读


将未经标点的原始文本粘贴至左侧编辑栏,选择任一模型,便可进行“自动句读”或“自动标点”工作。


句读结果,以橙色句号标识,见下图:


《永乐大典》(卷之八百七)模型一句读效果示例


《永乐大典》(卷之八百七)模型二句读效果示例


自动句读的结果有什么不妥吗?在哪里?


为了直观验证句读效果,小库特地附上含有古人句读的大典原书书影,以备核查。


《永乐大典》(卷之八百七)书影


02

自动标点


自动标点结果中含有七种现代标点(,。、?!;:),以橙色字符呈现:


《周髀算经》(节选文本)模型一标点效果示例


《周髀算经》(节选文本)模型二标点效果示例


标点结果没什么错误,是不是?是时候相信技术的力量了!


03

赠送字数


首次访问“自动标点系统”,每个用户均可获赠30万字的使用权限(字符量相当于一部《北齐书》),使用句读及标点功能后会消减相应字数。


那可使用的字数不是越来越少了吗?别担心!


“自动标点平台”采用了“字数奖励”机制,满足大家的句读及标点需求!


平台自动句读或自动标点后,您还可以使用满意度评价和纠错功能,使用“满意度”提交后获赠100字权限,使用“自动纠错”后获赠500字权限。



什么?个人权限字数还是不够?


平台还提供“上传文件”功能(文件字数不计入个人权限字数内)如需对全文进行标点或句读,大家可使用上传文件功能,我们免费为大家提供更多标点和句读服务!


上传之前,一定要仔细查看上传规则哦~


友情提示

建议您使用如下浏览器,体验效果会更好!

(1)谷歌浏览器:推荐63版本及以上;

(2)火狐浏览器:推荐78版本及以上;

(3)Edge浏览器:推荐42版本以上;

(4)360浏览器:推荐极速模式,且为8.1版本及以上;

(5)IE浏览器:推荐11版本及以上。


在使用过程中,您若发现任何问题,或者有相关意见和建议,敬请反馈,反馈界面如下:



感谢您的支持与关注!我们将继续努力,为大家带来更多高品质的数字产品。


中华经典古籍库

微信号:jingdianguji

丰富自身文化修养

从关注一个好的公众号开始



: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存