古籍整理成果与现代信息技术的融合——古联“自动标点系统”上线
古籍自动标点系统上线了!
古联公司经过一年潜心研制,使用《中华经典古籍库》高质量整理本古籍作为训练文本的 “古籍自动标点系统”今日上线。本次上线一次性推出采用不同方法训练的两个模型,供用户选择。
自动标点系统界面
2019年10月,中华书局古联公司成立了“古联智能数据研究室”,致力于利用大数据技术和人工智能技术辅助古籍文献的整理、教学与科研等工作,“自动标点”便成为实验室的重要课题之一。同时,古联公司还与北京师范大学中文信息处理研究所合作成立了“古汉语信息处理联合实验室”,共同探索古籍自动化处理技术。
“古籍自动标点系统”就是分别由古联智能数据研究室和“古联-北师大联合实验室”基于不同训练方法研发的系统平台。
与其他团队自动标点模型训练不同的是,古联公司使用了《中华经典古籍库》独有的数据量高达15亿的整理本古籍作为训练集。模型效果在验证集上的标点F1值超过92%,断句F1 值超过96%。经过测试用户的实际感受,对于大部分文献的自动标点和句读效果还要好于数值表现,完全可以成为一般读者阅读古籍文献的得力助手。
纸上得来终觉浅 绝知此事要躬行
(http://autopun.ancientbooks.cn/)
体验一下吧!
有籍合网账号者,也可直接登录籍合网,点击“自动标点”图标进入哦
01
自动句读
将未经标点的原始文本粘贴至左侧编辑栏,选择任一模型,便可进行“自动句读”或“自动标点”工作。
句读结果,以橙色句号标识,见下图:
《永乐大典》(卷之八百七)模型一句读效果示例
《永乐大典》(卷之八百七)模型二句读效果示例
自动句读的结果有什么不妥吗?在哪里?
为了直观验证句读效果,小库特地附上含有古人句读的大典原书书影,以备核查。
《永乐大典》(卷之八百七)书影
02
自动标点
自动标点结果中含有七种现代标点(,。、?!;:),以橙色字符呈现:
《周髀算经》(节选文本)模型一标点效果示例
《周髀算经》(节选文本)模型二标点效果示例
标点结果没什么错误,是不是?是时候相信技术的力量了!
03
赠送字数
首次访问“自动标点系统”,每个用户均可获赠30万字的使用权限(字符量相当于一部《北齐书》),使用句读及标点功能后会消减相应字数。
那可使用的字数不是越来越少了吗?别担心!
“自动标点平台”采用了“字数奖励”机制,满足大家的句读及标点需求!
平台自动句读或自动标点后,您还可以使用满意度评价和纠错功能,使用“满意度”提交后获赠100字权限,使用“自动纠错”后获赠500字权限。
什么?个人权限字数还是不够?
平台还提供“上传文件”功能(文件字数不计入个人权限字数内)。如需对全文进行标点或句读,大家可使用上传文件功能,我们免费为大家提供更多标点和句读服务!
上传之前,一定要仔细查看上传规则哦~
友情提示
建议您使用如下浏览器,体验效果会更好!
(1)谷歌浏览器:推荐63版本及以上;
(2)火狐浏览器:推荐78版本及以上;
(3)Edge浏览器:推荐42版本以上;
(4)360浏览器:推荐极速模式,且为8.1版本及以上;
(5)IE浏览器:推荐11版本及以上。
在使用过程中,您若发现任何问题,或者有相关意见和建议,敬请反馈,反馈界面如下:
感谢您的支持与关注!我们将继续努力,为大家带来更多高品质的数字产品。
中华经典古籍库
微信号:jingdianguji
丰富自身文化修养
从关注一个好的公众号开始