档案标准解读 | 从纸质档案数字化到OCR
在为大家解读《纸质档案数字化规范》和《纸质档案数字复制件光学字符识别(OCR)工作规范》之前,请先了解以下信息:
00.档案标准、规范信息速报(2020)
(国家档案局官网截图)
🔷 3月23日,财政部和国家档案局印发《关于规范电子会计凭证报销入账归档的通知》。
🔷 4月27日,国家档案局会同交通运输部、财政部、国家税务总局发布《关于收费公路通行费电子票据开具汇总等有关事项的公告》,标志着电子会计凭证无纸化归档再次扩围。
🔷 5月1日,国家档案局公布实施《纸质档案数字复制件光学字符识别(OCR)工作规范》等9项档案行业标准。
🔷 5月7日,国家档案局办公室印发《关于征求<公务电子邮件归档管理规则>等档案行业标准项目意见的通知》。
🔷 6月1日,国家档案局公布实施《档案服务外包工作规范》等3项档案行业标准。
看到上面的信息,你是不是会觉得国家档案局今年“放大招”的频率有点高?其实不仅国家档案局,两会代表委员也没闲着,在刚刚结束的全国两会上,代表委员们涉及档案工作的建议就多达13项。
今年档案工作关注度的猛增,一方面是受新冠疫情影响,健康码的推出,使公众对个人健康档案、信用档案等涉及实际生活类电子档案重要性有了更为深刻的认识,另一方面,这也是在国家大力推进经济数字化转型的政策背景下,国家、机构和个人对于加快推进文档数字化转型,建立和完善以电子文件管理为核心的档案信息化网络体系的现实需要。
01. 纸质档案数字化
定 义
简单来理解,纸质档案数字化就是将纸质档案扫描并存储为成体系的电子文件库。
《纸质档案数字化规范》(DA/T 31-2017)对“纸质档案数字化”的定义是:
采用扫描仪等设备对纸质档案进行数字化加工,使其转化为存储在磁带、磁盘、光盘等载体上的数字图像,并按照纸质档案的内在联系,建立起目录数据与数字图像关联关系的处理过程。
该规范对于纸质档案数字化处理流程介绍的比较详细,对实际操作有很强的指导性。其具体流程如下图:
意 义
将纸质档案进行数字化处理,是为了实现纸质档案内容保护性迁移、档案信息全文检索和网络共享的目标,进而为数字档案馆/室建设奠定基础。
02.OCR(光学字符识别)
什么是 OCR
OCR (Optical Character Recognition)即光学字符识别。简单来说就是:对扫描纸质档案形成的图像进行内容识别,然后保存为可复制、可检索的文件,以满足全文检索和网络共享的需要。
《纸质档案数字复制件光学字符识别(OCR)工作规范》(DA/T 77-2019)对其定义为:
通过信息技术对图像文件中的字符形状进行识别、文字转换和文本输出、呈现的过程。
OCR技术目前已经比较成熟,应用广泛。扫描仪设备自带的扫描软件,以及安装在电脑、手机、平板电脑上的扫描软件(如“扫描全能王”)和PDF软件(如Adobe、福昕、万兴等)都支持采用OCR技术进行电子文件内容识别。
意 义
OCR识别是在纸质档案数字化基础上,将数字图像上的档案信息进行识别和提取,以提高档案信息检索的检索效率(提高查全率、查准率、检索速度等),并借助全文检索技术和数据库、网络搜索引擎等工具,对档案信息资源进行深入开发,达到档案信息资源利用价值最大化的目标。
档案是满足组织及个人信息需要的产物,档案价值要通过附着在不同载体上的档案信息来体现。做好档案工作的目的和动力就是充分发挥档案信息的价值。从档案信息资源开发利用的角度来看,《OCR工作规范》的实施意义重大。
03. 纸质档案数字化、OCR与文档数字化转型的关系解析
“数字化转型” 作为2020年新生热词之一,多次出现在政策倡导、企业战略相关文件和新闻报道中,其网络检索总量也逐渐赶超“信息化”。
我们用数字化转型阶段图来简述这一概念:
(网络图片:数字化转型阶段图)
如上图所示,实现“数字化转型”需要包括 “转换-升级-转型” 三个阶段。从内涵上说,数字化转型是要实现从信息到流程再到业务的逐步数字化。
最近十年,在档案学研究中普遍提及 “存量数字化,增量电子化”。“存量数字化”就是对以纸张为主体的传统馆/室藏档案载体上的内容进行信号转换,实现计算机读取和处理。“增量电子化”则强调要将电子文件单套归档和管理的单轨制取代纸质、电子档案双套归档和管理的双轨制。
纸质档案数字化和数字复印件光学字符识别(OCR)是实现信息数字化的主要手段,是文档数字化转型过程中基础里的基础。
04. 公益项目档案数字化工作经验分享
公益项目档案数字化工作作为老牛基金会信息化整体建设的一部分,目标是利用相关信息技术,充分挖掘公益项目档案信息资源价值,将档案信息服务与基金会项目管理进行深度融合,从而助力公益项目管理专业化提升。
自2017年新的档案库房、设备投入使用开始,老牛基金会就开始进行纸质项目档案数字化和全文检索数据库建设工作。
截止今年6月1日,老牛基金会室藏6540件纸质项目档案数字化进度达到100%,数字化副本存储容量为51.86GB。其中,4831件数字化副本已完成了OCR识别,室藏项目档案全文检索数据库建设完成73.87%,并已挂接到基金会信息化平台提供全文检索服务。
要做好公益项目档案数字化工作,关键是要将此项工作视为一个公益项目,以开展公益项目的思路,用档案管理的方法和要求加以实施。
01 前期调研
进行前期调研,通过室藏档案统计表预估数字化工作量,搜集和对比相关软硬件设备型号、性能、价格等信息,拟制资金预算报告,如果计划采用档案服务外包形式,则要将这些费用预算也纳入资金预算报告。
此外,有关档案数字化工作标准、实际操作的文件、书刊也应在此阶段尽可能全面搜集,以便做到心中有数。
02 制定方案
明确工作目标,制定实施方案。要在明确档案存储格式、利用方式后,通过预估工作量来确定工作总工时,参照相关档案标准来明确数字化质量要求,将工作中可能出现的问题尽可能考虑周全。
03 职责分工
组建档案数字化工作组,明确职责分工,同时应成立数字化工作监督领导小组,负责工作实施过程中的监督检查和成果评估工作。
04 数字化加工和OCR识别
纸质档案的数字化加工和OCR识别工作尽可能同时进行,实施“齐步走”战略,这样既可以提高工作效率,同时也可以进行相互监督。
05 保管保密
档案数字化工作中要注重纸质档案原件的保管和保密问题,防止档案丢失或泄密。
06 容灾备份
建立容灾备份机制,保障数字化成果的安全存储和利用。
07 评估验收
数字化工作完成后,要根据相关档案标准的要求,对数字化成果进行检测,完成评估和验收工作。
以上这些档案标准解读和档案数字化工作建议是老牛基金会档案数字化工作的粗略总结,希望可以为公益伙伴提供参考。
END
小崔聊档案
向上滑动阅览系列文章
档案赋能知识社会,
从幕后缓步走向台前
公益组织档案管理理念需转变
公益组织档案为啥不好做?
公益组织档案有啥用?