古籍数字化遇上人工智能....
1.点击标题下面的蓝字【伏羲云】
2.点击页面右上角“…”
3.点击“设为星标”
我国的古代典籍在岁月侵蚀中已经失去了不少,在我们这个历史阶段,我们需要把自古以来能收集到的典籍资料收集全、保护好,把世界上唯一没有中断的文明继续传承下去。
古籍作为一种重要的文化遗产,是中华优秀传统文化的宝贵积累。然而,古籍的保存与传承面临着许多挑战,其中之一就是如何有效进行数字化工作。新技术的应用,有助于扩大古籍数字化资源开放共享的规模,可以让古籍数字化资源开放共享的渠道更加便捷,既有利于保护古籍原件,又能促进古籍资源的汇聚、共享与传播。吸引社会各方面的力量参与进来,让古籍数字化遇上人工智能,正是将推动中华优秀传统文化创造性转化、创新性发展落在细处、落在实处。
以“辅政堂”捐赠的古籍为例,谈一下古籍的重要价值。“辅政堂”捐赠的古籍是海南省图书馆馆藏的一份宝贵财富。“辅政堂”所捐赠的古籍包括多种不同的医学典籍,有《鼠疫汇编》《鼠疫良方汇编》《重刊巢氏诸病源候总论》《张氏景岳全书》等共29种30册,此外还有新中国成立初期期刊2种5册,其中既有广为人知的经典文献,也有一些较为罕见的文献。
“辅政堂”捐赠的这些古籍具有很高的文献和学术价值。从文献角度看,这些古籍是中华优秀传统文化尤其是中医文化传承的重要组成部分,是我们了解历史、传承文化、开展学术研究和保护文物的重要资料。从学术角度看,这些古籍不仅为研究我国古代医学提供了珍贵的第一手资料,同时也为探索中医学在现代社会的应用提供了重要参考。
“辅政堂”所藏古籍的特殊性在于其珍贵的历史地位和独特的地域特色。许多文献因其地方特色和传世数量稀少而显得尤为珍贵。在全球化背景下,中医古籍作为一种独特的文化遗产,其价值不仅局限于国内,更在于其对全人类文化多样性的贡献。对于它们的保护、整理和利用,一直是我们国人关注的重要问题。
专家认为,数字化解决了图书馆馆藏古籍藏和用之间的矛盾。古籍数字化是从保护和利用古籍的目的出发,应用现代信息技术将古籍中的文字或图像信息转化为能被计算机识别的数字符号,并使之结构化,从而实现古籍整理、存储、检索、阅读、传输的电子化,是古籍整理和开发的一项系统工作。
古籍数字化面临一定的问题和挑战。
01
文字方面
现代汉语常用汉字约七八千字,而古籍中所使用的文字有数万,而且用字情况复杂,包含大量的繁体字、通假字、异体字、避讳字等。
02版面方面
古籍有一些专门的特点,存在其特定的难度,比如古籍版式多样,包括插图、批注等,使得版面分析和信息提取变得复杂。
03一些古籍的图像质量差、存在手写文字的多样性和复杂性
使识别准确率难以提高。
03古籍语料库问题
需要建立统一开放的、大规模、跨时代、多领域的古籍语料库。
古籍数字化面临着机遇。基于文化遗产传承的古籍数字化,应是围绕保护古籍、传承文明、开发资源、服务读者,统筹古籍保护工作全过程的数字化。古籍数字化的总体目标是将这些珍贵的文献转化为数字格式,以便于长期保存和广泛传播。我们应当重视人工智能在古籍全文数字化中的应用。随着人工智能的深入发展,古籍数字化不单是复制和再现典籍的原貌,还是将现代技术与传统文化完美结合在一起,形成工具与传统文化的统一体。
人工智能(AI)技术的发展,尤其是在自然语言处理(NLP)、图像识别和机器学习等领域的进步,为古籍的识别、分类、修复和挖掘等提供了强大的技术支持。通过AI技术,可以显著提高古籍数字化的效率和准确性,降低成本,并减少对原始文献的物理损害。在文化遗产保护方面,AI技术的应用有助于对濒危古籍进行抢救性数字化,确保这些不可再生的文化资源得以保存。在学术研究领域,AI技术能够辅助学者快速识别和分析大量古籍资料,促进跨学科研究的深入发展。同时,AI技术还能够推动古籍资源的普及和教育,使更多人能够接触并学习这些珍贵的历史文献。
人工智能在古籍数字化中的应用不仅具有重要的现实意义,也是未来文化遗产保护和学术研究的重要趋势。通过深入研究和应用AI技术,可以更好地实现古籍的数字化,为文化遗产的传承与创新贡献力量。
古籍数字化的基石。在古籍数字化的征途中,文字识别技术扮演着至关重要的角色。光学字符识别(OCR)技术能够将古籍中的印刷文字转换为电子文本,极大地提高了数字化的效率。尽管传统的OCR技术在面对古籍中的复杂字体、模糊字迹和不能提供准确、丰富的古籍语料库时存在问题,但随着机器学习等先进技术的应用,这些问题正逐步得到解决。手写文字识别技术也在古籍数字化中发挥着重要作用。由于许多古籍为手写本,其文字识别的难度远高于刻印文字。AI技术的发展,尤其是人工神经网络的应用,使得手写文字识别的准确性不断提高。此外,多语言和复杂字体的识别也是古籍数字化中的一个难点。AI技术的不断进步,使得这一问题得到了有效的解决,为不同语言和字体的古籍提供了数字化的可能。
提升古籍数字化的质量。自动校对和错误纠正技术是提高古籍数字化质量的关键。AI能够自动识别和纠正OCR应用过程中产生的错误,确保数字化文本的准确性。语义分析和信息提取技术则进一步挖掘古籍文本的深层价值。通过自然语言处理技术,AI能够理解和分析古籍文本的内容,提取关键信息,为学术研究提供支持。古籍文本的结构化是另一个重要的应用领域。AI技术可以帮助将非结构化的古籍文本转换为结构化数据,便于存储、检索和分析。
古籍数字化的深度应用。可视化技术为古籍数字化提供了新的视角。通过构建可视化知识图谱,AI能够将古籍中的实体和关系以图形化的方式呈现,便于用户直观地理解和探索。智能检索系统则极大地提高了古籍数字化文本的可访问性。基于AI的智能检索技术能够快速准确地响应用户的查询需求,提供相关的古籍信息。
我们可以看到一些AI技术助力馆藏古籍数字化建设的案例。海南省图书馆在古籍数字化建设方面取得了重要进展。通过应用文本识别技术,该馆成功将“辅政堂”捐赠的古籍中的文字信息提取出来,实现了古籍的全文数字化。此外,该馆还应用文本处理技术对古籍文本在古文自动标点、版本比对、文言文翻译及对齐等方面进行了数字化处理,提高了古籍的可读性和可利用性。为了更好地保存和传播这些古籍,该馆还利用AI等技术对古籍进行数字出版,例如电子书、在线数据库等方式。其中,双层PDF电子书既保留了古籍的原始版面,同时又产生了可编辑的文本层,实现了数据管理和索引功能,具备持久的保存和传播能力。海南省图书馆的这一举措,不仅为读者提供了更加便捷的阅读方式,也对古籍的保护和传承作出了重要贡献。
总的来说,我们应当重视中华优秀传统文化的保护、传承和活化利用,中华优秀传统文化是中华民族的精神命脉,是涵养社会主义核心价值观的重要源泉,也是我们在世界文化激荡中站稳脚跟的坚实根基。古籍作为中华优秀传统文化的重要载体,其数字化保存具有重要的意义。数字化后的古籍,不仅物理母本的文物价值在恒温恒湿的图书馆书库内得到了保护,数字母本也发挥了应有的文献价值和学术价值。人工智能在古籍数字化过程中提供了新的方式和工具,当然,人工智能技术的应用还面临着一些问题和限制,需要进一步研究和探索。
展望未来,需要推进古典文献学、文字学研究者与人工智能学者密切合作,使古典文献学研究与先进技术充分融合,协作推动馆藏古籍数字化建设发展。同时,也需要进一步推动人工智能更好地与文化遗产保护与传承相结合,进一步推动古籍的数字化建设和活化利用,探索打开传统文化与数字化融合的全新局面。
作者:李晋元,海南省图书馆
本文系海南省哲学社会科学2021年规划课题“海南‘辅政堂’捐赠中医古籍抢救性修复及数字化保护”的阶段性研究成果之一, 项目编号:HNSK(ZC)21-166
来源:《中国文化报》2024年08月30日 第03版 原标题《人工智能在馆藏古籍数字化中的应用》
END
星标【伏羲云】,不错过每一篇精彩。
体验中华文化数字化成果,请下载伏羲云客户端👇