【精彩回顾】AI赋能文化遗产智慧数据生成——机遇与挑战——“智慧图书馆技术应用讲座”2024年第1期(总第27期)
交流互动
在讲座的交流互动环节,线上观众提问踊跃,部分精彩内容摘记如下。
问:当前图博档如何谨慎的引入AI技术来开发特藏资源价值?
范炜:各馆特藏资源建设状况各异,有的馆尚未完成数字化工作,而另一些馆刚刚完成数字化,尚未具备迈向数据化、数智化阶段的能力。具备技术实力的馆考虑采用RAG(检索增强生成)和大语言模型结合知识库的方式,但很多馆藏资源都是图片,数字化扫描之后,加挂出来的效果并不好。因此,所谓谨慎,一要避免直接将数据交由外部机构,因为存在把数据拿出去的风险;二是不要期望在不同的数字化阶段一步达成所谓AI的效果。
问:元数据、词表与知识组织在AI技术面前还那么重要吗?图博档已经建了很多本体知识库,现在AI面前还有用吗?
曾蕾:当然有用。当前的AI技术如ChatGPT等在使用过程中仍存在一定的问题,缺乏可信度和逻辑性。本体知识库具备较强的逻辑性,报告中所提到的案例,如罗马钱币和芬兰的SAMPO模型等,均基于规范进行构建。因此,图博档应当共享高质量的本体知识库,并充分利用规范词表等资源。
范炜:在未来,我们或许可以借助人工智能辅助生成元数据,然而,在数据标准与数据规范方面,仍需人工持续关注并严格把控。当前我们注意到把标准喂给AI后可以达到一定的结构化的处理效果,但是在指向和取值方面仍存在较大的问题。另外,关于本体和知识组织的问题,个人感觉,目前我国的研究性的本体、图书馆本体建设相比国外图书馆存在一些差距。如何将这些本体有效整合,并与人工智能相结合,实现在未来发挥作用,值得我们关注。
问:未来在利用AI为图书馆产生可信的智慧数据,关于“可信”的评价上,两位老师有什么建议?
曾蕾:为了使得智慧数据可信,有必要进行相关测试与评估。机器学习是一种不断发展的过程,要达到可信目前仍依赖于人与机器的协同努力。先前提及的芬兰SAMPO模型,当数据达到了7星级水平,能够验证数据、能够指明来龙去脉,就达到一种可信的数据质量。大模型是AI的一种,如何让AI更具有逻辑性,未来也是很大的挑战。
范炜:当前,人工智能的可信问题成为了广泛关注的焦点。曾老师提及了用户在获取数据时希望了解其来源。图博档领域本就专注于资源建设,资源是我们的根基。我们在编制规范文档、引文索引等过程中,若能在与AI协作时保留这些来源线索,那么在实际提供用户知识服务的场景中,便可实现一定程度的可信度。此外,如今AI的可信与原先语义网架构最上层一致。RDF之后,ontology和OWL出现,赋予推理能力。而AI大模型正因其庞大参数而呈黑盒状,因此生成的内容不易获信。
扫描上方二维码进下载讲座课件
或访问地址 https://www.calsp.cn/download-category/calsp-lecture/
END
相关 · 回顾
“智慧图书馆技术应用讲座”是由智慧图书馆技术应用联盟月度举办的讲座品牌,讲座内容涉及智慧图书馆相关知识、下一代图书馆服务平台理念、产品技术、研发进展等,并不定期推出主题系列。讲座主要面向广大图书馆同行、智慧图书馆建设者和对相关技术感兴趣的朋友们。更多讲座精彩内容,您可以关注微信公众号“文化和旅游研究上海图书馆基地”、微信视频号“上海图书馆基地”、哔哩哔哩或喜马拉雅“图书馆服务平台CALSP”账号收看或收听回放。
热忱欢迎您的参与和分享!
智慧图书馆技术应用联盟(筹)
联络电话:021-54565210
邮箱:calsp@libnet.sh.cn