查看原文
其他

研究笔记 | 概念参考模型CIDOC CRM

沈孙乐 空间人文与场所计算
2024-09-04

1

引言


本文介绍的是概念参考模型CRM(CIDOC Conceptual Reference Model,下文简称CIDOC CRM),它是文化遗产信息交换的国际标准(ISO 21127:2014)。接下来本文将介绍CIDOC CRM的基本内容、功能用途与应用情况。


2

建构背景


       出于研究需求,研究者需要从不同机构(如博物馆、图书馆、档案馆)所维护的数据库中查询关联的信息资源。当这种需求很多的时候,用统一框架整合不同来源的数据就有了必要。但遗产数据的整合存在着很多困难,体现在以下两点:1)描述模式不同,不同学科的关注点不同,同一概念所关联的属性有交错。2)词汇不统一,仅仅使用普通文本描述同一概念会产生歧义。

       除了不同机构间进行数据交换之外,单一机构如果要整合类型差别极大的信息时也会面临这样的问题。这时候就需要统一的信息模型进行关联,为整个系统提供互操作性。目前元数据是一种解决方案,它是对数据的标准化描述。通过对每个资源记录特定的通用核心元素,在简化的信息集合内尽可能标准化地描述索引的资源。此外还有受控词表,它能够利用领域知识的分类结构与同义词关系将信息资源结构化。本体也可以被用来进行数据整合,且本体具有比前两种方式更好的整合效果。

       本体是共享概念模型的明确形式化规范说明。本体结构模型由五类元素组成:类、关系、函数、公理和实例。类指代是各种领域概念,关系与函数是概念间所存在的联系,公理规定的是概念之间的约束,实例对应的是现实中的具体对象,它会隶属于一个或多个概念或是关系。本体在表达形式上与语义网非常相似,都可以通过带标识的有向图来表示,区别是本体有严格明确的定义。


图1 本体关联示意

每个方框上半部分以E开头的是代表概念的类,下半部分是该类的一个实例。实例与实例之间可以通过概念之间已经预设好的关系进行关联。图中可以看出,本体不仅仅组织文本,它也可以对不同类型的数据进行索引组织。


本体模型具有面向对象的特性。在模型中出现的实例都会有明确对应的类,这解决了统一词汇的问题。此外,本体可以以三元组的形式进行编码,保证了数据集的拓展性。在文化遗产领域,CIDOC CRM是一个由概念参考模型特别兴趣小组 (CRM-SIG)所主导开发的一个本体。它提供定义与正式的结构,用于描述文化遗产信息中出现的隐式、显式概念及其之间的关系。CIDOC CRM 的目标是让任何文化遗产信息都可以映射到其语义框架内,保证它的通用性、可拓展性,使得不同来源的文化遗产信息间可以方便地被理解。CIDOC CRM有 86 个类和 137 个关系。除了本体自身带来的组织能力之外,CIDOC CRM具体的内部建构方式满足了文化遗产领域信息组织的具体需求。下面对CIDOC CRM的具体架构进行介绍。



3

CIDOC CRM 架构


       面对具体的文化遗产领域信息,CIDOC CRM选择以事件驱动的模式进行组织。CIDOC CRM标准为了表达、分析过去,选择对“事件”进行显式建模,使得不断变化中的物质与非物质实体可以通过与事件联系,连贯地表示出来并建立更广泛的关联。时间只允许与事件相连,人物、物品、地点通过事件与时间相连接。不过由于事件驱动的逻辑,CIDOC CRM的基础本体不擅长记录并阐释某些抽象信息,比如合同这种涉及到对未来进行假设的信息。CIDOC CRM更适合于记录与真实发生过的事情相关联的事物。文化遗产信息本身一定是存在过的,因此CIDOC CRM只能将这些特定抽象知识的产生、发展过程记录下来,它内部所包含的知识内容就难以用CIDOC CRM的框架表达清楚。

       事件驱动有其合理性,如果要分析不断变化的文化遗产,一个正常的方式就是把这些变化分解为一个个离散事件,再使用它们进行关联。事件天生在这个模型中处于核心的地位,能尽可能减少系统对某个学科的偏重。许多隐含的概念实例本来不会被引入到数据系统中,但是在CIDOC CRM的模式下,仍然会被记录下来。比如对“场所的名称改变”这件事情,在遗产元数据中几乎不会被提及,但是在CIDOC CRM的语义框架中,“名称改变”这条信息作为事件会被显式地记录下来。


图2 事件驱动逻辑

       

       接下来我们说明一下CIDOC CRM框架的具体结构。“时间实体”(E2 Temporal Entity)作为CIDOC CRM中最核心的部分,它的子类结构很丰富。在它的二级子类“事件”(E5 event)下分为了“存在开始”、“存在结束”、“活动”三类。通过对这三类概念的多继承,CIDOC CRM可以将出现、改造、移动、转换等等文化遗产领域涉及的事件概念表达清楚。


图3 “时间实体”子类结构图


“地点”(E53 Place)、“时间”(E52 Time-Span)、“行动者”(E39 Actor)的概念与其字面意思接近,它的子类结构比较简单甚至没有。而“物理物”(E18 Physical Thing)与“概念对象”(E28 Conceptual Object)同属于“物”(E70Thing)的子类,“物”的子类结构相对较为复杂。在其中可以看到,由于CIDOC CRM只是一个顶层本体,它定义的只是非常抽象的概念,比如“物理物”下只对“生物对象”、“人工对象”、“集合对象”等进行了区分,不会涉及具体地域、具体文化的概念定义。除了具体的与事件关联的人、时、地、物之外,“概念对象”的子类中有许多可以用于辅助表达信息,比如“名称”(E41 Appellation)、“类别”(E55 Type)。这些信息概念在区分一个实体的名称与实体的本质时发挥了巨大作用。


图4 “物”的子类结构


下面用官方的例子说明一下CIDOC CRM是如何对历史事件表达,进而关联文化遗产信息的。图5所表示的是圣托里尼岛火山的喷发的过程,通过该过程原本的“房子”变成了“熔岩和废墟”。参与这个事件的“火山”在经过事件后仍然保持不变。通过“火山爆发” 这个事件使得房子发生了转变。火山与废墟关联十分重要,在原本的索引结构中并不会提及这一点,而CIDOC CRM通过对火山爆发这一事件的显式建模在其之间建立了联系。


图5 圣托里尼岛火山爆发过程表达

       

       除了对物理实体表达之外,这套逻辑也可以对信息概念的传递进行表达。以马拉松之战传递信息的过程为例,最早的“马拉松跑者”出发是发生在“马拉松之战结束”这一事件之时,然后到达雅典之后,发生了“宣布胜利信息”、“跑者倒地而死”两个事件,“战斗胜利”的信息并没有随着跑者的死去消失,它仍然继续传递,被传递给其他的“雅典人”。


图6 马拉松之战概念传递表达       

       

       CIDOC CRM中具体的概念内容与表达结构远比上文所描述的精确且丰富,感兴趣的朋友可以查看它的文档。



4

应用与拓展


CIDOC CRM主要的功能就在于统一地关联文化遗产概念。其关联能力可以在不同层次上被利用:1)直接用于记录整理,CRM可以为我们提供一套信息抓取的准则,即记录什么。2)用于关联不同的数据系统,在不同的数据记录模式之间建立映射,使得不同的数据能够被关联。

下面展示的例子将基于dublin core标引的数据,映射到CIDOC CRM上。针对该出版物,通过添加“E65 Creation”、“E7 Activity”的事件实例“撰写”与“出版”,非常自然地将文本与作者、出版社和其他相关的信息串联在了一起。起到了与Dublin Core元数据记录一样的效果。


图7 Dublin Core数据组织图


图8 CIDOC CRM关联图     


此外,数据平台可以应用CIDOC CRM为数据关联模式进行二次开发,这方面做的较好例子的有ResearchSpace。ResearchSpace是大英博物馆主导开发的一个关联数据整合平台。里面的关系模式采用的是CIDOC CRM及一系列的拓展本体。


图9 ResearchSpace数据组织界面


       CIDOC CRM的开发模式值得其他本体开发者借鉴。CIDOC CRM只面对已有数据进行建模,出现特殊情况才会去考虑是否需要增加新的本体概念。因此在本体建构的过程中,专业人士的参与非常重要。很多概念需要由专家判断是否需要进行细化或是泛化,因此CIDOC CRM的顶层结构变化十分缓慢。在经过二十年的工作后,CIDOC CRM抽象程度已经很高,而且非常完善。

       CIDOC CRM只是一个顶级本体,在细分领域或者特定内容的实践中有可能无法满足需求。这时候CIDOC CRM还能够进行拓展。目前已有的兼容本体有十个,分别是涉及出版物信息的FRBRoo、期刊报纸的PRESSoo、实证科学的CRMinf、考古发掘的CRMarcharo、遗址建筑的CRMba、数字化信息的CRMdig、地理空间信息的CRMgeo、社会现象的CRMsoc、科学观察过程的CRMsci、古代文献的CRMtex。虽然这些本体仍然不能覆盖文化遗产的所有面向,但是信息的组织与表达是能够更加规范合理了。



5

结语


本文首先说明了CIDOC CRM的建立背景,即本体所代表的信息组织方式在解决互操作性问题上起到的作用。然后介绍了以事件驱动为组织原则的CIDOC CRM本体框架,用几个例子说明了它的表达能力。最后说明了CIDOC CRM的应用方式。希望本文能够对读者进一步学习、使用CIDOC CRM本体及其兼容本体有所帮助。


注:本文为非专业人士撰写,如有谬误,欢迎读者批评指正。


参考文献

[1]. Doerr M. Ontologies for Cultural Heritage[J]. Handbook on Ontologies, 2009.

[2]. Bruseker G , Carboni N , Guillem A . Cultural Heritage Data Management: The Role of Formal Ontology and CIDOC CRM[J]. 2017. 

[3]. Acierno M, Cursi S, Simeone D, et al. Architectural heritage knowledge modelling: An ontology-based framework for conservation process[J]. Journal of Cultural Heritage, 2016.

[4].   邓志鸿,唐世渭,张铭,杨冬青,陈捷.Ontology研究综述[J].北京大学学报(自然科学版),2002(05):730-738. 

[5]. Blavsko M, Cacciotti R, Kvremen P, et al. Monument Damage Ontology[C]// International Conference on Progress in Cultural Heritage Preservation. Springer-Verlag, 2012.

[6].  王知津.从情报组织到知识组织[J].情报学报,1998(03):71-75. 

[7].  陈艳, 周馨. 基于CIDOC CRM的文化遗产资源的元数据集成——以DC元数据的映射为例[J]. 现代情报, 2010(05):60-63.

[8]. ICOM/ CIDOC Documentat ion Standards Group .Definition of CIDOC conceptual ref erence model.Version 5.0.1 [ EB/OL] . ICOM/CIDOC CRM Special Interest Group , 2009 -11-23.

[9].  Doerr M. The CIDOC CRM - an Ontological Approach to Semantic Interoperability of Metadata[J]. Aihaj, 2003. 

[10].  Heath T , Bizer C . Linked Data: Evolving the Web into a Global Data Space[J]. Molecular Ecology, 2011, 11(2):670–684.





编辑 / 沈孙乐

执行 / 宋一鸣

校对 / 贺玺桦



相关链接

相关链接

多层网络及其应用于相关研究的可能性探讨

基于Victorian在线平台构建遗址与出土器物的网络

网络分析方法引介

风景园林视角下城乡人居环境对健康的主动促进

网络视角下北京市地铁站与社区接驳便利度分析

基于OSMnx的全球路网数据获取与分析

唐诗无监督分词实验

数字技术在文化遗产研究中的应用

文学地理处理不可忽略的细节

解码“全知之眼”——ENVI遥感图像解译实操

现代信息技术应用于景观视觉研究

空间叙事中的权力转译--《长安十二时辰》中的权力空间

《大公报》广告图像编码中的统计应用


继续滑动看下一个
空间人文与场所计算
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存