查看原文
其他

研读 | 图谱实战:城市大脑知识图谱构建及应用研究


随着城市大脑建设进程的推进,城市中积累了大量的物联网(IoT)设备和数据,利用海量设备数据对问题进行分析和溯源,对于城市大脑建设具有重要意义。该文基于资源描述框架和智能物联网协议概念,提出一种以城市物联网本体为基础的城市大脑知识图谱建设方法,城市大脑知识图谱模型融合多源异构数据,覆盖城市基本要素,实现对城市要素的全面感知和深度认知。该文重点探究了城市事件本体中的事件抽取,设计了一种新颖的语言模型框架对事件类型和论元联合抽取,与单模型分析对比,该联合模型较单模型的事件类型和论元F1值分别提高0.4%和2.7%,在时间和模型复杂度上,较单模型级联也有更好效果。最后,该研究对知识图谱技术与人工智能、多传感器融合、GIS等新一代信息技术交叉融合方面进行了探究分析,为城市治理和服务应用场景提供理论依据。


城市大脑是诞生在中国的原创科技成果,也是城市建设和前沿科技领域的热点,迄今为止,全国已经有数百个城市宣布建设城市大脑。相较于智慧城市侧重城市垂直领域产业升级,城市大脑着眼于全面的城市智能化建设,即从感知智能到认知智能的升级。研究指出[1],城市神经元网络和城市云反射弧将是城市大脑建设的重点。在5G、大数据、人工智能、工业互联网等新一轮科技浪潮的推动下,大规模物联网传感器部署到城市中,涵盖智能生活、智能制造、智能交通、智能治理等领域(图1),领域内设备网络组成了城市当中的感知物联网系统,服务城市设施智能化升级和领域智慧化建设。城市物联网设备运行按照领域进行划分、部署、联网和管理,建设往往有较为完整的接入平台和应用系统[2],提供数据采集、上传和分析等功能,如利用物联网建立医疗监控系统对病人的健康状况进行监测[3]。在物联网设备运行过程中,会产生大量数字、文本、图片、音视频等多种形式数据,然而设备与周边环境之间、不同领域设备之间存在信息无法打通、跨领域缺乏统一规范等问题,导致数据资源无法有效利用。

城市大脑的建设运营是解决上述问题的有效方法。其建设理念是将城市中的各类设备、城市部件、法规政策、事件等要素以一定的方式存储并接入到城市大脑中,实现城市神经元到城市大脑的连接,构建城市级知识库,满足城市管理和市民服务的需要[4]。知识图谱技术将是融合城市多源异构数据的重要技术手段。知识图谱以资源描述框架(Resource Description Framework,RDF)[5]的形式对知识体系和实例数据进行统一表示,实现对多源异构数据的集成和融合。知识图谱同物联网技术一样,在智慧安防、智慧医疗、智慧交通等各城市领域中具有广泛的应用[6]。城市大脑知识图谱具备以下意义:①通过将城市治理、社会服务、城市事件、民生事件、多领域、多部门领域知识等多源数据接入知识图谱,形成广泛的城市大脑知识图谱;②基于城市大脑知识图谱,通过运用图计算、图匹配、社区发现等算法充分挖掘数据节点之间的关系,实现对知识的发现、表示、推理和认识[7],有利于解决城市中的疑难问题;③突出城市物联网本体和城市事件概念,有效解决知识图谱构建中的知识可获取问题,增强了知识图谱更新与应用中的主动性;④以城市大脑知识图谱为支撑的人工智能有助于解决目前人工智能在城市安防、政务领域中存在的可解释、安全和依赖大数据等方面的问题。基于对当前技术发展和城市大脑建设实际情况分析,目标是建设可落地的城市大脑知识图谱,围绕该目标,该文的主要工作有4个方面:


(1)围绕城市大脑建设需求和当前技术发展,提出基于物联网oneM2M[8]本体(Ontology)模型的知识图谱构建思路。

(2)在物联网本体基础上,设计满足城市大脑的知识图谱模型和本体构建方法。

(3)以城市事件(Event)为例,分析并设计了一种事件联合抽取语言模型,相较单模型时效和精度都有一定的提高。

(4)对城市大脑知识图谱的主要应用进行了较深入的分析与探究。

1 城市大脑知识图谱模型


1.1 城市大脑知识图谱设计

知识图谱以结构化的形式描述客观世界中概念、实体间的复杂关系,逻辑上可以分为概念层和数据层。概念层属于本体集合,本体是对具有相同属性事物的概括和抽象,数据层是指以三元组为表现形式的客观事实集合。根据建设顺序又分为自顶向下型和自底向上型两种模式,前者适用于场景较为固定、行业逻辑可量化的领域,后者适用于复杂场景下的图谱构建,实际应用中通常是自顶向下的知识工程和自底向上的知识学习方法相结合。


物联网协议设计存在多个标准,如oneM2M、LWM2M、FIWARE等,不同的标准之间存在兼容性问题[13],无法借助某一标准纳入所有的设备。以知识图谱作为物联网本体的上层概念可以解决不同标准的设备信息互通问题。城市大脑知识图谱除了关于物联网设备的类型描述,还有运行状态、地理信息、维护人信息、厂商信息等。在物联网知识图谱概念上接入城市要素[14],可以使其满足城市复杂场景下的知识图谱本体。城市作为复杂系统,无法设计出满足所有事物的本体系统,但基本上属于“人”“物”“事”范畴。这里的“人”包括自然人、组织和部门等各类主体,“物”包括地址、楼宇、物联网设备等客观存在,“事”包括城市事件、规章制度、新闻等。将“人”“物”“事”为核心的城市要素融入物联网本体系统可以得到覆盖城市基本概念的知识本体,在此基础上延伸出9类城市本体,包括:设备(Device)、服务(Service)、功能(Function)、部件(Thing)、管理(Management)、事件(Event)、区域(Area)、领域(Field)和规则(Rule),具体如图3所示。

部件(Thing)代表了城市中可识别的实体概念,oneM2M中Thing是相对于物联网设备存在的实体概念,城市部件可以无设备关联。部件可以与其他实体概念具有关系,例如,道路井盖作为部件,承载了位移传感器,城市中的部件还具有所属区域、管理者等属性。设备(Device)是一类可进行信息交互的实体概念,包括城市中的硬件、软件、无线传感器和执行器等。设备可以相互连接到网络并能够传输数据,无须人工干预即可自动在对象或人员之间进行数据传输。服务(Service)属于物联网概念,即设备所能提供的服务能力,例如,安装在井盖上面的传感器设备可以提供实时的井盖状态监测服务。功能(Function)属于物联网概念,即设备所发挥的有利作用,例如,当井盖发生异常时传感器具有异常报警、异常数据上传等功能。管理(Management)即城市中管理者的角色概念,属于城市治理的主要组成,其主要关系包含对城市事件的处理、规章制度的制定与遵守、部件的管理与维护等。例如,消防人员具有对辖区内消防通道的管理和突发消防事件的处置职责。规章(Rule)包括与部件、设备和管理者相关的领域规则、行业规范、规章流程等概念。如火警传感器报警将通过规则启动相应预案,包括消防出警流程、处置流程等信息。区域(Area)表示城市地址信息和行政区划,城市中的事件、部件、设备等一般具有关联地址,通过区域本体之间从空间维度上进行关联,进而实现对部件的POI分析。区域具有子类(Subclass),如区县、街道(乡、镇)、社区、小区等类,区域属性中包含空间地理坐标信息,实现地图可落点。事件(Event)表示城市当中发生的各类事件集合,反映了外部条件的变化,可以是客观条件变化如暴雨暴雪、扬沙天气,或城市治理事件如渣土车超载,突发事件如疫情防控等。事件具有地点、领域等要素,设备(Device)可以对事件进行监测。


领域(Field)概念主要涉及设备(Device)、事件(Event)、管理(Management)、规章(Rule)等本体,通过领域关系可以缩小本体范围,例如,通过对事件划分领域实现与规章和管理的关联。通过领域概念容易实现领域知识图谱(Domain-specificKnowledgeGraph,DKG)的扩展[15]。


根据式(1),实体概念集合可以表示为C(E)={E(Device),E(Service),E(Function),…,E(Rule)},

关系概念集合表示为C(R)={occourIn,triggerTo,handdleOn,referTo,belongTo,installOn,…}。


两个实体间既可以有单向关系,也可以是双向关系或多种关系,如事件与部件之间的关系用triggerTo表示,事件可以触发相关的部件及其附属设备变化,如暴雪天气事件引发道路的结冰,使得道路结冰传感器发生变化,同时部件及传感器对事件具有监测(Monitor)关系。管理(Management)与规章制度(Rule)之间存在参考(referTo)关系,同时管理也可以制定(drawUp)相应的规章制度。


1.2 城市大脑知识图谱接入 

采用自顶向下的知识工程设计方法可快速形成城市知识图谱本体(图3)。依据本体接入多源知识,包括知识抽取、本体学习融合、数据融合、质量评价、更新本体。接入的数据一般来源于多部门、多渠道,数据形式包括物联网数据、文本数据、视频音频等。多源知识图谱融合方法分为基于多领域知识图谱的融合方法和基于多源异构数据的融合方法[15],将不同领域的知识图谱融合是快速构建知识图谱的重要方法,不同领域知识图谱的融合方法包括概念融合、实体对齐、属性对齐和属性值融合等步骤;基于多源异构数据的融合方法包括基于非结构化抽取、结构化映射的知识抽取和基于已有图谱的知识推理以及知识准确率评估等步骤。通过对接入的子本体、领域本体进行学习、消歧,实现知识概念的融合,通过质量评价对融合结果纠正,最终形成知识图谱并更新本体,自下而上的消息知识接入流程如图4所示。在自下而上的过程中,可以实现本体动态完善流程,最终形成城市场景下的知识本体。知识学习采用自下而上子本体互相叠加形成完整本体,更加符合城市大脑知识图谱建设流程。因此,若将i个类型本体定义为Ai则包含所有本体S(OKG)的定义如式(2)所示。



2 城市大脑知识图谱构建实例 


以北京市海淀区城市智能物联网设备和属地信息要素作为数据来源,构建服务城市管理和治理的知识图谱。海淀区作为信息化和智能化较高的区域,在电子政务、社会管理等方面具有较规范化的数据,以物联网数据为例,目前具有20多类物联网设备,涉及环保、市政、消防、安全等领域,相关数据信息主要为结构化数据,如设备、功能、区域等;部分为半结构化、非结构化数据,如城市事件、政策法规等。在数据特点上,城市中的概念存在较多层级,即相同类型节点具有子类或父类,利用概念层级(level)对每类进行划分,以消防为例,消防传感器概念具有子类(Subclassof)关系,其管理者消防队具有子部门关系(Subpartof),示意如图5所示,实体形式如表1所示。



3 城市大脑知识图谱应用 


知识图谱构建完成后存储于存储图数据库NebulaGraph中,便于后续对图数据进一步探索和挖掘。数据库可以通过整合不同维度信息,对事件、知识、政策等进行同源性、关联性分析,实现对城市知识数据的有效利用和挖掘。


3.1 案件智能化处理中的应用

城市大脑知识图谱在案件智能处理中将发挥重要作用,示例如图7所示。当占用消防车道事件发生,消防通道传感器(Device)的功能(Function)记录相关信息,服务(Service)将记录占用者信息并报警,将占用车车牌等详细信息反馈给案件管理(Management),管理者再根据地址区域(Area)、规章(Rule)等信息对违章停车事件快速干预处理,做到未诉先办。与此同时,市民热线投诉消防通道占用,通过事件抽取模型将非结构化文本抽取出事件的地址(Area)、事件类型(Field)和主体等信息,综合二者确立案件派发处理人。管理方面将会参考(referTo)相关规章制度(Rule)执行相应的操作。


3.2 结合物联网的应用

物联网本体属于城市大脑知识图谱顶层设计的一部分,因此可以接入相关设备数据,这使得设备和被监测对象在知识图谱层面具有宏观语义关联,从而发现更深层的关联关系和应用。通过接入动态的物联网数据,知识图谱具有了主动发现和解决问题的可能。例如对河道水质的监控,通常是通过水质传感器监测,而城市大脑知识图谱可以根据区域(Area)内有毒有害、水量、井盖等多种传感器(Thing)信息和相关事件舆情、水系及管理者信息,综合利用多传感器和知识推理算法,实现对河道水质的监控和综合处置。


3.3 结合GIS的应用 

城市知识图谱利用强大灵活的知识表示能力,将空间数据和非空间数据结合,通过加入空间实体的坐标和边界,可以实现空间的推理,在地址实体消歧和地址标准化推荐方面具有重要应用。具体地,在涉及地理信息的智能对话中,市民可能会咨询“北京可以接种疫苗的三甲级医疗机构都在哪些地方?”,管理人员想了解“北京市由铁路局负责的下穿铁路的桥都在哪里”,通过知识图谱语义问答(KBQA)和GIS的结合,将位置和相应属性综合返回,实现知识和地图的可访问及互操作,为市民和管理者提供便利。另外,借助知识图谱,地理人工智能(GeoAI)在城市交通和人口迁徙数据的关系挖掘和智能化应用中发挥重要作用。


研读 | 申卫星——数字权利体系再造:迈向隐私、信息与数据的差序格局

研读 | 基层治理常规化的数字赋能路径研究

研读丨未来数字政府建设的五大战略性转变

内容来源 / 专知,2022年6月28日

今日编辑 / 辛昊航

责任编辑 / 戴晟昱

城市大脑研究院提供开放研讨平台,所有文章仅代表作者个人观点,欢迎共同探讨。原创文章,转载请注明来源:城市大脑研究院。部分图片来源于网络,如涉及版权问题,敬请及时联系我们。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存