查看原文
其他

学术:多源异构装备数据集成研究综述

2016-11-29 信息与电子前沿


今日荐文

今日荐文的作者为中国人民解放军装备学院复杂电子系统仿真重点实验室专家李亢, 李新明,刘东。本篇节选自论文《多源异构装备数据集成研究综述》,发表于《中国电子科学研究院学报》第10卷第2期。下面和小编一起开始学习吧~

引 言

现代战争需要高效地处理多源异构的装备数据,然而受到军队组织体制等因素的影响,不同单位的信息系统所产生的数据无法互相理解,严重制约了联合行动的作战效果。信息化战争条件下的装备数量众多,单个装备产生的数据量巨大,尤其是传感器类的装备在获取目标信息的过程中会产生大量的频谱、图像、视频等数据。据美国政府估计,全球每年由各类装备产生的数据已经达到约1.2ZB(1ZB=12亿TB),海量的多源异构装备数据为数据的分析与处理带来极大的挑战。


伴随大数据的深入研究,人们也开始投入更大的精力研究如何发现、管理和挖掘装备数据的利用价值。多源异构数据集是通过数据集成平台对多个数据来源进行统一处理,屏蔽数据之间物理和逻辑层面的差异,实现统一的表示、存储和管理,将多源异构数据集成为相互理解、相互关联的有机整体,解决数据的来源广泛、结构异构问题,使系统可以对其进行共同的分析处理,从而充分发挥装备数据的应用价值。

1 多源异构数据集成技术

装备数据通常包括装备的编号、设备型号、战技指标等参数,还包括装备在运行、训练、维护等日常工作中产生的数据,以及装备参加试验仿真、实战演习产生的数据,装备数据具有多源异构的特点。所谓多源,是指装备数据的产生来源于多个数据源,包括不同单位部门构建的装备数据库和各装备在工作过程中获取的数据集等,其数据存储的平台和方式是不同的,导致了装备数据“多源”的特征。所谓异构,是指装备数据类型复杂、数据结构不一致,装备数据包括了多种类型的结构化数据、半结构化数据和非结构化数据,由于在构建的过程中缺乏明确统一的标准,导致了装备数据“异构”的特征。


装备数据集成的难点主要可以归结为异构性问题、分布性问题和自治性问题。异构性问题主要是指各数据源的管理环境、数据模型、数据表达方式和数据语义的问题。分布性问题主要是指数据源是不是集中管理的,需要解决数据的通信和传输问题。自治性问题是指数据源由自身的数据管理系统进行维护,这种管理的独立性为数据集成提出了挑战。

 

因此,数据集成仍然是解决目前装备数据管理与应用面临的诸多问题的首要关键技术。多源异构数据集成技术已经得到广泛关注,在近几十年的发展过程中,取得了许多有价值的研究成果和产品,如图1所示是Patrick Ziegler绘制的数据集成技术的发展历程图。常规的集成方法可以按照数据的集成方式通常可分为虚拟(Virtual)集成和物化(Materialized)集成两种,也就是我们现在常说的基于模式的数据集成和基于复制的数据集成。


图 1 数据集成相关技术的发展历程

 

1.1 基于模式的数据集成

基于模式的数据集成的基本思想是:在构建集成系统时将各数据源共享的视图集成为全局模式(Global Schema),使用户可以通过统一的查询接口直接获取多个数据源的查询结果,而不必关心数据的存放位置。全局模式描述了集成数据的结构、语义和操作等,用户可以直接向集成系统的全局模式提交请求,集成系统通过封装器将请求进行处理并转换为各局部数据源本地的查询请求,使查询能够在局部数据源中被正确执行。

 

关系数据库是数据管理的常规方式,目前的大部分数据应用系统仍然采用关系数据库管理数据。对于存在于多个数据库中的关系型数据,常用的数据集成技术有多数据库系统(Multidatabase System)技术,它是将一些预先存在的、分布存储的异构性和自治性数据库系统组成一个协作的数据库系统。多数据库系统能够将物理上呈现分布式特点的多个异构数据库集成,支持用户执行全局透明的访问,屏蔽了异构数据库之间物理上和逻辑上的差异,同时保持了各数据源的自治性,从而为用户提供全局的数据共享服务。目前多数据库系统已经产生了MULTIBASE等许多有价值的学术成果和成熟的商业产品,主要有惠普实验室开发的Pegasus系统、UniSQL公司开发的UniSQL/M以及美国密歇根-迪尔伯恩大学、加拿大沃特卢大学以及IBM多伦多实验室和几所北美大学合作开发的CORDS等。多数据库系统的局限性在于不能满足文件系统和其他异构数据源的集成需求,但它对于解决关系数据库来源的数据集成问题,依然具有较强的借鉴意义。

 

目前主流的数据集成方法是基于中间件的数据集成(Middleware Integration)方法,它能够屏蔽操作系统和网络协议的差异,通过提供统一的数据逻辑视图,隐藏底层的数据细节,为用户提供透明的数据共享服务。其中,数据源可以集成半结构化和非结构化数据源中的数据,封装器用于解决局部模式到全局模式的映射,中间件则通过封装器和各个数据源进行交互,处理用户请求以及对全局查询的处理和优化,具有良好的通用性和扩展性。基于中间件的数据集成方法已经有一些成熟的产品。Standfoul大学研制开发了TSIMMIS系统,该系统采用了树形数据结构的面向对象模型OEM(Object Exchange Model)。IBM Almaden研究中心研制开发了Garlic系统,并推出了XPERANTO软件,能够在不改变数据的前提下集成DB2、Oracle等传统数据库、可检索Web数据和文本数据等。


相比多数据库集成方法,基于中间件的数据集成方法能够集成半结构化和非结构化的数据,同时保持了数据源高度的自治性,具有较高的查询和处理效率。

 

1.2 基于复制的数据集成

基于复制的数据集成是将局部数据源的数据复制到中心数据源上,并对中心数据源进行整体一致性维护,从而提高数据的共享和利用效率,这种方式可以减少用户对于多个异构数据源的访问代价,用户可以像访问本地数据库一样管理和读取数据。

 

典型的基于复制的数据集成方法是基于数据仓库(Data Warehouse)的集成。数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用以支持经营、管理中的决策制定过程。该方法将各数据源中的数据经过抽取、转换、清洗和装载等步骤将数据复制到数据仓库中,用户通过访问数据仓库得到查询结果,这种集成方式可以提供高效稳定的查询。目前Teradata、Oracle、Sybase、Netezza等各大数据库厂商已经凭借各自的技术优势开发出较为成熟的数据仓库产品,各企业单位凭借数据仓库的技术优势,可以针对业务的应用需求,研制相应的数据集成应用系统,表1给出了这些产品的特点及应用。

 

表 1 基于数据仓库数据集成的应用

 


数据的抽取、转换、清洗和装载是基于数据仓库集成的主要过程,国内外已有的相关研究基本上围绕这几个步骤开展关键技术研究。


  • Simitsis等人改进了常规的ETL(Extraction Transfomation Loading)流程,采用从概念模型到逻辑模型的转换方法,优化了ETL的执行效果。



  • Peralta在文献中提出一种基于规则的机制,利用现有数据仓库的构建信息,自动生成数据仓库模式。



  • 还有一些研究将本体理论应用到数据仓库的集成领域,Zhang等通过构建数据源与数据仓库之间的本体映射关系,优化了数据的抽取、转换和装载的过程。


上述研究对于基于数据仓库的集成都起到了积极的推动作用,然而数据仓库需要经常性地更新中心数据源的数据,频繁更新数据意味着更高的维护代价,所以基于数据仓库的集成一般不适用于实时性要求较高的数据集成系统。

2 装备数据集成存在问题及研究现状

装备数据主要涉及装备实体数据和装备业务数据两大类,研究将多源异构的装备数据集成为具有统一全局视图的有机整体,确保数据的高质量和可用性是进行数据分析与应用的关键和前提。装备数据集成的目标是构建相对独立的装备数据管理系统,使数据独立于某些具体的应用环境,形成装备数据在统一标准下的规范化管理,提高数据的可用性和共享水平。本节分析了装备数据集成中的组织管理问题、结构异构问题、语义异构问题、大数据问题,并综述了相关问题的研究方法。

 

2.1 组织管理问题及研究现状

装备数据集成要解决的首要问题是由于组织管理方式不同而产生的异构性问题。该问题的产生原因是由于各单位建立的装备数据管理系统的平台不同,数据以文档形式存储在文件系统中,或存储在MySQL、Oracle、SQLServer等数据库中,其所在的操作系统也可能是Windows、Linux、Mac等不同的发布版本,这些因素造成了集成过程中数据组织管理的困难。


  • 为解决这一类问题,国防科技大学龙爱阳在其硕士论文中设计并实现了基于EAI(Enterise Application Integration,企业应用集成)的装备数据集成系统,把分散于各装备数据管理系统的大量装备数据进行映射处理,利用XML描述数据来解决数据的异构性问题,提高了数据的独立性和可扩展性,实现了装备数据的集成与共享。

  • 装甲兵工程学院的赵聪等人采用Web Service技术将各数据源的数据包装成服务,并基于中间件的集成模式构建了装备数据集成平台,设计了元数据库模块、中介器模块和包装器模块,将数据以服务的形式发布给用户,在一定程度上解决了数据组织管理方式产生的异构性问题,提高了数据集成系统的自治性、通用性和实时性。

 

2.2 结构异构问题及研究现状

装备数据结构类型复杂,包括结构化数据、XML等半结构化数据和图像、视频等非结构化数据,这些数据可以在各自的管理系统中得到很好的处理,但将其集成起来共同处理则是数据集成系统面临的一个重要挑战。为了解决装备数据结构类型之间的异构性问题,通常需要构建统一的数据模型,将不同结构类型的装备数据转化为统一的形式,消除数据之间结构和类型上的差异性,使各类型数据可以被综合集成系统共同管理。


  • 国防科技大学李欢等人针对海战场信息数据中存在的结构类型多样性和分布性等问题,提出了基于域对象的一体化数据模型,将装备产生的数据抽象为域对象的实体,然后通过数据抽取、转换、合成等步骤构建综合数据库,并基于作战样式的映射式的信息简化模型,完成各装备数据的最小化整合,为解决装备数据之间结构异构问题提供了一种解决方案。


  • 军械工程学院的代冬升等人提出了基于网格技术的装备数据集成服务模型,通过数据库集成代理封装异构数据源,并完成了应用程序、服务注册中心与异构数据源的交互连接,实施装备数据在服务中心的统一管理,开发了基于OGSA-DAI(Open Grid Service Architecture-Data Access and Integration)的装备综合集成数据系统,解决了不同模式、不同类型数据之间的异构问题。

 

2.3 语义异构问题及研究现状

装备数据在建设时由于没有遵循统一的标准规范,导致数据之间不能够相互理解,存在语义异构的问题。


  • 为了解决由数据描述不一致的而产生的异构问题,军械工程学院的苏小波等人提出了基于统一数据元的装备数据集成方法,参照军标建立了标准的数据元素库,然后将各分数据库系统按照既定的提取机制从元素库中提取数据元的组合,使得装备数据都由标准库中的数据元进行描述,从而统一了数据的格式和表达方式,该方法为数据标准化提供了一种解决方案。


  • 海军航空工程学院的周立军等人针对各装备信息系统之间的数据难以共享和交换的问题,提出了一种基于XML规则的数据集成方法,通过建立一系列数据编码、属性度量、字段名称、字段类型等转换规则,完成了字段类型的统一描述和元数据的管理,从而实现了装备数据集成过程。


  • 解放军理工大学的宁奇雷等人分析了装备数据在多源分布管理条件下产生的异构性问题,指出不同业务部门所采取的数据描述方式、存储方式和表达方式之间存在的差异,提出了基于共享数据库的数据集成方案,通过建立公共数据标准解决数据的不一致问题。


近年来,有些专家针对装备数据集成中存在的语义异构问题,结合本体理论开展了相关技术的研究。


  • 为了解决装备数据集成中概念不一致的问题,军械工程学院的肖冰等人采用本体思想研究了书籍、军语、国标等材料明确装备领域概念,分析了包括研制时间、列装时间、装备概述、装备名称、装备简称在内的装备类属性,提出构建装备领域本体的流程方法,这对于装备数据的标准化有很好的参考意义。


  • 为了解决装备数据集成中的语义不一致的问题,北京科技大学的王盼卿等人设计了装备领域信息集成框架,分析了装备数据在进行集成时的性能需求:①要建立统一的查询接口;②具备一定的推理功能,比如用户查询“有效射程为5000m的火炮”,可以根据事实“迫击炮是火炮的一种”,添加查询“有效射程为5000m的迫击炮”;③消除数据的异构问题,例如用户查询“歼七”的相关信息,系统能将“歼七”与“歼7”的信息都检索出来。


这些研究从概念和名称的角度,规范装备数据的语义描述,对于解决装备数据的语义问题提供了有效的解决方案。

3 面向大数据的数据集成

随着信息技术的发展,装备数据呈现出海量的数据规模(Volume)、多样的数据类型(Variety)和动态变化(Velocity)等大数据(Big Data)的特点。数据的管理的方式更加复杂多样,不再局限于存储在传统的关系数据库和文件系统。越来越多的企业和单位采用新的数据管理架构开发数据应用。


例如采用以HDFS(Hadoop Distributed File System)为代表的分布式文件系统、以及以HBase为代表的NoSQL数据库系统来管理数据,这些情况为数据集成提出了新的挑战。近年来产生了基于Web Services和Big Data等新技术的数据集成方法,为装备数据集成提供了新的解决方案。


Web Service是一种支持跨网络的机器间相互操作的软件系统,它能够通过规范的服务描述、标准的消息通信协议和开放的服务发布策略,完成各数据来源节点的直接交互。基于Web Service的数据集成是将数据来源包装成Web服务,并使用WSDL(Web Service Description Language,Web服务描述语言)进行规范化描述,然后将其注册到UDDI(Universal Discovery Description Integration,统一描述发现集成中心)的服务目录中,以供中心服务器和用户的集成和调用。


国内外已经有不少专家学者研究探索了基于Web Service的数据集成方法。


  • Mark Hansen等分析了Web Service技术在解决异构信息系统数据集成问题上的优势,提出了一种快捷高效的数据集成框架,解决了商业异构信息系统的商业数据的集成问题。

  • Fujun Zhu等分析了传统数据集成方法的不足,提出了面向服务的数据集成方法,通过设计数据集成模型、Web服务协议、面向对象的方法和、服务开发环境和服务描述等步骤,开发实现了多个数据来源的数据集成系统。

  • 李文全等针对空间数据分布式多源异构的问题,提出了基于Web的分布式空间数据集成框架,并结合Web Service技术实现了空间数据的动态、高效、安全的集成。

  • 伍玉成等为了解决高校数字图书馆中各业务系统中异构数据的集成问题,结合SOA(Service Oriented Architecture)和Web Service技术,实现了一种复用性强、跨平台、互操作性好的集成方法,解决了各子系统中的集成和互操作问题。

  • 微软的WCF技术(Windows Communication Foundation)是Web Service基于.NET平台的实现。

  • 王成良等针对电力系统中各子网络数据不一致的问题,设计并实现了基于WCF技术的分布式计算系统模型,解决了异构数据集成问题,提高了系统的可集成性和可拓展性。


基于Web Service的数据集成具有较好的封装性和松散耦合性等特点,能够消除不同数据源之间物理和逻辑层面的差异,为用户提供统一透明的调用接口,实现多源异构数据的无缝集成。然而,基于Web Service的数据集成需要对各数据源的进行服务描述和发布,这对于技术手段和平台相对落后的相关业务单位是一种挑战。


数据空间(Dataspace)是由美国学者Franklin提出的一种新的数据管理技术,它把数据作为与主体相关的实体,而不必关心数据的模式、类型和存储位置,通过建立统一的数据描述模型,实现多源异构数据的集成。数据空间概念引起了国内外学者的广泛关注,产生了许多有价值的产品和研究成果。


瑞士联邦理工学院的Dittrich等通过定义统一的数据空间模型iDM(iMemex Data Model),开发了基于数据空间的原型系统iMeMex,实现了对文件系统、MySQL和Oracle数据库、Web文档等异构数据源的抽取和集成。


Dong等通过自动构建数据实体之间的联系,开发了SeMex系统,实现了个人信息管理的数据集成应用。


国内中国人民大学的孟小峰团队综述了数据空间技术的研究现状,分析了该技术在数据模型、数据操作、数据关联及构建方式等集成方面的优势,也指出了其在数据抽取和数据不确定方面的挑战。基于数据空间的集成不同于传统的数据集成,它在集成之初并没有定义严格的数据模式,而是从所集成的数据中逐渐演化出来的,对于研究多源异构装备数据集成具有较强的参考性。


此外,大数据条件下装备数据集成将面临数据量更大、数据类型更加复杂等更加严峻的挑战。美军在海量装备数据的集成、处理和分析方面一直走在世界前列,截至2010年底,90%的美国陆军已经配备了第三代分布式通用地面系统(DCGS-A V3),该系统能够集成来自所有层级(包括国家层、战区层、战术层)、所有数据来源(包括各类型的无人机、侦察设备和卫星数据等)信息,确保随时随地获取到最新数据。它所采用的“泰坦”认证网络战术信息技术(Tactical Information Technology for Assured Networks,TITAN)能够集成来自其他各领域的装备数据,有效地解决了海量装备数据的集成与分发问题。


TerraGo公司依照开放地理空间联盟(Open Geospatial Consortium,OGC)发布的标准,研发了战场地理空间可视化工具,能够通过集成分析各种便携式情报来源的装备数据、以及地图和GeoPDF文档等数据,为用户提供战场的地理态势信息。美国空军网络中心协同目标瞄准(NCCT)项目中采用了Objectivity/DB大数据分析工具集成了文本、图片、视频、语音等多源异构装备数据,从中分析出用户所需的各类专用情报,如通信、电子、雷达、遥测等情报,解决了复杂数据索引与搜索、多源情报集成、异构数据库联合等问题。


目前,美军正在研发能够以作战平台为依托进行数据边缘高速处理的“近传感器”(NSC)产品,可以在作战平台上进行数据的处理和分析。美国的DRC公司正在研发的大数据软件可以解决军队跨军种、跨部门协作的问题,通过在时间和空间上对所收集的数据进行规范和协调,可以为指挥员和部队呈现一幅统一的作战空间视图。



  • 《中国电子科学研究院学报》欢迎各位专家、学者赐稿!投稿链接

  • 电话:010-68893411

  • 邮箱:dkyxuebao@vip.126.com


系列合集:精品原创阅读

学术:干货综述:短波电磁环境问题研究——对认知无线电等通信技术再认识

好书:美国联合作战文件选编

学术:一种基于云的智慧城市系统架构

新视点:智慧城市就是更多参与

学术:天基物联网如何架构?功能组成、应用模式都有哪些?

学术:云计算在分布式传感器辐射源识别中的应用

学术:深入探究致密能源新宠之“高比能水体系锂电池”

新视点:川普上台究竟大跌了谁的眼镜?精英传声筒们被打脸之后将会如何行动?

学术:抓住机遇——全面解析国内外物联网体系架构

学术:智慧城市其实一点都不"智慧"?中国的智慧城市与国外Smart City的差距究竟在哪里?

好书:美国如何最大限度提升海军集成作战能力?

好书:未来海上预置部队能力评估

好书:安全领域军民协同研究

好书:美国机器人发展路线图

好书:迈向基于卫星的全球量子通信时代

学术:基于业务感知的空天地一体化信息网络流量分类技术

学术:面向军民融合的空间信息云服务平台体系研究

VR技术:隐藏在巨大机遇背后的隐患?

网络空间治理,有点难?

学术:天基综合信息系统安全策略设计与验证技术研究

学术:天地一体化天基骨干网络体系架构研究

学术:软件定义可重构卫星网络系统研究

学术:聚合SDN控制的新一代空天地一体化网络架构

中俄军演新看点:海上联合防卫行动2016

十一连载:预警机总体构型设计(七)

关于联合情报体系建设的几点认识

新视点:国家创新体系概述

新视点:漫谈面向未来之战略前沿技术

学术:基于MBD的产品设计制造技术研究

学术:三维打印的现状与未来

大数据时代的意图搜索

学术:数字化工厂技术在电子制造领域的应用

学术:量子成像和量子雷达在遥感探测中的发展评述


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存