2019加入学术plus丨2018学术大礼包丨2017不可以错过的重磅报告们
今日荐文的作者为中国航天科工集团第四研究院专家胡晓枫、胡伟杰、曹啸博、殷楠。本篇节选自论文《装备试验大数据管理平台设计研究》,发表于《中国电子科学研究院学报》第14卷第11期。
摘 要:随着科学技术的进步,装备试验数据采集手段日趋多样,采集频率不断提高,采集数据量急剧增加,传统的基于关系型数据库的装备试验数据管理平台越来越难以对海量的装备试验数据进行全生命周期管理。大数据技术的发展为海量装备试验数据全生命周期管理提供了新的技术手段。因此,本文设计了一种采用大数据架构的装备试验数据管理平台,该平台采用在线采集、离线采集等多种数据采集方式对分散的装备试验数据进行汇聚整合,采用分布式数据存储系统对装备试验数据进行高效存储,利用装备试验数据多维关联管理方法对装备试验数据进行组织管理,运用神经网络、支持向量机等机器学习算法对装备试验数据进行分析挖掘,实现了装备试验数据全生命周期管理,有效提升了装备试验数据管理部门数据管理能力。
关键词: 大数据;分布式;多维关联管理;全生命周期管理
《中国电子科学研究院学报》更多精彩文章
请移步中国知网下载阅读,或持续关注本号更新
论文全文摘编如下
仅供学术交流与参考
装备试验是装备生命周期中的重要一环,是装备正常使用的重要保障。由于其采集手段多样、采集设备分散、采集部门繁多,导致海量的装备试验数据分散存储在不同地点【1】,集中管理困难。传统的基于关系型数据库的装备试验数据管理平台虽然将部分装备试验数据集中管理起来,但其采集能力薄弱、存储能力不足、管理方式单一、挖掘手段落后,难以实现装备试验数据的全生命周期管理。与此同时,机器学习、大数据等信息技术迅速发展并逐步成熟,为装备试验数据管理提供了许多先进的理念和技术,将装备试验数据的采集、存储、管理、挖掘与大数据等先进技术进行结合显得越发迫切。因此,研制一套基于大数据架构的装备试验数据管理平台实现装备试验数据全生命周期管理十分必要。
随着试验数据规模的快速增长,试验数据管理部门对试验数据的精细化管理要求和当前粗放式试验数据管理方式之间的矛盾日益突出。为了解决这一问题,国内外涌现出了许多试验数据管理平台,并实现了试验数据的集中管理。国外试验数据管理平台以美国Newtera公司开发的Newtera TDM为代表,实现了试验数据与其他关联数据的统一管理以及图形化工作流设计,众多的军工企业如洛克希德马丁公司、霍尼韦尔和波音均是该公司的客户【2】。国内试验数据管理平台代表产品有神州普惠的App试验数据管理系统、北京海基科技发展有限责任公司的Hi-key 试验数据管理系统、北京瑞风协同科技股份的TDM3000 数字化试验业务平台。App试验数据管理系统以试验工程为管理对象,可以对试验数据进行统一管理和数据分析,系统基于Java语言开发,具有良好的可移植性及数据迁移性,可以运行在Windows、Linux、Unix等主流操作系统服务器之上。但系统主要面向数据管理,数据分析功能较弱。Hi-key试验数据管理系统提供了面向试验全过程、全数据的综合性试验业务管理解决方案,可以建立数据信息之间的关联关系,实现数据信息的回溯。但系统模块较为固定,二次开发能力较弱。TDM 3000数字化试验业务平台基于.NET框架开发,通过试验规划、综合测控、质量管理等手段实现了试验业务各阶段各环节工作的高效协同,平台具有强大的数据采集功能,对板卡级别的采集设备支持度高。但只能运行在Windows操作系统,可移植性差。虽然现有试验数据管理平台实现了试验数据的集中管理,但平台多采用传统关系型数据库进行数据存储【3】,缺乏海量数据存储与应用能力【4】,难以满足海量装备试验数据存储计算的要求。2 存在的问题
随着装备试验手段、试验方式的变革,装备试验数据量急剧增加。现有装备试验数据管理平台越来越难以满足装备试验部门的要求,具体表现在:现有装备试验数据管理平台多由通用平台二次开发而成,与装备试验业务耦合性弱,无法实现装备试验业务全生命周期流程的监控与管理。
现有装备试验数据管理平台多基于传统的关系型数据库和单机硬件环境,平台存储能力弱、运算速度慢。无法存储海量装备试验数据并实现海量装备试验数据的分析与挖掘。
现有装备试验数据管理平台数据查看方式单一,试验各要素关联性弱,难以满足精细化管理的需要。
现有装备试验数据管理平台关注于装备试验数据存储,装备试验数据采集与深度挖掘等功能缺乏,装备试验数据利用能力较低。
3.1平台简介
装备试验大数据管理平台基于微服务模式进行开发,包含数据采集、数据存储、数据管理、数据挖掘等模块,支持装备试验数据的高效采集、快速读取、集中管理与挖掘使用。平台支持在线采集、离线采集、交换采集、填报采集等多种装备试验数据采集手段。采用分布式文件系统HDFS、分布式数据库HBase、分布式数据仓库Hive实现海量装备试验数据的安全高效存储。通过装备试验数据多维度关联管理方法实现装备试验数据的高效管理。运用神经网络、支持向量机等机器学习算法对装备试验数据进行分析挖掘。实现装备试验数据的“采、存、管、用”一体化。3.2平台技术架构
本文按照装备试验数据全生命周期流程将平台划分为四层共十个微服务,不同微服务负责平台的不同功能并通过RESTful接口进行通信【5】,平台技术架构如图1所示。大数据采集层:由若干大数据采集服务器构成,包含大数据采集微服务。实现了装备试验数据的采集及预处理入库。大数据存储层:由大数据存储计算集群构成,包含大数据存储微服务和关系型存储微服务,负责平台数据的存储。大数据存储微服务实现了海量装备试验数据及索引数据的存储。关系型存储微服务实现了系统业务数据及部分索引数据的存储。平台管理层:由若干大数据管理服务器组成,包含平台管理微服务、试验管理微服务、配置中心微服务、注册中心微服务、网关微服务、认证中心微服务等微服务,负责平台业务逻辑处理。平台管理微服务负责平台业务的管理,实现了平台参数设置、用户管理、个人信息管理等功能。试验管理微服务负责试验业务的管理,实现了试验管理、试验数据管理、试验流程设计以及试验相关资源管理等功能。配置中心微服务为所有微服务提供外部更新配置的功能。注册中心微服务负责完成平台中微服务发现与治理等功能。网关微服务为整个平台的入口,实现请求路由、负载均衡、校验过滤等功能。认证中心微服务负责完成用户的身份认证。大数据应用层:由大数据存储计算集群构成,包含大数据挖掘微服务及大数据可视化微服务,负责平台的数据挖掘展示工作。大数据挖掘微服务通过线性回归、决策树、神经网络、支持向量机、贝叶斯分类、聚类等机器学习方法对装备试验数据进行挖掘。大数据可视化微服务通过柱状图、散点图、折线图、树状图等图表完成装备试验数据挖掘结果的可视化工作。3.3平台关键功能实现
装备试验大数据管理平台需存储结构化的装备试验数据,非结构化的装备试验文档、装备试验音视频文件以及装备试验红外图像,存储内容格式复杂,需将多种大数据存储手段混合使用实现海量装备试验数据的存储。本平台采用HDFS、HBase和Hive存储装备试验全生命周期数据。HDFS是一种分布式文件系统,同时是HBase和Hive存储数据的基础。HDFS通过将同一文件的多个副本分布式存储在不同单机中实现数据的高安全性与高吞吐量。HBase是一种面向列的分布式存储数据库,具有极高的吞吐量,采用类似Json的存储方式,属性值为空的列不占用存储空间,非常适合存储稀疏的数据。Hive为存储结构化数据的分布式大数据仓库,通过将结构化的数据映射为一张大表实现SQL语句查询,缺点是无法更新仓库内的数据【6】。试验文档及试验音视频数据多以非结构化的形式存储,适合以文件的形式存储在HDFS中。结构化试验数据入库后一般不做更改,适合存储在Hive数据仓库中。试验红外图像具有体积小,数量大的特点。若采用文件系统进行存储,则查找速度慢,读取性能差,难以满足挖掘的需要。利用HBase的Key-Value存储机制,将红外图像以二进制码的形式存储于HBase的Value中并通过Rowkey查找,可实现红外图像的快速定位和读取【7】。 其中Rowkey由 十八位数字组成,前八位表示图像生成日期,其后二位表示图片类型,最后八位表示红外图像编号。图像类型字段记录图像的格式,图像值字段用于存储红外图像二进制编码。为保证读取性能,图像值字段大小不宜超过1M。单个红外图像大小一般不超过1M,对大于1M的图像需进行切割,将切割之后的图像分片分次Put到HBase中的图像值字段中,图像的不同部分在图像值字段中拥有不同的时间戳属性,依靠时间戳属性即可还原红外图像。出于冗余的考虑,将HBase的Version设置为5个,即图像值字段最多拥有5个具有不同时间戳属性的Value,也即是图像最多可以切割成5部分,总大小不得超过5M。存储在HDFS、HBase、Hive中的数据需要依靠索引来查找,装备试验数据索引信息存储于HBase中的装备试验数据索引表中。表格式可见表3。传统的装备试验数据管理方式仅仅将装备试验数据与试验相关联,无法获取数据的来源方式、采集设备、采集人员等信息,装备试验数据关联管理通过标记法建立数据、人、设备之间的关联关系,实现数据全生命周期的展示。采用装备试验数据关联管理方法进行管理的数据应当具有如下标记:当需要追溯数据来源时,不断递归调用试验数据来源字段直到字段值为某设备,依此可以描绘出数据产生的关联关系图。当需要评估数据使用情况时,递归调用使用本数据的数据字段直到该字段为空,依此可以查找出所有直接或者间接使用过本数据的数据并绘制关联关系图。通过合并上述两个关联关系图,可以描绘出数据全生命周期关联关系图。以数据A为例,其全生命周期关联关系示例图如图2所示:对存储装备试验数据关联关系的表进行深度优先或者广度优先搜索算法,则可以展示出试验所有数据之间的关联关系。如图3所示:考虑到试验数据来源、试验数据来源方式、试验数据来源方式操作者、使用本数据的数据、使用本数据的方式、使用本数据操作者等标记项个数的不确定性。若采用传统关系型数据库需要将以上字段分别存入不同表单中并通过连接查询,查询效率低下。HBase具有稀疏存储的特性,数据项中为空的列不占用存储空间。当需要存储的上述标记项数量多于表中相应的列数量时,平台可以自动增加列将数据录入而又不增加其他数据项存储空间,故可以将所有标记项存储在一张HBase大表之中,提升查询效率。装备试验数据关联信息存储于HBase中试验数据索引表,表格式可见表3。为了帮助试验管理人员对海量装备试验数据进行管理,需建立多维度试验数据管理方法。本平台采用十层树状图对装备试验数据进行管理,默认的装备试验数据分类顺序为型号、试验性质、试验阶段、试验单位、试验、试验数据包、试验数据细分包、试验数据类型。图4为采用默认分类顺序建立的装备试验数据分类树状图,括号内的数字表示此节点下包含的试验个数。通过自由组合型号、试验性质、试验阶段、试验单位四种试验数据分类方式在树形结构第二层到第五层的次序,可以形成24种不同的装备试验数据分类树状图,方便试验人员多维度查看装备试验数据情况。(1)从字典中读取全部型号、试验性质、试验阶段、试验单位信息;(2)依照管理人员选取的分类次序建立装备试验数据分类树状图。平台采用七张表存储建立装备试验数据分类树状图的全部信息:型号字典表、试验性质字典表、试验阶段字典表、试验单位字典表、试验信息存储表、试验数据索引表和树状图索引表。装备试验数据分类树状图前六层由试验信息存储表和树状图索引表形成,后四层由试验数据索引表形成。型号字典表、试验性质字典表、试验阶段字典表、试验单位字典表、树状图索引表所管理的信息量少,应采用传统的关系型数据库存储,查询简便。试验信息存储表和试验数据索引表存储信息量大、检索次数多,且具有结构稀疏的数据,应采用HBase进行存储。HBase原生只支持RowKey查询,为提高查询速度,需将所有需检索的信息嵌入到RowKey中,并按检索顺序排序。试验单位最常用的试验分类次序为型号、试验性质、试验阶段、试验单位,故依此设计试验信息存储表RowKey。试验信息存储表RowKey由十八位十进制数字组成,前四位表示试验型号,五到六位表示试验性质,七到八位表示试验阶段,九到十一位表示试验单位。十二到十八位表示试验在同型号、同性质、同阶段、同单位试验中所属序列。试验数据索引表RowKey由二十八位十进制数字组成,前十八位为试验数据所属试验RowKey,十九位到二十位为试验数据所属试验数据包的ID,二十一位到二十二位为试验数据所属试验数据细分包的ID,二十三到二十四位为试验数据类型ID,最后四位为试验数据在所属试验数据细分包同类型数据中的序列。HBase按照RowKey大小顺序存储数据,当以型号、试验性质、试验阶段、试验单位为次序对试验数据进行分类时,统计节点下的试验数量不需检索整张数据表,只需检索特定范围内存在的数据。如A1型号的字典ID为0001,初样阶段的字典ID为02,则RowKey在000102000000000000至000102999999999999之间存在的数据数量就是试验所属型号为A1,试验阶段为初样的试验数量。当以自由组合的方式对试验数据进行分类时,统计节点下的试验数量需要检索整张试验信息存储表,效率极低。通过建立树状图索引表存储试验数量信息,并依此计算节点下的试验数量,大大提升了树状图建立速度。当试验信息存储表数据项变动时,自动更新树状图索引表中的数据。 当展示试验详细信息时,可以通过树状图已确定的型号ID、试验性质ID、试验阶段ID、试验单位ID限定查询范围,快速定位试验存储位置。试验信息存储表不仅仅存储试验基本信息,还存储试验相关人员以及设备信息,依托于HBase面向列的特征,可以预设一定数量的列来存储人员信息和设备信息,避免了传统关系型数据库将试验相关信息分散存储到不同表中导致查询复杂的情况。当人员或设备数量多于表中相应列个数时,平台可以自动增加列将数据录入。HBase按照列族读取文件,需要一次读取的数据应尽量放置于同一列族之中。本文设计的试验信息存储表如表3所示:试验数据索引表存储装备试验数据基本信息、装备试验数据位置索引信息以及关联信息,依托于HBase面向列的特征,预设一定数量的列存储数据来源、数据来源方式、操作者、使用本数据的数据、使用本数据的方式、使用本数据操作者等信息,当列的数量不足时,平台自动增加列将数据录入。试验数据索引表结构如表4所示:
装备试验大数据管理平台在航天某单位进行了试点应用,平台部署在五台曙光服务器上,包含一台大数据采集服务器、一台大数据管理服务器以及三台服务器组成的大数据存储计算集群。通过装备试验大数据管理平台,该单位实现了与下属异地试验部门的数据自动采集以及多格式海量历史装备试验数据的高效安全存储。相较于该单位原有的基于Oracle的装备试验数据管理平台,本平台数据读取速度提升50%左右,数据写入速度提升60%左右。同时解决了原有平台无法追溯数据来源、无法多维度查看装备试验数据、数据挖掘利用手段匮乏等问题,有效提升了该单位装备试验数据管理和应用能力。装备试验大数据管理平台可广泛应用于装备试验部门,实现海量装备试验数据的自动化采集、高效安全存储、多维度关联管理及深度挖掘应用。对于促进装备试验数据精细化管理,提升装备试验数据利用能力,亦具有积极作用。(全文完)
【参考文献】
[1] 丁力,安海军.试验数据管理系统的需求与实现[J].航空计算技术,2015年第3期:96-98.
[2] 张怡然.TDM试验数据管理系统的设计与应用[D].北京:北京工业大学,2012年.
[3]许国锋,许鹏文,邹红霞.国产自主可控技术在军队院校办公自动化中的应用[J],四川兵工学报,2014年第3期:130-132.
[4]程莹,张云勇,徐雷,房秉毅.基于Hadoop及关系型数据库的海量数据分析研究[J].电信科学,2010年第11期:47-50.
[5]翟永超.Spring Cloud微服务实战[M].北京:电子工业出版社,2017年.
[6]杨治明,许桂秋. Hadoop大数据技术与应用[M].北京:人民邮电出版社,2019年.
[7]朱晓丽,赵志刚.一种基于HBase的海量图片存储技术[J].信息系统工程,2013年第8期:22-24.
来吧!加入学术plus
请收下!2018学术大礼包
2017你不可以错过的重磅报告们!(全文阅读链接)
【重要】学报投稿必看!
《中国电子科学研究院学报》官方严正声明
声明:版权归《中国电子科学研究院学报》所有。转载请务必注明出处,违者必究。文章观点不代表本机构立场。