【深度】面向多源数据的军事信息系统设计
2019学术大礼包丨加入学术plus丨2018学术大礼包丨2017不可以错过的重磅报告们
图片来自网络
今日荐文的作者为中国人民解放军66132部队专家李卫星、王峰、李智国、李思阳。本篇节选自论文《面向多源数据的军事信息系统设计》,发表于《中国电子科学研究院学报》第15卷第3期。
摘 要:大数据时代,军事信息呈现出来源广泛、格式多样、数据体量大、价值密度低的特点,如何解决多源数据获取手段少、融合程度低、分析挖掘弱等问题,是新一代军事信息系统建设的关键。本文提出了一种面向多源数据的新型军事信息系统架构,实现了全源信息引接、分布式数据存储、批量计算与流计算、作战场景专题分析与数据可视化;设计了以大数据分析为核心的军事信息处理流程,采用大数据工具对全源数据进行处理,实现快速化、自动化、精准化信息保障,适应瞬息万变的战场态势;研究了联合作战背景下的多源异构数据融合及军事领域知识图谱构建技术,为联合作战指挥决策提供高效、精准、可靠的数据支撑。
关键词:大数据;军事信息;多源数据融合;知识图谱
《中国电子科学研究院学报》更多精彩文章
请移步中国知网下载阅读,或持续关注本号更新
论文全文摘编如下
仅供学术交流与参考
面向多源数据的军事信息系统设计
0 引 言
随着传感器、军事通信、信息网络技术的飞速发展,雷达、红外、光电等各种传感器在陆、海、空、天多维空间立体化部署,军事数据爆炸式增长,呈现出数据量大、数据率高、种类多样、价值密度低的“4V”特性,现代战争已经进入了大数据时代。
美军将大数据作为军事领域的战略高地,投入巨额资金推进大数据技术研发与应用,以谋求在大数据方面的领先优势。2011年,美国防部将“从数据到决策”作为战略投资优先发展项目,旨在从海量数据中实时挖掘出威胁目标、火力打击等重要信息,辅助指挥员实时掌握战场态势。美国国防高级计划研究局(DARPA)资助的Insight项目开发了相关性分析工具、预测和威胁网络分析工具等,自动综合多源传感器信息,构建情报、侦察、监视一体化系统,已在美陆军和空军获得应用。美国还将大数据技术应用于社会舆情监控和反恐之中。有消息称,本·拉登的行踪线索是由美国Palantir公司研发情报软件确定的。
我国也积极开展了大数据技术研究与应用。杨小牛采用大数据技术解决侦察情报体系信息难共享、小信号遗漏等问题,高坤建立了基于大数据的电子战情报模型,付婷婷从系统功能、平台架构等方面论证了大数据雷达情报分析系统实现方案。然而,我国对大数据技术在军事领域的运用研究尚处于起步阶段,且主要集中于面向单一军种的战术级应用,在面向联合作战的战略战役级军事信息系统建设方面研究较少。
在大数据时代的信息化战争中,如何运用大数据技术准确获取、动态跟踪、实时分析战场情报,是获取战场信息优势、夺取战争主动权的制高点。本文以多军兵种联合作战为应用背景,系统梳理了大数据环境下传统军事信息系统面临的挑战,研究论证了面向多源数据的新型军事信息系统总体架构、工作流程及运用效能,深入分析了多源异构数据融合、知识图谱构建等关键技术,为实现全源情报、实时情报、精准情报进行了有力探索。
1 传统军事信息系统面临的挑战
在现代信息化战场条件下,战场态势感知能力迅速提升,对军事信息存储、处理、分析、展示提出更高要求。传统军事信息系统主要基于结构化数据库,采用集中存储计算和人力分析方式,在存储计算、数据融合、挖掘分析等方面面临严峻挑战。
(1)数据海量剧增,但传统系统存储容量较低、计算能力不足、安全防范不严。在存储计算方面,采用基于服务器的集中存储和计算方式,难以实现海量半结构化、非结构化数据存储,且随着大数据挖掘工具的应用,对计算能力也提出更高要求。在数据安全方面,防范手段和机制落后,可能出现木马入侵、物理损坏等情况。
(2)数据多源异构,但传统系统难以实现深度融合。在数据类型上,既有标准数据库等格式化数据,又有文本、图片、视频等非格式化数据;在获取手段上,有雷达、技侦、航侦等,具有典型的多源异构数据特点。传统数据库主要采用分散建设、各自管理的方式,难以实现多源异构数据融合。
(3)数据信息丰富,但传统系统分析挖掘能力不足。不同类型数据之间可能存在关联关系,蕴含着高价值信息。目前对数据的分析主要采用人工方式,分析挖掘广度和深度不够,时效性严重滞后,且随着数据量的飞速增长,人工方式将难以适应大数据分析要求。
2 系统架构与工作流程设计
针对传统军事信息系统存在的问题,学者们提出了基于大数据的解决方案。但现有文献在研究对象上,主要关注大数据技术在某一特定领域的应用,如战略预警、电子战、信号侦察等,对如何为联合作战提供辅助决策研究较少;在数据来源上,主要关注雷达、技侦等传感器数据,对如何实现不同来源、不同手段、不同格式的多源异构数据融合关注不够;在系统应用上,主要关注大数据分析工具和算法的实现,对如何实现战场情报挖掘分析、为指挥员提供面向作战场景的服务缺乏研究。本节紧密结合多军兵种联合作战在全源数据引接、多源数据融合、高价值线索挖掘、数据可视化、辅助决策支撑等方面的现实需求,以云计算、大数据、深度学习等技术为基础,提出了一种面向多源数据的新型军事信息系统设计方案,并从总体架构、处理流程、运用效益等方面加以详细论证。
1、总体架构
本节构建了一种面向多源数据的新型军事信息系统,其总体架构如图1所示。可分为基础支撑层、数据资源层、分析处理层、应用软件层。
(1)基础支撑层。主要由物理上分散部署的存储节点和计算节点组成,改变了传统的集中存储、单机计算模式,通过虚拟化技术整合多种资源,为用户提供统一的存储计算视图。在联合作战背景下,战场信息涵盖传感器情报、开源情报、技侦情报、人力情报等,采集于多个物理节点,分布空间广泛,数据格式各异,既包括武器装备、作战体系、海空基地等大批量静态数据,又包括实时舰机活动轨迹、导弹航迹等流数据,且数据涉密程度高,对传输、处理中的安全性具有更高要求。为了满足分布式、大批量、多格式战场信息的实时存储、传输、计算需求,该层具备以下功能:
支持SQL、NoSQL数据库及Hadoop等分布式存储架构,实现对海量异构数据的高速存储,包括静态结构化数据,文本、网页、图片、音频、视频等半结构化、非结构化数据。
支持批量计算、流计算,可对计算资源动态按需分配,实现大批量、高速率数据实时计算和并发访问。
支持基于云平台的大数据全维管控,实现全程监测、实时预警、有效防范和溯源反制,确保数据安全。
支持军事专网、互联网、无线网、数据链等多种传输方式,采用高速光纤、高性能交换机、移动基站等新设备,大规模提升网络带宽和覆盖范围。
(2)数据资源层。现有军事信息系统主要采用“烟囱式”建设,数据格式只针对某一类或几类传感器,接口单一,兼容性差。联合作战要求汇聚陆、海、空、天、电、网等多军兵种情报信息,必须采用自适应接口和数据转换技术,拓展数据来源,实现数据全源引接。该层具备以下功能:
兼容现有雷达、技侦、航侦等各类数据资源,且支持同步更新。
支持多源信息实时、并发、快速自动采集,信源包括军用传感器、互联网开源数据、移动通信设备、战场环境数据等,支持在线评估数据规模、时效性、真伪性。
支持自适应接口转换,预留现有和在研的各种数据链和传感器接口,具备可扩展能力。
(3)分析处理层。该层是新型军事信息系统的核心。联合作战条件下,战场信息来源于不同部门、获取手段多样、数据格式各异,内容既存在重复、冲突,又存在交叉互补,必须进行数据融合,以剔除错误、消除冗余、交叉印证,实现去芜存菁;同时,随着态势感知能力的提升,战场数据海量剧增,且面临着敌方欺骗、伪装、干扰,易形成“数据迷雾”“数据陷阱”,传统的统计分析法、目标中心法等情报分析手段难以从海量数据中发现隐藏的高价值信息。该层集成了多种大数据分析工具,综合运用深度学习、大数据挖掘、自然语言处理等技术,解决数据融合程度低、分析挖掘能力弱等突出问题,主要实现以下功能:
多源异构数据融合,通过异常检测、数据清洗、数据集成等步骤,解决属性不完整、格式不统一、来源有冲突、数据有重复、更新不及时等问题,形成统一的数据视图。
支持知识图谱、聚类分析、时间序列分析、多元统计分析、专题情报分析、趋势演变分析等大数据分析算法,实现隐藏规律挖掘、关联关系发现和未来趋势预测。
构建并持续更新动态模型库、方法库和知识库,为大数据挖掘提供支撑。
(4)应用软件层。该系统主要用于为联合作战指挥决策提供辅助支撑,应用服务需紧贴作战场景,一方面通过大数据工具对作战区域内各类战场事件进行分析计算,按需推送至各级指挥员,实现精准保障;另一方面将分析结果进行可视化展示,便于指挥员迅速掌握战场形势,做出指挥决策。该层主要实现以下功能:
提供面向场景的专题分析功能,比如重要人物分析、热点事件分析、异常事件告警、体系能力分析等。
提供智能信息分发共享服务,自动识别用户特征与偏好,准确提供个性化服务与精准推送,形成全网一体、全时在线、全维运用的跨域共享体系。
具有军事信息管理维护功能,提供数据查询、修改、添加、删除等服务,能够实现权限管理,提供不同用户访问和审批权限。
具备多维可视化功能,能够以多种形式直观、全面地展现分析结果,比如可通过直方图展示敌我力量对比,通过热力图展示敌方武器平台活动区域,通过威力图展示敌方雷达探测范围、武器打击范围等。
相比于现有军事信息系统,本文提出的系统架构紧贴联合作战军事需求,兼容各类数据,可实现战场信息全源引接;采用云存储、云计算技术实现海量异构数据存储以及大批量数据、流数据的高效计算;采用数据融合技术实现多源数据比对分析、交叉印证;采用知识图谱、聚类分析、时间序列分析等技术解决海量数据挖掘分析问题;结合作战场景,提供专题分析及数据可视化服务。
2、工作流程
传统的军事信息处理流程包括计划拟制、信息搜集、分析生产、分发共享等。信息化战场条件下,军事信息海量剧增,战场态势瞬息万变,各种伪装欺骗手段广泛应用,传统的分析流程难以在短时间内有效发现隐藏价值信息。军事参谋人员必须深刻转变分析理念,积极探索基于云平台、面向大数据、运用新技术的军事信息处理流程。结合新型军事信息处理系统架构特点,本文提出的军事信息处理流程如图2所示。该流程以高性能存储计算云平台为支撑,分为需求定义、数据采集、数据融合、分析挖掘、产品生成等步骤。
需求定义。明确军事信息处理的总体目标、任务情境、研究对象,列出需求清单,并制定评估方案和指标体系。
数据采集。数据采集在军事信息处理链条中处于基础环节,除了按照传统方式从雷达部队、技侦部队、航空航天部队等引接数据外,更注重自动探测、高并发实时采集,并评估数据规模、时效性、真伪性。
数据融合。多源异构数据融合是大数据的固有特征之一,通过将不同来源、不同手段、不同结构的数据去伪存真、交叉印证,可以减少冗余、提高准确性。数据融合分为字段映射、数据检测、数据清洗与去重、数据集成、数据变换、质量评估等步骤。
挖掘分析。数据挖掘是军事信息处理工作的核心,相对于依靠参谋人员进行分析的传统模式,采用深度学习、知识图谱、自然语言处理等大数据工具集对海量数据进行实时处理,揭示数据之间的内在联系,有助于提升情报分析的广度、深度和时效性,是未来情报分析发展的重要方向。
产品生成。经过大数据分析与计算后,需要进行结果解读与凝练,快速生成一定格式的情报产品,采用按需分发与智能推送的方式实现成果共享,并根据用户评价和反馈结果进行迭代改进。
相对于传统处理流程,基于大数据的处理流程具有以下特点:在处理对象上,采用全源数据而非部分抽样数据;在数据采集上,强调大批量、自动化、实时性数据获取;在分析挖掘上,注重通过大数据分析工具深挖数据内在关联关系;在产品生成上,快速产生并智能推送数据分析报告,实现精准化保障。
3、运用效能分析
信息化战场条件下,获取情报优势、实现战场单向透明是夺取战争胜利的关键因素之一。新型军事信息系统以云计算为支撑,以大数据分析为核心,克服了传统系统信源引接少、处理效率低、分析能力弱的缺点,实现了海量数据智能获取、多源数据深度融合、多维信息挖掘分析、产品成果分发共享,在信息化战争中具有广阔的运用前景。
(1)提升战场态势感知能力,推进形成“全源情报”。支持自适应接口转换,可按需扩展传感器及数据链接口,可动态接入各种形式的军事信息。同时,可运用网络爬虫等技术,从网络、社交媒体等渠道自动采集、整理、挖掘高价值信息,大幅提升信息获取能力。
(2)加强信息分析挖掘深度,推进实现“从数据到决策”。综合运用知识图谱、机器学习、分类分析、聚类分析等技术,能够快速识别有用信息,准确捕捉战场动态,深入挖掘内在关联,可视化展示分析结果,快速形成精准、实时的分析结论,为指挥员决策提供科学、合理、有效的数据支撑。
(3)提高情报处理计算效率,推进实现“发现即摧毁”。采用云计算架构,通过灵活的资源配置,用户可接入云中,依托强大的计算能力实现对不同类型军事信息的批量处理、流处理,大幅提升时效性,加快战场信息流转,实现战场态势实时感知和同步认知,缩短“从传感器到射手”周期,以到达“发现即摧毁”的目的。
3 基于大数据的军事信息处理关键技术
1、多源异构数据融合
多源异构是大数据的基本特征之一,在大数据时代,如何把多源异构数据汇聚起来,准确识别异常、修正错误、消除冗余、解决冲突,形成信息互补和交叉印证,为用户提供统一数据视图,是实现大数据分析的前提和基础。
多源异构数据融合的实现方案如图3所示,分为异常检测、数据清洗、数据集成、质量评估等步骤。异常检测指记录重复、冲突、属性缺失、逻辑错误、噪声等数据,对其进行准确定位和追踪;数据清洗指对原始数据进行滤重、归一和修正,形成清洁数据;数据集成指通过规则、相似性度量、深度学习等方法对数据进行关联处理,获得更为全面的数据资源;质量评估指对融合结果的一致性、精确性、完整性、时效性等进行分析。现有文献主要针对传感器或网络爬虫获取的原始数据进行融合,而联合作战更关注于多源数据的特征级融合。
在战略战役级联合作战信息保障中,异常数据主要有:
冗余型数据。即同一个实体具有不同的名称,比如,海军、空军都探测到F-22,但可能分别命名为“F-22隐形战斗机”或“F-22‘猛禽’隐身战斗机”。
差异型数据。不同单位上报的数据格式可能不一样,比如,出生时间格式有的为“YYYY.MM.DD”,有的为“XX 年XX 月XX 日”。
冲突型数据。由于获情手段不同,导致部分数据有冲突,比如,对于同一型飞机,雷达测量得到位置、速度信息,和技侦手段获取的信息不一致。
错误型数据。受采集手段、环境条件的影响,或工作人员可能存在的失误,有些数据存在明显错误。比如,飞机作战半径大于最大航程。
针对异常数据,采用以下方案进行数据清洗:
数据滤重。对相同数据的不同记录进行筛选、合并、清理,以减少冗余并形成统一出口。实现数据滤重的关键是定义数据主码,依据该主码能够唯一确定某条数据记录。
数据归一化。主要考虑实体识别问题,需对同一数据的不同描述进行归一化,包括全称与缩写、机构改名与合并、同义词转换、别称、多语信息等,比如,将“平飞速度”“最大速度”“飞行速度”等统一为“平飞速度”,将“千米/小时”“米/秒”“马赫”速度单位统一为“千米/小时”。数据归一化可以依据经验或专家智慧,也可以采用深度学习的方法从大量数据集中提取规范化名称。
冲突消解。针对同一数据属性不一致的问题,根据其信息来源、获取手段、置信度等,设置不同权值,以加权平均作为该数据的最终属性值。权值的设置可以通过专家打分,也可以基于统计数据。
错误修正。针对错误型数据,可以通过设置规则和推理的方式进行修正。比如,通过出生年月可以推断出年龄;通过相控阵雷达阵面设计可以推断方位、俯仰覆盖范围等。
2、军事领域知识图谱构建
大数据环境下,传统的分析方法面临着数据海量、瞬息万变、价值密度低、反侦察手段多等诸多挑战,研究适用于大数据的军事信息分析新方法、新思路,将数据优势转化为决策优势,是当前联合作战信息保障迫切需要解决的问题。知识图谱是一种用图模型描述实体、概念间关系的技术方法,可以从数据中识别、发现和推断事物的关联关系,提升语义搜索、辅助决策、知识推理的智能化水平。
知识图谱的构建流程如下图所示,包括知识表示、知识存储、知识抽取、知识融合、知识推理、知识应用。现有文献围绕通用知识图谱及电商、医学、百科等领域知识图谱构建展开了大量研究,而在军事领域,实体、关系、属性等均具有其特殊性,现有方法并不完全适用。本节重点研究知识表示模型,探索联合作战背景下的军事领域知识图谱构建方法。
图4 知识图谱构建流程
资源描述框架(Resource Description Framework, RDF)是最常用的知识表示模型。在RDF中,知识以三元组<Subject- 主语,Predicate- 谓语,Object- 宾语>的形式出现,比如<特朗普,就任,美国总统>、<F-22,挂载,AIM-120导弹>等。RDF模式(RDF Schema, RDFS)提供了对类、属性的描述元语,包括类、父类、定义域、值域等。在军事领域,RDFS的构建一般采用自顶向下的方式。在业务专家的参与下,本文梳理出人物、部队、武器、基地等一类实体。人物属性包括姓名、年龄、职务、政治立场、作战经历等;部队属性包括番号、驻地、人员组成等,可能包含子部队;武器可分为舰船、飞机、导弹、雷达等二类实体;基地属性包括位置、地理环境等,可分为军用机场、港口、导弹阵地等二类实体。在关系设置上,人物和部队之间存在指挥关系,部队和武器之间存在配备关系,部队和基地之间存在驻扎关系,武器和基地之间存在部署关系,各类武器之间也可能存在关系,如<飞机,挂载,导弹>。下图给出了一种军事领域RDFS模型,展示了实体、关系及部分属性,该模型需要在工作实践中动态扩充。
图5 军事领域RDFS模型
4 结束语
本文从大数据环境下传统军事信息系统存在的突出矛盾问题出发,探索了云计算、自然语言处理、深度学习等技术在军事信息存储计算、融合处理、挖掘分析等方面的应用,构建了以云平台为支撑、以大数据分析为核心的新型军事信息系统架构,设计了适用于大数据的军事信息处理流程方法,有助于实现存储计算云端化、数据融合自动化、分析挖掘智能化。下一步,将重点围绕军用云平台设计方案、基于自然语言处理的多源数据融合方法等展开研究,推动新型军事信息系统的实用化进程。
【参考文献】
[1] 何友,朱扬勇,赵鹏, 等.国防大数据概论[J].系统工程与电子技术,2016,38(6):1300-1305.
[2] 战晓苏.美军大数据项目进展及其深刻影响[J].军事文摘, 2018,7:26-29.
[3] 郭继光,黄胜.基于大数据的军事情报分析与服务系统架构研究[J].中国电子科学研究院学报,2017,12(4): 389-393,413.
[4] 黄河燕,曹朝,冯冲.大数据情报分析发展机遇及其挑战[J].智能系统学报,2016, 11(6):719-727.
[5] 耿卫,马增军,夏素敏.美军大数据技术研发现状分析[J].创新科技,2015,188(10):35-38.
[6] 张林超,李阳阳,廖勇, 等.面向大数据的情报系统初探[J].中国电子科学研究院学报,2016,11(6):603-608,613.
[7] 张新建,张媛.海军指挥信息系统大数据策略[J].指挥信息系统与技术,2015,6(2):17-21.
[8] 杨小牛,杨志邦,赖兰剑. 下一代信号情报侦察体系架构:大数据概念的应用[J]. 中国电子科学研究院学报,2013,8(1):1-7.
[9] 高坤,戴江山,张慕华.基于大数据技术的电子战情报系统[J].中国电子科学研究院学报,2017,12(2):111-114.
[10] 付婷婷,汤景棉,肖兵, 等.基于大数据的预警情报分析系统研究[J].空军预警学院学报,2018,32(2):118-122.
[11] 唐明伟,苏新宁,肖连杰.面向大数据的情报分析框架[J].情报学报,2018,37(5):467-476.
[12] 唐晓波,郑杜,谭明亮.融合情报方法论与人工智能技术的企业竞争情报系统模型构建[J].情报科学,2019,37(7):118-124,162.
[13] 高伟,薛梦瑶,于成成.面向大数据的情报分析方法和技术体系研究[J].情报理论与实践,2019,42(12):43-48,35.
[14] 谭晓,李辉.基于多源数据知识融合方法的研究前沿识别[J].现代情报,2019,39(8):29-36.
[15] 化柏林,李广建.大数据环境下多源信息融合的理论与应用探讨[J].图书情报工作, 2015,(16):5-10.
[16] 王昊奋,漆桂林,陈华钧. 知识图谱方法、实践与应用[M].北京,电子工业出版社,2019.
[17] 葛斌,谭真,张翀, 等.军事知识图谱构建技术[J].指挥与控制学报,2016,2(4):302-308.
来了快看:2019学术大礼包
声明:版权归《中国电子科学研究院学报》所有。转载请务必注明出处,违者必究。文章观点不代表本机构立场。
《中国电子科学研究院学报》欢迎各位专家、学者赐稿!
投稿链接 http://kjpl.cbpt.cnki.net
邮箱:dkyxuebao@vip.126.com