学术: 机载电子对抗情报分析中雷达信号快速识别方法

Original 2016-11-08 ☞ 信息与电子前沿

今日荐文

今日荐文的作者为空军工程大学航空航天工程学院专家罗朝义，张强，周一鹏，王文哲，燕丽。本篇节选自论文《机载电子对抗情报分析中雷达信号快速识别方法》，发表于《中国电子科学研究院学报》第11卷第5期。下面和小编一起开始学习吧~

引言

机载电子对抗情报分析能够对侦察设备记录下的电磁数据进行有效处理，并整理形成机载电子对抗情报，为接下来的作战提供必要的信息支撑，因此是整个机载电子对抗作战链路中非常重要的一个环节。雷达信号识别是机载电子对抗情报分析中关键步骤，能够从经过分选处理的信号中，识别出未知信号。

机载电子对抗情报分析中雷达信号的识别不同于机载雷达告警系统（RWR）/电子支援系统（ESM）设备需要实时的对接收到的信号进行识别，由于是在地面离线进行处理的，对实时性要求不高，但随着各种型号雷达的广泛应用，电磁环境日趋复杂，机载侦察设备接收并记录下的电磁数据也越来越庞大，机载电子对抗分析迈入了大数据时代。面对大规模雷达信号数据，和平期间可以选择识别准确率较高但时间复杂度高的分类算法进行识别，但战时能否及时从卸载数据中发现危险的未知信号，关系到飞机接下来执行任务时的生存安全，也会影响到战局的走向。因此，面对战时海量雷达信号数据的识别问题，选择合适的分类算法非常重要。

KNN算法是一种经典且得到广泛应用的分类算法，但串行实现时间复杂度高，难以快速分类，因此提出了KNN算法的MapReduce并行化方法用于战时海量雷达信号数据的识别。借助于MapReduce编程模型和Hadoop平台，通过编写Map和Reduce函数，完成了KNN算法的并行化。仿真验证了所提方法具有较好的扩展性和良好的加速比，能够有效应用于海量雷达信号数据的识别。

雷达信号识别模型

雷达信号识别是机载电子对抗情报分析中重要的步骤。飞机执行完任务后，通过加卸载数据传送器将机载侦察设备接收并存储的数据卸载下来，通过离线地分选、识别发现未知雷达信号。未知信号相比已知信号属于威胁信号，需要确定具体特性并放入机载电子对抗情报数据库，以便下次飞机执行任务前，将其加载到机载侦察设备中的数据库中，使得飞机能够及时识别威胁信号并发出告警。

图1 雷达信号识别模型

KNN 算法

Cover和Hart在1967年首次提出的KNN算法是一种经典的基于类比的学习算法，主要思路是：依据数据对象在特征空间中的k个最相似（即特征空间中最邻近）的对象判定类别所述，若最邻近对象属于某一个类别，则所选对象属于同一类别，其中选择的最近邻对象属于已知类别的训练样本。

KNN算法处理过程如下：

输入：训练集D，测试对象z；训练对象的类别标识集合L；最近邻数目k。

输出；测试对象z的类别

（1）根据选定的距离度量，计算测试对象和训练集中每个训练样本的距离d，并得到目前k个最邻近样本中的最大距离d_max。

（2）若d<d_max，则将该训练样本作为最近邻样本。

（3）重复（1）和（2），直至测试对象和所有训练样本的距离全部计算完毕，并得到最新的k个最近邻样本。

（4）根据多数表决分类决策规则判定测试对象类别，选择k个最近邻样本中出现频率最大的类别作为测试对象的类别。

KNN算法中，算法性能的优劣很大程度上取决于k值选择是否恰当，k太小，则可能会受到训练数据中的噪声影响而产生过分拟合；k太大，则最近邻可能包含远离其近邻的数据对象而产生分类错误。在应用中，先选定一个初始k值，一般较小，然后根据实验结果进行调整。

KNN算法是一种消极学习器，事先存放训练集，直到需要将测试样本进行分类时才建立分类，因此具有较高的时间复杂度。串行实现时间复杂度为O(nl)，其中n为训练集样本数目，l为训练样本类别数目。

MapReduce 编程模型

Hadoop是Apache下关于MapReduce等技术的开源项目，是目前MapReduce众多实现版本的标准，己经被很多的研究机构和企业广泛地使用来构建自己的云计算平台。作为一个能处理大数据的分布式软件框架，Hadoop由诸多元素组成，具体如图2所示。Hadoop使用户可以在不了解分布式底层细节的情况下，充分利用集群的威力，开发分布式程序，实现高速运算和存储。Hadoop具有高性能、高扩展性、开源性等优点，同时能够在普通PC机上运行，对硬件要求不高，成本较低。

图2 Hadoop组件结构

MapReduce编程模型是在并行环境下对大数据进行分布式计算的一种编程模式，具有操作简单，容易实现且扩展性强的优点。MapReduce一般包括Map和Reduce两个过程，并通过一个JobTracker和多个TaskTracker节点实现并行计算。Map阶段将用户提交的一个运算任务划分为若干个子任务，通过JobTracker指派多个TaskTracker完成Map计算并生成中间结果；Reduce阶段JobTracker指派多个TaskTracker通过并行的Reduce函数将中间结果进行规约合并，产生最后的输出结果。

MapReduce分布式计算框架的核心是Map和Reduce函数，由编程人员自行定义实现，以键值对<key，value>作为输入和输出。Map函数将小数据集解析成一批键值对，通过定制的函数计算生成一组中间键值对。MapReduce框架将所有中间键值对按照相同的key值进行聚合操作之后传递给Reduce函数。Reduce函数接收一个中间键值对的key值和对应的value值集并按照定制的函数进行计算处理，输出处理后的键值对，完成一次MapReduce计算。输入和输出数据类型变换为<key1,value1>→Map→<key2,value2>→Reduce→<key3,value3>。编程人员只需关注Map和Reduce函数具体计算任务，其他并行计算中的复杂问题交由MapReduce编程模型和Hadoop实现平台后台处理。

KNN算法的MapReduce并行化方法

KNN算法分类过程中，每个测试对象均能够独立地进行分类，测试数据对象彼此之间不需要考虑计算顺序上的相关性，因此能够采用MapReduce编程模型将KNN算法并行化处理，从而解决串行实现时间复杂度较高的问题。

KNN算法的MapReduce并行化方法主要思路是：对KNN算法串行实现中每个测试数据对象的计算启动对应的一次MapReduce计算过程，通过MapReduce完成测试对象与训练样本的距离计算和判定类别操作。

KNN算法的MapReduce并行化方法具体流程是：首先将训练集和测试数据从HDFS分布式文件系统中下载到本地节点；然后对每个测试数据启动一次Map函数，计算测试数据到训练样本的距离，生成中间计算结果；最后通过Reduce节点进行规约操作，完成类别判定，生成最终结果。

Map函数

Map函数的任务是根据选定的欧式距离公式，计算测试数据与每个训练样本之间的距离，将中间结果放入context集合。输入数据<key1,value1>对的形式为<行号，测试数据>；输出中间结果<key2,value2>对的形式为<测试数据ID，向量集合<训练样本的类别标识，距离值>>。相应的伪代码如图3所示。

Reduce函数

Reduce函数的任务是取出k个最近邻样本，确定出现频率最多的类别，并将其赋予测试数据。执行Reduce函数前，需要先将不同Map节点上相同key的数据上传送到同一Reduce节点上，以便于后续的分类，这依赖于后台系统的shuffle操作。输入数据<key2,value2>对的形式为<测试数据ID，向量集合<训练样本的类别标识，距离值>>，输出数据<key3,value3>对的形式为<测试数据ID，测试数据类别>。相应的伪代码如图4所示。

图3 Map函数伪代码

图4 Reduce函数伪代码

KNN算法的MapReduce并行化方法将KNN算法由1个主机的串行处理转变为多个节点的并行处理，若集群规模为p，则并行实现时间复杂度为O(nl/p)，远低于串行实现时间复杂度。

综上所述，KNN算法的MapReduce并行化方法的流程如图5所示。

图5 KNN算法的MapReduce并行化方法流程图

6 仿真验证

1. 实验环境与实验数据

全部实验都是在实验室搭建的Hadoop平台上运行的，其结构如图6所示。平台共有6台机器，CPU型号为Inter(R) Core(TM) i7，8GB内存。1台机器作为JobTracker服务节点，其他5台机器作为TaskTracker服务节点。每台机器之间用千兆以太网卡，通过交换机连接。Hadoop版本为0.20.2，并基于此配置集群。算法实现软件采用内含大量数据挖掘算法的Weka，它是在科学研究中被广泛采用的数据挖掘工具。

图6 Hadoop平台结构图

雷达信号特征能够通过脉冲描述字（PDW）进行表述，PDW包括脉冲到达时间（TOA）、脉冲到达角（AOA）、脉冲重复频率（PRF）、脉宽（PW）和脉冲幅度（PA），因此雷达信号数据集是具有5维属性的m（m为雷达信号类别数）分类数据。依靠某军用雷达实验室管控仿真软件，通过自行设置参数，本文获得了仿真雷达信号数据集S，该数据集具体信息如表1所示。

表1数据集信息

2. 加速比性能比较实验

加速比指同一个任务串行实现和并行实现消耗时间的比率，通常用来衡量并行系统的性能。故采用加速比验证KNN算法的MapReduce并行化能否满足快速分类的要求。

本文借鉴工程上信噪比计算方法，重新定义加速比计算公式为：

其中，SP为加速比；t_k为KNN算法单机串行实现所消耗时间；t_m为KNN算法的MapReduce并行实现所消耗时间。

当SP<0时，并行实现所用时间多于串行实现；当SP=0时，并行实现所用时间与串行实现相同；
当SP>0时，并行实现所用时间少于串行实现。可见本文加速比计算公式相比传统的计算公式，能够更加准确和方便地对实验结果进行处理和分析。

基于数据集S分别采用1、2、3、4、5个TaskTracker节点参与计算，验证在不同数目节点下的加速比。实验结果如图7所示。

图7 加速比性能比较

由图7可见，当节点数较少时，即当节点数分别为1和2时，所提方法加速比小于0，说明此时并行实现所用时间多于串行实现，这是因为Hadoop集群上Job的启动和交互需要占用较大的时间，当节点较少时无法体现出集群加速优势。随着节点数的增多，可见加速比值变为正值，说明此时并行实现所用时间少于串行实现，在一定数目范围内，节点数越多，处理速度越快，所用时间越少。实验结果验证了所提方法具有良好的加速比和扩展性。

7 结语

本文针对机载电子对抗情报分析中面对大规模卸载雷达信号数据无法快速识别的问题，基于KNN算法，借助MapReduce编程模型，提出了KNN算法的MapReduce并行化方法。该方法通过编写Map函数和Reduce函数，将传统的KNN算法的串行实现优化为并行实现，降低了时间复杂度，因此缩短了识别所用时间。通过在大规模仿真雷达信号数据的实验，验证了所提方法的合理性和有效性。