佳文选读｜基于多通道调频连续波毫米波雷达的微动手势识别

Original 夏朝阳，徐丰等电子与信息学报 2022-07-02

收录于合集 #佳文 22个

手势识别技术在人机交互领域具有重要的应用价值，可用于智能家居、智能驾驶、VR、手语实时翻译、游戏控制等多种应用场景。现有的手势识别方法主要包括基于穿戴式传感器，基于可见光、红外、深度等视觉图像，基于超声波，基于TV, RFID, Wi-Fi等非宽带无线通信信号和基于雷达5种。但是，以上的5种方法都存在着些许的不足，那么我们应该怎样更好的进行手势识别呢？下面介绍一种改进的基于雷达的手势识别方法。

今日推荐复旦大学电磁波信息科学教育部重点实验室发表于《电子与信息学报》2020年42卷第1期的论文：基于多通道调频连续波毫米波雷达的微动手势识别，该文提出一种基于多通道调频连续波(FMCW)毫米波雷达的微动手势识别方法，并给出一种微动手势特征提取的最优雷达参数设计准则，从而使手势识别达到更好的效果。

READING论文信息

论文标题：基于多通道调频连续波毫米波雷达的微动手势识别

论文作者：夏朝阳、周成龙、介钧誉、周涛、汪相锋、徐丰

第一单位：复旦大学电磁波信息科学教育部重点实验室

关键词：毫米波雷达；微动手势识别；调频连续波；卷积神经网络

论文看点

1. 原理与方法

本文所提基于多通道FMCW毫米波雷达的微动手势识别方法，主要包括雷达最优参数设计、手势特征提取、手势数据集构建和卷积神经网络(Convolutional Neural Network, CNN)结构设计4个部分。其中，雷达最优参数设计部分阐述了如何设计合适的雷达参数，从而能够准确表征微动手势；手势特征提取部分阐述了从雷达回波中获得距离多普勒谱、距离谱、多普勒谱和角度谱的过程；手势数据集构建部分阐述了构造手势特征图像和构建特征图像数据集的过程；CNN结构设计部分阐述了针对雷达手势特征图像设计的轻量化卷积神经网络的主要结构。

2. 构建手势数据集

实验采用的多通道FMCW毫米波雷达设备为TI公司的AWR1642-BOOST开发板，支持77～81 GHz最大4 GHz的调频带宽，水平和垂直方向视场角均为±60°，支持最多2个发射天线和4个接收天线。采用TI公司的DCA1000高速数据采集卡获取毫米波雷达芯片输出的中频信号采样数据，并经由以太网传输到戴尔OptiPlex 7010 Mino Tower台式机上(Windows10 64位操作系统，Inter® CoreTM i7-3370 4核CPU@3.40 GHz, 16 GB内存，2 GB显存NVIDIA GeForce GTX 760显卡)，在MATLAB 2018b中进行数据处理以及CNN训练与分类。实验使用2发4收的天线阵列以时分复用的MIMO方式构成1维虚拟天线阵列，包含8个数据通道。雷达主要参数设置为特征帧长10，每帧Chirp数128，每个Chirp采样点数64，调频频率范围77～81 GHz，实验流程如图1所示。

图1 实验流程图

3. 训练与分类

根据输入手势特征图像的通道数，将CNN的图像输入层尺寸设置64×64×1或64×64×3，输入的特征图像需要被进行缩放，缩放后的手势特征图像如图所示，为了弥补手势特征在图像水平方向的位置差异，设置水平方向左移5个像素到右移5个像素的数据增强，采用动量梯度下降优化器， 0.001的恒定学习率，迭代20个Epochs，每次迭代的批样本数(batch size)为64，每个Epoch迭代次数为112，采用GPU加速训练，在训练过程中进行测试集的验证，每迭代50次测试一次数据集，一次完整的训练和测试过程需要耗时3 min左右。

图2 7类微动手势的动作示意图与5种特征图

4. 多种手势表征方法的对比

为了比较不同分类特征的手势表征能力，分别将SC-RDTM,CA-RDTM,CA-DTM,CA-RTM,HATM以及RTM, DTM与HATM联合作为手势特征，进行CNN训练与测试，其中RTM, DTM与HATM联合的多维参数特征的CNN输入层大小设置为64×64×3, 3个通道分别对应CA-RTM, CA-DTM与HATM 3 种特征。

首先将7名实验对象的手势数据集按实验对象划分为5:2的比例，其中5名实验对象作为训练对象，另外2名实验对象作为测试对象，之后将5名训练对象的手势数据集按照6:4的比例分成训练集和测试集，每类训练样本数150，每类测试样本数100，共计1050个训练样本和700个测试样本，顺序被随机打乱后输入卷积神经网络进行训练和测试，对6种手势特征对应的7类微动手势的平均分类准确率如表1所示。

表1 多种手势表征方法的对比

将包含2名测试对象，6种手势特征，7类手势各50张图像样本的手势数据集作为对象未经训练的测试集，分别用来测试6种手势特征对应的CNN分类模型的泛化能力，对7类微动手势的平均分类准确率如表2所示。

表2 多种手势表征方法的对比

单通道距离-多普勒-时间图(SC-RDTM)特征的平均分类准确率仅次于通道平均距离-多普勒-时间图(CA-RDTM)特征，两者分类表现差异不大，实际应用中可以综合考虑是否需要角度信息以及多通道的内存占用消耗来选择采用单通道还是通道平均。

CA-DTM特征取得了与RDTM特征接近的分类表现，明显优于CA-RTM与HATM特征，说明单独的DTM特征也能够比较有效地区分7类微动手势，是决定RDTM特征和多通道联合特征分类表现的主要特征，而融合了距离特征的RDTM特征能够进一步获得更好的分类表现，验证了融合的有效性。

单一的CA-RTM特征和HATM特征表现不佳，主要是因为微动手势的距离和角度变化不明显，而将微动手势表征能力差的CA-RTM特征和HATM特征与CA-DTM特征在CNN中进行通道融合会明显降低分类表现，说明这种融合方法不可取。

对比表1和表2中利用相同分类特征和分类方法对5名训练对象和2名测试对象的平均分类准确率可以看出，本文设计的分类特征和分类方法对训练集中有对应样本的训练对象的分类表现优异，但对训练集中没有对应样本的测试对象的分类表现不佳，说明模型的泛化能力还有进一步的提升空间，一方面可以考虑采集大量训练对象的样本进行训练，另一方面可以考虑改进CNN的结构和参数设计。

结论本文提出了一种基于多通道FMCW毫米波雷达的微动手势识别方法，给出了能够有效表征微动手势的雷达参数设计方法。针对雷达特征图像设计了仅有3个卷积层和2个全连接层的轻量化卷积神经网络，利用SC-RDTM, CA-RDTM, CA-DTM, CA-RTM, HATM以及RTM, DTM与HATM联合等6种雷达特征对应的7类微动手势数据集进行训练和测试，并分别对5名包含在训练样本中的训练对象和2名未包含在训练样本中的测试对象进行分类。分类结果显示，相比其他特征，本文设计的距离-多普勒-时间图特征能够有效融合距离-时间和多普勒-时间特征，取得最优的分类表现，对5名训练对象的平均分类准确率为99.14%，对2名测试对象的平均分类准确率分别为87.71%和85.43%，证明本文提出的微动手势识别方法不仅具有更好的微动手势表征能力，而且具有较好的测试对象泛化能力。

团队信息夏朝阳：男，1993年生，博士生，研究方向为雷达信号处理、目标识别和深度学习。
周成龙：男，1995年生，硕士生，研究方向为雷达目标识别和深度学习应用。
介钧誉：男，1993年生，硕士生，研究方向为雷达目标识别和深度学习应用。
周涛：男，1996年生，硕士生，研究方向为雷达目标识别和深度学习应用。
汪相锋：男，1995年生，硕士生，研究方向为雷达目标识别和深度学习应用。
徐丰：男， 1982年生，教授，博士生导师，研究方向为SAR图像解译、电磁散射建模和类脑人工智能。点击此处阅读原文

本文系《电子与信息学报》独家稿件

内容仅供学习交流

版权属于原作者

欢迎大家关注转发

END

编辑：李宇鹏、陈倩

校对：马秀强、刘艳玲、余蓉

审核：陈倩

温馨提示

如果您关注的公众号较多，不能及时看到本刊的推送，建议您给本刊公众号加星标或置顶。【点击文章标题下方的蓝色字体“电子与信息学报”进入本刊公众号，点击右上角“...”选择设为星标，置顶公众号】

往期推荐

综述丨基于深度学习的手语识别综述