美国蒙莫斯大学：基于深度学习的手势识别及无人机控制

Original 好文分享机器智能研究MIR 2022-12-11

收录于合集 #IJAC特约好文 70个

手势识别研究吸引了世界上越来越多学者的关注。除了应用于日常生活中，手势识别也开始进入虚拟现实、医疗系统、教育、通信系统、游戏、移动设备、汽车等领域。9月，IJAC在线发表了来自美国蒙莫斯大学青年学者Hu Bin和终身教授Wang Jiacun的研究成果：基于深度学习的手势识别及无人机控制。该研究尝试将深度学习方法应用于动态手势识别中，旨在控制无人机。相较以往研究，本研究是首个将Leap Motion控制器作为输入设备应用于基于深度学习网络的手势识别中的研究。

Deep Learning Based Hand Gesture Recognition and UAV Flight ControlsBin Hu, Jiacun Wang1)SpringerLink:https://link.springer.com/article/10.1007/s11633-019-1194-72)IJAC URL:http://www.ijac.net/en/article/doi/10.1007/s11633-019-1194-7

作者所在团队照片(来自蒙莫斯大学主页)

第一作者正在做飞行控制实验（作者供图）

全文导读

当前有三种手势识别技术：基于数据手套的手势识别(data glove based)、基于视觉的手势识别(vision based)以及基于雷达的手势识别(radar based)。数据手套是一种交互设备，外形与手套类似，可应用于机器人及虚拟现实领域，以实现触觉控制和微动控制(tactile sensing and fine-motion control)。传感器的输出能够用来控制视频游戏、音乐及其他视觉娱乐活动。这一技术的优势在于无需从背景中提取手势，但由于整套设备成本高、需要校准、过于笨重、不易携带，因此相较于基于视觉的手势识别系统而言，应用范围并不广。

基于雷达的手势识别技术是通过向目标发射无线电波(radio wave)，雷达接收端再拦截目标的反射能(reflected energy)来识别手势。雷达波(radar waves)遇到人手后会反弹回接收端，并反映出变化的人手形状及运动轨迹。这一技术还处于研发阶段，其中发展前景较好的有谷歌的Soli手势传感器，该项技术已于2019年1月获美国政府批准。

另一方面，基于视觉的识别方法也发展迅速。实验对象无需携带设备，能以更自然的状态做出手势。早期的研究大多使用彩色摄像机(color cameras)来搭建手势识别系统，而现在的识别系统，如微软Kinect、Leap Motion控制器、因特尔RealSense通常采用深度图像(depth images)作为模态(modality)。

Leap Motion控制器是一个小型的USB口设备(USB powered device)，通过2个单色红外摄像头(monochromatic infrared cameras)及3个红外发光二极管(three infrared LEDs)来追踪半径为1米的3D空间里(1m hemispherical 3D space)的手及手指的运动轨迹。整套设备成本低，使用者能像在现实生活中一样自由做出手势，深度传感器(depth sensors)可实时捕捉外界任何光线条件下(any ambient lighting)的动作视频并输出骨骼数据(skeletal data)。此外，无论是简单的手部移动，还是复杂的手部形状变化，Leap Motion控制器都能识别。因此，Leap Motion控制器是当前应用最广泛的手势识别摄像机之一。本文的研究也将Leap Motion控制器作为数据输入设备。

手势可分为静态姿势(static postures)和动态手势(dynamic gestures)，本研究主要集中于动态手势。

多数静态姿势识别研究采用基于神经网络的方法(neural-network-centered approaches)。对于动态手势识别而言，最常用的方法是通过时空序列(spatiotemporal sequences)来描述手势(represent gestures)。自Starber和Pentland开始使用隐马尔可夫模型(hidden Markov models)后，该模型就发展为手势识别的常用方法。

一些研究还采用了其他方法，如隐条件随机场(hidden conditional random fields)、自回归模型(autoregressive models)、模糊逻辑(fuzzy-logic)、卡尔曼滤波(Kalman-filtering)、支持向量机(support vector machines)以及递归神经网络(recurrent neural networks)。

作为机器学习的一个分支，深度学习模型因其强大的学习及分类能力，迅速吸引了学术界及工业界的关注。许多研究领域，如语音识别、计算机视觉、自然语言处理等，都应用了这一技术。近年来，最重要的神经网络之一---卷积神经网络(convolutional neural network)，在完成手势识别任务时表现出优良性能。

本文尝试将深度学习方法应用于动态手势识别中，旨在控制无人机。本文构建了一个数据模型，通过将4D时空数据(4-D spatiotemporal data)转换成2D矩阵(2-D matrix)和1D阵列(1-D array)来描述动态手势序列(dynamic gesture sequence)。为了对比择优，研究人员设计了2个完全连接的神经网络和1个卷积神经网络，以及2个用以训练和测试神经网络的数据模型。基于深度学习神经网络，本文还搭建了一套软件系统(software system)。相较以往研究，本文是首个将Leap Motion控制器作为输入设备应用于基于深度学习网络的手势识别中的研究。

本文结构如下：第二部分介绍了深度学习的基本概念；第三部分概览了手势识别系统、Leap Motion控制器和无人机的研究与发展；第四部分介绍了用于本文系统中的手势及数据集；第五部分集中于深度学习网络，即本文所提系统的核心；第六部分讨论了神经网络训练及测试结果；第七部分提出了一些对未来研究的建议。

本文所提系统中包含了3个组成部分：手势输入组件、深度学习神经网络组件、无人机控制组件，如上图所示。

图7-图10（来自论文）

研究者设计、训练、测试了3个不同的神经网络，如图7所示，包括两层完全连接的网络，五层完全连接的网络以及八层卷积网络。图8至图10分别介绍了这三种网络的结构，表2至表4是其高层级设计。

表2-表4（来自论文）

全文下载

Deep Learning Based Hand Gesture Recognition and UAV Flight Controls

Bin Hu, Jiacun Wang

1)SpringerLink:

https://link.springer.com/article/10.1007/s11633-019-1194-7

2)IJAC URL:

http://www.ijac.net/en/article/doi/10.1007/s11633-019-1194-7