美国蒙莫斯大学:基于深度学习的手势识别及无人机控制
手势识别研究吸引了世界上越来越多学者的关注。除了应用于日常生活中,手势识别也开始进入虚拟现实、医疗系统、教育、通信系统、游戏、移动设备、汽车等领域。9月,IJAC在线发表了来自美国蒙莫斯大学青年学者Hu Bin和终身教授Wang Jiacun的研究成果:基于深度学习的手势识别及无人机控制。该研究尝试将深度学习方法应用于动态手势识别中,旨在控制无人机。相较以往研究,本研究是首个将Leap Motion控制器作为输入设备应用于基于深度学习网络的手势识别中的研究。
作者所在团队照片(来自蒙莫斯大学主页)
第一作者正在做飞行控制实验(作者供图)
当前有三种手势识别技术:基于数据手套的手势识别(data glove based)、基于视觉的手势识别(vision based)以及基于雷达的手势识别(radar based)。数据手套是一种交互设备,外形与手套类似,可应用于机器人及虚拟现实领域,以实现触觉控制和微动控制(tactile sensing and fine-motion control)。传感器的输出能够用来控制视频游戏、音乐及其他视觉娱乐活动。这一技术的优势在于无需从背景中提取手势,但由于整套设备成本高、需要校准、过于笨重、不易携带,因此相较于基于视觉的手势识别系统而言,应用范围并不广。
基于雷达的手势识别技术是通过向目标发射无线电波(radio wave),雷达接收端再拦截目标的反射能(reflected energy)来识别手势。雷达波(radar waves)遇到人手后会反弹回接收端,并反映出变化的人手形状及运动轨迹。这一技术还处于研发阶段,其中发展前景较好的有谷歌的Soli手势传感器,该项技术已于2019年1月获美国政府批准。
另一方面,基于视觉的识别方法也发展迅速。实验对象无需携带设备,能以更自然的状态做出手势。早期的研究大多使用彩色摄像机(color cameras)来搭建手势识别系统,而现在的识别系统,如微软Kinect、Leap Motion控制器、因特尔RealSense通常采用深度图像(depth images)作为模态(modality)。
Leap Motion控制器是一个小型的USB口设备(USB powered device),通过2个单色红外摄像头(monochromatic infrared cameras)及3个红外发光二极管(three infrared LEDs)来追踪半径为1米的3D空间里(1m hemispherical 3D space)的手及手指的运动轨迹。整套设备成本低,使用者能像在现实生活中一样自由做出手势,深度传感器(depth sensors)可实时捕捉外界任何光线条件下(any ambient lighting)的动作视频并输出骨骼数据(skeletal data)。此外,无论是简单的手部移动,还是复杂的手部形状变化,Leap Motion控制器都能识别。因此,Leap Motion控制器是当前应用最广泛的手势识别摄像机之一。本文的研究也将Leap Motion控制器作为数据输入设备。
手势可分为静态姿势(static postures)和动态手势(dynamic gestures),本研究主要集中于动态手势。
多数静态姿势识别研究采用基于神经网络的方法(neural-network-centered approaches)。对于动态手势识别而言,最常用的方法是通过时空序列(spatiotemporal sequences)来描述手势(represent gestures)。自Starber和Pentland开始使用隐马尔可夫模型(hidden Markov models)后,该模型就发展为手势识别的常用方法。
一些研究还采用了其他方法,如隐条件随机场(hidden conditional random fields)、自回归模型(autoregressive models)、模糊逻辑(fuzzy-logic)、卡尔曼滤波(Kalman-filtering)、支持向量机(support vector machines)以及递归神经网络(recurrent neural networks)。
作为机器学习的一个分支,深度学习模型因其强大的学习及分类能力,迅速吸引了学术界及工业界的关注。许多研究领域,如语音识别、计算机视觉、自然语言处理等,都应用了这一技术。近年来,最重要的神经网络之一---卷积神经网络(convolutional neural network),在完成手势识别任务时表现出优良性能。
本文尝试将深度学习方法应用于动态手势识别中,旨在控制无人机。本文构建了一个数据模型,通过将4D时空数据(4-D spatiotemporal data)转换成2D矩阵(2-D matrix)和1D阵列(1-D array)来描述动态手势序列(dynamic gesture sequence)。为了对比择优,研究人员设计了2个完全连接的神经网络和1个卷积神经网络,以及2个用以训练和测试神经网络的数据模型。基于深度学习神经网络,本文还搭建了一套软件系统(software system)。相较以往研究,本文是首个将Leap Motion控制器作为输入设备应用于基于深度学习网络的手势识别中的研究。
本文结构如下:第二部分介绍了深度学习的基本概念;第三部分概览了手势识别系统、Leap Motion控制器和无人机的研究与发展;第四部分介绍了用于本文系统中的手势及数据集;第五部分集中于深度学习网络,即本文所提系统的核心;第六部分讨论了神经网络训练及测试结果;第七部分提出了一些对未来研究的建议。
本文所提系统中包含了3个组成部分:手势输入组件、深度学习神经网络组件、无人机控制组件,如上图所示。
图7-图10(来自论文)
研究者设计、训练、测试了3个不同的神经网络,如图7所示,包括两层完全连接的网络,五层完全连接的网络以及八层卷积网络。图8至图10分别介绍了这三种网络的结构,表2至表4是其高层级设计。
表2-表4(来自论文)
Deep Learning Based Hand Gesture Recognition and UAV Flight Controls
Bin Hu, Jiacun Wang
1)SpringerLink:
https://link.springer.com/article/10.1007/s11633-019-1194-7
2)IJAC URL:
http://www.ijac.net/en/article/doi/10.1007/s11633-019-1194-7
最优质的论文
【综述】美外籍院士Brian Anderson: 社交网络中舆论动力学研究进展
【综述专栏】中科院自动化所杜清秀:基于微惯性技术的行人航迹推演系统研究现状
【综述专栏】华盛顿大学陈一昕: 深度学习在健康检测数据中的应用
最受欢迎的干货
更多精彩内容,欢迎关注
1) IJAC官方网站:
http://link.springer.com/journal/11633
2) Linkedin: Int. J. of Automation and Computing
3) 新浪微博: IJAC-国际自动化与计算杂志
4) Twitter: IJAC_Journal
5) Facebook: ijac journal
关于杂志或文章,您有任何意见或建议,欢迎后台留言或私信小编
本文编辑:欧梨成
点击"阅读原文"下载全文