机器学习在遥感中的应用
The following article is from 空天信息 Author 田汶鑫
点击图片上方蓝色字体“慧天地”即可订阅
作者部门:中科院定量遥感信息技术重点实验室
01
机器学习是如何工作的核心思想:根据训练样本确定一个判别函数g(x),根据g(x)的值来对未知样本进行分类。主要分为:
(1)线性分类器
判别函数的形式是线性的,用一个“超平面”将正、负样本隔离开。
例如,感知机是二分类的线性模型,其输入是实例的特征向量,输出的是事例的类别,分别是+1和-1,属于判别模型。假设训练数据集是线性可分的,感知机学习的目标是求得一个能够将训练数据集正实例点和负实例点完全正确分开的分离超平面。
(2)非线性分类器
非线性分类器就是用一个“超曲面”或者多个超平(曲)面的组合将正、负样本隔离开。核心思想:将非线性判别函数转换为广义线性判别函数,然后在线性空间里求解最优分类平面。
最近邻算法:以离未知样本最近的样本作为唯一判决依据。
K-近邻算法(KNN):以离未知样本最近的k个样本作为判决依据。
模型由三个基本要素决定:距离度量、K值的选择、分类决策规则
(1)距离度量:两个实例点的距离是其相似程度的反映,一般用欧氏距离、曼哈顿距离等方法计算。
(2)K值的选择:对K近邻的结果产生重大影响。
(3)分类决策规则:K近邻中往往是多数表决。
决策树算法将一组“弱”学习器集合在一起,形成一种强算法,这些学习器组织在树状结构中,相互分支。决策树分类算法能从给定的无序的训练样本中,提炼出树型的分类模型。对新的样本进行测试时,只需要从根节点开始,在每个分支节点进行测试,沿着相应的分支递归地进入子树再测试,一直到达叶子节点,该叶子节点所代表的类别即是当前测试样本的预测类别。
树中的每个非叶子节点记录了使用哪个特征来进行类别的判断,每个叶子节点则代表了最后判断的类别。根节点到每个叶子节点均形成一条分类的路径规则。下图是一个银行根据贷款人的收入和教育程度决定是否贷款的决策树。
贝叶斯算法都是基于Bayes理论的,核心思想是根据对象归于某个模式的概率来进行决策分类。
最流行的算法是朴素Bayes,它经常用于文本分析。例如,大多数垃圾邮件过滤器使用贝叶斯算法,它们使用用户输入的类标记数据来比较新数据,计算新数据属于某个类的概率,将其分类至最大概率对应的那个类中。
聚类算法的重点是发现元素之间的共性并对它们进行相应的分组,常用的聚类算法是k-means聚类算法。在k-means中,分析人员选择簇数(以变量k表示),并根据某个距离函数反复地把数据分入k个聚类中,一般情况下,在进行聚类前,需要人为的指定K的个数。
人工神经网络算法基于生物神经网络的结构,深度学习采用神经网络模型并对其进行更新。它们是大、且极其复杂的神经网络,使用少量的标记数据和更多的未标记数据。神经网络和深度学习有许多输入,它们经过几个隐藏层后才产生一个或多个输出。这些连接形成一个特定的循环,模仿人脑处理信息和建立逻辑连接的方式。此外,随着算法的运行,隐藏层往往变得更小、更细微。
02
机器学习在遥感中的应用如今,在计算机科学的诸多分支学科领域中,无论是多媒体、图形学、网络通信、软件工程乃至体系结构、芯片设计,都能找到机器学习技术的身影,而遥感领域,涉及到大量的图像和数据处理,机器学习已经在遥感领域有着非常广泛的应用。
面对大量的遥感数据,从中进行数据分析和挖掘,单纯利用人工的手段,效率已经难以满足实际的需求,同时人工手段需要专业人员的参与,成本巨大。因此,而深度学习技术恰好可以应对大量数据的处理和分析工作。一般分为三个步骤,即输入数据、深度学习网络以及输出结果,一般的数据分析,主要有遥感图像预处理、基于像素的分类、目标识别以及场景理解四种。
实际上,输入-输出数据配对取决于特定的应用程序。例如,对于遥感图像平移锐化,它们是高分辨率和全色图像的低分辨率图像的融合;对于基于像素的分类,它们是光谱-空间特征及其特征表示(无监督版本)或标签信息(监督版本);而对于目标识别任务和场景理解,输入是从对象建议中提取的特征,以及原始高分辨率图像和遥感图像中的像素数字。当模型训练完成时,输入新的数据,就可以进行预测。
在面对海量遥感观影像中,甄别出特定的目标,是机器学习算法的又一大用武之地,基于卷积神经网络的目标检测算法,恰好可以从大范围的影像中寻找目标。这在国防军事等方面,有着重大的意义。
一般遥感地物识别,可以分为目标检测,例如从遥感影像中检测飞机、舰艇等。另外一方面,可以进行地表分类,对地表地物进行仔细的划分,制作成时间序列遥感数据,可以进一步分析在时空上的变化。
为保护生态环境、保持水土以及生物的多样性,需要对环境保护区地貌变化进行监测,遥感时间序列遥感影像形成的时序数据能够反映地表的变化趋势,如水覆盖量、干旱程度变化等。神经网络中的RNN(Recurrent Neural Network)网络恰好可以用来分析时间序列上前后相关的数据,因而RNN被广泛用于时间序列遥感数据的分析和预测中,下图是利用时间序列遥感影像监测地表水体的覆盖程度。
随着遥感科学领域的不断发展前进,机器学习的方法的应用也将越来越广泛。相信在未来,随着遥感卫星观测能力的不断提升,机器学习方法的不断提高,机器学习在遥感中的应用会越来越频繁。在未来,机器学习的方法会逐渐替代人工的方法,实现全自动化的处理分析方式。
参考文献
[1] 李航. 统计学习方法[M]. 清华大学出版社, 2012.
[2] 周志华, 王珏. 机器学习及其应用2009[M]. 清华大学出版社, 2009.
[3] Zhang L , Zhang L , Du B . Deep Learning for Remote Sensing Data: A Technical Tutorial on the State of the Art[J]. IEEE Geoscience and Remote Sensing Magazine, 2016, 4(2):22-40.
[4] Cheng G , Han J . A Survey on Object Detection in Optical Remote Sensing Images[J]. Isprs Journal of Photogrammetry & Remote Sensing, 2016, 117:11-28.
[5] Romero A , Gatta C , Camps-Valls G . Unsupervised Deep Feature Extraction for Remote Sensing Image Classification[J]. IEEE Transactions on Geoscience & Remote Sensing, 2015, 54(3):1349-1362.
[6] Cheng G , Zhou P , Han J . Learning Rotation-Invariant Convolutional Neural Networks for Object Detection in VHR Optical Remote Sensing Images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016:1-11.
来源:空天信息(版权归原作者及刊载媒体所有)
欢迎大家关注《慧天地》同名新浪微博
微博ID:慧天地_geomaticser
荐读
点击下文标题即可阅读
2019年度机器学习49个顶级开源工程汇总
热门机器学习开源资源盘点
编辑 /江哲伟 审核 / 裴家珍 郭梅
指导:万剑华教授