深度学习的半监督遥感图像检索
点击图片上方蓝色字体“慧天地”即可订阅
(点击图片可放大观看,更多精彩留意文末推荐)
张洪群1,刘雪莹1,2,杨森1,2,李宇1
1. 中国科学院遥感与数字地球研究所,北京 100094;
2. 中国科学院大学,北京 100049
摘 要:遥感图像数据的海量性、多样性和复杂性等特点对遥感图像检索的速度和精度提出了更高的要求,其中 特征提取是影响遥感图像检索效果的关键。本文方法首先对遥感图像进行预处理,然后基于稀疏自动编码的方 法在大量未标注的遥感图像上进行特征学习得到特征字典,基于卷积神经网络的思想,使用训练出来的特征字 典对遥感图像进行卷积和池化得到每幅图像的特征图;接下来使用特征图训练Softmax分类器;最后对待检索图 像分类,在同一类别中计算特征间的距离,进而实现遥感图像的检索。实验结果表明,该方法能够有效提高遥 感图像检索的速度和准确度。
关键词:遥感图像检索,深度学习,稀疏自动编码,卷积神经网络,Softmax分类器
中图分类号:TP751 文献标志码:A
引用格式:张洪群, 刘雪莹, 杨森, 李宇. 2017. 深度学习的半监督遥感图像检索. 遥感学报, 21(3): 406–414
Zhang H Q, Liu X Y, Yang S and Li Y. 2017. Retrieval of remote sensing images based on semisupervised deep learning. Journal of Remote Sensing, 21(3): 406–414 [DOI:10.11834/jrs.20176105]
1 引 言
基于内容的遥感图像检索CBRSIR(Content- Based Remote Sensing Image Retrieval),是基于内 容的图像检索技术在遥感图像上的应用(李德仁和 宁晓刚,2006)。CBRSIR基于遥感图像本身的特 征,由系统代替用户进行遥感图像特征的描述、 提取和分析,是目前遥感图像检索技术研究的重 要方向,是数字地球等重大项目中解决信息检索 难题的一项关键技术。
遥感图像特征提取是CBRSIR的关键环节,它 的好坏直接影响到系统的运行效率和检索效果。 传统的特征提取主要依据遥感图像的底层视觉特 征,包括颜色、纹理、形状和空间信息等(刘米 娜,2013):Sheikholeslami等人(1999)用小波分析 的方法提取图像的纹理特征,用于地学图像检 索;Kitamoto和Takagi(1994)用可变椭圆分解法按 形状和空间分布将台风云图分解为不同层次的一系列椭圆,提出了一种基于层次属性关系图的云 图检索方法;Zhu等人(2000)用Gabor滤波法提取图 像的纹理特征,用于航空遥感图像的检索;陆丽 珍等人(2004)提出了一种加权颜色和纹理特征距离 的方法用于高分辨率卫星和航空遥感图像的检 索。然而,遥感图像存在多样性、复杂性和海量 性等特点,无论是使用单一特征还是综合特征,图 像底层特征和上层理解之间总是存在较大的差异, 即“语义鸿沟”(semantic gap),这种现象是由于底层 特征不能完全反映或者匹配查询意图所造成的。
为了解决“语义鸿沟”的问题,人们尝试对图像 底层特征进行学习分类以获得图像语义特征。Mojsilovic和Rogowitz(2001)通过多层聚类分析寻找 图像底层视觉特征和图像语义之间的关系,进行 图像的分类和检索;Zhao等人(2014)等提出了一种 基于多尺度的中心圆结构的BOVW模型,并证明 了这种方法在高分辨率遥感影像的分类上是有效 的。然而这些获取图像语义特征的方法都具有明显的人工痕迹,且严重依赖分类或聚类算法,在 实际应用中适应性较差。
近年来,深度学习的方法(Hinton和Salakhut- dinov,2006;Lecun 等,2015)在传统的语音识 别、目标识别和探测、自然语言处理,以及其他 的一些应用领域都取得了很大的成功(Hu 等,2015a)。深度学习思想的发展为图像特征的获取提 供了新思路。在遥感图像大数据的背景下,通过 对大规模遥感图像数据进行训练,更加复杂强大 的深度学习模型能从根本上揭示海量遥感图像中 潜在的复杂而又丰富的数据信息,得到大量更具 代表性的特征信息。深度学习是一种从遥感数据 中提取表示的好方法,用于CBRSIR中前景广阔。Mnih和Hintion(2010)等首次将深度学习运用于遥 感领域,采用深度信念网络DBN(Deep Belief Network)模型对机载遥感图像中的道路进行检测;Luus等人(2015)等采用深度卷积神经网络DCNN(Deep Convolutional Neural Network)进行土 地利用分类。然而这些方法大多数采用监督分 类,需要提前对图像进行标注,对海量遥感图像 进行标注是十分繁琐与低效的。
本文提出了一种基于深度学习的半监督遥感 图像检索方法。该方法采用稀疏自动编码(sparse autoencoder)算法对海量遥感图像进行无监督学 习,训练时无需大量标签,避免了对海量遥感图 像的标注工作,大大提高方法的自动化程度。同 时,方法将卷积神经网络CNN(Convolutional Neural Network)共享权值的思想引入到特征提取过程中, 对遥感图像进行卷积处理,并进行池化以减少特 征维度,提取出有效的特征对图像进行表示。另 外,借助有监督的Softmax分类器将遥感图像分 类,在缩小检索范围的同时提高了检索速度。
2 模型方法
本文的模型方法是一种结合无监督方法和有 监督方法的半监督检索方法,检索处理流程如图1所示:对遥感图像预处理完成后,首先,采用无 监督的特征学习方法稀疏自动编码进行遥感图像 的特征提取;然后,对图像进行卷积处理并建立 图像特征库,接下来采用有监督的Softmax分类器 进行图像分类;最后,采用欧氏距离作为度量准则, 衡量图像之间的相似度,实现遥感图像检索。
图1 实验流程示意图
Fig. 1 Flow chart of the experiment
2.1 图像预处理
图像预处理的主要作用是去除图片噪声,去 除相关性,加强边缘等,以提高后续特征提取的 有效性。常见的图像预处理方法有白化,高通滤 波,低通滤波,高斯去噪等(黄劲 等,2013)。本文 采用ZCA白化(Zero-phase Component Analysis Whitening)的方法进行图像预处理,它能够保持与 原始数据相同的维度,使得白化后的数据尽可能 接近原始的数据,同时去掉数据之间的相关联度(段宝彬 等,2015)。
2.2 特征提取
2.2.1 稀疏自动编码
自动编码算法(Auto-Encoder)是深度学习的一 种典型的算法,是由Bourlard和Kamp(1988)首次提 出的,该种算法通过无监督学习进行逐层训练, 特征训练时无需有标签的数据集,并且能够很好 地表示数据空间的固有几何结构(鲁珂 等,2005)。 稀疏自动编码(Bengio 等,2006)是在自动编码的基 础上加上稀疏性限制,即稀疏模式的自动编码。 稀疏自动编码是无监督的,适合在大量的无标注遥感图像上进行特征字典的提取。它的损失函数 表达式中用到的标注的样本值(通常所说的y值)等 于本身输入的值x。稀疏自动编码的典型的网络结 构如图2所示,包括输入层、隐藏层和输出层,其 中,+1为偏置项。稀疏自动编码中的隐藏层神经 元的个数是影响方法性能的一个重要参数(Coates等,2011),本文增加了隐藏层神经元的个数,使 其个数超过了输入节点数。无稀疏约束时网络的 损失函数J(W,b)表达式如式(1):
式中,m为输入样本个数;W,b为网络参数;nl为 自编码神经网络层数;sl是第L层的节点数目;λ是 规则化系数;hw,b(x(i))是第i组样本神经网络输出 层的输出值。
图2 稀疏自动编码示意图
Fig. 2 The diagram of Sparse Autoencoder
稀疏自动编码对网络的隐藏层的输出进行约 束,使隐藏层节点输出的平均值尽量为0,进而使 大部分的隐藏层节点处于非激活状态。此时的损 失函数表达式为
式中,ρ为稀疏性参数(本文为0.05),β为参数,后 项为KL距离,表达式如下:
用KL距离来测量两个分布间的差异,KL距离 是一个以ρ为均值和一个以ρˆ为均值的两个伯努利随 机变量之间的相对熵,隐藏层节点输出平均值ρˆ 求 法如下:
式中,a j2表示在给定输入为xi的情况下,隐藏层神经元j的激活程度。对于激发函数的选取,在隐藏层采用的是sigmoid函数,在输出层采用的是线性函数。
本文中稀疏自动编码的输入为在遥感图像上 提取的图像小块。图像小块的大小是经验值,图 像小块过小不足以描述图像的特征(如边缘等);图 像小块过大会使训练过程中出现过拟合,本文采 用的图像小块大小为8×8像素。隐藏层结点设置为400个,训练得到400个特征构成特征字典,如下 面图3所示。
图3 稀疏自动编码特征字典
Fig. 3 The feature dictionary of SparseAutoencoder
2.2.2 卷积和池化
卷积神经网络由加拿大多伦多大学教授LeCun (1989)和他的同事们一起提出。CNN是一种包含卷 积层的深度神经网络模型,它的权值共享的网络 结构类似于生物神经网路,降低了网络模型的复 杂度,减少了权值的数量。目前CNN是人工神经 网络的一种,具备很强的类别泛化能力,已经成 为当前语音分析和图像识别领域的研究热点。
本文采用CNN的思想,模拟人大脑皮层中视 觉皮层不同位置只对局部区域有响应这一特点, 每个隐藏层的节点只与一部分连续的输入点连 接。如图4所示,将稀疏自动编码学习到的特征字 典用于大量的训练图像和测试图像的卷积,得到 每幅遥感图像的特征层1。
图4 遥感图像卷积和池化过程
Fig. 4 The procedure of convolution and pooling in theremote sensing images
通过卷积获取图像的特征规模十分庞大,用 这些特征进行图像的分类,很容易出现过拟合的 现象,并且会产生很大的计算量。本文采用池化(Pooling)的方法来处理这一问题。池化是对卷积得 到的结果进行统计计算,解决了卷积神经网络输 出维数过大的问题,大大减少了需要训练的参数, 从而避免了有监督特征分类器在训练过程中产生 过拟合现象(Hu 等,2015b),同时保持空间不变 性。常用的池化方法有最大值池化和均值池化两 种,均值池化能减少邻域大小受限而造成的估计 方差增大产生的误差,更多的保留图像的背景信 息,用于图像检索,因此本文采用的是均值池化 的方法。池化操作后,输出的特征图分辨率降低, 但能较好的保持高分辨率特征图描述的特征效果(尹宝才 等,2015),得到如图4所示的特征层2。
2.3 Softmax分类器
分类器的选择会对检索结果产生影响,王杰 等人(2014)对不同分类器进行对比后发现,Softmax分类器结合稀疏自编码算法学习到的特征提取网 络的分类精度优于其他分类器与特征提取算法的 组合。
Softmax分类器用于解决多分类问题,是一种 有监督学习算法(Bishop,2007),需要提供训练样 本和测试样本,以及相应的分类标签。
在本文的Softmax分类器中,有5个不同的类别标签(k=5,对应的地物类别分别为水体、城市、农田、裸地、植被5种),对于训练集{(x(1),y(1)),(x(2),y(2)),· · ·,(x(m),y(m))},有y(i)∈{1,2,· · ·,k}。对于给定的输入值x(i),使用假设函数对每一个类别j估计出概率值p=(y(i)=1|x(i);θ)。因此我们的假设函数要输出一个k维的向量来表示这k个估计值的概率。假设函数hθ(x)形式如下:
式中,θ1,θ2,· · ·,θk是模型的参数,等式右边对 概率分布进行归一化,使得所有概率之和为1。使 用θ符号来表示全部的模型参数,在Softmax分类器 进行回归计算时,将θ用一个k×(n+1)的矩阵来表 示,如下所示:
Softmax分类器代价函数是logistic回归代价函 数的一般形式,对类别标记的k个可能值进行了累加。
式中,1{·}是示性函数,1{值为真的表达式}=1,1{值为假的表达式}=0。
2.4 相似性匹配
对于每一幅待检索的图像,计算它池化后的 特征图,然后运用Softmax分类器进行分类得到此 图像类别,通过计算待检索图像的特征图与图像 库中跟它同一类别的图像的特征图之间的欧氏距 离,实现遥感图像检索。
用D(x,y)表示两幅图像x与y之间的距离,xi和yi为图像的特征向量,Euclidean距离公式如下:
按照特征距离由小到大进行排序,依次返回 检索结果。
3 实验与分析
3.1 实验数据与评价准则
实验采用的计算机配置是Intel(R) Core(TM) i5- 3470处理器,12 G内存,使用的遥感数据来源为Pleiades和SPOT 5卫星的全色波段数据。Pleiades全 色波段分辨率为0.5 m,SPOT 5全色波段分辨率为2.5 m,尝试使用不同分辨率遥感图像进行检索, 比较图像的分辨率是否影响检索结果,探讨本研 究使用的方法是否适用于不同分辨率的遥感图像 的检索。
从上述两种卫星图像中截取7000幅大小为64×64的图像组成图像库,其中训练图像为3000幅,测试图像为4000幅。按照图像所包含的主要 地物类型,将图像块划分为5种地物类型:水体、 植被、城市、农田和裸地,样例图像和类型划分如图5所示。
图5 实验卫星影像和地物分类类型
Fig. 5 Experimental satellite images and the types ofterrestrial object
分类准确度是对所有测试图像进行统计得到 的,而检索准确度只是选取了20次检索结果的平 均值,因此分类准确度更适合用来评价神经网络 的好坏。本文采用分类准确度来衡量神经网络优 劣,公式如下:
同时,本文采用检索准确度来对检索结果进 行评价,公式如下:
3.2 实验结果与分析
3.2.1 检索速度
为了提高检索速度,本文在设计模型时进行了两方面的考虑:
一是缩小每幅图像的特征数。在7000个图像块上随机采样时,得到140000幅大小为8×8的小图片,用小图片训练稀疏自动编码网络,隐藏节点选取400个,即得到的特征字典大小为400×8×8, 整个过程共迭代了400次,用时31min。
然后用特征字典对7000幅64×64的图像进行卷 积,最终每一幅图像学习到的特征数为:
400×(64-8+1)×(64-8+1)=1299600
为了防止因卷积过后的系统参数过多导致分 类器过拟合,本文采用大小为19×19的方块对卷积 后图像进行均值池化,经过池化以后每一幅图像 学习到的特征数为:
400×floor(64/19)×floor(64/19)=3600
经过池化,每一幅图像的特征数减少,从而 缩减了计算量,提高了运行速度。卷积和池化的 过程用时61 min。
二是先进行分类再检索。为了提高检索速度 和准确度,首先对图像集进行分类,总的分类时 间为0.35 min(包括使用训练数据训练Softmax分类 器和使用测试数据进行分类并统计分类准确度的 时间)。
图6中的实验(a)和实验(b)输入为同一幅遥感图 像,当返回图像个数为20个时,不分类直接进行 检索和分类后进行类内检索这两种情况下的检索 结果相差较大。进行类内检索有效的减少了相似 性高的地物的干扰。在MA TLAB中对检索速度进 行测试,分别取10次检索时间的平均值,不进行 分类的检索平均用时为2.404996 s,进行分类时检 索平均用时为1.88439 s(包括检索图像分类时间), 检索速度提高了27.6%,这对于大数据的遥感图像 的检索具有重要的意义。
图6 不进行分类和进行分类检索结果对比图(其中红色方框代表错误的检索结果)
Fig. 6 Thecomparison of retrieval results without and with classification (The redsquares represent wrong results)
3.2.2 检索准确度
(1)隐藏层神经元个数对神经网络的影响。由 于分类准确度直接影响检索准确度,这里采用分 类准确度来度量网络参数的优劣。针对不同个数 的隐藏层神经元进行实验,对应的分类准确度如 表1。
根据实验的结果,隐藏层结点数在一定的范 围内(小于400),分类精度随着隐藏层的神经元数 的增加而提高,超过这个范围,隐藏层神经元数 的增多,反而导致分类精度下降。本文最终采用400个隐藏层神经元。
(2)池化区域的大小对神经网络的影响。为了 评估池化区域大小对结果的影响,用不同的池化 区域进行试验,得到的分类准确度如表2。
当池化区域过小和过大时,都会导致结果准 确度下降,取准确度最高的时候,即池化区域大 小为19×19像素,进行检索实验。
(3)数据集大小对检索准确度的影响。为了验 证数据集大小对检索结果的影响,分别采用了1913幅和7000幅64×64大小的遥感图像集进行实验,得出Softmax分类器的分类准确度分别为82.839%和92.425%。分类完成后对图像进行类内 检索,检索结果显示在Matlab的GUI界面中,如图7所示,当待检索图像选自Pleiades卫星的图像时, 返回的检索结果以Pleiades图像为主(前10个返回图 像均为Pleiades图像),同时也有Spot图像,只是排 在稍后的位置(第11、13、14和15为Spot图像)。这 说明本检索方法首先返回同一卫星的图像,同时 不同卫星的同类图像也可以检索出来。
图 7 遥感图像集检索结果示例
Fig. 7 An example of the result of remote sensingimage retrieval
在较小遥感数据集和较大遥感数据集上分别 进行检索实验,统计结果。对五类地物分别进行 检索,每次检索分别返回20、40、60、80和100幅 图像,每类地物取20次检索结果平均值,总的检 索结果取五类地物平均值。当返回图像数量为100时,检索准确度分别为88.6%和90.6%。其中遥感 图像中分地物检索准确度如下面表3和表4所示。
从表中可以看出,水体、植被、城市和裸地 检索准确度相对较高,农田的检索准确度相对较 低。随着图像检索数目的增加,检索准确度下降 并不明显。
扩大数据集后,不同地物和整体的检索准确 度都得到了提升。从整体来看,对于较大数据 集,返回图像数目的增加并没有使检索准确度大 幅下降,检索效果随着返回图像数量的增加趋于 稳定。
(4)底层特征对比实验。采用基于颜色特征 和纹理特征这两个底层特征的遥感图像检索方 法并进行对比,图8展示了分别使用图像的颜色 直方图(刘鹏宇,2004)和纹理特征(Haralick和Shangmugam,1973)进行检索和本文方法进行检索 得到的检索准确度。其中,颜色特征提取时首先 将图像由RGB空间转化为HSV空间并进行非等间 隔量化(其中H空间量化成16级,S空间量化成4级,V空间量化成4级),然后将3个颜色分量表示 成一维矢量(L=H×Qs×Qv+S×Qv+V;Qs=4,Qv=4),接着计算L直方图作为颜色特征,根据颜 色特征进行检索;纹理特征的提取基于灰度共生 矩阵,求能量、熵、惯性矩、相关性这4个参数的 均值和标准差作为最终8维纹理特征,进行遥感图 像检索。
图8 不同方法检索准确度对比
Fig. 8 Thecomparison of different methods
(图例中S代表小数据集,L代表大数据集)
(In the legend,S represents thesmall data set,and L representsthe
large data set)
从图中可以看出,当使用颜色特征进行检索时, 检索准确度随着返回图像的数目的增加而下降的 幅度较大,而且随着数据集的增大,检索准确度下降明显;纹理特征在较大遥感数据集上的检索 结果优于较小遥感数据集,但是整体检索准确度 较差;使用本文的方法进行检索时,当返回图像 数目增加时,检索准确度下降较为缓慢,并且随 着遥感数据集的增大,检索准确度上升,整体检 索效果较好。
对检索结果进一步分析,图9和10展示了各类 地物在不同方法下的检索结果。
图9 较小遥感数据集上不同地物检索结果图
Fig. 9 The retrieval result of objects in remotesensing images on small data set
图10 较大遥感数据集上不同地物检索结果图
Fig. 10 The retrieval result of objects in remotesensing images on large data set
从图中看出,不同的方法对城市检索效果都 较好,深度学习方法对水体、裸地和植被的检索 效果都优于其他两类方法。较小数据集的水体样 本不充足导致基于颜色和基于纹理的方法检索结 果都很差,但深度学习的方法还是能够较为准确 的提取水体特征。由于部分农田和植被,部分水 体和裸地颜色相近,水体和裸地纹理特征很难区 分,导致基于颜色和基于纹理的检索方法出现较 大误差。
(5)高层特征对比实验。实验使用基于卷积神 经网络(CNN)的深度学习框架Caffe(Jia 等,2014),在本文的遥感数据集上进行特征训练和分类,训练集和测试集图像数量与本文方法相同。 网络结构为两个卷积及池化层,一个全连接层和 一个Softmax分类层,与本文的神经网络的分类结 果进行对比。结果如表5所示。
根据表5结果,本文的半监督的神经网络优于 有监督的CNN网络,在遥感图像集上取得了更好 的效果。
4 结 论
本文提出了一种基于深度学习的半监督遥感 图像检索方法。首先采用无监督的稀疏自动编码 算法进行特征提取,然后进行卷积和池化,再使 用Softmax分类器进行有监督分类。这种方法的优 点是可以在大量无标签遥感图像上进行特征学 习,只需要少量具有代表性的有标签数据进行训 练,减少了对图像进行标注的烦琐工作,适用于 大数据遥感图像的检索。并且,传统的遥感图像 检索方法一般需要提取图像的颜色、纹理、形状 等特征,而本文直接在图像像元上进行特征提取, 再基于特征进行遥感图像的检索。为了探索本方 法对大数据遥感图像的实用性,对数据集进行扩 大,并对参数进行调整,取得了两方面的成果:
一是检索速度的提高。采用先分类再进行类 内检索的方法,检索速度从不分类的2.404996 s改 进到了1.88439 s,提高了27.6%。
二是检索准确度的提高。扩大数据集后,当 返回图像数为100时,检索准确度从原来的88.6%提高到了90.6%,优于进行对比的基于颜色特征和 基于纹理特征进行遥感图像检索的方法。而且在 返回图像数目增加的同时,检索准确度下降速度 缓慢并趋于稳定。同时对稀疏自编码网络隐藏层 神经元个数和pooling区域大小等神经网络参数进 行优化和调整,取得了较好的检索结果。
参考文献(References)
Bengio Y, Lamblin P, Popovici D and Larochelle H. 2006. Greedy lay-er-wise training of deep networks//Proceedings of the 19th Inter- national Conference on Neural Information Processing Systems. Cambridge: MIT Press: 153–160
Bishop C M. 2007. Pattern Recognition and Machine Learning. New York: Springer
Bourlard H and Kamp Y. 1988. Auto-association by multilayer per- ceptrons and singular value decomposition. Biological Cybernet- ics, 59(4/5): 291–294 [DOI: 10.1007/BF00332918]
Coates A, Lee H and Ng A Y. 2011. An analysis of single-layer net- works in unsupervised feature learning//Proceedings of the 14th International Conference on Artificial Intelligence and Statistics. Fort Lauderdale, FL, USA: JMLR: 215–223
Duan B B, Han L X and Xie J. 2015. Fuzzy C-means clustering al- gorithm based on stacked sparse autoencoders. Computer Engin- eering and Applications, 51(4): 154–157 (段宝彬, 韩立新, 谢进. 2015. 基于堆叠稀疏自编码的模糊C-均值聚类算法. 计算机工 程与应用, 51(4): 154–157) [DOI: 10.3778/j.issn.1002-8331.1402- 0149]
Haralick R M and Shangmugam K. 1973. Texture features for image classification. IEEE Transaction on Systems, SMC-3(6): 768–780
Hinton G E and Salakhutdinov R R. 2006. Reducing the dimensional- ity of data with neural networks. Science, 313(5786): 504–507 [DOI: 10.1126/science.1127647]
Hu F, Xia G S, Hu J W and Zhang L P. 2015a. Transferring deep con- volutional neural networks for the scene classification of high-res- olution remote sensing imagery. Remote Sensing, 7(11): 14680–14707 [DOI: 10.3390/rs71114680]
Hu F, Xia G S, Hu J W and Zhang L P. 2015b. Transferring deep con- volutional neural networks for the scene classification of high-res- olution remote sensing imagery. Remote Sensing, 7(11): 14680–14707 [DOI: 10.3390/rs71114680]
Huang J, Sun Y and Xu H R. 2013. The application of Sparse coding on image retrieval. Digital Technology and Application(11): 76–77,81 (黄劲, 孙洋, 徐浩然. 2013. 稀疏编码(Sparse coding)在 图像检索中的应用. 数字技术与应用(11): 76–77,81)
Jia Y Q, Shelhamer E, Donahue J, Karayev S, Long J, Girshick R, Guadarrama S and Darrell T. 2014. Caffe: convolutional architec- ture for fast feature embedding. Eprint Arxiv: 1048.5093
Kitamoto A and Takagi M. 1994. Similarity retrieval of satellite cloud imagery based on optimization principle. IEICE Technical Report Pattern Recognition and Understanding, 94(294): 15–22
LeCun Y. 1989. Generalization and network design strategies//Pfeifer R, Schreter Z, Fogelman F and Steels L, eds. Connectionism in Perspective. Zurich, Switzerland: Elsevier: 143–155
LeCun Y, Bengio Y and Hinton G. 2015. Deep learning. Nature, 521(7553): 436–444 [DOI: 10.1038/nature14539]
Li D R and Ning X G. 2006. A new image decomposition method for content-based remote sensing image retrieval. Geomatics and In- formation Science of Wuhan University, 31(8): 659–662 (李德仁,宁晓刚. 2006. 一种新的基于内容遥感图像检索的图像分块策 略. 武汉大学学报(信息科学版), 31(8): 659–662)
Liu M N. 2013. Remote Sensing Image Retrieval Based on Color and Texture. Xian: Xi’an Technological University (刘米娜. 2013. 基于颜色和纹理特征的遥感图像检索. 西安: 西安工业大学)
Liu P Y. 2004. Study on the Algorithms for Content-based Image Fea- ture Extraction. Changchun: Jilin University (刘鹏宇. 2004. 基于
内容的图像特征提取算法的研究. 长春: 吉林大学)
Lu K, Zhao J D, Ye Y L and Zeng J Z. 2005. Algorithm for semi-super- vised learning in image retrieval. Journal of UEST of China, 34(5): 669–671 (鲁珂, 赵继东, 叶娅兰, 曾家智. 2005. 一种用于 图像检索的新型半监督学习算法. 电子科技大学学报, 34(5):
669–671)
Lu L Z, Liu R Y and Liu N. 2004. Remote sensing image retrieval us- ing color and texture fused features. Journal of Image and Graph- ics, 9(3): 328–333 (陆丽珍, 刘仁义, 刘南. 2004. 一种融合颜色 和纹理特征的遥感图像检索方法. 中国图象图形学报, 9(3): 328–333) [DOI: 10.11834/jig.20040361]
Luus F P S, Salmon B P, Van den Bergh F and Maharaj B T J. 2015. Multiview deep learning for land-use classification. IEEE Geoscience and Remote Sensing Letters, 12(12): 2448–2452 [DOI: 10.1109/LGRS.2015.2483680]
Mnih V and Hintion G E. 2010. Learning to detect roads in high-resolu- tion aerial images//Proceedings of the 11th European Conference on Computer Vision. Berlin Heidelberg: Springer: 210–223 [DOI: 10.1007/978-3-642-15567-3_16]
Mojsilovic A and Rogowitz B. 2001. Capturing image semantics with low-level descriptors//Proceedings of the 2001 International Con- ference on Image Processing. Thessaloniki: IEEE: 18–21 [DOI: 10.1109/ICIP.2001.958942]
Sheikholeslami G, Zhang A D and Bian L. 1999. A multi-resolution content-based retrieval approach for geographic images. GeoIn- formatica, 3(2): 109–139 [DOI: 10.1023/A:1009859912970]
Wang J, Jia Y H and Zhao X. 2014. Tobacco leaf matupity classifica- tion based on sparse auto-encoder. Tobacco Science & Techno- logy, 46(9):17-19 (王杰,贾育衡,赵昕. 2014.基于稀疏自编码 器的烟叶成熟度分类. 烟草科技,46(9):17-19)
Yin B C, Wang W T and Wang L C. 2015. Review of deep learning. Journal of Beijing University of Technology, 41(1): 48–59 (尹宝 才, 王文通, 王立春. 2015. 深度学习研究综述. 北京工业大学学 报, 41(1): 48–59) [DOI: 10.11936/bjutxb2014100026]
Zhao L J, Tang P and Huo L Z. 2014. Land-use scene classification us- ing a concentric circle-structured multiscale bag-of-visual-words model. IEEE Journal of Selected Topics in Applied Earth Obser- vations and Remote Sensing, 7(12): 4620–4631 [DOI: 10.1109/ JSTARS.2014.2339842]
Zhu B, Ramsey M and Chen H. 2000. Creating a large-scale content- based airphoto image digital library. IEEE Transactions on Image Processing, 9(1): 163–167 [DOI: 10.1109/83.817609]
Retrieval of remote sensing images based on semisupervised deep learning
ZHANG Hongqun1, LIU Xueying1,2, YANG Sen1,2, LI Yu1
1. Institute of Remote Sensing and Digital Earth, Chinese Academy of Sciences, Beijing 100094, China; 2. University of Chinese Academy of Sciences, Beijing 100049, China
Abstract: Massive data and diversity characteristics exert higher demands on the retrieval of remote sensing images. The feature extraction algorithm is the most outstanding factor that influences the performance of retrieval methods. Traditional feature extraction methods cause the problem of semantic gap, which occurs when the low-level feature does not perfectly reflect or match the purpose of retrieval. BOVW and multilayer cluster analysis have been proposed to solve semantic gap. However, the usability of these methods is limited given their de- pendence on classification or cluster algorithms and artificiality. A semi supervised deep-learning method was proposed in this paper. This method combines Sparse Auto encoder (SA) and the principle of Convolutional Neural Networks (CNNs).
The method involves four steps: first, the remote sensing images are pretreated with the ZCA whitening method. Second, the feature dictionary is extracted using SA, an algorithm that deals with nonannotated data. Subsequently, the feature dictionary is utilized in image convolution following the principle of CNNs, which imitates the neural net of organisms and decreases the number of features. Average pooling is conducted after image convolution. Both convolution and pooling are implemented to reduce model complexity, thus calculating distance faster. Third, the soft max classifier categorizes remote sensing images into five classes. Lastly, the remote sensing image retrieval is sorted based on the Euclidean distance between the query image and database in the same category as the query image.
Experimental results based on high-resolution remote sensing images demonstrate that the proposed method is effective and is more ac- curate than the methods that are based on color and texture features. Image classification before sorting speeds up retrieval by 27.6%. In ad- dition, the semi-supervised deep learning algorithm is stable when the number of returned images increases. Given that the number of neur- ons in the hidden SA layer and the region size of pooling primarily affect retrieval results, this study conducted several optimization experi- ments on these two parameters. Moreover, the algorithm in this research performed well when the number of images in the data set and the retrieval accuracy on a larger data set increased, which are meaningful for the retrieval of massive remote sensing images.
The semisupervised deep learning algorithm decreases the time of image annotation, which is an exhausting job. Unlike traditional methods that extracts the features of color, texture, and shape, the method in this study directly extracts the feature dictionary from image elements with good accuracy. Moreover, the efficiency of the proposed method is guaranteed by convolution and pooling, which reduce the feature dimension. Furthermore, our experiment proves that this algorithm performs well in retrieving high-resolution remote sensing im- ages.
Key words: remote sensing image retrieval, deep learning, sparse auto encoder, convolutional neural networks, Softmax classifier
Supported by National Natural Science Foundation of China (No.61501460)
来源:遥感学报(版权归原作者及刊载媒体所有)
荐读
点击下文标题即可阅读
编辑 / 裴家珍 审核 / 徐鑫
指导:万剑华教授(微信号wjh18266613129)