基于区域注意力机制的遥感图像检索 下载: 1053次
1 引言
随着遥感技术的快速发展,遥感图像数据库呈爆炸式增长,为了高效管理遥感图像数据库,基于内容的图像检索(CBIR)系统成为国内外研究的热点。CBIR有两个主要步骤:图像的特征提取和图像的相似性匹配。早期的CBIR根据图像的纹理、颜色、形状等视觉特征进行提取,例如尺度不变特征转换(SIFT)算法[1]和方向梯度直方图(HOG)算法[2],但这种低层的全局特征易受视角、光照、遮挡等影响。
随着卷积神经网络(CNN)的提出,CNN在计算机视觉领域的应用越来越广泛,如图像分类[3]、目标检测[4-5]、图像检索[6]领域。Babenko等[7]提出了基于CNN的图像检索方法,根据目标数据集训练增强CNN的图像分类识别能力,相比传统手工提取方法,CNN提取的深层特征包含了更丰富的图像信息,提高了检索性能。文献[ 8-10]指出,CNN经分类训练和微调后,从中间层提取的特征包含了空间信息和语义信息,更有利于图像检索。文献[ 11-12]采用注意力机制提取图像的深层局部特征,在图像背景内容复杂的情况下,得到了较好的检索效果。文献[ 13]在CNN深层特征图上用不同的尺度进行均匀采样,提取图像的局部特征,实验结果表明,该特征能更好表达图像内容。文献[ 14]基于文献[ 11]的方法提取了遥感图像的深层局部特征,再通过VLAD(Vector of locally aggregated descriptors)方法[15]将这些局部特征进行组合,结果表明,该方法的检索性能优于CNN。
上述方法中,文献[ 7]提取的全局特征不能准确地描述图像内容,对检索性能提升有限。文献[ 11]、[12]、[14]使用注意力机制提取图像的局部特征,虽然在图像背景内容复杂的情况下检索效果较好,但耗费时间长,不满足遥感图像检索的高效性要求。在传统遥感图像检索方法中普遍使用了单一的距离度量公式,研究表明,当数据集出现异常值时,计算样本间的相似度会导致结果不稳定。
本文提出了一种基于区域注意力机制和区域卷积最大激活(R-MAC)算法[16]的深层网络模型,该网络考虑了遥感图像的局部特征和全局特征,并将两者聚合为最终的遥感图像特征。构建了多距离公式矩阵进行遥感图像匹配,采用扩展查询进一步提高检索精度。在两大遥感数据集进行实验,结果表明,本方法的检索性能明显优于基于全局特征的图像检索方法。
2 实验方法
实验使用的检索系统框架如
2.1 卷积区域最大激活
R-MAC是一种以固定尺寸窗口在特征图上滑动采样的方法,具体步骤:
1) 用特定尺度S=1×1,2×2,3×3…的特征图RS进行滑动采样,相邻的两个采样区域的重叠率为40%。如
2) 获得当前尺度下的区域后,计算每个区域的特征向量。
3) 然后对其依次进行L2标准化[17]、主成分分析与白化[18]、L2标准化。
4) 图像f由各尺度的区域特征向量加权求和得到,可表示为
式中,fRS为图像尺度S下的区域特征向量。
2.2 区域注意力网络
提取准确描述图像内容的深层特征是提高遥感图像检索性能的关键,以深度残差网络[19](ResNet)模型为主体提取遥感图像的深层特征,能更好地描述图像内容,提高系统的检索性能。ResNet模型如
区域注意力网络由R-MAC和注意力机制构成,采样器先对ResNet101 conv5_x得到的特征图进行采样,获取每个区域的特征向量,然后通过区域特征向量的加权平均值获得图像f的全局特征向量fi,可表示为
式中,Ω为R-MAC在conv5_x提取的特征图组成的一组区域特征图,R为Ω中的一个区域特征图,P
式中,Xsoftplus、Xtanh为激活函数,Wr∈Rd×n和Wc∈R1×d是线性变换矩阵,br∈Rd×n和bc∈R1×d分别为偏置向量和标量。从(1)式~(4)式可以发现注意力机制减小了遥感图像背景与不重要区域的权重,增加了检索目标的权重,实现了对遥感图像局部特征的关注。与传统遥感图像检索方法提取局部特征不同,该方法将图像的全局特征向量和局部特征串联起来,作为遥感图像的特征向量fI,可表示为
式中,VI为基于ResNet101的conv5_x产生的全局特征,J(VI)为平均池化,为通道空间中向量的串联。本方法结合了ResNet101和区域注意力网络用于提取图像特征,网络框架如
2.3 多距离相似性度量矩阵
传统遥感图像检索方法普遍采用欧氏距离计算不同图像的相似性,但对于不同类别的遥感图像或图像出现异常时,检索结果与实际相差较大。针对单一的距离计算公式不能满足遥感图像检索稳定性的要求,构建一个多种距离相似性度量矩阵进行遥感图像的相似性匹配。
对于空间中的n维特征向量X(x1,x2,…,xn)和Y(y1,y2,…,yn),两者间的欧氏距离为
切比雪夫距离为
余弦距离为
构建的多距离相似性度量矩阵为
将DM进行L2归一化,并通过实验对比了使用单一距离公式和多距离相似性度量矩阵的性能。
2.4 扩展查询
扩展查询可提高图像检索的查全率,具体步骤:
1) 首先将待查询图像作为检索输入,得到N幅内容相似的遥感图像;
2) 对第一次查询返回的前N幅遥感图像包括待查询图像的特征向量求取平均值;
3) 将步骤2)得到的特征向量平均值作为检索输入再次进行查询。
采用扩展查询,在两个遥感数据集上进行实验,结果表明,图像检索查准率相比未使用扩展查询提升了2%~3%。
3 实验结果与分析
3.1 实验设置
3.1.1 数据集
UC Merced Land-Use[20](UCM)数据集如
SIRI-WHU[21-23](SIRI)遥感数据集如
3.1.2 网络训练
基于ResNet101 CNN训练时,使用学习率为0.001,batch_size为32,动量为0.9的随机梯度下降优化算法进行训练。当ResNet101 CNN完成训练后,添加区域注意力网络,固定并冻结ResNet101 CNN的参数,更新区域注意力网络参数。在特征降维时,使用ResNet101 CNN预训练网络在两个数据集上进行主成分分析(PCA)学习,最后进行遥感图像的特征提取。
3.1.3 对比方法
为了验证本方法的有效性,选取基于预训练的VGG16[24] CNN模型、DenseNet121[25] CNN模型及未添加区域注意力网络的ResNet101 CNN模型作为对比进行实验。
3.1.4 评价标准
图像检索的常用评价标准为查准率(precision)、查全率(recall)、以及平均检索精度(mAP)。查准率、查全率可表示为
式中,N为检索系统返回最相似的图像数量,m为真正与待查询图像相似的正确候选项数量,M为遥感数据库中与待查询图像相似的图像数量。mAP可表示为
式中,C为查询次数,m为检索返回N幅图像时真正与待查询图像相似的个数,Ai为检索精度,
式中,Ni为检索结果中真正与待查询图像相似的排序。
3.2 实验结果分析
返回20幅、40幅检索图像的检索效果如
3.2.1 平均检索精度分析
当返回40幅检索图像时,不同方法的mAP如
表 1. 不同方法的mAP对比
Table 1. Comparison of mAP of different methodsunit: %
|
在遥感图像的特征提取阶段,输入的尺寸不同,检索精度也不同。同一数据集中输入不同尺寸遥感图像的mAP如
表 2. 不同尺寸图像的mAP对比
Table 2. Comparison of mAP of different image sizes
|
3.2.2 平均查全率分析
四种方法在两个数据集上的平均查全率如
图 9. 平均查全率对比。(a) UCM数据集;(b) SIRI 数据集
Fig. 9. Comparison of average recalls. (a) UCM dataset; (b) SIRI dataset
3.2.3 平均查准率分析
四种方法对两个数据集中每个类别的遥感图像平均查准率如
实验结果表明,在UCM数据集中,某些遥感图像类别,如建筑物、密集住宅类、中型住宅区、稀疏住宅区的检索效果与其他类差距较大。原因是这三类遥感图像都含有树木、建筑物等目标,在视觉上,中型住宅区类和密集住宅区类较为相似,导致区域注意力网络没有学习到如何正确提取这些目标特征。同样在SIRI数据集中,海港类、工业类、牧场类、池塘类检索效果较差,但总体上,本方法比其他方法检索性能更高。
表 3. 不同方法在UCM数据集上的平均查准率
Table 3. Average accuracy of different methods on the UCM datasetunit: %
|
表 4. 不同方法在SIRI数据集上的平均查准率
Table 4. Average accuracy of different methods on the SIRI datasetunit: %
|
从
在两个数据集中的大部分图像类别上,相比RAN+MD方法,采用扩展查询的RAN+MD+QE方法检索性能有明显提升,特别是公路类、停车场类、河流类、储油罐类。原因是扩展查询将正确候选项的前k个遥感图像特征向量与待查询图像特征向量求和并取平均值,反映了这一类遥感图像的大致特征,这表明本方法能有效提升网络的图像检索性能。
本方法在UCM数据集上的检索性能优于SIRI数据集。原因是SIRI数据集中遥感图像数量较少,只有12类,且每类只有200幅遥感图像,CNN没有正确学习到相关特征,可提前终止训练防止网络过拟合解决该问题。此外,SIRI数据集的遥感图像比较模糊,如在池塘类中的两幅图像,视觉差异性较大,且有些与农田类的图像视觉相似性较大。而UCM数据集中,同类别图像的视觉差异较小,且不同类别图像的区分度较大。
3.2.4 区域注意力尺度
区域尺度S是影响检索性能的重要因素,为避免多距离相似性度量矩阵和扩展查询对实验结果的影响,将上述两个方法剔除,只考虑不同尺度下的平均查准率,结果如
从
经一系列实验表明,采用基于区域注意力机制提取遥感图像特征结合多距离相似性度量矩阵的图像匹配方法,可有效提升遥感图像的检索性能,同时满足遥感图像检索的高效性要求。
4 结论
针对遥感图像的特殊性,即具有相同语义的图像,视觉上存在巨大差异,提出一种基于区域注意力机制的遥感图像检索方法,该方法关注遥感图像不同尺度下的区域特征,有效抑制了背景和不重要的遥感图像区域。使用两个公共数据集训练CNN,随后冻结网络参数,更新区域注意力网络参数,并将该网络用于遥感图像的特征提取,采用多距离相似性度量矩阵和扩展查询进行图像检索。实验结果表明,本方法能显著提高遥感图像的检索性能,与基于全局特征的遥感图像检索方法相比,对视觉上相似而语义信息不同的两幅遥感图像区分性更强。
[1] Lowe DG. Object recognition from local scale-invariant features[C]∥Proceedings of the Seventh IEEE International Conference on Computer Vision, September 20-27, 1999, Kerkyra, Greece. New York: IEEE, 1999, 2: 1150- 1157.
[2] DalalN, TriggsB. Histograms of oriented gradients for human detection[C]∥2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, June 20-25, 2005, San Diego, CA, USA, New York: IEEE, 2005, 1: 886- 893.
[3] 赵小虎, 尹良飞, 朱亚楠, 等. 基于主成分分析网络的改进图像分类算法[J]. 激光与光电子学进展, 2019, 56(2): 021004.
[4] 欧攀, 张正, 路奎, 等. 基于卷积神经网络的遥感图像目标检测[J]. 激光与光电子学进展, 2019, 56(5): 051002.
[5] 王俊强, 李建胜, 周学文, 等. 改进的SSD算法及其对遥感影像小目标检测性能的分析[J]. 光学学报, 2019, 39(6): 0628005.
[6] 彭晏飞, 宋晓男, 訾玲玲, 等. 基于卷积神经网络和改进模糊C均值的遥感图像检索[J]. 激光与光电子学进展, 2018, 55(9): 091008.
[7] BabenkoA, SlesarevA, ChigorinA, et al. Neural codes for image retrieval[M] ∥Fleet D, Pajdla T, Schiele B, et al. Computer Vision-ECCV 2014, Lecture Notes in Computer Science. Cham: Springer, 2014, 8689: 584- 599.
[8] Gordo A, Almazán J, Revaud J, et al. End-to-end learning of deep visual representations for image retrieval[J]. International Journal of Computer Vision, 2017, 124(2): 237-254.
[9] Zhou W G, Li H Q, Sun J, et al. Collaborative index embedding for image retrieval[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(5): 1154-1166.
[10] Hao JD, DongJ, WangW, et al. What is the best practice for CNNs applied to visual instance retrieval?[EB/OL]. [2019-09-02].https:∥arxiv.org/abs/1611. 01640.
[11] NohH, AraujoA, SimJ, et al. Large-scale image retrieval with attentive deep local features[C]∥2017 IEEE International Conference on Computer Vision, October 22-29, 2017, Venice Italy. New York: IEEE, 2017: 3456- 3465.
[12] TeichmannM, AraujoA, Zhu ML, et al. Detect-to-retrieve: efficient regional aggregation for image search[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 15-20, 2019, Long Beach, CA, USA. New York: IEEE, 2019: 5109- 5118.
[13] KimJ, Yoon S E. Regional Attention Based Deep Feature for Image Retrieval[C]∥ Proceedings of British Machine Vision Conference, School ofComputing, Korea Advanced Institute of Science and Technology, 2018: 209. [2019-09-02]. http:∥sglab.kaist.ac.kr/RegionalAttention/.
[14] Imbriaco R, Sebastian C, Bondarev E, et al. Aggregated deep local features for remote sensing image retrieval[J]. Remote Sensing, 2019, 11(5): 493.
[15] JégouH, DouzeM, SchmidC, et al. Aggregating local descriptors into a compact image representation[C]∥2010 IEEE Computer Society Conference on Computer Vision & Pattern Recognition, June 13-18, 2010, San Francisco, CA, USA. New York: IEEE, 2010: 3304- 3311.
[16] ToliasG, SicreR, JégouH. Particular object retrieval with integral max-pooling of CNN activations[EB/OL]. [2019-08-25].https:∥arxiv.org/abs/1511. 05879.
[17] HofferE, BannerR, GolanI, et al. Norm matters: efficient and accurate normalization schemes in deep networks[EB/OL]. [2019-08-30].https:∥arxiv.org/abs/1803. 01814.
[18] JégouH, ChumO. Negative evidences andCo-occurences in image retrieval: the benefit of PCA and whitening[M] ∥Fitzgibbon A, Lazebnik S, Perona P, et al. Computer Vision-ECCV 2012, Lecture Notes in Computer Science. Springer, Berlin, Heidelberg, 2012, 7535: 774- 787.
[19] He KM, Zhang XY, Ren SQ, et al. Deep residual learning for image recognition[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition, June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 770- 778.
[20] YangY, NewsamS. Bag-of-visual-words and spatial extensions for land-use classification[C]∥Proceedings of the 18th SIGSPATIAL International Conference on Advances in Geographic Information Systems, November 2-5, 2010, San Jose, California. New York,USA: ACM Press, 2010: 270- 279.
[21] Zhao B, Zhong Y F, Xia G S, et al. Dirichlet-derived multiple topic scene classification model for high spatial resolution remote sensing imagery[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 54(4): 2108-2123.
[22] Zhao B, Zhong Y F, Zhang L P, et al. The fisher kernel coding framework for high spatial resolution scene classification[J]. Remote Sensing, 2016, 8(2): 157.
[23] Zhu Q Q, Zhong Y F, Zhao B, et al. Bag-of-visual-words scene classifier with local and global features for high spatial resolution remote sensing imagery[J]. IEEE Geoscience and Remote Sensing Letters, 2016, 13(6): 747-751.
[24] SimonyanK, ZissermanA. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2019-08-28].https:∥arxiv.org/abs/1409. 1556
[25] HuangG, Liu Z,van der Maaten, L, et al. Densely connected convolutional networks[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition, July 21-26, 2017, Honolulu, HI,USA. New York: IEEE, 2017: 4700- 4708.
Article Outline
彭晏飞, 梅金业, 王恺欣, 訾玲玲, 桑雨. 基于区域注意力机制的遥感图像检索[J]. 激光与光电子学进展, 2020, 57(10): 101017. Yanfei Peng, Jinye Mei, Kaixin Wang, Lingling Zi, Yu Sang. Remote Sensing Image Retrieval Based on Regional Attention Mechanism[J]. Laser & Optoelectronics Progress, 2020, 57(10): 101017.