1 中国科学院西安光学精密机械研究所光谱成像技术重点实验室,陕西 西安 710119
2 中国科学院大学,北京 100049
遥感场景分类旨在为航空图像指定特定的语义标签,是遥感图像解译中一个基础且重要的任务。现有的研究主要利用卷积神经网络(CNN)学习全局和局部特征,提高网络的判别性表达。然而基于CNN的方法的感受野在建模局部特征的远程依赖性方面存在局限性。近年来,Vision Transformer(ViT)在传统的分类任务中表现出了强大的性能。Transformer的自我注意力机制将每个Patch标记与分类标记连接起来,捕捉图像像素之间的上下文关系,考虑空间域中的全局信息。提出一个基于局部选择ViT的遥感场景分类网络。首先将输入图像分割成小块的Patch,将其展开转换成序列,并进行位置编码添加到序列中;然后将得到的序列输入编码器中;除此之外,为了学习到局部判别特征,在最后一层输入前加入局部选择模块,选择具有判别性的Token作为输入,得到最后用于分类的输出。实验结果表明,所提方法在两个大型遥感场景分类数据集(AID和NWPU)取得不错的效果。
遥感场景分类 深度学习 Vision Transformer 局部特征 激光与光电子学进展
2023, 60(22): 2228005
1 辽宁工程技术大学软件学院,辽宁 葫芦岛 125105
2 中国科学院福建物质结构研究所泉州装备制造研究中心,福建 泉州 362216
遥感影像场景分类方法多基于传统机器学习或卷积神经网络,此类方法的特征提取能力极为有限,尤其在处理类间相似度大、空间信息复杂、几何结构繁多的光学遥感影像时更容易出现特征信息丢失、分类精度受限等问题。基于此,提出一种融合字典学习与视觉转换器(ViT)的高分辨率遥感影像场景分类方法。该方法不仅能够挖掘图像内部的长距离依赖关系,而且可以利用字典学习抓取图像的深层非线性结构信息,从而达到提升分类准确度的目的。在PyTorch深度学习框架上,在RSSCN7、NWPU-RESISC45和Aerial Image Data Set(AID)3个公开的遥感影像数据集上对所提方法和模型进行了广泛实验,验证了所提方法的可行性,其分类正确率比原始视觉转换器模型分别高出1.763个百分点、1.321个百分点和3.704个百分点。与其他先进的场景分类方法相比,所提方法实现了更加优异的分类性能。
视觉转换器 字典学习 遥感场景分类 高分辨率遥感影像 激光与光电子学进展
2023, 60(14): 1410019
1 海军航空大学, 山东 烟台 264001
2 空军航空大学, 吉林 长春 130022
3 91977部队, 北京 102200
利用不同图像特征之间的互补性,可提升遥感场景零样本分类性能。将图像特征的融合与零样本分类结合,提出一种基于图像特征融合的遥感场景零样本分类算法。采用解析字典学习方法,计算各图像特征的稀疏系数,并串接起来作为融合后图像特征,以减少冗余信息且保留各图像特征自身特点;引入监督信息,提高融合特征的鉴别性;将融合特征与场景类别词向量进行结构对齐,提升对新类别场景的迁移识别效果。在UC-Merced和航拍图像数据集两种遥感场景集上,对相同层次及不同层次的场景图像特征分别进行融合实验。实验结果表明:对于总体分类准确度和运算耗时,所提算法均优于其他零样本分类算法及通用的特征融合算法,证明了方法的有效性。
遥感 图像特征融合 解析字典学习 遥感场景分类 零样本分类 鉴别性 结构对齐