一种引入注意力机制的多尺度高光谱图像特征提取方法
1 引言
高光谱成像技术采集到的高光谱图像由包含数百个连续波段的光谱带组成,具有丰富的光谱信息和空间信息。目前,高光谱图像已经被广泛应用于侦察[1]、精准农业[2]、植被分析[3]等领域。高光谱图像提供的丰富光谱信息可用于区分具有略微不同光谱特征的不同地物,然而,其高维性引起的维数灾难,使得数据处理困难,导致分类精度降低。对于上述问题,使用降维方法可以取得显著的效果,其主要方法分为特征选择和特征提取。特征选择通过从原始光谱波段中选择最具有判别能力的子集来实现降维,该类方法计算量通常较大,并且容易造成人为的波段丢失。特征提取通过将输入数据线性或非线性地转换到一个低维空间来降低维数,并在低维空间中提取信息的特征。目前,特征提取是高光谱遥感图像处理中的热门方法,在提高分类精度和缓解数据处理压力等方面有重要的研究意义[4]。
近年来,深度学习方法发展迅速,并且在高光谱数据处理领域展现出良好的发展前景[5-6]。深度学习方法如堆叠式自动编码器(SAE)[7]、卷积神经网络(CNN)[8]和生成对抗网络(GAN)[9]等,主要通过一个端到端的框架来自动完成特征提取和分类任务,其提取的深层特征具有较强的语义信息。高光谱图像具有连续且狭窄的光谱波段,波段之间具有较强的相关性。不同于传统的前馈神经网络,循环神经网络(RNN)将高光谱图像的每个像素视为序列而非高维向量,因此,RNN能够提取光谱波段间的上下文信息。Zhou等[10]提出一种基于RNN的空间-光谱(空-谱)联合特征提取方法,使用长短期记忆网络(LSTM)分别提取光谱特征和空间特征,并使用全连接网络进行融合。Liu等[11]提出一种基于双向卷积长短期记忆网络(ConvLSTM)的空-谱联合特征提取方法,使用一种将卷积算子并入递归结构的新型LSTM,采取双向递归的方式充分捕获频谱信息。上述方法没有考虑到RNN的梯度消失问题,该问题在处理高光谱图像这类高维数据时尤为明显。Xu等[12]提出了一种光谱波段分组策略,采用切分频谱的方式缓解光谱维度的梯度消失现象。Wang等[13]在此基础上引入了多尺度策略,提出一种端到端的自适应光谱-空间多尺度网络(ASSMN),该网络包括光谱子网和空间子网两个部分,分别用于提取高光谱图像中光谱与空间上的多尺度上下文信息。然而,ASSMN在使用分组策略的过程中,仍然受到梯度消失现象的限制。此外,在进行空间特征提取的过程中,上述方法均没有考虑到空间邻域中不同部分的重要程度存在差异。注意力机制是一种应对梯度消失问题的有效方法[14],其早期主要用于Seq2Seq(Sequence-to-Sequence)模型,随后研究人员又提出了自注意力机制来处理多对一问题。同时,注意力机制也被广泛应用于图像处理领域,能够有效帮助网络关注到空间信息中的重要部分[15]。
本文提出一种引入注意力机制的多尺度高光谱图像特征提取方法,包括光谱子网与空间子网两部分。在光谱子网中,通过一维卷积与分组策略实现感受野与分组多尺度特征提取,并引入光谱注意力机制网络以缓解LSTM的梯度消失现象,扩展多尺度分组策略的可能性。在空间子网中,采用一种卷积-注意力模块,通过空间注意力机制网络辅助网络主体,实现感受野多尺度策略,并通过ConvLSTM进一步提取不同尺度下的空间特征。最后,采用一种得分融合策略,将上述子网进行整合,同时进行训练与融合,得到空-谱联合特征。
2 基本原理与网络框架
2.1 RNN与LSTM的梯度消失现象
与传统前馈神经网络不同,RNN是一种能够提取数据中上下文信息的网络结构。它通过在隐藏层之间建立连接,以一种递归结构对序列进行建模,使序列当前输出与之前的输出之间建立联系。RNN在单一时间步(time step)中的计算公式为
式中:
然而,在处理长序列时,RNN在进行反向传播的过程中容易出现梯度消失现象。不同于普通多层神经网络或CNN,RNN的梯度消失现象主要体现在反向传播梯度被近距离的梯度主导,使得RNN难以解决长期依赖性问题。在反向传播过程中,对
式中:
为了缓解上述现象,LSTM中加入3种门控机制以及一种记忆单元,能够更有效地捕获长序列中的上下文信息。相比于传统RNN,LSTM在反向传播过程中的连乘项由遗忘门主导,因此可以在一定程度上缓解梯度消失现象。然而,当序列过长时,遗忘门无法保证恒为单位矩阵
高光谱图像的光谱维度通常存在数百个波段,直接使用每一个波段作为一个时间步的输入将会导致LSTM的网络过深而难以训练。Xu等[12]提出使用光谱波段分组的方式在光谱维度进行切分,使用切分后的光谱波段组作为LSTM各时间步的输入进而缩短序列长度。实验证明,相比前者,使用分组的方式能够取得更好的分类效果。
2.2 相关研究
为了获取多尺度的光谱上下文信息,一般采取感受野多尺度与分组多尺度两种策略。Wang等[13]提出一种光谱多尺度特征提取网络(SeMN),对不同感受野尺度下的光谱特征向量进行切分,以此缩短序列长度,在缓解梯度消失问题的同时实现分组多尺度策略。然而,当分组的组数增加时,输入LSTM的序列随之变长,其分类准确率与稳定性均明显降低。Xu等[12]同样指出,在使用光谱波段分组策略时,随着组数的增加,将LSTM最后的隐藏层状态向量作为特征无法取得令人满意的分类精度。
针对上述问题,引入注意力机制网络能够起到一定效果。注意力机制网络使RNN能够再次回顾网络中不同时刻的隐藏层状态,在处理信息瓶颈问题的同时,进一步缓解RNN(包括LSTM)梯度消失的问题。Bahdanau等[16]提出一种注意力机制网络,使Seq2Seq模型中的译码器能够选择性地回顾编码器中的信息,获取具有更多相关信息的语义编码向量。此外,在文本分类领域,Yang等[17]提出一种注意力机制网络来处理多对一问题,具体公式为
式中:
注意力机制网络同样可以用于处理空间信息。为实现空间多尺度策略,常见的方法是采用多次卷积的方式,在不同卷积层的输出中得到不同感受野尺度下的空间特征。然而,随着卷积网络的加深,无法保证不同感受野下的分支网络能关注到原始图像中的重点信息。注意力机制能够很自然地加入卷积层之间,将网络聚焦到空间中的重要部分。Woo等[18]提出一种空间注意力机制网络,如
式中:
2.3 网络框架
引入注意力机制的光谱多尺度特征提取网络(SeAMN)具体结构如
参考
式中:
通常,注意力机制网络将
引入注意力机制的空间多尺度特征提取网络(SaAMN)如
不同尺度下的切分结果作为不同ConvLSTM的输入,进一步提取空间邻域中的上下文信息。最后,对多种尺度下的结果求和,获取多尺度空间特征。其中,ConvLSTM是LSTM的一种改进方案,是在LSTM中引入卷积算子,以保留邻域像素之间的空间关系,具体计算公式为
式中:
上述卷积-注意力模块由两个空洞卷积层和一个空间注意力机制网络构成,如
为进行空-谱特征的联合提取,采取一种得分融合策略对上文中两部分网络进行融合,如
图 6. 引入注意力机制的多尺度特征提取网络框架
Fig. 6. Structure of multiscale feature extraction method with attention mechanism
式中:
引入注意力机制的多尺度高光谱图像特征提取方法包括光谱和空间两个部分。SeAMN考虑到梯度消失现象对分组策略的影响,通过光谱注意力机制网络,利用LSTM每一时间步的隐藏层状态向量来补充丢失的光谱信息,进而缓解光谱波段分组策略中的梯度消失现象带来的分组组数限制,充分发挥分组策略的作用。在SaAMN中使用一种卷积-注意力模块,将空间注意力机制网络自然地加入到多尺度卷积层之间,能够有效地帮助主干上的卷积网络突出空间中的关键信息,有利于ConvLSTM进行空间维度的特征提取。最后,使用一种得分融合策略有效地将两部分网络进行融合并提取空-谱联合特征,提高图像分类的准确度。
3 实验结果与分析
3.1 数据集
为检验所提方法的有效性,在3个高光谱公开数据集上进行了实验,数据集分别为Pavia University、KSC(Kennedy Space Center)以及Indian Pines。
Pavia University数据集由ROSIS(reflective optics spectrographic imaging system)传感器(ROSIS-03)对意大利的帕维亚大学成像获得,该数据集包含9类地物,尺寸为610 pixel × 340 pixel、空间分辨率为1.3 m/pixel。数据集包含115个波段,去除其中受到噪声影响的12个波段后,使用剩余103个波段进行实验。
KSC数据集由机载可见/红外成像光谱仪(AVIRIS)于佛罗里达州肯尼迪航天中心采集得到,该数据集包含13类地物,尺寸为512 pixel×614 pixel、空间分辨率为18 m/pixel。数据集包含224个波段,在预处理中去除48个波段后,保留剩余176个波段作为实验数据。
Indian Pines数据集是由AVIRIS对位于美国印第安纳州西北部的印第安试验场进行成像捕获到的植被影像。该数据集包含16个类别,尺寸为145 pixel × 145 pixel,由220个波段组成,去除20个受到影响的波段后,保留剩下的200个波段作为实验数据。
在本实验中,为了对网络进行训练,从上述3种数据集的标记样本中随机抽取一定量的样本作为训练样本,其他样本则作为测试样本,3种数据集的训练样本设置如
表 1. Pavia University数据集类别及训练样本设置
Table 1. Categories and settings of Pavia University dataset
|
表 2. KSC数据集类别及训练样本设置
Table 2. Categories and settings of KSC dataset
|
表 3. Indian Pines数据集类别及训练样本设置
Table 3. Categories and settings of Indian Pines dataset
|
3.2 实验设置
为验证所提方法的有效性,通过实验分别对比不同的光谱特征提取、空间特征提取以及空-谱联合特征提取方法。在光谱特征提取方法中,选择3种具有代表性的RNN高光谱特征提取方法进行对比实验,分别为以单一光谱波段为输入的LSTM方法(LSTM-byb)[12]、采用光谱波段分组策略的LSTM方法(LSTM-split)[12]、ASSMN中提出的多尺度光谱特征提取方法(SeMN)[13]。此外,为对比RNN以外的深度学习特征提取方法,实验中还对比了基于一维CNN的光谱特征提取方法(1DCNN)[19]。在空间特征提取方法中,将ASSMN中提出的多尺度空间特征提取方法(SaMN)[13]以及基于二维CNN的空间特征提取方法(2DCNN)[20]作为对比方法。在空-谱联合特征提取方法中,将ASSMN[13]与光谱-空间统一网络(SSUN)[12]两种联合特征提取方法作为对比方法。使用总体准确度(OA)、平均准确度(AA)、卡帕系数(KC)以及训练时长(TrnTime)4种指标对所有方法的分类性能进行评价。
实验中,所提方法需要调节的超参数如
表 4. 所提方法的参数设置
Table 4. Settings of proposed method
|
图 7. 在不同超参数下,独立运行10次实验的网络总体准确度。(a)SaAMN在不同卷积核大小下的表现;(b)SeAMN在不同隐藏层大小下的表现;(c)SeAMN在不同分组策略下的表现
Fig. 7. Overall accuracy of proposed method by running 10 experiments independently with different hyperparameters. (a) Performance of SaAMN with different kernel sizes; (b) performance of SeAMN with different hidden sizes; (c) performance of SeAMN with different grouping strategies
3.3 实验结果
表 5. 不同特征提取方法在KSC数据集上的分类结果
Table 5. Classification results of different feature extraction methods on KSC dataset
|
在Pavia University数据集中,11种特征提取方法经过10次独立运行后的AP与其对应的SD如
表 6. 不同特征提取方法在Pavia University数据集上的分类结果
Table 6. Classification results of different feature extraction methods on Pavia University dataset
|
在Indian Pines数据集中,11种特征提取方法经过10次独立运行后的AP与其对应的SD如
表 7. 不同特征提取方法在Indian Pines数据集上的分类结果
Table 7. Classification results of different feature extraction methods on Indian Pines dataset
|
4 结论
提出了一种引入注意力机制的多尺度高光谱图像特征提取方法,其中包括SeAMN和SaAMN两个部分,通过一种得分融合策略进行融合。在SeAMN中,通过引入注意力机制能够缓解LSTM中的梯度消失现象,充分发挥多尺度分组策略的作用,更好地提取多尺度光谱特征。在SaAMN中,引入注意力机制能够帮助不同尺度下的分支网络获取关键信息,使网络关注到空间信息中的重要部分。实验结果表明,与其他几种特征提取方法相比,所提方法提取的光谱与空间特征能够稳定、有效地提升高光谱图像分类的准确率。然而,高光谱图像内部的三维结构同样具有重要的参考意义,分别提取光谱与空间特征的方法没有考虑到这方面的信息。在以后的工作中,将考虑引入光谱波段分组策略与注意力机制网络,在三维的高光谱数据块中应用ConvLSTM,提取高光谱图像内部的三维结构信息。
[1] Zhao J L, Zhou B, Wang G L, et al. Camouflage target recognition based on dimension reduction analysis of hyperspectral image regions[J]. Photonics, 2022, 9(9): 640.
[2] Lu B, Dao P, Liu J G, et al. Recent advances of hyperspectral imaging technology and applications in agriculture[J]. Remote Sensing, 2020, 12(16): 2659.
[3] Zhu C M, Ding J L, Zhang Z P, et al. SPAD monitoring of saline vegetation based on Gaussian mixture model and UAV hyperspectral image feature classification[J]. Computers and Electronics in Agriculture, 2022, 200: 107236.
[4] 李丹, 孔繁锵, 朱德燕. 基于局部高斯混合特征提取的高光谱图像分类[J]. 光学学报, 2021, 41(6): 0610001.
Li D, Kong F Q, Zhu D Y. Hyperspectral image classification based on local Gaussian mixture feature extraction[J]. Acta Optica Sinica, 2021, 41(6): 0610001.
[5] 陈明, 席祥雲, 王洋. 利用残差生成对抗网络的高光谱图像分类[J]. 激光与光电子学进展, 2022, 59(22): 2210008.
Chen M, Xi X Y, Wang Y. Hyperspectral image classification using residual generation against network[J]. Laser & Optoelectronics Progress, 2022, 59(22): 2210008.
[6] 邓子青, 王阳, 张兵, 等. 多尺度特征融合残差网络的高光谱地物分类[J]. 激光与光电子学进展, 2022, 59(18): 1810014.
Deng Z Q, Wang Y, Zhang B, et al. Classification of hyperspectral ground objects based on multi-scale feature fusion residual network[J]. Laser & Optoelectronics Progress, 2022, 59(18): 1810014.
[7] Zhou P C, Han J W, Cheng G, et al. Learning compact and discriminative stacked autoencoder for hyperspectral image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(7): 4823-4833.
[8] Guo Y H, Cao H, Bai J J, et al. High efficient deep feature extraction and classification of spectral-spatial hyperspectral image using cross domain convolutional neural networks[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2019, 12(1): 345-356.
[9] 丁繁昌, 郭宝峰, 贾响响, 等. 基于生成对抗网络的高光谱图像特征提取[J]. 光电子·激光, 2021, 32(8): 852-861.
Ding F C, Guo B F, Jia X X, et al. Feature extraction of hyperspectral images based on generative adversarial networks[J]. Journal of Optoelectronics·Laser, 2021, 32(8): 852-861.
[10] Zhou F, Hang R L, Liu Q S, et al. Hyperspectral image classification using spectral-spatial LSTMs[J]. Neurocomputing, 2019, 328: 39-47.
[11] Liu Q S, Zhou F, Hang R L, et al. Bidirectional-convolutional LSTM based spectral-spatial feature learning for hyperspectral image classification[J]. Remote Sensing, 2017, 9(12): 1330.
[12] Xu Y H, Zhang L P, Du B, et al. Spectral-spatial unified networks for hyperspectral image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(10): 5893-5909.
[13] Wang D, Du B, Zhang L P, et al. Adaptive spectral-spatial multiscale contextual feature extraction for hyperspectral image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 59(3): 2461-2477.
[15] WangF, JiangM Q, QianC, et al. Residual attention network for image classification[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE Press, 2017: 6450-6458.
[17] YangZ C, YangD Y, DyerC, et al. Hierarchical attention networks for document classification[C]∥Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, June 12-17, 2016, San Diego, California. Stroudsburg: Association for Computational Linguistics, 2016: 1480-1489.
[18] WooS, ParkJ, LeeJ Y, et al. CBAM: convolutional block attention module[M]//Ferrari V, Hebert M, Sminchisescu C, et al. Computer vision-ECCV 2018. Lecture notes in computer science. Cham: Springer, 2018, 11211: 3-19.
[19] Hu W, Huang Y Y, Wei L, et al. Deep convolutional neural networks for hyperspectral image classification[J]. Journal of Sensors, 2015, 2015: 1-12.
[20] Chen Y S, Jiang H L, Li C Y, et al. Deep feature extraction and classification of hyperspectral images based on convolutional neural networks[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 54(10): 6232-6251.
Article Outline
许张弛, 郭宝峰, 吴文豪, 尤靖云, 苏晓通. 一种引入注意力机制的多尺度高光谱图像特征提取方法[J]. 激光与光电子学进展, 2024, 61(4): 0437010. Zhangchi Xu, Baofeng Guo, Wenhao Wu, Jingyun You, Xiaotong Su. Multi-Scale Feature Extraction Method of Hyperspectral Image with Attention Mechanism[J]. Laser & Optoelectronics Progress, 2024, 61(4): 0437010.