激光与光电子学进展, 2024, 61 (4): 0437010, 网络出版: 2024-02-26  

一种引入注意力机制的多尺度高光谱图像特征提取方法

Multi-Scale Feature Extraction Method of Hyperspectral Image with Attention Mechanism
作者单位
杭州电子科技大学自动化学院,浙江 杭州 310018
摘要
近年来,随着深度学习的发展,基于深度学习的特征提取方法在高光谱图像领域表现出良好的发展前景。提出了一种引入注意力机制的多尺度高光谱图像特征提取方法,包括光谱特征提取网络和空间特征提取网络两个部分,并使用一种得分融合策略进行融合。在光谱特征提取网络中,引入注意力机制来缓解因光谱维数过高导致的梯度消失问题,以提取多尺度的光谱特征。在空间特征提取网络中,引入注意力机制作用于网络主干,使其关注邻域内的重要部分,帮助分支网络提取关键信息。将5种光谱特征提取方法、3种空间特征提取方法以及3种空间-光谱联合特征提取方法在3个数据集上进行对比实验,实验结果表明,所提方法能够稳定、有效地提升高光谱图像的分类准确率。
Abstract
In recent years, with the development of deep learning, feature extraction methods based on deep learning have shown promising results in hyperspectral data processing. We propose a multi-scale hyperspectral image feature extraction method with an attention mechanism, including two parts that are respectively used to extract spectral features and spatial features. We use a score fusion strategy to combine these features. In the spectral feature extraction network, the attention mechanism is used to alleviate the vanishing gradient problem caused by spectral high-dimension and multi-scale spectral features are extracted. In the spatial feature extraction network, the attention mechanism helps branch networks extract important information by making the network backbone focus on important parts in the neighborhood. Five spectral feature extraction methods, three spatial feature extraction methods and three spatial-spectral joint feature extraction methods are used to perform comparative experiments on three datasets. The experimental results show that the proposed method can steadily and effectively improve the classification accuracy of hyperspectral images.

1 引言

高光谱成像技术采集到的高光谱图像由包含数百个连续波段的光谱带组成,具有丰富的光谱信息和空间信息。目前,高光谱图像已经被广泛应用于侦察1、精准农业2、植被分析3等领域。高光谱图像提供的丰富光谱信息可用于区分具有略微不同光谱特征的不同地物,然而,其高维性引起的维数灾难,使得数据处理困难,导致分类精度降低。对于上述问题,使用降维方法可以取得显著的效果,其主要方法分为特征选择和特征提取。特征选择通过从原始光谱波段中选择最具有判别能力的子集来实现降维,该类方法计算量通常较大,并且容易造成人为的波段丢失。特征提取通过将输入数据线性或非线性地转换到一个低维空间来降低维数,并在低维空间中提取信息的特征。目前,特征提取是高光谱遥感图像处理中的热门方法,在提高分类精度和缓解数据处理压力等方面有重要的研究意义4

近年来,深度学习方法发展迅速,并且在高光谱数据处理领域展现出良好的发展前景5-6。深度学习方法如堆叠式自动编码器(SAE)7、卷积神经网络(CNN)8和生成对抗网络(GAN)9等,主要通过一个端到端的框架来自动完成特征提取和分类任务,其提取的深层特征具有较强的语义信息。高光谱图像具有连续且狭窄的光谱波段,波段之间具有较强的相关性。不同于传统的前馈神经网络,循环神经网络(RNN)将高光谱图像的每个像素视为序列而非高维向量,因此,RNN能够提取光谱波段间的上下文信息。Zhou等10提出一种基于RNN的空间-光谱(空-谱)联合特征提取方法,使用长短期记忆网络(LSTM)分别提取光谱特征和空间特征,并使用全连接网络进行融合。Liu等11提出一种基于双向卷积长短期记忆网络(ConvLSTM)的空-谱联合特征提取方法,使用一种将卷积算子并入递归结构的新型LSTM,采取双向递归的方式充分捕获频谱信息。上述方法没有考虑到RNN的梯度消失问题,该问题在处理高光谱图像这类高维数据时尤为明显。Xu等12提出了一种光谱波段分组策略,采用切分频谱的方式缓解光谱维度的梯度消失现象。Wang等13在此基础上引入了多尺度策略,提出一种端到端的自适应光谱-空间多尺度网络(ASSMN),该网络包括光谱子网和空间子网两个部分,分别用于提取高光谱图像中光谱与空间上的多尺度上下文信息。然而,ASSMN在使用分组策略的过程中,仍然受到梯度消失现象的限制。此外,在进行空间特征提取的过程中,上述方法均没有考虑到空间邻域中不同部分的重要程度存在差异。注意力机制是一种应对梯度消失问题的有效方法14,其早期主要用于Seq2Seq(Sequence-to-Sequence)模型,随后研究人员又提出了自注意力机制来处理多对一问题。同时,注意力机制也被广泛应用于图像处理领域,能够有效帮助网络关注到空间信息中的重要部分15

本文提出一种引入注意力机制的多尺度高光谱图像特征提取方法,包括光谱子网与空间子网两部分。在光谱子网中,通过一维卷积与分组策略实现感受野与分组多尺度特征提取,并引入光谱注意力机制网络以缓解LSTM的梯度消失现象,扩展多尺度分组策略的可能性。在空间子网中,采用一种卷积-注意力模块,通过空间注意力机制网络辅助网络主体,实现感受野多尺度策略,并通过ConvLSTM进一步提取不同尺度下的空间特征。最后,采用一种得分融合策略,将上述子网进行整合,同时进行训练与融合,得到空-谱联合特征。

2 基本原理与网络框架

2.1 RNN与LSTM的梯度消失现象

与传统前馈神经网络不同,RNN是一种能够提取数据中上下文信息的网络结构。它通过在隐藏层之间建立连接,以一种递归结构对序列进行建模,使序列当前输出与之前的输出之间建立联系。RNN在单一时间步(time step)中的计算公式为

y^t=σ1Vhtht=σ2Wht-1+Uxt

式中:y^thtxt分别为第t时间步的预测值、隐藏层状态向量和输入;σ1()σ2()为激活函数;VUW分别为不同全连接层的权重矩阵。目前,RNN主要用于处理序列建模问题,被广泛应用于语音识别、机器翻译等领域。

然而,在处理长序列时,RNN在进行反向传播的过程中容易出现梯度消失现象。不同于普通多层神经网络或CNN,RNN的梯度消失现象主要体现在反向传播梯度被近距离的梯度主导,使得RNN难以解决长期依赖性问题。在反向传播过程中,对式(1)中的WU进行权重更新时,将会出现时刻k到时刻t反向传播过程中产生的连乘项:

i=k+1thihi-1=htht-1ht-1ht-2...hk+1hk=i=k+1tWTdiagσ2'Whi-1+Uxi

式中:diag为提取矩阵对角线元素操作;σ2'为非线性激活函数。由于RNN常用的标准非线性激活函数容易得到小于1的梯度矩阵,随着序列长度的增加,连乘项的项数随之增多,距离较远的输入对梯度的影响会快速收敛至0。

为了缓解上述现象,LSTM中加入3种门控机制以及一种记忆单元,能够更有效地捕获长序列中的上下文信息。相比于传统RNN,LSTM在反向传播过程中的连乘项由遗忘门主导,因此可以在一定程度上缓解梯度消失现象。然而,当序列过长时,遗忘门无法保证恒为单位矩阵I,LSTM的梯度仍然会出现被近距离的梯度主导的情况。

高光谱图像的光谱维度通常存在数百个波段,直接使用每一个波段作为一个时间步的输入将会导致LSTM的网络过深而难以训练。Xu等12提出使用光谱波段分组的方式在光谱维度进行切分,使用切分后的光谱波段组作为LSTM各时间步的输入进而缩短序列长度。实验证明,相比前者,使用分组的方式能够取得更好的分类效果。

2.2 相关研究

为了获取多尺度的光谱上下文信息,一般采取感受野多尺度与分组多尺度两种策略。Wang等13提出一种光谱多尺度特征提取网络(SeMN),对不同感受野尺度下的光谱特征向量进行切分,以此缩短序列长度,在缓解梯度消失问题的同时实现分组多尺度策略。然而,当分组的组数增加时,输入LSTM的序列随之变长,其分类准确率与稳定性均明显降低。Xu等12同样指出,在使用光谱波段分组策略时,随着组数的增加,将LSTM最后的隐藏层状态向量作为特征无法取得令人满意的分类精度。

针对上述问题,引入注意力机制网络能够起到一定效果。注意力机制网络使RNN能够再次回顾网络中不同时刻的隐藏层状态,在处理信息瓶颈问题的同时,进一步缓解RNN(包括LSTM)梯度消失的问题。Bahdanau等16提出一种注意力机制网络,使Seq2Seq模型中的译码器能够选择性地回顾编码器中的信息,获取具有更多相关信息的语义编码向量。此外,在文本分类领域,Yang等17提出一种注意力机制网络来处理多对一问题,具体公式为

s=iαihiαi=expuiTuw/iexpuiTuwui=tanhWwhi+bw

式中:Wwbw分别为全连接层的权重矩阵和偏置;uw为一个随机初始化的上下文信息向量;ui为提取的语义特征;tanh()为tanh激活函数。通过隐藏层状态向量hi与上下文信息向量uw之间的相关性计算权重αi,利用权重对隐藏层状态向量进行加权求和。相比直接使用LSTM最后时刻的隐藏层状态向量hn,这种方式能够得到包含更多相关信息的输出s

注意力机制网络同样可以用于处理空间信息。为实现空间多尺度策略,常见的方法是采用多次卷积的方式,在不同卷积层的输出中得到不同感受野尺度下的空间特征。然而,随着卷积网络的加深,无法保证不同感受野下的分支网络能关注到原始图像中的重点信息。注意力机制能够很自然地加入卷积层之间,将网络聚焦到空间中的重要部分。Woo等18提出一种空间注意力机制网络,如图1所示。为计算空间中不同像素的权重,他们采用平均池化与最大池化的方式进行信息的聚合,并使用卷积的方式得到空间上的权重α,具体计算方法为

Y=X+X'X'=αXα=σfm×mee=Concate1,e2e1=AvgpoolXe2=Maxpool(X)

式中:Y为空间注意力机制网络的输出;X为高光谱图像经过主成分分析(PCA)降维后的局部邻域;表示哈达玛积(hadamard product);σ为Sigmoid激活函数;fm×m表示应用卷积核大小为m×m的二维卷积层;Concatw,v表示对wv进行拼接;AvgpoolMaxpool分别表示通道维度上的平均池化和最大池化操作。

图 1. 空间注意力机制网络结构图

Fig. 1. Structure of spatial attention network

下载图片 查看所有图片

2.3 网络框架

引入注意力机制的光谱多尺度特征提取网络(SeAMN)具体结构如图2所示。SeAMN利用3组一维卷积层和最大池化层来实现感受野多尺度策略。此外,为实现分组多尺度策略,分别对原始光谱向量以及不同感受野下的特征向量进行分组,采用递减的方式来设置组数,感受野越大,组数越小。在不同尺度下,利用一个LSTM进行进一步的光谱特征提取。最后,将不同尺度下的光谱特征相加,得到多尺度光谱特征。为充分发挥多尺度分组策略的作用,SeAMN在不同尺度下的LSTM输出处引入一种光谱注意力机制网络,以此缓解梯度消失现象。

图 2. SeAMN结构图

Fig. 2. Structure of SeAMN

下载图片 查看所有图片

参考图1的注意力机制网络结构,所提光谱注意力机制网络如图3所示,其主要利用两个全连接层来处理不同光谱波段组在LSTM中的隐藏层状态向量进而生成权重,并计算加权求和后的信息u,具体公式为

图 3. 光谱注意力机制网络结构图

Fig. 3. Structure of spectral attention network

下载图片 查看所有图片

u=Oαα=SoftmaxW2e+b2e=tanhW1O+b1

式中:O=[h1,h2,,hn]为LSTM的隐藏层状态矩阵;Softmax为Softmax激活函数;W1W2分别为第一个和第二个全连接层的权重矩阵,而b1b2则分别表示其偏置。首先使O经过一层全连接神经网络,并使用tanh作为激活层,得到新的隐藏层表达e;然后使用第二层全连接层来衡量每一组光谱波段组隐藏层状态向量的重要性,并使用Softmax将其映射为概率分布;再采用软注意力机制,利用权重αO进行加权求和;最后,将hnu的和作为光谱注意力机制网络的输出:

y=hn+u

通常,注意力机制网络将u作为网络的输出。然而,在LSTM中,hn捕获了大部分光谱信息,因此,与其他时刻的输出相比,hn更重要。所提方法从残差网络的结构中得到启发,选择使用y作为输出,使光谱注意力机制网络的学习目标发生变化。假设光谱信息的真实分布为Hx,当使用u作为输出时,注意力机制网络的目标在于使输出u尽量拟合光谱信息的真实分布Hx。然而,当使用y作为输出时,注意力机制网络的目标在于使输出u尽量拟合Hx-hn,即使用注意力机制网络从LSTM的数量为n的输出中收集丢失的信息对hn进行补充,这种方式保证了hn的重要性。

引入注意力机制的空间多尺度特征提取网络(SaAMN)如图4所示。首先使用PCA对原始高光谱图像进行降维。随后,使用3组卷积-注意力模块处理像素的局部邻域,以此来实现多尺度的空间特征提取。在不同尺度下,需要将卷积-注意力模块得到的空间特征在空间维度上切分成局部块,以方便后续处理。对于一个尺寸为H×W的邻域信息X,将其切分为s×s的局部块Zij(其中:i<H/sj<W/s),其计算公式为

Zij=XijXij+W/sXij+W/s×(s-1)Xi+H/sjXi+H/sj+W/sXi+H/sj+W/s×(s-1)Xi+H/s×(s-1)jXi+H/s×(s-1)j+W/sXi+H/s×(s-1)j+W/s×(s-1)

图 4. SaAMN结构图

Fig. 4. Structure of SaAMN

下载图片 查看所有图片

不同尺度下的切分结果作为不同ConvLSTM的输入,进一步提取空间邻域中的上下文信息。最后,对多种尺度下的结果求和,获取多尺度空间特征。其中,ConvLSTM是LSTM的一种改进方案,是在LSTM中引入卷积算子,以保留邻域像素之间的空间关系,具体计算公式为

ft=σWhf*Ht-1+Wxf*Xt+WcfCt-1+bfit=σWhi*Ht-1+Wxi*Xt+WciCt-1+biot=σWho*Ht-1+Wxo*Xt+WcoCt+boHt=ottanhCtCt=ftCt-1+itC˜tC˜t=tanhWhc*Ht-1+Wxc*Xt+bc

式中:ftitot、分别为遗忘门、输入门、输出门;XtHtCt分别为第t时间步的输入、隐藏层状态和记忆单元;Wi,bi,Wf,bf,Wo,bo,=x,h,c为权重与偏置矩阵;*表示卷积操作。

上述卷积-注意力模块由两个空洞卷积层和一个空间注意力机制网络构成,如图5所示。首先通过两层空洞卷积层,在图像尺寸保持不变的情况下增加感受野,进而实现多尺度特征提取;然后,利用式(4)计算空间注意力图并进行加权处理,使网络关注到空间上的重要信息。通过在网络主干部分引入空间注意力机制网络,能够有效帮助主干上的卷积网络突出空间中的关键信息。空间注意力机制网络的输出结果将作为当前尺度下分支网络中ConvLSTM的输入,有利于ConvLSTM进行空间维度的特征提取。

图 5. 卷积-注意力模块网络结构图

Fig. 5. Structure of Conv-attention model

下载图片 查看所有图片

为进行空-谱特征的联合提取,采取一种得分融合策略对上文中两部分网络进行融合,如图6所示。该策略能够将光谱与空间网络合并为一个整体,同时进行训练与融合,得到空-谱联合特征,具体计算方法为

图 6. 引入注意力机制的多尺度特征提取网络框架

Fig. 6. Structure of multiscale feature extraction method with attention mechanism

下载图片 查看所有图片

S=σmSse+1-σmSsa=σmWseFse+1-σmWsaFsa+σmbse+1-σmbsa

式中:FseFsa分别为提取到的多尺度光谱特征和多尺度空间特征;m为一个可通过神经网络优化的权重参数;WsebseWsabsa分别为用于计算光谱与空间得分的权重和偏置。首先,利用两个全连接层分别处理FseFsa,进而得到光谱得分向量Sse与空间得分向量Ssa。随后,通过一个可迭代的参数m作为权重值,将得到的光谱得分向量和空间得分向量进行加权求和,得到最终的得分向量S

引入注意力机制的多尺度高光谱图像特征提取方法包括光谱和空间两个部分。SeAMN考虑到梯度消失现象对分组策略的影响,通过光谱注意力机制网络,利用LSTM每一时间步的隐藏层状态向量来补充丢失的光谱信息,进而缓解光谱波段分组策略中的梯度消失现象带来的分组组数限制,充分发挥分组策略的作用。在SaAMN中使用一种卷积-注意力模块,将空间注意力机制网络自然地加入到多尺度卷积层之间,能够有效地帮助主干上的卷积网络突出空间中的关键信息,有利于ConvLSTM进行空间维度的特征提取。最后,使用一种得分融合策略有效地将两部分网络进行融合并提取空-谱联合特征,提高图像分类的准确度。

3 实验结果与分析

3.1 数据集

为检验所提方法的有效性,在3个高光谱公开数据集上进行了实验,数据集分别为Pavia University、KSC(Kennedy Space Center)以及Indian Pines。

Pavia University数据集由ROSIS(reflective optics spectrographic imaging system)传感器(ROSIS-03)对意大利的帕维亚大学成像获得,该数据集包含9类地物,尺寸为610 pixel × 340 pixel、空间分辨率为1.3 m/pixel。数据集包含115个波段,去除其中受到噪声影响的12个波段后,使用剩余103个波段进行实验。

KSC数据集由机载可见/红外成像光谱仪(AVIRIS)于佛罗里达州肯尼迪航天中心采集得到,该数据集包含13类地物,尺寸为512 pixel×614 pixel、空间分辨率为18 m/pixel。数据集包含224个波段,在预处理中去除48个波段后,保留剩余176个波段作为实验数据。

Indian Pines数据集是由AVIRIS对位于美国印第安纳州西北部的印第安试验场进行成像捕获到的植被影像。该数据集包含16个类别,尺寸为145 pixel × 145 pixel,由220个波段组成,去除20个受到影响的波段后,保留剩下的200个波段作为实验数据。

在本实验中,为了对网络进行训练,从上述3种数据集的标记样本中随机抽取一定量的样本作为训练样本,其他样本则作为测试样本,3种数据集的训练样本设置如表1表2表3所示。

表 1. Pavia University数据集类别及训练样本设置

Table 1. Categories and settings of Pavia University dataset

ClassClass NameTraining numberTotal number
Total90042776
1Asphalt1006631
2Meadows10018649
3Gravel1002099
4Trees1003064
5Painted metal sheets1001345
6Bare soil1005029
7Bitumen1001330
8Self-blocking bricks1003682
9Shadows100947

查看所有表

表 2. KSC数据集类别及训练样本设置

Table 2. Categories and settings of KSC dataset

ClassClass NameTraining numberTotal number
Total4595211
1Scrub33761
2Willow swamp23243
3CP hammock24256
4CP/Oak24252
5Slash pine15161
6Oak/Broadleaf22229
7Hardwood swamp9105
8Graminoid marsh38431
9Spartina marsh51520
10Catiail marsh39404
11Salt marsh41419
12Mud flats49503
13Water91927

查看所有表

表 3. Indian Pines数据集类别及训练样本设置

Table 3. Categories and settings of Indian Pines dataset

ClassClass NameTraining numberTotal number
Total134210249
1Alfalfa3346
2Corn-notill1001428
3Corn-mintill100830
4Corn100237
5Grass-pasture100483
6Grass-trees100730
7Grass-pasture-mowed2028
8Hay-windrowed100478
9Oats1420
10Soybean-notill100972
11Soybean-mintill1002455
12Soybean-clean100593
13Wheat100205
14Woods1001265
15Buildings-Grass-Trees-Drives100386
16Stone-Steel-Towers7593

查看所有表

3.2 实验设置

为验证所提方法的有效性,通过实验分别对比不同的光谱特征提取、空间特征提取以及空-谱联合特征提取方法。在光谱特征提取方法中,选择3种具有代表性的RNN高光谱特征提取方法进行对比实验,分别为以单一光谱波段为输入的LSTM方法(LSTM-byb)12、采用光谱波段分组策略的LSTM方法(LSTM-split)12、ASSMN中提出的多尺度光谱特征提取方法(SeMN)13。此外,为对比RNN以外的深度学习特征提取方法,实验中还对比了基于一维CNN的光谱特征提取方法(1DCNN)19。在空间特征提取方法中,将ASSMN中提出的多尺度空间特征提取方法(SaMN)13以及基于二维CNN的空间特征提取方法(2DCNN)20作为对比方法。在空-谱联合特征提取方法中,将ASSMN13与光谱-空间统一网络(SSUN)12两种联合特征提取方法作为对比方法。使用总体准确度(OA)、平均准确度(AA)、卡帕系数(KC)以及训练时长(TrnTime)4种指标对所有方法的分类性能进行评价。

实验中,所提方法需要调节的超参数如表4所示。需要调节的超参数为:SeAMN中的光谱波段分组组数、SeAMN的隐藏层维数以及SaAMN的卷积核大小。光谱波段的分组组数直接影响到不同类别分类的准确性,应当依据实验数据集的光谱维数进行设置。经过实验,分组组数依据卷积网络的从浅到深依次减半,分别设置为:Indian Pines数据集中8-4-2-1;Pavia University数据集中8-4-2-1;KSC数据集中16-8-4-2。SeAMN中不同隐藏层大小与SaAMN不同卷积核大小的分类效果对比结果如图7(a)(b)所示,图7(c)为不同分组方式的分类效果。实验证明,当SeAMN中的隐藏层大小在75左右时,网络可以达到理想的性能,因此,在3组数据集中,均将其设置为75。此外,当SaAMN中的卷积核大小达到5×5后,网络性能将出现明显的下降,在3种数据集中该参数大小均设为3×3。在将SeAMN和SaAMN进行联合提取时,除在KSC数据集中的光谱波段分组组数修改为32-16-8-4外,其余参数均与上述参数一致。

表 4. 所提方法的参数设置

Table 4. Settings of proposed method

MethodDatasetSplitHidden sizeKernel size
SeAMNIndian Pines8-4-2-175
Pavia University8-4-2-175
KSC16-8-4-275
SaAMNIndian Pines3
Pavia University3
KSC3

Proposed

method

Indian Pines8-4-2-1753
Pavia University8-4-2-1753
KSC32-16-8-4753

查看所有表

图 7. 在不同超参数下,独立运行10次实验的网络总体准确度。(a)SaAMN在不同卷积核大小下的表现;(b)SeAMN在不同隐藏层大小下的表现;(c)SeAMN在不同分组策略下的表现

Fig. 7. Overall accuracy of proposed method by running 10 experiments independently with different hyperparameters. (a) Performance of SaAMN with different kernel sizes; (b) performance of SeAMN with different hidden sizes; (c) performance of SeAMN with different grouping strategies

下载图片 查看所有图片

3.3 实验结果

表5给出了5种光谱特征提取方法、3种空间特征提取方法以及3种空-谱联合特征提取方法在KSC数据集上经过10次独立运行后的平均分类精度(AP)与其对应的标准差(SD)。表5中,LSTM-byb表现最差,这是由于输入序列的长度为高光谱图像的光谱维数,过长的输入序列导致网络出现梯度消失现象,难以准确地通过得到的光谱特征对高光谱图像进行分类。相比LSTM-byb,LSTM-split使用了光谱波段分组的手段,有效缓解了梯度消失现象,因此其分类准确率得到了明显提升。与前两种方法相比,SeMN引入多尺度思想,提取不同尺度下的光谱上下文信息,进一步提高了分类性能。在基于RNN的光谱特征提取方法中,SeAMN引入注意力机制,缓解梯度消失现象的同时,充分发挥了光谱波段分组的多尺度策略,取得了较高的分类准确率。在空间注意力网络中,SaMN引入多尺度思想,在不同尺度下提取空间上下文信息,相比2DCNN,SaMN具有更优的分类性能。SaAMN在卷积层之间引入空间注意力机制网络,使网络在学习的过程中能够尽量保留邻域中的重要信息,进而得到了比SaMN更好的分类效果。在空-谱联合特征提取方法中,所提方法同样得到了具有竞争力的分类效果。

表 5. 不同特征提取方法在KSC数据集上的分类结果

Table 5. Classification results of different feature extraction methods on KSC dataset

MethodSpectral feature extraction methodSpatial feature extraction methodJoint feature extraction method
1DCNN

LSTM

-byb

LSTM

-split

SeMNSeAMN2DCNNSaMNSaAMNSSUNASSMN

Proposed

method

OA /%

AP

SD

85.81

±1.26

68.11

±1.90

73.00

±1.64

88.03

±1.06

88.55

±0.82

96.58

±0.51

96.80

±1.54

97.47

±1.65

97.43

±0.65

98.01

±0.77

98.46

±0.50

AA /%

AP

SD

78.90

±2.49

55.56

±3.12

61.50

±1.89

82.71

±1.36

83.23

±1.40

95.85

±0.73

95.91

±1.98

96.94

±2.21

96.84

±0.61

97.32

±1.15

98.00

±0.80

KC×100%

AP

SD

84.21

±1.40

64.40

±2.18

69.93

±1.83

86.68

±1.18

87.25

±0.91

96.19

±0.56

96.44

±1.71

97.18

±1.84

97.14

±0.72

97.78

±0.86

98.29

±0.56

TrnTime /s

AP

SD

7.14

±0.66

46.84

±0.43

10.93

±0.22

30.02

±0.88

50.54

±1.10

13.28

±0.32

225.88

±9.46

243.11

±6.01

96.46

±4.63

246.37

±5.83

313.15

±1.20

Classification accuracy /%187.4374.7775.8785.9688.1392.1294.1694.1194.7496.3596.91
287.6469.1870.5987.8284.8294.5593.6496.7396.8696.8298.41
375.6532.8952.1686.6887.5496.6494.3594.2297.7696.8597.97
448.6820.8339.3461.5464.9688.4289.6191.1490.3991.4594.04
550.8240.2741.2360.0755.3499.0496.3097.1292.7497.0597.26
649.2314.4936.8156.8155.9988.8495.3196.4393.1493.1994.59
768.0213.132.8171.9878.9693.2392.5095.5299.4896.5697.60
884.8632.6540.9784.3586.3998.1992.8596.2696.3198.0498.02
992.2882.4385.6194.5695.0399.0499.7299.8799.8599.3099.62
1094.0369.3477.1896.4794.9398.3399.75100.0099.4299.7899.92
1196.6492.3594.4296.0396.8099.87100.00100.0098.6099.8199.74
1290.4880.2982.6993.0493.0697.8298.6398.8399.63100.0099.93
1399.8999.6899.8999.9999.98100.00100.00100.00100.00100.00100.00

查看所有表

在Pavia University数据集中,11种特征提取方法经过10次独立运行后的AP与其对应的SD如表6所示。相较于KSC数据集,Pavia University数据集的光谱波段长度相对较短,在该数据集中,LSTM-split并没有发挥出明显的优势,然而,由于序列较短,梯度消失的现象得到进一步缓解,相较于1DCNN,SeAMN的分类准确率存在明显提升。此外,在3种空间特征提取网络的对比中,SaAMN能够达到了较高的分类准确率,同时相比于SaMN,其具有更低的标准差。相较于ASSMN,所提方法达到了较高的总体准确率,但某些特定类别地物的分类精度较低,具体集中于Asphalt、Gravel、Bare soil、Self-blocking bricks 4类地物上。通过观察这4种地物的光谱曲线,不难看出它们具有相似的光谱特性,即通常都在可见光范围内表现为较低的反射率,而在近红外范围内表现为较高的反射率。与ASSMN不同,所提方法引入注意力机制网络后使得分组策略更加自由,使用不同的分组策略可以得到想要的结果。然而,不同的分组策略可能并不适用于区分一些特定类别的地物,导致这些地物在通过LSTM提取特征时出现较高的相似度。

表 6. 不同特征提取方法在Pavia University数据集上的分类结果

Table 6. Classification results of different feature extraction methods on Pavia University dataset

MethodSpectral feature extraction methodSpatial feature extraction methodJoint feature extraction method
1DCNN

LSTM

-byb

LSTM

-split

SeMNSeAMN2DCNNSaMNSaAMNSSUNASSMN

Proposed

method

OA /%

AP

SD

78.37

±2.29

71.28

±6.20

69.36

±1.86

82.94

±2.47

85.91

±1.14

90.26

±1.10

92.97

±2.40

93.93

±1.26

94.71

±1.03

95.95

±1.38

96.61

±1.04

AA /%

AP

SD

86.75

±0.40

80.85

±3.85

81.34

±0.91

87.72

±1.07

89.49

±0.74

93.68

±0.66

95.61

±1.18

96.02

±0.73

96.95

±0.32

97.77

±0.48

97.72

±0.51

KC×100%

AP

SD

72.56

±2.54

64.36

±6.93

61.96

±1.82

77.96

±3.06

81.69

±1.45

87.27

±1.40

90.80

±3.08

92.02

±1.62

93.04

±1.33

94.66

±1.80

95.51

±1.35

TrnTime /s

AP

SD

12.89

±0.73

49.43

±0.42

21.52

±0.50

61.85

±0.28

78.80

±0.59

25.90

±0.32

387.25

±4.32

416.77

±15.24

178.83

±11.70

442.47

±23.50

569.15

±2.32

Classification accuracy /%177.4770.2871.6182.3482.7688.3190.9092.6593.6695.9595.32
270.9462.2857.8979.9484.2287.4790.4492.1092.4194.1596.10
382.0359.6970.7379.3481.6088.2989.4790.5095.5797.1995.85
494.4393.4495.7693.4994.5394.8497.2097.8299.4299.1799.16
599.6697.8798.8099.1599.6199.9499.9799.9899.8299.9999.98
679.8478.6070.8181.8887.1990.3497.0996.2596.5696.7496.52
792.7190.3791.5991.9391.7497.2799.1199.0197.7699.4899.45
883.6775.2474.9481.5283.9097.5796.4395.9897.5997.2997.08
9100.0099.8599.9599.8999.8399.1099.8799.8999.80100.0099.99

查看所有表

在Indian Pines数据集中,11种特征提取方法经过10次独立运行后的AP与其对应的SD如表7所示。Indian Pines数据集具有较长的光谱维度,这给基于RNN的光谱特征提取方法带来了较为不利的影响。由于1DCNN不受光谱维数的影响,相较于RNN方法,其分类准确率更高。由表7可以看出,相较于其他RNN方法,所提SeAMN仍然能够有效缓解梯度消失现象,提取更多有利于分类的光谱信息。在该数据集下,所提方法依然能够有效提升分类准确率、降低标准差,这是由于注意力机制能够有效减少关键信息的流失,使得多次实验结果的差异相对较小。

表 7. 不同特征提取方法在Indian Pines数据集上的分类结果

Table 7. Classification results of different feature extraction methods on Indian Pines dataset

MethodSpectral feature extraction methodSpatial feature extraction methodJoint feature extraction method
1DCNN

LSTM

-byb

LSTM

-split

SeMNSeAMN2DCNNSaMNSaAMNSSUNASSMN

Proposed

method

OA /%

AP

SD

80.46

±1.41

64.26

±4.74

71.49

±1.54

75.28

±2.70

77.78

±2.40

95.87

±0.72

97.36

±0.72

97.71

±0.38

96.28

±0.78

96.79

±0.72

98.13

±0.37

AA /%

AP

SD

87.44

±1.84

72.31

±4.99

79.06

±2.07

81.97

±3.07

84.16

±2.69

98.29

±0.28

98.69

±0.40

98.82

±0.25

98.50

±0.01

98.60

±0.48

99.03

±0.29

KC×100%

AP

SD

77.66

±1.57

59.51

±5.22

67.58

±1.70

71.80

±3.03

74.64

±2.68

95.22

±0.83

96.94

±0.83

97.34

±0.44

95.69

±0.90

96.28

±0.83

97.84

±0.43

TrnTime /s

AP

SD

20.34

±0.68

203.95

±0.66

32.92

±0.63

79.25

±0.59

110.56

±0.40

38.20

±0.33

667.89

±3.75

639.32

±38.31

273.34

±4.69

626.90

±4.94

745.69

±47.65

Classification accuracy /%195.3881.5486.1585.3882.31100.00100.0099.23100.00100.00100.00
278.5257.0663.3169.7270.4594.1093.3595.3893.5293.3596.31
377.0756.0870.2670.0472.1597.5198.2197.9098.8598.0598.85
490.5865.5584.0187.2384.89100.00100.00100.0099.8599.7899.64
582.9284.9378.2885.3391.7099.0398.3698.9699.1698.7298.04
693.3280.2189.1088.5195.3599.7899.1399.0899.6599.8699.86
795.0078.7588.7586.2581.25100.00100.00100.00100.0098.7598.75
897.9992.7896.0895.8797.25100.0099.97100.00100.00100.00100.00
988.3358.3370.0075.0085.00100.00100.00100.00100.00100.00100.00
1086.1668.3083.1380.3683.5794.6696.1197.3295.0397.2197.80
1170.5348.1562.6564.4665.5391.7797.2497.0193.1294.3797.05
1287.6160.1269.9477.6379.9097.7198.0197.6399.2798.8898.80
1398.7696.3897.0597.9098.48100.00100.0099.9099.4399.8199.81
1481.1882.2470.2383.1686.3198.7698.9499.0898.1198.7599.56
1578.5057.0659.4165.8775.2199.9799.7699.5899.97100.0099.97
1697.2289.4496.6798.8997.2299.44100.00100.00100.00100.00100.00

查看所有表

4 结论

提出了一种引入注意力机制的多尺度高光谱图像特征提取方法,其中包括SeAMN和SaAMN两个部分,通过一种得分融合策略进行融合。在SeAMN中,通过引入注意力机制能够缓解LSTM中的梯度消失现象,充分发挥多尺度分组策略的作用,更好地提取多尺度光谱特征。在SaAMN中,引入注意力机制能够帮助不同尺度下的分支网络获取关键信息,使网络关注到空间信息中的重要部分。实验结果表明,与其他几种特征提取方法相比,所提方法提取的光谱与空间特征能够稳定、有效地提升高光谱图像分类的准确率。然而,高光谱图像内部的三维结构同样具有重要的参考意义,分别提取光谱与空间特征的方法没有考虑到这方面的信息。在以后的工作中,将考虑引入光谱波段分组策略与注意力机制网络,在三维的高光谱数据块中应用ConvLSTM,提取高光谱图像内部的三维结构信息。

参考文献

[1] Zhao J L, Zhou B, Wang G L, et al. Camouflage target recognition based on dimension reduction analysis of hyperspectral image regions[J]. Photonics, 2022, 9(9): 640.

[2] Lu B, Dao P, Liu J G, et al. Recent advances of hyperspectral imaging technology and applications in agriculture[J]. Remote Sensing, 2020, 12(16): 2659.

[3] Zhu C M, Ding J L, Zhang Z P, et al. SPAD monitoring of saline vegetation based on Gaussian mixture model and UAV hyperspectral image feature classification[J]. Computers and Electronics in Agriculture, 2022, 200: 107236.

[4] 李丹, 孔繁锵, 朱德燕. 基于局部高斯混合特征提取的高光谱图像分类[J]. 光学学报, 2021, 41(6): 0610001.

    Li D, Kong F Q, Zhu D Y. Hyperspectral image classification based on local Gaussian mixture feature extraction[J]. Acta Optica Sinica, 2021, 41(6): 0610001.

[5] 陈明, 席祥雲, 王洋. 利用残差生成对抗网络的高光谱图像分类[J]. 激光与光电子学进展, 2022, 59(22): 2210008.

    Chen M, Xi X Y, Wang Y. Hyperspectral image classification using residual generation against network[J]. Laser & Optoelectronics Progress, 2022, 59(22): 2210008.

[6] 邓子青, 王阳, 张兵, 等. 多尺度特征融合残差网络的高光谱地物分类[J]. 激光与光电子学进展, 2022, 59(18): 1810014.

    Deng Z Q, Wang Y, Zhang B, et al. Classification of hyperspectral ground objects based on multi-scale feature fusion residual network[J]. Laser & Optoelectronics Progress, 2022, 59(18): 1810014.

[7] Zhou P C, Han J W, Cheng G, et al. Learning compact and discriminative stacked autoencoder for hyperspectral image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(7): 4823-4833.

[8] Guo Y H, Cao H, Bai J J, et al. High efficient deep feature extraction and classification of spectral-spatial hyperspectral image using cross domain convolutional neural networks[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2019, 12(1): 345-356.

[9] 丁繁昌, 郭宝峰, 贾响响, 等. 基于生成对抗网络的高光谱图像特征提取[J]. 光电子·激光, 2021, 32(8): 852-861.

    Ding F C, Guo B F, Jia X X, et al. Feature extraction of hyperspectral images based on generative adversarial networks[J]. Journal of Optoelectronics·Laser, 2021, 32(8): 852-861.

[10] Zhou F, Hang R L, Liu Q S, et al. Hyperspectral image classification using spectral-spatial LSTMs[J]. Neurocomputing, 2019, 328: 39-47.

[11] Liu Q S, Zhou F, Hang R L, et al. Bidirectional-convolutional LSTM based spectral-spatial feature learning for hyperspectral image classification[J]. Remote Sensing, 2017, 9(12): 1330.

[12] Xu Y H, Zhang L P, Du B, et al. Spectral-spatial unified networks for hyperspectral image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(10): 5893-5909.

[13] Wang D, Du B, Zhang L P, et al. Adaptive spectral-spatial multiscale contextual feature extraction for hyperspectral image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 59(3): 2461-2477.

[14] IsmailA, GunadyM K, PessoaL, et al. Input-cell attention reduces vanishing saliency of recurrent neural networks[EB/OL]. (2019-10-27)[2023-02-01]. https://arxiv.org/abs/1910.12370.

[15] WangF, JiangM Q, QianC, et al. Residual attention network for image classification[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE Press, 2017: 6450-6458.

[16] BahdanauD, ChoK, BengioY. Neural machine translation by jointly learning to align and translate[EB/OL]. (2014-09-01)[2023-02-01]. https://arxiv.org/abs/1409.0473.

[17] YangZ C, YangD Y, DyerC, et al. Hierarchical attention networks for document classification[C]∥Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, June 12-17, 2016, San Diego, California. Stroudsburg: Association for Computational Linguistics, 2016: 1480-1489.

[18] WooS, ParkJ, LeeJ Y, et al. CBAM: convolutional block attention module[M]//Ferrari V, Hebert M, Sminchisescu C, et al. Computer vision-ECCV 2018. Lecture notes in computer science. Cham: Springer, 2018, 11211: 3-19.

[19] Hu W, Huang Y Y, Wei L, et al. Deep convolutional neural networks for hyperspectral image classification[J]. Journal of Sensors, 2015, 2015: 1-12.

[20] Chen Y S, Jiang H L, Li C Y, et al. Deep feature extraction and classification of hyperspectral images based on convolutional neural networks[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 54(10): 6232-6251.

许张弛, 郭宝峰, 吴文豪, 尤靖云, 苏晓通. 一种引入注意力机制的多尺度高光谱图像特征提取方法[J]. 激光与光电子学进展, 2024, 61(4): 0437010. Zhangchi Xu, Baofeng Guo, Wenhao Wu, Jingyun You, Xiaotong Su. Multi-Scale Feature Extraction Method of Hyperspectral Image with Attention Mechanism[J]. Laser & Optoelectronics Progress, 2024, 61(4): 0437010.

引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!