基于改进残差注意力网络的SAR图像目标识别 下载: 912次
1 引言
合成孔径雷达(SAR)采用自身发射脉冲信号的回波来成像,因而突破了光学成像的限制条件,受复杂天气的影响较小,在**和民用领域应用广泛[1]。随着时代发展,传统的依靠人工解译SAR图像难以满足需求,人工智能的出现,人们逐渐将精力转移到依靠计算机的SAR图像目标自动识别上来。
Hinton等[2]提出了深度学习的概念,但深度学习一直未在图像识别领域得到成功应用,直到2012年,Krizhevsky等[3]凭借深度卷积神经网络15.3%的错误率刷新了记录,向世人展示了深度学习在图像识别领域的优秀性能。深度学习开辟了机器学习新领域,其核心是通过数据驱动,从众多数据中自动提取多种多角度特征,这种方式使得图像处理更加高效。常见的深度学习方法有深度置信网络[4]、卷积神经网络(CNN)[5]、自动编码器(DAE)[6]等。作为一种前馈型神经网络,简单CNN已无法满足需要,而对CNN进行调整改进时一般从深度和宽度上着手。在深度上,层数的增加会在一定程度上提高网络的性能,基于此,提出了LeNet-5、AlexNet、VGG[7]、残差网络(ResNet)[8]等。其中Szegedy等[9]提出的ResNet在ILSVRC2015竞赛中解决了层数加深之后带来的梯度消失和爆炸问题,使得网络层数可以进一步深化。在宽度上,经历了GoogLeNet[9]、InceptionV2[10]再到Inception ResNetV2[11]等,网络加宽可以大幅提高特定数据集的精度,但计算量会平方增加,而且模型的泛化能力也会减弱。
基于此,为了增强从输入到输出的映射能力,针对特征图分配时的权重不够准确、冗余参数较多的问题,在神经网络中引入了注意力机制,核心思想是分配给有效特征更多的权重。如2015年空间转换网络(STN)模型[12]用空间转换器模块提取出空间域的有效信息;压缩和激励网络(SENet)[13]利用通道注意力增加有效特征通道的权重,从而达到更好的训练效果;2017年残差注意力网络[14]结合了Inception和ResNeXt[15],形成了混合域的注意力机制;2018年非局部神经网络[16]通过增加CNN中远离局部感受野位置特征的权重来提高模型训练效果;2018年卷积注意力模型(CBAM)[17]关注了通道注意力的同时关注了空间注意力;2019年,双重注意力网络(DAN)[18]融合了CBAM和非局部神经网络,通过减少手工设计pooling等环节提高了训练效率。
近年来,深度学习算法在计算机视觉领域得到广泛应用,但在SAR图像目标识别领域还不够成熟,一方面由于深度学习算法网络层数较高,处理效率较低;另一方面由于SAR图像噪声较高。这就要求设计网络时要有针对性,除了精度和参数量的要求外,还要求有较强的鲁棒性,增加了算法设计的难度。基于此,在MSTAR数据集中,首先从网络深度和宽度角度出发,利用ResNet50、ResNet101及Inception ResNetV2说明简单堆叠的残差网络难以满足对识别率和参数量的要求,本文在残差注意力网络中引入残差收缩网络,识别率达到了99.6%,参数量减少了1/2。接着进行了鲁棒性分析,对数据集图像进行遮挡和加噪处理,实验证明,所提方法对两种情况都有较强的鲁棒性。
2 MSTAR数据集
采用美国空军研究室和**高级研究所合作研究公布的MSTAR数据集[19],由于**目标的SAR图像较难获取,目前国内研究SAR自动识别时大部分采用该数据。该数据是1996年采用0.3 m×0.3 m高分辨率聚束式SAR采集前苏联**车辆形成系统的数据库,再经过预处理裁减为尺寸为128×128的图像,且目标均处于图像中心。其主要包含BTR-70、BMP2和T72三类目标图像,其中每种类别的目标还有不同型号,以俯仰角为17°的数据作训练集,15°的数据作测试集,再加上MSTAR PUBLICTARGETS CHIPS中的图像,共含10类目标,最终训练集有2747张,测试集有2426张。
图 1. 10类目标光学图像和对应的SAR图像
Fig. 1. 10 types of target optical images and corresponding SAR images
表 1. 数据类别和样本数量
Table 1. Data category and number of samples
|
3 残差网络
残差网络的出现给神经网络的发展带来了新的契机。在这之前,神经网络层数除了VGG达到的19层和GoogLeNet达到的22层,再无网络可以超越,因为层数加深到一定程度之后出现的过拟合问题还可以通过增加数据量或者采用Dropout正则化的方法来减缓,但是无论采用SGD、AdaGrad[20],还是Adam[21]都无法达到最好的收敛效果,某种意义上也限制了神经网络的发展。根据网络的深浅,残差模块有两种实现形式,50层以下的网络采用2层结构单元,50层及以上的网络采用3层结构单元。3层结构单元先后用一个1×1卷积进行降维和升维,大幅减少参数量的同时也减弱了层数加深带来的参数量爆炸风险。
针对SAR图像目标识别准确率不高的问题,本实验选用ResNet50、ResNet101和Inception ResNetV2处理MSTAR数据集,其中ResNet50和ResNet101用来纵向研究残差网络的层数对识别率的影响,再加入Inception ResNetV2横向比对网络加宽之后对识别率的影响,3种网络的Block均采用Bottleneck结构。训练时加载对应的预训练模型,全连接层设计两个Dense层,第一个作用是降维,第二个添加Softmax函数来分类,两个Dense中间设置Dropout正则化,参数为0.5。数据集一共包含10类目标,实验结果以10类目标的平均识别率为衡量标准。
表 2. 不同算法的识别率
Table 2. Recognition rates of different algorithms
|
训练细节有:1)图像预处理,为防止数据较少带来的过拟合问题,把数据尺寸由128×128随机裁减为88×88,样本量扩大了(128-88+1)×(128-88+1)=1681倍,每类目标选择2700张图片,为方便后续神经网络的处理,对图像进行归一化和错切变化处理;2)采用Tensorflow开源框架,收敛方法采用SGD梯度下降法,动量设为0.9,初始学习率设为0.003,识别率不再上升时,学习率以乘0.5的方式减小,min_lr设为0.000005,batch_size设为16,迭代周期设为50;3)实验平台为阿里云第四代轻量级服务器,处理器型号为Intel Xeon(Skylake)Platinum 8163,主频2.5GHZ,GPU为NVIDIA Tesla T4。实验结果如
有针对性地设计网络时无法预估最优的网络层数,而网络层数过深后会出现冗余层,拟合效果会大打折扣。而如果单纯依靠增加深度和宽度就可以从识别精度和实时性上取得好效果,也就没了改进算法和引进新内容的必要。基于此,针对MSTAR数据集,对比了3种不同网络模型,ResNet50和ResNet101均由残差块简单堆叠而成,后者在conv4_x多出17个残差块,采用ResNet50进行实验时,训练集精确度达到了99.4%,测试集精确度为97.9%,而样本数量是足够的,可以看出,这种过拟合来自于图像噪声。测试集中ResNet50的识别率不算高,2016年提出的A-ConvNets模型[22]对MSTAR数据集的识别率就达到了99.13%。而层数加深到101层之后,测试集中算法的精度为90.9%,不升反降,精度曲线如
针对SAR图像目标识别率不高,且一般网络无法有效剔除噪声的情况,提出把残差收缩网络[23]引入到残差注意力网络中,增强抗噪能力。
4 残差收缩块
注意力分为两种,包括软性注意力和硬性注意力。硬性注意力侧重于图像上离散的点延伸出的注意力,常被用于注重不同部分差异的细粒度图像分类中,Zhang等[24]于2014年提出了一种基于对象检测区域卷积网络的部位区域卷积网络(PB R-CNN)。软性注意力更侧重通道和空间等确定性的注意力,其突出特点是可以直接通过反馈机制得到权重,这也是神经网络中常用软性注意力的原因。其中SENet通过并联分支实现了对通道的注意,结构如
式中:Zc为压缩操作之后的权值参数;Fsq(·)为特征压缩操作;uc为U中第c个二维矩阵,U为多个局部特征图的集合;H为特征矩阵的高度;W为特征矩阵的宽度。残差收缩网络主要针对的是噪声较高问题,实现方式是将软阈值设置模块嵌入到残差网络中。软阈值函数可以将低于某个门限的特征直接置0,其他特征也向0的方向进行调整,从而实现对低于门限的噪声的弱化,所以阈值设置的大小直接决定了去噪效果的优劣。借用SENet中通道注意力的实现方式,对阈值进行自适应调整,操作如
5 改进混合注意力的残差网络
5.1 结构分析
残差注意力网络包含3个注意力模块,每个注意力模块含2个分支:上路的主干分支和下路的掩模分支。主干分支包含若干残差块,负责提取主要特征,输出为T(x)。掩模分支采用bottom-up、top-down结构,负责附加混合域的注意力。首先由降采样获取全局特征,利用线性插值或反卷积将特征图放大到和T(x)一样的尺寸,再用Sigmoid函数对权重进行归一化,得到特征对应的权重输出为M(x),则输出H(x)的表达式为
这样既实现了注意力权重的附加,又不会使特征值随着层数加深而减小,导致网络退化。为了提取不同层次的特征,原网络在3个阶段中的bottom-up、top-down间添加数量依次为2,1,0的skip connection。本文只介绍残差注意力网络的核心内容,若想进一步了解,可以参考文献[ 15]。
为研究残差注意力网络在MSTAR数据集上的性能,环境设置和训练细节同上,识别结果如
表 3. 残差注意力网络识别率
Table 3. Recognition rate of original residual attention network
|
实验结果表明,该模型识别率达到了98.9%,比ResNet50和ResNet101的精度都要高,尤其在残差网络结构层数低于101的情况下,软分支附加的注意力确实起到了增加有效特征权重的效果。但测试集中的精度明显低于训练集,依然产生了过拟合,在噪声环境下该模型性能较差,而且采用残差块,导致整个网络参数量巨大,实时性较差,难以真正得到应用,尤其在SAR图像带有大量噪声的情况下。
残差注意力网络实现了混合域的残差注意力,可以增大有效特征的权重,但在强噪声下,从输入到输出的映射能力还不够强,且参数量巨大。基于此,从3个方面对模型进行改进。
1) 主干分支采用去噪声能力更强的残差收缩块,这样可以避免只依靠软分支添加注意力带来的误差,尤其在软分支提取特征表征能力不强的情况下。经过主干分支过滤后的特征再附加软分支提供的混合域注意力,提取的特征权重更加准确。
2) 为了进一步增强软分支混合域注意力的效果,依然用残差收缩网络替换掉原有的残差网络,在用软阈值剔除噪声的同时,用混合注意力机制进行特征权重的二次分配。
3) 为了合理地减少参数量,省略阶段一和阶段二之间、阶段二和阶段三之间的残差块,再把最后输出阶段的残差块数量由4减为2,模型结构如
5.2 改进模块主干网络实时性分析
改进之后网络复杂度会有所变化,主要体现在2个方面:1)主干分支和软分支中残差块替换为残差收缩块后,软阈值会把低于门限的特征参数置0,大幅降低参数量;2)软阈值设置模块多出的全连接层会增加参数量。为了找出最佳的改进方式,并提高网络的实时性,主干网络收缩块数量设为2,对改进阶段的数量进行仿真实验。依然针对MSTAR数据集,训练细节同上,阶段数量依次设为3,2,1,0,改进阶数为1代表只改第一阶段,2代表改进一、二阶段,3同理。当改进阶段数为0时,即为残差注意力网络,结果如
表 4. 不同改进阶段数下的实验结果
Table 4. Experimental results of different improvement stages
|
由
针对MSTAR数据集,模型S和不同算法的识别结果如
表 5. 不同模型的识别结果
Table 5. Recognition results of different models
|
6 鲁棒性分析
基于上述实验,模型S在识别精度和实时性上都要优于原网络,而且识别精度在已有算法中最高。但衡量一个算法的好坏,还要看它在恶劣条件下的表现。受外部环境和成像设备的影响,数字图像在形成过程中很容易产生噪声,所以去除这些噪声就有现实意义。本文测试了模型S在被遮挡和椒盐噪声环境下的性能,选取BTR_60、BRDM_2和BMP2共3类目标。
1) 任意置0像素点,以此模拟目标遮挡情况。置0像素点比例设置为5%,15%,20%,30%,35%,为使结果具有稳定性,多次测量取平均值。加噪声之后的3类目标图像效果如
目标和噪声的灰度值较高,随机添加灰度值为0的像素点之后,目标和噪声都可能被置0,降低噪声的同时也降低了目标特性,理论上无法预测识别率的变化,识别结果如
表 7. 椒盐噪声下模型的识别结果
Table 7. Recognition results of model under salt and pepper noise
|
2) 椒盐噪声
表 6. 遮挡识别结果
Table 6. Occlusion recognition results
|
一旦获取和信道传输过程受到干扰,图像上就会出现黑或白色的随机像素点,将直接影响特征提取和图像识别的效果,称之为椒盐噪声。因其随机离散的特点,又称为脉冲噪声,常见于数字图像处理中。但这种噪声的产生机制意味着其比例不会太高,选择产生比率分别为5%,10%,15%,噪声图像如
实验设置同上,多次测量求平均值,实验结果如
因为本文以随机添加黑色像素点来模拟遮挡情况,情况较简单,而以随机添加白色和黑色像素点模拟椒盐噪声,对目标的影响更加复杂。随机添加白色像素点会对目标识别造成干扰,而添加黑色像素点则会直接减弱目标特性。SAR图像在军地两方面的应用日益广泛,但其中的高噪声使图像识别等图像处理变得复杂,因此研究去噪性能具有实际意义。实验表明,模型S在遮挡和具有椒盐噪声两种情况下依然有较高的识别率,具有较强的鲁棒性。
7 结论
尽管深度学习方法给计算机视觉领域带来了深刻的变革,但在SAR成像上的应用还不够成熟,在不同的应用背景下,还需要不断改进。将残差收缩块和残差注意力网络相结合,构造出了模型S,该模型在识别率和实时性上都有较大的提升。通过实验证明,模型S有较强的鲁棒性,具有广泛的应用前景,但采用深度学习算法进行去噪的效率比传统滤波是否更高,还需进一步分析。
[1] 杨桄, 陈克雄, 周脉鱼, 等. SAR图像中目标的检测和识别研究进展[J]. 地球物理学进展, 2007, 22(2): 617-621.
Yang G, Chen K X, Zhou M Y, et al. Study evolution of detection and recognition on target in SAR image[J]. Progress in Geophysics, 2007, 22(2): 617-621.
[3] KrizhevskyA, SutskeverI, Hinton GE, et al. ImageNet classification with deep convolutional neural networks[C] //Proceedings of the 25th Interference Conference on Neural Information Processing Systems, December 5-8, 2013, Lake Tahoe, Nevada, USA. New York: Curran Associates, 2012, 1: 1097- 1105.
[4] BengioY, LamblinP, PopoviciD, et al.Greedy layer-wise training of deep networks[C] //Proceedings of the 19th International Conference on Neural Information Processing Systems, December 4-7, 2006, Vancouver, British Columbia, Canada.New York: MIT Press, 2006: 153- 160.
[6] Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63(11): 2672-2680.
[8] He KM, Zhang XY, Ren SQ, et al.Deep residual learning for image recognition[C] //2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA.New York: IEEE Press, 2016: 770- 778.
[9] SzegedyC, LiuW, Jia YQ, et al.Going deeper with convolutions[C] //2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 7-12, 2015, Boston, MA, USA.New York: IEEE Press, 2015: 1- 9.
[12] JaderbergM, SimonyanK, ZissermanA, et al. Spatial transformer networks[C] //Proceedings of the 28th International Conference on Neural Information Processing Systems, December 7-12, 2015, Montreal, Quebec, Canada. New York: Curran Associates, 2015, 2: 2017- 2025.
[13] Hu J, Shen L, Albanie S, et al. Squeeze-and-excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(8): 2011-2023.
[14] WangF, Jiang MQ, QianC, et al.Residual attention network for image classification[C] //2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA.New York: IEEE Press, 2017: 6450- 6458.
[15] Xie SN, GirshickR, DollárP, et al.Aggregated residual transformations for deep neural networks[C] //2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA.New York: IEEE Press, 2017: 5987- 5995.
[16] Wang XL, GirshickR, GuptaA, et al.Non-local neural networks[C] //2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA.New York: IEEE Press, 2018: 7794- 7803.
[17] WooS, ParkJ, Lee JY, et al. CBAM: convolutional block attention module[M] //Ferrari V, Hebert M, Sminchisescu C, et al. Computer vision-ECCV 2018. Lecture notes in computer science. Cham: Springer, 2018, 11211: 3- 19.
[18] FuJ, LiuJ, Tian HJ, et al.Dual attention network for scene segmentation[C] //2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 15-20, 2019, Long Beach, CA, USA.New York: IEEE Press, 2019: 3141- 3149.
[19] Ross T D, Worrell S W, Velten V J, et al. Standard SAR ATR evaluation experiments using the MSTAR public release data set[J]. Proceedings of SPIE, 1998, 3370: 566-573.
[20] Duchi J, Hazan E, Singer Y. Adaptive subgradient methods for online learning and stochastic optimization[J]. Journal of Machine Learning Research, 2011, 12(7): 257-269.
[22] Chen S Z, Wang H P, Xu F, et al. Target classification using the deep convolutional networks for SAR images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 54(8): 4806-4817.
[24] ZhangN, DonahueJ, GirshickR, et al. Part-based R-CNNs for fine-grained category detection[M] //Fleet D, Pajdla T, Schiele B, et al. Computer vision-ECCV 2014. Lecture notes in computer science. Cham: Springer, 2014, 8689: 834- 849.
[25] 胡显, 姚群力, 侯冰倩, 等. 基于卷积神经网络的合成孔径雷达图像目标识别[J]. 科学技术与工程, 2019, 19(21): 228-232.
[26] 王烈, 秦伟萌, 罗文. 基于多任务学习及Faster R-CNN的SAR目标图像识别分类[J]. 科学技术与工程, 2017, 17(35): 82-86.
[27] Zhao Q, Principe J C. Support vector machines for SAR automatic target recognition[J]. IEEE Transactions on Aerospace and Electronic Systems, 2001, 37(2): 643-654.
史宝岱, 张秦, 李瑶, 李宇环. 基于改进残差注意力网络的SAR图像目标识别[J]. 激光与光电子学进展, 2021, 58(8): 0810008. Baodai Shi, Qin Zhang, Yao Li, Yuhuan Li. SAR Image Target Recognition Based on Improved Residual Attention Network[J]. Laser & Optoelectronics Progress, 2021, 58(8): 0810008.