基于类特征注意力机制融合的语义分割算法
1 引言
随着科学基础和技术实现的进步,通过数据学习来解决问题的深度学习已经成为无人驾驶、医疗影像处理[1]、遥感分割和光学领域[2-3]中解决问题的通用支柱。图像语义分割是众领域中一个经典而基础的课题。2015年,Long等人提出全卷积网络(FCN)[4]来获取任意大小的输入并产生相应的分割图,在自然图像处理中取得了良好的效果。然而,基于FCN的算法对于分割小而复杂的对象能力有限。
为了解决这些问题,出现了两种基于全卷积神经网络的图像语义分割算法。一种是采用对称编解码结构的语义分割模型,主要通过下采样操作将目标信息分布到不同特征图中,然后通过跳跃连接与解码器中逐层上采样恢复的同层次图像进行拼接,如U-Net[5]、SegNet[6]。另一种通过加强抽象语义结合骨干网络的思路保留浅层高分辨率的空间细节和高层低分辨率的全局语义,如PSPNet[7]中用于提取目标图像全局信息的金字塔池化模块(Pyramid Pooling Module,PPM)。谷歌Chen等人引入空洞卷积[8],提出DeepLab[9-12]架构的几种变体,采用ASPP(Atrous spatial pyramid pooling)结构,对输入特征图进行并行采样,多尺度捕捉特征图上的图像上下文信息。Pan等人[13]提出一种用于语义分割的稠密金字塔网络(DPN),通过提取每个通道的特征图并进行通道切换操作以增强网络的表示能力。2018年,Shen等人[14]提出一种简单有效的前向卷积神经网络注意模块,随后胡洁等人提出了SeNet,Woo等人提出了CBAM[15],主要思想都是利用注意力机制来推断特征像素的重要特征。2020年,Li等人[16]提出的SFNet利用注意力机制学习不同感受野之间的语义流来获取信息。2020年,Zeng等人[17]在Deeplabv3+中增加了特征交叉注意模块,该模块通过两个分支提取低层空间信息和高层上下文特征来细化分割结果。2021年,Liu等人[18]提出了自适应多尺度模块和自适应融合模块,能够根据图像尺度自适应地为每幅图像生成不同的融合权重比,融合不同尺度图像的多尺度特征,有效地提高了分割效果。孟俊熙[19]等人设计了异感受野拼接的空洞空间金字塔池化结构,增强了各层级信息间相关性。然而,上述方法忽略了类别之间的上下文信息,不能很好地整合全局像素,并且图像特征提取过程细节信息有所丢失[20],造成目标边缘分割精度低等问题。
针对这些问题,相较于第一类缺乏语义信息的模型,目前第二类中专门用于处理语义分割的Deeplabv3+网络模型更为优越。本文以Deeplabv3+网络为基础,提出基于类特征注意力机制融合的语义分割算法CFANet(Class Feature Attention Mechanism Network)。本文主要的贡献如下:(1)针对DeepLabv3+模型对图像目标特征提取困难,注意力信息不能有效利用等问题,提出了CFANet。它采用端到端的深度CNN结构,结合了空间细节信息、全局上下文信息和类上下文信息来增强特征表征能力,最后通过一个通道注意力模块对前期多层融合的特征进行重新校准,抑制冗余信息加强显著特征来提高模型语义分割精度。(2)为了更好地提取高级语义信息。首先构建了类特征注意力机制模块(Class Feature Attention Mechanism,CFAM)[21]来捕捉对象的类别上下文信息,然后改进了ASPP模块(Multi-parallel Atrous Spatial Pyramid Pooling,M-ASPP)来合并全局上下文信息,优化卷积运算带来局部信息丢失问题。(3)最后利用通道注意力模块FCA(Feature Channel Attention)的特性对大量的融合特征重新校准,抑制冗余信息加强显著特征来提高网络的表征能力。
2 本文算法
2.1 网络结构
本文提出了一种改进的Deeplabv3+网络,命名为CFANet,如
编码器使用ResNet50进行特征提取,将4个阶段的输出作为多尺度特征融合过程的输入,在块3和块4之后分别连接CFAM和M-ASPP模块,丰富关于类别和全局上下文的信息。编码端通过将前期大量融合的拼接特征输入到通道注意力[15,17](Feature channel attention,FCA)模块,鉴于通道注意力机制对重要信息的选择性注意,能更有效提取到关注的正确特征,弱化不重要的冗余信息,保留关键特征,提高自我注意力机制的效率。注意力机制是一个简单有效的轻量级模块,添加这个模块几乎不会增加额外的计算。最后将输出的重要特征经过卷积和上采样操作恢复到原始图像大小,以更有效和更高效的方式从空间、通道和类别的角度自适应地捕捉全局相关性。
2.2 类特征注意力模块
注意力机制本质上是一种矩阵乘法的运算,可以确定图像中每个像素的依赖关系,增加依赖关系强的像素的权重,从而减少不必要噪声的干扰。为了更准确地捕捉类之间的依赖关系,增强网络理解各类信息的能力,本文提出了类特征注意力机制模块(CFAM)[21],如
类特征注意力模块可以从类别信息的角度捕捉远程上下文信息,即图像中每个类别与输入特征每个通道之间的关系被显式建模,来增强每个类别之间的上下文信息依赖性。首先,将主干网络Block3的输出特征定义为A
其中:
将
其中,
2.3 改进的ASPP模块
在DeepLabv3+结构编码最后阶段,通过并行不同膨胀率的空洞卷积来增大卷积核的感受野,抵消一部分池化层带来的信息丢失,进而有效实现多尺度特征提取。虽然使用ASPP结构在一定程度上通过增大感受野提高了分割性能,但是空洞卷积存在卷积核不连续的缺陷。为了解决上述问题,本文结合混合扩张卷积[23-24](HDC)的思想将ASPP重构为MASPP。HDC的思想就是当使用多个空洞卷积时,需要设计各卷积核的膨胀率使其刚好能覆盖底层特征层。改进的ASPP模块如
2.4 通道注意力模块
CFANet在编码端集成了MASPP和CFAM模块。分别利用MASPP模块提取多尺度信息,CFAM模块提取类特征信息,能更好地提取底层细节。编码端不同尺度特征图之间重复的通道融合操作,会使最终的输出存在特征冗余现象,故利用FCA模块(
其中:MLP是多感知层,
3 实验研究与结果分析
3.1 数据集和训练策略
本文网络的有效性和泛化性用Pascal Voc2012和Cityscapes数据集进行验证。Voc2012分割数据集包含21个类别,1 464张训练图片、1 449张验证图片和1 456张测试图片。我们通过对图像进行亮度增强、对比度增强、水平翻转和随机方向翻转扩展数据集得到增强版Pascal Voc2012数据集,共10 582张训练图像。Cityscapes是城市街景相关的语义数据集,包含50个城市和21个类别的5 000张图像,其中有2 975张训练集、500张验证集和1 525张测试集。这两个数据集都是图像语义分割任务中的重要数据库。
在对本文提出的算法进行网络训练和预测时,采用Pytorch框架,在Ubuntu16.04系统和Nvidia GeForce GTX1080Ti设备的实验条件下。网络输入图像的尺寸分别是512 pixel×512 pixel和768 pixel×768 pixel,批量大小设置分别为8和4,初始学习率设置为0.000 1,动量是0.9。
3.2 评价指标
针对本文提出的算法模型,使用语义分割中的标准度量MIoU(平均交并比)作为评价标准来验证网络的有效性,它反映了模型对每一类预测的结果和真实值的交集与并集的比值求和再平均的结果,IoU值越高,测量值与真实值的重叠越大,网络预测越准确,如
其中,物体标签类别数量用
3.3 特征提取网络选取实验
为了探索不同特征提取网络对CFANet的影响并找到最佳特征提取网络,连续使用Mobilenetv2、Xception、ResNet34、ResNet50和ResNet101等不同的骨干网络做了对比实验。获得的结果如
表 1. 不同基础网络的性能
Table 1. Performance of different base networks
|
从
3.4 消融实验
为了验证各模块对网络CFANet的影响及性能效果,在Voc2012增强版数据集上设计该实验。采用ResNet50作为主干模型,分别将本文提出的CFAM、M-ASPP和FCA模块添加到网络中进行实验并记录MIoU值,结果如
表 2. 模块消融实验
Table 2. Module ablation experiment
|
从
3.5 对比实验
为了验证本文设计算法的有效性,设计了两个对比实验,其一将本文算法与复现的经典网络对比;其二将本文算法与近年相关研究对比。
表 3. 经典网络性能对比
Table 3. Classic network performance comparison
|
表 4. 不同网络性能对比
Table 4. Performance of different networks
|
图 7. Voc2012数据集上每个模型的可视化结果
Fig. 7. Visualization results of each model on the Voc2012 dataset
3.6 泛化实验
为了进一步证明该算法的泛化性,在Cityscapes数据集上测试了改进前后网络对图像的分割效果,记录的MIoU值如
表 5. 在Cityscapes数据集上的性能检测
Table 5. Performance testing on the Cityscapes dataset
|
从
以上实验表明,本文提出的实现类别语义信息补充的CFAM和多并行的ASPP模块以及保留重要特征FCA模块的效用均得到了验证,各个模块之间的联合学习可以更高效地使用目标区域中的信息并从中聚合特征,在一定程度上解决因局部特征提取不连贯所造成的大规模目标类内不一致和目标分割不完整、不清晰等问题。整个网络的特征细化过程最终将引导网络合理使用给定的特征,可以看出,我们的模型在整体、边缘和细节方面都优于原始模型。
4 结论
为了使DeepLabv3+模型中图像边缘像素得到更清晰的呈现以及注意力信息得到高效利用,本文提出的基于类特征注意力机制融合的语义分割算法CFANet,通过增强特征的多样性和关键信息的捕捉来细化目标边缘像素和类别的高精度分割。在两个常用的数据集Pascal Voc2012和Cityscapes上对改进模型的有效性和泛化性进行了测试,平均交并比分别达到了81.34%和76.27%。实验数据和可视化结果均表明,本文设计的CFANet可以提供更多的语义信息来细化分割结果。虽然本文所提出的方法可以使图像达到很好的分割效果,但仍有改进的空间,本文没有考虑小对象分割的相关网络设计,因此,今后的工作将致力于对小目标分割进行相关研究。
[6] BADRINARAYANANV, HANDAA, CIPOLLAR. SegNet: a deep convolutional encoder-decoder architecture for robust semantic pixel-wise labelling[J/OL]. arXiv, 2015: 1505. 07293.
[11] CHENL C, PAPANDREOUG, KOKKINOSI, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs[C]// Proceedings of the 3rd International Conference on Learning Representations. San Diego, 2015.
[19] 孟俊熙, 张莉, 曹洋, 等. 基于Deeplabv3+的图像语义分割算法优化研究[J]. 激光与光电子学进展, 2022, 59(16): 161-170.
[20] 任凤雷, 何昕, 魏仲慧, 等. 基于DeepLabv3+与超像素优化的语义分割[J]. 光学 精密工程, 2019, 27(12): 2722-2729.
[24] 史健锋, 高志明, 王阿川. 结合ASPP与改进HRNet的多尺度图像语义分割方法研究[J]. 液晶与显示, 2021, 36(11): 1497-1505.
Article Outline
陈娜, 张荣芬, 刘宇红, 李丽, 张雯雯. 基于类特征注意力机制融合的语义分割算法[J]. 液晶与显示, 2023, 38(2): 236. Na CHEN, Rong-fen ZHANG, Yu-hong LIU, Li LI, Wen-wen ZHANG. Semantic segmentation algorithm based on class feature attention mechanism fusion[J]. Chinese Journal of Liquid Crystals and Displays, 2023, 38(2): 236.