基于类特征注意力机制融合的语义分割算法

陈娜; 张荣芬; 刘宇红; 李丽; 张雯雯

doi:doi:10.37188/CJLCD.2022-0199

液晶与显示, 2023, 38 (2): 236, 网络出版: 2023-02-20

基于类特征注意力机制融合的语义分割算法

Semantic segmentation algorithm based on class feature attention mechanism fusion

论文大纲

陈娜张荣芬刘宇红 ^*李丽张雯雯

作者单位

贵州大学大数据与信息工程学院，贵州贵阳 550025

多尺度特征融合类特征注意力机制语义分割 DeepLabv3+ multi-scale feature fusion class feature attention mechanism semantic segmentation DeepLabv3+

摘要

针对DeepLabv3+模型对图像目标边缘分割不准确、不同类目标分割不一致等问题，提出一种基于类特征注意力机制融合的语义分割算法。该算法在DeepLabv3+模型编码端先设计一个类特征注意力模块增强类别间的相关性，更好地提取和处理不同类别的语义信息。然后采用多级并行的空间金字塔池化结构增强空间之间的相关性，更好地提取图像不同尺度的上下文信息。最后在解码端利用通道注意力模块的特性对多层融合特征重新校准，抑制冗余信息，加强显著特征来提高网络的表征能力。在Pascal Voc2012和Cityscapes数据集上对改进模型进行了有效性和泛化性实验，平均交并比分别达到了81.34%和76.27%，使图像边缘分割更细致，类别更清晰，显著优于本文对比算法。

Abstract

Aiming at the problems of inaccurate segmentation of image target edges and inconsistent segmentation of different types of targets by the DeepLabv3+ model, a semantic segmentation algorithm based on the fusion of class feature attention mechanism is proposed. The algorithm firstly designs a class feature attention module on the encoding end of the DeepLabv3+ model to enhance the correlation between categories, so as to better extract and process semantic information of different categories. Secondly, the multi-level parallel spatial pyramid pooling structure is used to enhance the correlation between spaces so as to better extract contextual information at different scales of images. Finally, at the decoding end, the characteristics of the channel attention module are used to recalibrate the multi-layer fusion features, and the redundant information is suppressed to strengthen the salient features to improve the representation ability of the network. The effectiveness and generalization experiments of the improved model are carried out on the Pascal Voc2012 and Cityscapes datasets, and the average intersection ratios reach 81.34% and 76.27%, respectively.The image edge segmentations in this paper are more detailed, the categories are clearer, and are significantly better than the compared algorithms.

1　引言

随着科学基础和技术实现的进步，通过数据学习来解决问题的深度学习已经成为无人驾驶、医疗影像处理^［1］、遥感分割和光学领域^［2-3］中解决问题的通用支柱。图像语义分割是众领域中一个经典而基础的课题。2015年，Long等人提出全卷积网络（FCN）^［4］来获取任意大小的输入并产生相应的分割图，在自然图像处理中取得了良好的效果。然而，基于FCN的算法对于分割小而复杂的对象能力有限。

为了解决这些问题，出现了两种基于全卷积神经网络的图像语义分割算法。一种是采用对称编解码结构的语义分割模型，主要通过下采样操作将目标信息分布到不同特征图中，然后通过跳跃连接与解码器中逐层上采样恢复的同层次图像进行拼接，如U-Net^［5］、SegNet^［6］。另一种通过加强抽象语义结合骨干网络的思路保留浅层高分辨率的空间细节和高层低分辨率的全局语义，如PSPNet^［7］中用于提取目标图像全局信息的金字塔池化模块（Pyramid Pooling Module，PPM）。谷歌Chen等人引入空洞卷积^［8］，提出DeepLab^［9-12］架构的几种变体，采用ASPP（Atrous spatial pyramid pooling）结构，对输入特征图进行并行采样，多尺度捕捉特征图上的图像上下文信息。Pan等人^［13］提出一种用于语义分割的稠密金字塔网络（DPN），通过提取每个通道的特征图并进行通道切换操作以增强网络的表示能力。2018年，Shen等人^［14］提出一种简单有效的前向卷积神经网络注意模块，随后胡洁等人提出了SeNet，Woo等人提出了CBAM^［15］，主要思想都是利用注意力机制来推断特征像素的重要特征。2020年，Li等人^［16］提出的SFNet利用注意力机制学习不同感受野之间的语义流来获取信息。2020年，Zeng等人^［17］在Deeplabv3+中增加了特征交叉注意模块，该模块通过两个分支提取低层空间信息和高层上下文特征来细化分割结果。2021年，Liu等人^［18］提出了自适应多尺度模块和自适应融合模块，能够根据图像尺度自适应地为每幅图像生成不同的融合权重比，融合不同尺度图像的多尺度特征，有效地提高了分割效果。孟俊熙^［19］等人设计了异感受野拼接的空洞空间金字塔池化结构，增强了各层级信息间相关性。然而，上述方法忽略了类别之间的上下文信息，不能很好地整合全局像素，并且图像特征提取过程细节信息有所丢失^［20］，造成目标边缘分割精度低等问题。

针对这些问题，相较于第一类缺乏语义信息的模型，目前第二类中专门用于处理语义分割的Deeplabv3+网络模型更为优越。本文以Deeplabv3+网络为基础，提出基于类特征注意力机制融合的语义分割算法CFANet（Class Feature Attention Mechanism Network）。本文主要的贡献如下：（1）针对DeepLabv3+模型对图像目标特征提取困难，注意力信息不能有效利用等问题，提出了CFANet。它采用端到端的深度CNN结构，结合了空间细节信息、全局上下文信息和类上下文信息来增强特征表征能力，最后通过一个通道注意力模块对前期多层融合的特征进行重新校准，抑制冗余信息加强显著特征来提高模型语义分割精度。（2）为了更好地提取高级语义信息。首先构建了类特征注意力机制模块(Class Feature Attention Mechanism，CFAM)^[21]来捕捉对象的类别上下文信息,然后改进了ASPP模块(Multi-parallel Atrous Spatial Pyramid Pooling，M-ASPP)来合并全局上下文信息，优化卷积运算带来局部信息丢失问题。(3)最后利用通道注意力模块FCA（Feature Channel Attention）的特性对大量的融合特征重新校准，抑制冗余信息加强显著特征来提高网络的表征能力。

2　本文算法

2.1　网络结构

本文提出了一种改进的Deeplabv3+网络，命名为CFANet，如图1所示。它以更有效的方式从空间、通道和类别的角度自适应地捕捉全局相关性。它的编码器采用ResNet50^［22］作为骨干网络，其结构如图2所示。ResNet50首先通过7×7卷积将特征图大小缩小2倍，然后通过最大池化层将其缩小2倍，之后经过4个残差块，其中前两个残差块都将特征图大小缩小2倍，后两个残差块通过空洞卷积保持特征图大小不变。每个残差块由多个残差结构组成，结构如图3所示，包含两个不同通道的1×1卷积和一个3×3卷积，每个残差结构都有一条跳跃连接线，引入跳跃连接线是为了解决大量网络层造成的梯度爆炸。

图 1. 整体网络结构图

Fig. 1. Overall network structure

下载图片查看所有图片

图 2. ResNet50的结构

Fig. 2. Structure of ResNet50

下载图片查看所有图片

图 3. 残差块的结构

Fig. 3. Structure of the residual block

下载图片查看所有图片

编码器使用ResNet50进行特征提取，将4个阶段的输出作为多尺度特征融合过程的输入，在块3和块4之后分别连接CFAM和M-ASPP模块，丰富关于类别和全局上下文的信息。编码端通过将前期大量融合的拼接特征输入到通道注意力^{［15，17］}（Feature channel attention，FCA）模块，鉴于通道注意力机制对重要信息的选择性注意，能更有效提取到关注的正确特征，弱化不重要的冗余信息，保留关键特征，提高自我注意力机制的效率。注意力机制是一个简单有效的轻量级模块，添加这个模块几乎不会增加额外的计算。最后将输出的重要特征经过卷积和上采样操作恢复到原始图像大小，以更有效和更高效的方式从空间、通道和类别的角度自适应地捕捉全局相关性。

2.2　类特征注意力模块

注意力机制本质上是一种矩阵乘法的运算，可以确定图像中每个像素的依赖关系，增加依赖关系强的像素的权重，从而减少不必要噪声的干扰。为了更准确地捕捉类之间的依赖关系，增强网络理解各类信息的能力，本文提出了类特征注意力机制模块（CFAM）^［21]，如图4所示。

图 4. 类特征注意力结构

Fig. 4. Structure of the class feature attention module

下载图片查看所有图片

类特征注意力模块可以从类别信息的角度捕捉远程上下文信息，即图像中每个类别与输入特征每个通道之间的关系被显式建模，来增强每个类别之间的上下文信息依赖性。首先，将主干网络Block3的输出特征定义为A $\in R^{C \times H \times W}$ ，将其分别通过两个1×1卷积生成特征图B $\in R^{C^{'} \times H \times W}$ 和类别关注度特征图D $\in R^{N \times H \times W}$ ，其中 $C^{'}$ 是B缩减后的通道数， $N$ 代表图像分类中的类别数。接下来将B转换变为B $\in R^{C^{'} \times H W}$ ，同时将D经过softmax函数后变换得到D $\in R^{N \times H W}$ ，将B $\in R^{C^{'} \times H W}$ 和D $\in R^{N \times H W}$ 的转置相乘通过softmax函数生成聚集所有类的相似性映射图X $\in R^{C^{'} \times N}$ ，具体运算如式（1）所示：

a_{u, k} = \sum_{i = 1}^{H W} B_{u, i} \frac{e^{D_{k, i}}}{\sum_{j = 1}^{N} e^{D_{j, i}}}, x_{u, k} = \frac{e^{a_{u, k}}}{\sum_{j = 1}^{N} e^{a_{u, j}}}

，（1）

其中： $B_{u, i}$ 表示特征图B第 $u$ 个通道的第 $i$ 个像素值， $D_{k, i}$ 表示特征图D第 $k$ 个通道的第 $i$ 个像素值， $a_{u, k}$ 表示 $B_{u}$ 和 $D_{k}$ 之间的类特征关联矩阵， $x_{u, k} \in X$ 表示类之间的影响因子， $u \in [1,2, . . . C^{'}]$ ， $k \in [1,2, . . . N]$ 。

将 $X \in R^{C^{'} \times N}$ 和 $D \in R^{N \times H \times W}$ 相乘得到 $Y \in$ $R^{C^{'} \times H \times W}$ ，将其通过1×1卷积和A相加，最终输出的类增强特征图如式（2）所示：

F_{u} = f (f (\sum_{k = 1}^{N} (x_{u, k} . \frac{e^{D_{k}}}{\sum_{j = 1}^{N} e^{D_{j}}}) + A_{u}))

，（2）

其中， $F_{u}$ 表示表示输出特征F $\in R^{C \times H \times W}$ 第 $u$ 个通道， $f (\cdot)$ 表示1×1卷积-BN-ReLU系列运算。式（2）显示每个通道的最终输出是类别特征注意图中所有通道基于类别的加权和，表示特征图之间基于类别的语义依赖，也就是提出的CFAM直接提高了类别级信息的感知和辨别能力。

2.3　改进的ASPP模块

在DeepLabv3+结构编码最后阶段，通过并行不同膨胀率的空洞卷积来增大卷积核的感受野，抵消一部分池化层带来的信息丢失，进而有效实现多尺度特征提取。虽然使用ASPP结构在一定程度上通过增大感受野提高了分割性能，但是空洞卷积存在卷积核不连续的缺陷。为了解决上述问题，本文结合混合扩张卷积^［23-24］（HDC）的思想将ASPP重构为MASPP。HDC的思想就是当使用多个空洞卷积时，需要设计各卷积核的膨胀率使其刚好能覆盖底层特征层。改进的ASPP模块如图5所示。基于ASPP模块，M-ASPP模块将不同采样率的空洞卷积串联起来，这样空洞卷积的空洞可以被覆盖，防止信息丢失。然后，对每个分支中不同采样率提取的特征进行融合，得到最终的特征图。

图 5. M-ASPP结构

Fig. 5. Structure of the multi-parallel ASPP

下载图片查看所有图片

2.4　通道注意力模块

CFANet在编码端集成了MASPP和CFAM模块。分别利用MASPP模块提取多尺度信息，CFAM模块提取类特征信息，能更好地提取底层细节。编码端不同尺度特征图之间重复的通道融合操作，会使最终的输出存在特征冗余现象，故利用FCA模块（图6）将拼接的特征图通过全局池化和最大池化沿空间维度压缩上下文特征，得到两个向量，然后将两个向量共享给全连通层和Sigmoid算子生成一个权重系数，将根据信息的重要性分配好的加权系数乘以原始特征，得到缩放后更有效的新特征，提高分割图重要特征的精度。运算过程可用式（3）表示：

\begin{matrix} F_{F C A} = F \times δ, \\ δ = σ (M L P (P a v g (F) + M L P (P m a x (F))), \end{matrix}

（3）

其中：MLP是多感知层， $σ$ 是sigmoid激活函数， $F$ 是通道拼接后新的特征图。先分别进行一个全局平均池化和最大池化，得到两个1×1×C通道描述。

图 6. FCA结构

Fig. 6. Structure of FCA

下载图片查看所有图片

3　实验研究与结果分析

3.1　数据集和训练策略

本文网络的有效性和泛化性用Pascal Voc2012和Cityscapes数据集进行验证。Voc2012分割数据集包含21个类别，1 464张训练图片、1 449张验证图片和1 456张测试图片。我们通过对图像进行亮度增强、对比度增强、水平翻转和随机方向翻转扩展数据集得到增强版Pascal Voc2012数据集，共10 582张训练图像。Cityscapes是城市街景相关的语义数据集，包含50个城市和21个类别的5 000张图像，其中有2 975张训练集、500张验证集和1 525张测试集。这两个数据集都是图像语义分割任务中的重要数据库。

在对本文提出的算法进行网络训练和预测时，采用Pytorch框架，在Ubuntu16.04系统和Nvidia GeForce GTX1080Ti设备的实验条件下。网络输入图像的尺寸分别是512 pixel×512 pixel和768 pixel×768 pixel，批量大小设置分别为8和4，初始学习率设置为0.000 1，动量是0.9。

3.2　评价指标

针对本文提出的算法模型，使用语义分割中的标准度量MIoU（平均交并比）作为评价标准来验证网络的有效性，它反映了模型对每一类预测的结果和真实值的交集与并集的比值求和再平均的结果，IoU值越高，测量值与真实值的重叠越大，网络预测越准确，如式（4）所示：

M I o U = \frac{1}{k + 1} \sum_{i = 0}^{k} \frac{p_{i i}}{\sum_{j = 0}^{k} p_{i j} + \sum_{j = 0}^{k} p_{j i} - p_{i i}}

，（4）

其中，物体标签类别数量用 $k$ 表示， $k + 1$ 为加上背景以后的总标签类别， $p_{i j}$ 是指预测结果中将 $i$ 预测为 $j$ 的概率。在本文网络与其他不同网络性能对比的实验中，还使用了类别平均像素准确率（MPA）。

3.3　特征提取网络选取实验

为了探索不同特征提取网络对CFANet的影响并找到最佳特征提取网络，连续使用Mobilenetv2、Xception、ResNet34、ResNet50和ResNet101等不同的骨干网络做了对比实验。获得的结果如表1所示。

表 1. 不同基础网络的性能

Table 1. Performance of different base networks

Base network	MIoU/%	Param/MB	Time/s
Mobilenetv2	74.13	14.9	260.79
Xception	76.58	162.4	308.22
ResNet34	72.24	89.1	257.13
ResNet50	81.34	107.5	267.34
ResNet101	79.09	179.6	347.61

查看所有表

从表1可以看出，Mobilenetv2达到了参数数量的最优值，但精确度最低，MIoU比最优值低7.21%。Xception的预测时间较长，参数量大，MIoU值也不优。ResNet34达到了预测时间的最优值，但其MIoU低于ResNet50，两者之间的差距较大。ResNet50的MIoU达到最优值80.34%，参数量虽大于Mobilenetv2，但各项对比综合来说最佳。ResNet101的参数数量和预测时间都比较大，其MIoU也低于ResNet50。因此，从综合的角度来看，使用ResNet50进行特征提取可以提供最佳的总体结果。

3.4　消融实验

为了验证各模块对网络CFANet的影响及性能效果，在Voc2012增强版数据集上设计该实验。采用ResNet50作为主干模型，分别将本文提出的CFAM、M-ASPP和FCA模块添加到网络中进行实验并记录MIoU值，结果如表2所示。

表 2. 模块消融实验

Table 2. Module ablation experiment

网络结构添加不同模块的性能					MIoU/%
Baseline	ASPP	MASPP	CFAM	FCA	MIoU/%
√	√				76.59
√		√			77.13
√			√		78.83
√		√	√	√	81.34

查看所有表

从表2可以看出，MASPP模块比ASPP模块表现更好，MIoU结果比ASPP模块高了0.54%。类特征注意力模块的MIoU值高达78.83%，比不加该模块增加了1.24%，表明原网络中被忽略的类别特征信息得到了利用，有助于获得对对象类别信息更敏感的细粒度特征表示，增强网络的判别能力。总的实验结果表明，本文综合注意力机制提出的融合多尺度特征的模块能提升网络表征能力，对不同特征的语义信息进行更好的提取融合。

3.5　对比实验

为了验证本文设计算法的有效性，设计了两个对比实验，其一将本文算法与复现的经典网络对比；其二将本文算法与近年相关研究对比。表3记录了复现网络和本文网络改进前后的MPA值、MIoU值、预测时间值等网络性能的比较。由于SegNet忽略了图像的上下文信息，分类精度不理想。DenseASPP比其他方法具有更轻的网络结构，MIoU值比最优值低4.7%。虽然Deeplabv3+结合了多尺度信息，但预测时间最高且MIoU值不是最优。ACFNet^［25］结合了类注意模块，MIoU值达到了78.98%。本文所提出的CFANet取得了81.34%的最优MIoU值，比原来的Deeplabv3+提高了4.75%，MPA值也提高了2.95%，其参数数量和预测效率与其他方法相比处于中等水平。尽管它比其他模型稍大且效率较低，但分割结果更优。

表 3. 经典网络性能对比

Table 3. Classic network performance comparison

Module	MPA/%	MIoU/%	Param/MB	Time/s
SegNet	80.13	70.98	121.3	261.59
DenseASPP	82.68	74.64	12.4	237.14
Deeplabv3+	85.37	76.59	156.6	285.56
ACFNet	86.61	78.98	124.7	293.38
CFANet	88.32	81.34	107.5	267.34

查看所有表

表4显示了近两年相关研究和本文算法的比较，可以看出，不管是在复现的经典网络还是近年研究中，本文算法在准确性方面达到了更优值。在实际应用中，不仅要考虑模型大小，还要考虑模型效率。因此CFANet在整体性能方面可以被认为是最好的。

表 4. 不同网络性能对比

Table 4. Performance of different networks

Module	MPA/%	MIoU/%	Param/MB	Time/s
文献［17］	85.32	74.28		641.00
文献［19］		76.31	142.28	302.70
文献［26］	89.34	81.12
CFANet	88.32	81.34	107.5	267.34

查看所有表

图7显示了本文提出算法模型的可视化划分结果。可以看出，CFANet在整体图像、边缘和细节上均优于原模型算法。本文网络利用不同注意力之间的特性探索不同像素之间的位置对应关系，空间细节特征增强和类别上下文信息的联合研究提高了平均交并比和平均像素精度，有效增强了图像边缘相同的目标特征，从而准确分割边缘目标。

图 7. Voc2012数据集上每个模型的可视化结果

Fig. 7. Visualization results of each model on the Voc2012 dataset

下载图片查看所有图片

3.6　泛化实验

为了进一步证明该算法的泛化性，在Cityscapes数据集上测试了改进前后网络对图像的分割效果，记录的MIoU值如表5所示。

表 5. 在Cityscapes数据集上的性能检测

Table 5. Performance testing on the Cityscapes dataset

类别	Deeplabv3+/%	CFANet/%	类别	Deeplabv3+/%	CFANet/%
Road	97.78	98.79	Sky	89.79	91.37
Sidewalk	84.13	85.18	Person	76.71	78.62
Building	89.09	91.71	Rider	61.56	65.73
Wall	61.48	63.83	Car	90.28	90.35
Fence	56.77	60.81	Truck	54.58	57.72
Pole	58.97	59.06	Bus	77.27	81.05
Traffic light	70.34	72.27	Train	71.55	76.39
Traffic sign	70.23	73.48	Mocycle	64.58	68.78
Vegetation	90.07	92.19	Bicycle	75.09	78.59
Terrain	68.71	63.27	MIoU	74.13	76.27

查看所有表

从表5可以看出，绝大部分物体都得到了更好的分割精度，总的平均交并比相比于原模型提高了2.14%，进一步表明了该算法的普适和有用。从图7的可视化图片中可以更直观地发现，图中所有目标物均有了更精细的分割结果，并减少了意外的错误分类。如图8的第三行中黄色虚线圆圈内的物体被原模型错误分类为汽车，在本文模型中被正确分类。相较于原始网络，本文算法对图片的边缘和类别有了更准确的分割效果。

图 8. 在Cityscapes数据集上可视化结果

Fig. 8. Visualize the results on the Cityscapes dataset

下载图片查看所有图片

以上实验表明，本文提出的实现类别语义信息补充的CFAM和多并行的ASPP模块以及保留重要特征FCA模块的效用均得到了验证，各个模块之间的联合学习可以更高效地使用目标区域中的信息并从中聚合特征，在一定程度上解决因局部特征提取不连贯所造成的大规模目标类内不一致和目标分割不完整、不清晰等问题。整个网络的特征细化过程最终将引导网络合理使用给定的特征，可以看出，我们的模型在整体、边缘和细节方面都优于原始模型。

4　结论

为了使DeepLabv3+模型中图像边缘像素得到更清晰的呈现以及注意力信息得到高效利用，本文提出的基于类特征注意力机制融合的语义分割算法CFANet，通过增强特征的多样性和关键信息的捕捉来细化目标边缘像素和类别的高精度分割。在两个常用的数据集Pascal Voc2012和Cityscapes上对改进模型的有效性和泛化性进行了测试，平均交并比分别达到了81.34%和76.27%。实验数据和可视化结果均表明，本文设计的CFANet可以提供更多的语义信息来细化分割结果。虽然本文所提出的方法可以使图像达到很好的分割效果，但仍有改进的空间，本文没有考虑小对象分割的相关网络设计，因此，今后的工作将致力于对小目标分割进行相关研究。

参考文献

[1] KHAN M Z, GAJENDRAN M K, LEE Y, et al. Deep neural architectures for medical image semantic segmentation: review[J]. IEEE Access, 2021, 9: 83002-83024.

[2] ZUO C, QIAN J M, FENG S J, et al. Deep learning in optical metrology: a review[J]. Light: Science & Applications, 2022, 11(1): 39.

[3] HUANG L Q, LUO R C, LIU X, et al. Spectral imaging with deep learning[J]. Light: Science & Applications, 2022, 11(1): 61.

[4] LONGJ, SHELHAMERE, DARRELLT. Fully convolutional networks for semantic segmentation[C]// Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 3431-3440. 10.1109/cvpr.2015.7298965

[5] RONNEBERGERO, FISCHERP, BROXT. U-Net: convolutional networks for biomedical image segmentation[C]// Proceedings of the 18th International Conference on Medical Image Computing and Computer-assisted Intervention. Munich: Springer, 2015: 234-241. 10.1007/978-3-319-24574-4_28

[6] BADRINARAYANANV, HANDAA, CIPOLLAR. SegNet: a deep convolutional encoder-decoder architecture for robust semantic pixel-wise labelling[J/OL]. arXiv, 2015: 1505. 07293.

[7] ZHAOH S, SHIJ P, QIX J, et al. Pyramid scene parsing network[C]// Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 6230-6239. 10.1109/cvpr.2017.660

[8] YUF, KOLTUNV. Multi-scale context aggregation by dilated convolutions[C]// Proceedings of the 4th International Conference on Learning Representations. San Juan: ICLR, 2016: 823-834. 10.1109/cvpr.2017.75

[9] CHENL C, ZHUY K, PAPANDREOUG, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]// Proceedings of the 15th European Conference on Computer Vision. Munich: Springer, 2018: 833-851. 10.1007/978-3-030-01234-2_49

[10] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834-848.

[11] CHENL C, PAPANDREOUG, KOKKINOSI, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs[C]// Proceedings of the 3rd International Conference on Learning Representations. San Diego, 2015.

[12] CHENL C, PAPANDREOUG, SCHROFFF, et al. Rethinking atrous convolution for semantic image segmentation[J/OL]. arXiv, 2017: 1706. 05587. 10.1007/978-3-030-01234-2_49

[13] PAN X R, GAO L R, ZHANG B, et al. High-resolution aerial imagery semantic labeling with dense pyramid network[J]. Sensors, 2018, 18(11): 3774.

[14] HUJ, SHENL, SUNG. Squeeze-and-excitation networks[C]// Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7132-7141. 10.1109/cvpr.2018.00745

[15] WOOS, PARKJ, LEEJ Y, et al. CBAM: convolutional block attention module[C]// Proceedings of the 15th European Conference on Computer Vision. Munich: Springer, 2018: 3-19. 10.1007/978-3-030-01234-2_1

[16] LIX T, YOUA S, ZHUZ, et al. Semantic flow for fast and accurate scene parsing[C]// Proceedings of the 16th European Conference on Computer Vision. Glasgow: Springer, 2020: 775-793. 10.1007/978-3-030-58452-8_45

[17] ZENG H B, PENG S Q, LI D X. Deeplabv3+ semantic segmentation model based on feature cross attention mechanism[J]. Journal of Physics: Conference Series, 2020, 1678: 012106.

[18] LIU Y F, ZHU Q G, CAO F, et al. High-resolution remote sensing image segmentation framework based on attention mechanism and adaptive weighting[J]. ISPRS International Journal of Geo-Information, 2021, 10(4): 241.

[19] 孟俊熙, 张莉, 曹洋, 等. 基于Deeplabv3+的图像语义分割算法优化研究[J]. 激光与光电子学进展, 2022, 59(16): 161-170.

MENG J X, ZHANG L, CAO Y, et al. Optimization of image semantic segmentation algorithms based on Deeplab v3+[J]. Laser & Optoelectronics Progress, 2022, 59(16): 161-170.

[20] 任凤雷, 何昕, 魏仲慧, 等. 基于DeepLabv3+与超像素优化的语义分割[J]. 光学精密工程, 2019, 27(12): 2722-2729.

REN F L, HE X, WEI Z H, et al. Semantic segmentation based on DeepLabv3+ and superpixel optimization[J]. Optics and Precision Engineering, 2019, 27(12): 2722-2729.

[21] WANG Z M, WANG J S, YANG K, et al. Semantic segmentation of high-resolution remote sensing images based on a class feature attention mechanism fused with Deeplabv3+[J]. Computers & Geosciences, 2022, 158: 104969.

[22] HEK M, ZHANGX Y, RENS Q, et al. Deep residual learning for image recognition[C]// Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770-778. 10.1109/cvpr.2016.90

[23] WANGP Q, CHENP F, YUANY, et al. Understanding convolution for semantic segmentation[C]// Proceedings of 2018 IEEE Winter Conference on Applications of Computer Vision. Lake Tahoe: IEEE, 2018: 1451-1460. 10.1109/wacv.2018.00163

[24] 史健锋, 高志明, 王阿川. 结合ASPP与改进HRNet的多尺度图像语义分割方法研究[J]. 液晶与显示, 2021, 36(11): 1497-1505.

SHI J F, GAO Z M, WANG A C. Multi-scale image semantic segmentation based on ASPP and improved HRNet[J]. Chinese Journal of Liquid Crystals and Displays, 2021, 36(11): 1497-1505.

[25] ZHANGF, CHENY Q, LIZ H, et al. ACFNet: attentional class feature network for semantic segmentation[C]// Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 6797-6806. 10.1109/iccv.2019.00690

[26] 祁欣,袁非牛,史劲亭,等. 多层次特征融合网络的语义分割算法[J/OL]. 计算机科学与探索: 1-13[2022-06-14]. http://kns.cnki.net/kcms/detail/11.5602.TP.20211014.1148.002.html.

QIX, YUANF N, SHIJ T, et al. Semantic segmentation algorithm of multi-level feature fusion network[J/OL]. Journal of Frontiers of Computer Science and Technology: 1-13[2022-06-14]. http://kns.cnki.net/kcms/detail/11.5602.TP.20211014.1148.002.html. (in Chinese)

陈娜, 张荣芬, 刘宇红, 李丽, 张雯雯. 基于类特征注意力机制融合的语义分割算法[J]. 液晶与显示, 2023, 38(2): 236. Na CHEN, Rong-fen ZHANG, Yu-hong LIU, Li LI, Wen-wen ZHANG. Semantic segmentation algorithm based on class feature attention mechanism fusion[J]. Chinese Journal of Liquid Crystals and Displays, 2023, 38(2): 236.

基于类特征注意力机制融合的语义分割算法

1 引言

2 本文算法

2.1 网络结构

图 1. 整体网络结构图

Fig. 1. Overall network structure

图 2. ResNet50的结构

Fig. 2. Structure of ResNet50

图 3. 残差块的结构

Fig. 3. Structure of the residual block

2.2 类特征注意力模块

图 4. 类特征注意力结构

Fig. 4. Structure of the class feature attention module

2.3 改进的ASPP模块

图 5. M-ASPP结构

Fig. 5. Structure of the multi-parallel ASPP

2.4 通道注意力模块

图 6. FCA结构

Fig. 6. Structure of FCA

3 实验研究与结果分析

3.1 数据集和训练策略

3.2 评价指标

3.3 特征提取网络选取实验

表 1. 不同基础网络的性能

Table 1. Performance of different base networks

3.4 消融实验

表 2. 模块消融实验

Table 2. Module ablation experiment

3.5 对比实验

表 3. 经典网络性能对比

Table 3. Classic network performance comparison

表 4. 不同网络性能对比

Table 4. Performance of different networks

图 7. Voc2012数据集上每个模型的可视化结果

Fig. 7. Visualization results of each model on the Voc2012 dataset

3.6 泛化实验

表 5. 在Cityscapes数据集上的性能检测

Table 5. Performance testing on the Cityscapes dataset

图 8. 在Cityscapes数据集上可视化结果

Fig. 8. Visualize the results on the Cityscapes dataset

4 结论

Article Outline

相关论文

相关资讯

关于本站 Cookie 的使用提示

全站搜索

1　引言

2　本文算法

2.1　网络结构

2.2　类特征注意力模块

2.3　改进的ASPP模块

2.4　通道注意力模块

3　实验研究与结果分析

3.1　数据集和训练策略

3.2　评价指标

3.3　特征提取网络选取实验

3.4　消融实验

3.5　对比实验

3.6　泛化实验

4　结论