基于区域自我注意力的实时语义分割网络

鲍海龙; 万敏; 刘忠祥; 秦勉; 崔浩宇

doi:doi:10.3788/LOP202158.0810018

激光与光电子学进展, 2021, 58 (8): 0810018, 网络出版: 2021-04-12

基于区域自我注意力的实时语义分割网络下载： 799次

Real-Time Semantic Segmentation Network Based on Regional Self-Attention

论文大纲

鲍海龙万敏 ^*刘忠祥秦勉崔浩宇

作者单位

西南石油大学机电工程学院, 四川成都 610500

图像处理语义分割卷积神经网络注意力机制 image processing semantic segmentation convolutional neural networks attention mechanism

AI 词云图 AI一句话精读 AI短摘要

注：本部分内容由 AI 自动生成，请您知悉。

摘要

高精度的语义分割结果往往依赖于丰富的空间语义信息与细节信息,但这两者的计算量均较大。为了解决该问题,通过分析图像局部像素具有的相似性,提出了一种基于区域自我注意力的实时语义分割网络。该网络可分别通过一个区域级的自我注意力模块和一个局部交互通道注意力模块计算出特征信息的区域级关联性和通道注意力信息,然后以较少的计算量获取丰富的注意力信息。在Cityscapes数据集上的实验结果表明,相比现有的实时分割网络,本网络的分割精度更高、速度更快。

Abstract

High accuracy results of semantic segmentation often rely on rich spatial semantic information and detailed information, but both incurring high computational costs. In order to solve this problem, we propose a real-time semantic segmentation network based on regional self-attention by observing the similarity of local pixels in the image. The network can calculate the regional correlation of feature information and channel attention information through a regional self-attention module and a local interactive channel attention module. Then, it obtains rich attention information with less calculation. The experimental results on the Cityscapes dataset show that the segmentation accuracy and speed of the network are higher than the existing real-time segmentation network.

1 引言

随着深度学习的快速发展,图像处理任务如光学领域的红外图像、光谱图像处理任务^[1-2]、以摄像头为主要应用载体的自动驾驶、人物识别和遥感图像分割等计算机视觉任务^[3-6]都得到了快速发展。语义分割是计算机视觉任务的一项核心技术,目的是将图像分割成几组具有特定语义类别的区域,属于像素级的密集分类问题^[7]。语义分割可用于红外图像的分割,实现全天候的图像分析与理解,也可应用于现实街道场景的分割,实现自动驾驶的环境感知等任务。对于自动驾驶等快速移动场景,网络的分割速率和精度十分重要,要想获得高精度的分割结果,分割网络必须要获取足够多的语义信息与细节信息^[8-9]。但这两者均需要通过加深网络参数或提高输入图像的分辨率实现,导致网络的计算量过大、分割效率过低^[10-11]。

自我注意力(SA)机制^[12-13]是计算机视觉领域中用来获取长距离语义信息的方法,能很大程度地加深网络对整个特征图的理解。但该方法需要计算出特征图中两两特征点之间的关系,以得到任意特征点对当前特征点的关系权值,该过程的计算量为O(N²C)(N=H×W,H和W分别为特征图的长和宽,C为特征的通道数),且计算量随特征图尺寸的增加呈2次平方增长关系(如特征图尺寸由N增至aN,计算量则由N²C增至a²N²C),不适用于实时网络的搭建。虽然可通过池化等下采样方式降低图像的分辨率、减少计算量,但会丢失特征图中大量的语义信息,尤其对于低分辨率的高层特征,不利于网络性能的提升^[14]。

实际运用中,图像的局部像素分布是具有相似性的,同一区域或同一类别一般拥有相似甚至相同的像素值,传统SA机制^[12-13]遍历计算所有特征点的两两关联性是冗余且不必要的。因此,本文提出了一个轻量级的区域SA (RSA)模块,在不损失特征信息的情况下,将特征图通过缩放因子r进行区域缩放,将传统SA机制的像素级关联性计算转变为区域级关联性计算,从而将计算量减少为O(N²C)/r²。随后又提出了一个轻量级的局部通道交互注意力(LCIA)模块,可在不降维、不损失通道信息的情况下,提高网络性能。基于RSA和LCIA模块,搭建了一个编码器-解码器形式的实时分割网络,利用编码器提取不同阶段的图像特征信息;再利用RSA模块对每一阶段的特征进行二次处理,加强网络对每一层信息的全局理解;最后在解码器中结合LCIA模块对每一阶段的信息进行有效融合,依次恢复图像的尺寸与细节信息。

2 网络框架的设计

2.1 自我注意力机制

SA机制可获取所有特征点之间的两两关联性,计算出一个特征点对其他所有特征点的加权影响,从而得到更全面的语义信息,可表示为

Y = f (Q, K^{T}) \cdot V, (1)

式中,Y为SA机制的输出,f为相似度计算函数,T为矩阵的转置操作,Q、K和V为原特征图X∈R^C^×^H^×^W分别通过3个不同的1×1卷积得到的相关特征图,3者的结构与X相同。其中,V包含了原有像素的语义信息,Q和K通过f (Q , K^T)计算出两两特征点之间的关联性,同时结合Softmax函数得到注意力图(Attention map),可表示为

Y_{j, i} = \frac{\exp (X_{i} \cdot X_{j})}{\overset{n}{\sum_{i = 1}} \exp (X_{i} \cdot X_{j})}, (2)

式中,X_i为特征图Q中的第i个像素,X_j为特征图K^T中的第j个像素,n为Q与K^T的像素数量,Y_j_,_i为像素i对像素j的影响,两者越相似,则影响值越大^[12]。为方便计算所有空间上的像素点,将上述3个相关特征图通过矩阵平铺处理得到X∈R^C^×^N,f(Q, K^T)对应的矩阵行列计算式为(N,C)·(C,N),计算量为O(N²C)。可以看出,计算量很大,且随特征图尺寸的增加呈2次平方增长关系。

2.2 区域级的注意力模块

图1为实际处理的图像,可以看出,局部区域中的相邻像素往往是同一类别且有着相似甚至相同的像素值。对于这些相似的像素点,其获得的全局关联性也应是相似的。因此,通过遍历计算所有单个特征点之间的关联性得到注意力信息是冗余且不必要的。

图 1. 局部区域的像素分布

Fig. 1. Pixel distribution of the local area

下载图片查看所有图片

可利用局部区域内相邻像素具有相似性的特点减少SA机制的计算量,设计出一个轻量级的RSA模块。RSA模块可在不损失特征信息的情况下减少计算量,并得到相应的注意力信息,结构如图2(a)所示。RSA模块包含像素移位(PS)和反向像素移位(R-PS)两个核心操作,如图2(b)所示。

图 2. RSA模块的结构。(a) RSA模块;(b) PS与R-PS模块

Fig. 2. Structure of the RSA module. (a) RSA module; (b) PS and R-PS modules

下载图片查看所有图片

首先,利用3个不同的1×1卷积(Conv 1×1)与批标准化(BN)处理输入特征图。然后,利用PS模块控制缩放因子r,将一个像素i四周r²-1个相似像素点移位至与自身同一通道的相邻位置,即将一片区域的特征点整理在同一通道上,从而在不损失特征信息的同时降低图像的分辨率。R-PS为PS的反向操作,可将通道上移位后的r²-1个像素点还原到像素i周围原来的空间位置。基于PS和R-PS可将(1)式转换为

Y = f [X_{PS} (Q), X_{PS} (K^{T})] \cdot X_{PS} (V), (3)

将(2)式转换为

Y_{v, u} = \frac{\exp (\overset{r^{2}}{\sum_{k = 1}} X_{u, k} \cdot X_{v, k})}{\overset{n}{\sum_{u = 1}} \exp (\overset{r^{2}}{\sum_{k = 1}} X_{u, k} \cdot X_{v, k})}, (4)

式中,X_PS为PS操作,X_u_,_k和X_v_,_k为需要计算的两个缩放区域,k为两个区域对应位置的第k个像素点,Y_v_,_u为区域X_u_,_k对X_v_,_k的影响力。可以看出,(4)式通过计算对应位置像素点的关联性得到区域X_u_,_k和X_v_,_k的关联性。在计算量方面,特征图X∈R^C^×^H^×^W通过缩放因子为r的PS模块得到X∈ $R^{r^{2} C \times \frac{1}{r} H \times \frac{1}{r} W}$ ,经过矩阵平铺后得到X∈ $R^{r^{2} C \times \frac{1}{r^{2}} N}$ ,相应的矩阵行列计算式为 $(\frac{1}{r^{2}} N, r^{2} C)$ · $(r^{2} C, \frac{1}{r^{2}} N)$ ,计算量减少为 $\frac{1}{r^{2}}$ O(N²C),如r=4时,计算量就减少为原来的1/16。因此,可通过控制缩放因子r减少SA机制的计算量。

完成区域级的全局特征关系计算后,先采用矩阵反向操作将特征图恢复为空间维度上的二维图像,然后采用R-PS模块将通道C上移位的像素点恢复到原来所在的空间位置,即将 $X \in R^{r^{2} C \times \frac{1}{r} H \times \frac{1}{r} W}$ 变回X∈R^C^×^H^×^W,恢复特征图的原始尺寸。为了保证细节信息的完整性,将输入和输出进行相加融合,形成残差连接。

2.3 局部通道交互注意力模块

通道注意力机制可为特征图的每一通道获取到相应的权值信息,提高网络的表达能力。现有通道注意力机制如SENet(Squeeze-and excitation networks)^[15]和卷积块注意模块(CBAM)^[16],均利用全连接计算得到权值信息,通常会用通道降维操作(减至原始图像尺寸的1/16)减少全连接的计算负担。与空间降维类似,通道降维同样会损失大量的语义信息,且捕捉所有通道信息之间的依赖是低效且不必要的。考虑到CBAM可通过局部卷积的方式获取空间注意力信息,设计了LCIA模块,通过少量的参数计算提升网络的性能,LCIA模块的结构如图3所示。

图 3. LCIA模块的结构

Fig. 3. Structure of the LCIA module

下载图片查看所有图片

从图3可以发现,进行全局平均池化(AvgPool)后,ICLA模块没有进行通道降维处理,保证了信息的完整性。不同于全连接,ICLA模块利用长度为M的一维卷积模块,仅提取当前通道与其相邻M-1个局部通道生成注意力信息,可表示为

Y_{o} = δ (\overset{M}{\sum_{m = 1}} X_{o, m} \cdot L_{m}), (5)

式中,L为大小为M的一维卷积核,可聚合M个相邻局部通道值,X_o_,_m为输入特征第o个通道的第m个相邻通道,δ为Softmax激活函数,Y_o为M个局部通道对当前通道特征的注意力信息。卷积本身的权值共享特性,使整个LCIA模块仅有M个参数,计算量为O(MC),保证了网络的效率,且仅采用部分相邻通道信息(如M=3)也能带来明显的性能增益。

2.4 网络结构

结合RSA与LCIA模块并采用编码器-解码器结构搭建了分割网络框架,如图4(a)所示。解码器部分用结合18层的小型残差网络ResNet-18^[17]作为骨架网络获取图像的特征信息,共5个阶段,每个阶段均对图像进行1次下采样,最后网络输出的特征图尺寸为原始图像尺寸的1/32,在第2、3、4、5阶段对特征进行处理。对于每一阶段的特征信息,首先,利用一个尺寸为3×3的卷积模块对特征进行局部处理以融合局部特征信息;然后,结合空洞卷积(DConv 3×3)^[18]提高网络感受野,每一个卷积模块后都接一个BN与修正线性单元(ReLU)激活函数;其次,利用RSA模块获取特征信息的区域级全局关联性。考虑到不同阶段特征有着不同的分辨率和局部相似性,将第2、3、4、5阶段RSA模块的缩放率分别设置为(4,4,2,1)。在解码器部分结合LCIA模块,用图4(b)所示的特征融合模块(FFM)依次恢复图像的分辨率和细节信息。

图 4. 本网络的结构。(a)网络结构;(b)特征融合模块;(c)辅助损失分类器

Fig. 4. Structure of our network. (a) Network structure; (b) feature fusion module; (c) auxiliary loss classifier

下载图片查看所有图片

为进一步提升分割效果,设计出一个强化训练Booster^[19]模块,即在解码器每一阶段设置一个辅助损失分类器(ALC)对初始的分割结果进行监督学习,如图4(c)所示。Booster模块可在训练阶段增强网络的特征表达能力,且在测试使用时不会参与计算,从而在不影响网络分割效率的情况下提升网络的分割准确度。

3 实验结果

3.1 实验设置

通过Cityscapes数据集^[20]验证本网络的有效性,Cityscapes数据集包括50个不同城市中的街道场景图像,共5000张精标注的图像,其中,2975张用以训练,500张用于验证,1525张用于测试。基于精标注的图像数据进行实验,用包含19类物体的图像进行训练和测试。实验环境:软件环境为Pytorch深度学习框架,显卡为1080ti。实验过程中,用随机梯度下降(SGD)算法优化收敛过程;采用poly学习率衰减策略,初始学习率为e^-2,权值衰减率为e^-4,动量为0.9。损失函数为交叉熵损失函数,批量大小为10。为增强模型的学习能力,对数据集进行增强处理,包括随机镜像、随机尺寸缩放等,其中缩放范围为{0.75, 1.0, 1.5, 1.75, 2.0}。用平均交互比(MIoU)衡量网络的分割精度,用每秒传输帧数(FPS)衡量网络的分割效率。

3.2 验证实验

3.2.1 缩放率对比实验

RSA模块可获取有效的区域级特征关联性,但不同阶段的特征图有不同的分辨率,低层特征图的分辨率较大,有较为粗糙的语义信息和更广的相似性,高层信息则相反^[21]。因此,对不同阶段分别设置不同的缩放率进行对比实验,结果如表1所示。

表 1. 缩放率的对比实验

Table 1. Comparison experiment of the zoom ratio

Serial number	Network	MIoU /%	FPS /frame
1	(1,1,1,1)	71.9	10
2	(4,2,2,1)	71.7	109
3	(4,4,2,1)	71.7	120
4	(8,4,2,1)	71.6	133

查看所有表

其中,第1组第2、3、4、5阶段RSA 模块的缩放率为(1,1,1,1),表示不对特征图进行区域缩放,即原始的SA机制^[13],其MIoU为71.9%,FPS仅为10 frame,无法满足实时分割的需求。进行缩放处理后,第2、3、4组参数的MIoU分别为71.7%、71.7%和71.6%,FPS分别为109,120,133 frame。可以看出,在几乎不影响分割精度的情况下,RSA模块极大提高了网络的分割速度。

3.2.2 消融实验

为验证RSA 模块对网络表达能力的提升,进行了消融实验,结果如表2所示。可以发现,不采用RSA模块时,网络的MIoU为68.4%,FPS为158 frame;采用RSA模块后,网络的MIoU为71.7%,FPS为120 frame。相比直接对特征信息进行融合处理,RSA模块能帮助网络捕捉到更清晰的特征关联性和长距离信息,提高网络的表达能力。添加LCIA模块后,网络的MIoU为72.3%,FPS为115 frame。与CBAM相比,LCIA模块以更快的分割速度取得了与其相近的分割精度;与SENet相比,LCIA模块则以更快的分割速度取得了比其更高的分割精度,这表明通道的降维同样会影响网络性能,且仅通过局部的通道交互信息就能获取有效的注意力信息,提高网络性能。结合Booster增强训练后,网络的MIoU上升到73.1%,且没有影响分割速度,这表明结合辅助损失训练可有效增强网络的表达能力。

表 2. 消融实验的结果

Table 2. Results of the ablation experiments

Network	MIoU /%	FPS /frame
Original network	68.4	158
RSA	71.7	120
RSA+LCIA	72.3	115
RSA+CBAM	72.5	80
RSA+SENet	72.1	102
RSA+LCIA + Booster	73.1	115

查看所有表

为验证RSA模块对特征信息的保留能力,分别选择平均池化和最大池化进行对比实验,两者的下采样率与RSA模块相同,通过线性插值恢复图像的原始尺寸,结果如表3所示。可以发现,相比最大池化和平均池化,采用RSA模块后,在相近的速度下网络的分割效果更好。这表明池化过程中的信息丢失对网络的表达能力是有害的,而RSA模块可更有效地保留特征信息,进一步说明特征信息的完整性对网络的重要性。

表 3. 下采样方式的对比实验

Table 3. Comparison experiment of the down-sampling method

Network	MIoU /%	FPS /frame
AvgPool	70.5	126
MaxPool	70.4	132
RSA	71.7	120

查看所有表

3.3 对比实验

选取几种常见的分割网络^[22-28]与本网络的性能进行对比,其中ENet、ESPNet、ERFNet与DABNet没有采用骨干网络,ICNet和DFANet分别采用预训练网络PSPNet50和XceptionA作为骨干网络。输入图像的分辨率均为512 pixel×1024 pixel,结果如表4所示。可以发现,引入轻量型网络ResNet-18后FPS分别为115和126 frame时,本网络在测试集上的MIoU分别为72.1%和71.8%,在分割准确度和分割速率上均优于其他实时分割网络。

表 4. 不同网络的实验结果

Table 4. Experimental results of different networks

Network	Pretrain	MIoU /%	FPS /frame
ENet	no	58.3	76
ESPNet	no	60.3	112
ERFNet	no	68.0	41.7
ICNet	PSPNet50	69.5	30
DABNet	no	70.1	104
DFANet^*	Xception A	70.3	--
DFANet	Xception A	71.3	100
Ours	ResNet-18	72.1/71.8	115/126

查看所有表

为更直观地展现本网络的优越性,选取部分分割结果并对其进行可视化处理,同时与ERFNet进行可视化对比,结果如图5所示。可以看出,本网络在局部区域上可取得更精细的分割效果,对于细小物体可进行更有效的分割,整体分割结果中的类内不一致和类间不一致情况较少。

图 5. Cityscapes数据集的可视化结果。(a)原始图像;(b)真实的分割结果;(c)本网络的分割结果;(d) ERFNet的分割结果

Fig. 5. Visualization results of the Cityscapes dataset. (a) Original image; (b) real segmentation result; (c) segmentation result of our network; (d) segmentation result of the ERFNet

下载图片查看所有图片

4 结论

基于局部像素分布的相似性,设计了一个轻量级RSA模块,可在不损失特征信息的情况下,获取全局信息的区域级关联性;且不需要遍历计算所有特征点的两两关联性,极大降低了SA机制的计算量,提高网络的分割效率。随后提出了一个LCIA模块,仅通过相邻局部通道就能获取有效的通道注意力信息,且避免了通道降维操作,保留了通道信息的完整性。基于RSA和LCIA模块,搭建了一个编码器-解码器结构的实时语义分割网络,利用RSA模块提取每一阶段特征的区域关联性,加强网络的表达能力;在解码器部分结合LCIA模块,提升网络性能。实验结果表明,相比其他网络,本网络有更优分割结果和分割效率。

参考文献

[1] 唐超影, 浦世亮, 叶鹏钊, 等. 基于卷积神经网络的低照度可见光与近红外图像融合[J]. 光学学报, 2020, 40(16): 1610001.

Tang C Y, Pu S L, Ye P Z, et al. Fusion of low-illuminance visible and near-infrared images based on convolutional neural networks[J]. Acta Optica Sinica, 2020, 40(16): 1610001.

[2] 孔繁锵, 周永波, 沈秋, 等. 基于卷积神经网络的端到端多光谱图像压缩方法[J]. 中国激光, 2019, 46(10): 1009001.

Kong F Q, Zhou Y B, Shen Q, et al. End-to-end multispectral image compression using convolutional neural network[J]. Chinese Journal of Lasers, 2019, 46(10): 1009001.

[3] 刘辉, 彭力, 闻继伟. 基于改进全卷积网络的多尺度感知行人检测算法[J]. 激光与光电子学进展, 2018, 55(9): 091504.

Liu H, Peng L, Wen J W. Multi-scale aware pedestrian detection algorithm based on improved full convolutional network[J]. Laser & Optoelectronics Progress, 2018, 55(9): 091504.

[4] He Y H, Wang H, Zhang B. Color-based road detection in urban traffic scenes[J]. IEEE Transactions on Intelligent Transportation Systems, 2004, 5(4): 309-318.

[5] 姚丽莎, 徐国明, 赵凤. 基于卷积神经网络局部特征融合的人脸表情识别[J]. 激光与光电子学进展, 2020, 57(4): 041513.

Yao L S, Xu G M, Zhao F. Facial expression recognition based on local feature fusion of convolutional neural network[J]. Laser & Optoelectronics Progress, 2020, 57(4): 041513.

[6] 张哲晗, 方薇, 杜丽丽, 等. 基于编码-解码卷积神经网络的遥感图像语义分割[J]. 光学学报, 2020, 40(3): 0310001.

Zhang Z H, Fang W, Du L L, et al. Semantic segmentation of remote sensing image based on encoder-decoder convolutional neural network[J]. Acta Optica Sinica, 2020, 40(3): 0310001.

[7] 张祥甫, 刘健, 石章松, 等. 基于深度学习的语义分割问题研究综述[J]. 激光与光电子学进展, 2019, 56(15): 150003.

Zhang X F, Liu J, Shi Z S, et al. Review of deep learning-based semantic segmentation[J]. Laser & Optoelectronics Progress, 2019, 56(15): 150003.

[8] Lin GS, MilanA, Shen CH, et al.RefineNet: multi-path refinement networks for high-resolution semantic segmentation[C] //2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE Press, 2017: 5168- 5177.

[9] PengC, Zhang XY, YuG, et al.Large kernel matters: improve semantic segmentation by global convolutional network[C] //2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE Press, 2017: 1743- 1751.

[10] Zhao HS, Shi JP, Qi XJ, et al.Pyramid scene parsing network[C] //2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA.New York: IEEE Press, 2017: 6230- 6239.

[11] Chen LC, PapandreouG, SchroffF, et al. Rethinking atrous convolution for semantic image segmentation[EB/OL]. [2019-12-09]. https://arxiv.org/abs/1706.05587.

[12] Wang XL, GirshickR, GuptaA, et al.Non-local neural networks[C] //2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA.New York: IEEE Press, 2018: 7794- 7803.

[13] FuJ, LiuJ, Tian HJ, et al.Dual attention network for scene segmentation[C] //2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 15-20, 2019, Long Beach, CA, USA.New York: IEEE Press, 2019: 3141- 3149.

[14] Yu CQ, Wang JB, PengC, et al.Learning a discriminative feature network for semantic segmentation[C] //2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA.New York: IEEE Press, 2018: 1857- 1866.

[15] HuJ, ShenL, AlbanieS, et al. Squeeze-and-excitation networks[EB/OL]. [2020-07-20]. https://arxiv.org/abs/1709.01507.

[16] WooS, ParkJ, Lee JY, et al. CBAM: convolutional block attention module[EB/OL]. [2020-07-25]. https://arxiv.org/abs/1807.06521.

[17] He KM, Zhang XY, Ren SQ, et al.Deep residual learning for image recognition[C] //2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA.New York: IEEE Press, 2016: 770- 778.

[18] Chen LC, PapandreouG, KokkinosI, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[EB/OL]. [2020-07-21]. https: //arxiv.org/abs/1606.00915.

[19] MehtaS, RastegariM, ShapiroL, et al.ESPNetv2: a light-weight, power efficient, and general purpose convolutional neural network[C] //2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 15-20, 2019, Long Beach, CA, USA. New York: IEEE Press, 2019: 9182- 9192.

[20] CordtsM, OmranM, RamosS, et al.The cityscapes dataset for semantic urban scene understanding[C] //2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA.New York: IEEE Press, 2016: 3213- 3223.

[21] Yu CQ, Wang JB, PengC, et al. BiSeNet: bilateral segmentation network for real-time semantic segmentation[M] //Ferrari V, Hebert M, Sminchisescu C, et al. Computer Vision-ECCV 2018. Lecture Notes in Computer Science. Cham: Springer, 2018, 11217: 334- 349.

[22] PaszkeA, ChaurasiaA, KimS, et al. ENet: a deep neural network architecture for real-time semantic segmentation[EB/OL]. [2020-07-23]. https://arxiv.org/abs/1606.02147.

[23] MehtaS, RastegariM, CaspiA, et al. ESPNet: efficient spatial pyramid of dilated convolutions for semantic segmentation[M] //Ferrari V, Hebert M, Sminchisescu C, et al. Computer Vision-ECCV 2018. Lecture Notes in Computer Science. Cham: Springer, 2018, 11214: 561- 580.

[24] Romera E, Álvarez J M, Bergasa L M, et al. ERFNet: efficient residual factorized ConvNet for real-time semantic segmentation[J]. IEEE Transactions on Intelligent Transportation Systems, 2018, 19(1): 263-272.

[25] Zhao HS, Qi XJ, Shen XY, et al. ICNet for real-time semantic segmentation on high-resolution images[M] //Ferrari V, Hebert M, Sminchisescu C, et al. Computer Vision-ECCV 2018. Lecture Notes in Computer Science. Cham: Springer, 2018, 11207: 418- 434.

[26] WangY, ZhouQ, LiuJ, et al.Lednet: a lightweight encoder-decoder network for real-time semantic segmentation[C] //2019 IEEE International Conference on Image Processing (ICIP), September 22-25, 2019, Taipei, Taiwan, China. New York: IEEE Press, 2019: 1860- 1864.

[27] LiG, YunI, KimJ, et al. DABNet: depth-wise asymmetric bottleneck for real-time semantic segmentation[EB/OL]. [2020-07-22]. https://arxiv.org/abs/1907.11357.

[28] Li HC, Xiong PF, Fan HQ, et al.DFANet: deep feature aggregation for real-time semantic segmentation[C] //2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 15-20, 2019, Long Beach, CA, USA. New York: IEEE Press, 2019: 9514- 9523.

鲍海龙, 万敏, 刘忠祥, 秦勉, 崔浩宇. 基于区域自我注意力的实时语义分割网络[J]. 激光与光电子学进展, 2021, 58(8): 0810018. Hailong Bao, Min Wan, Zhongxiang Liu, Mian Qin, Haoyu Cui. Real-Time Semantic Segmentation Network Based on Regional Self-Attention[J]. Laser & Optoelectronics Progress, 2021, 58(8): 0810018.

基于区域自我注意力的实时语义分割网络下载： 799次

1 引言

2 网络框架的设计

2.1 自我注意力机制

2.2 区域级的注意力模块

图 1. 局部区域的像素分布

Fig. 1. Pixel distribution of the local area

图 2. RSA模块的结构。(a) RSA模块;(b) PS与R-PS模块

Fig. 2. Structure of the RSA module. (a) RSA module; (b) PS and R-PS modules

2.3 局部通道交互注意力模块

图 3. LCIA模块的结构

Fig. 3. Structure of the LCIA module

2.4 网络结构

图 4. 本网络的结构。(a)网络结构;(b)特征融合模块;(c)辅助损失分类器

Fig. 4. Structure of our network. (a) Network structure; (b) feature fusion module; (c) auxiliary loss classifier

3 实验结果

3.1 实验设置

3.2 验证实验

表 1. 缩放率的对比实验

Table 1. Comparison experiment of the zoom ratio

表 2. 消融实验的结果

Table 2. Results of the ablation experiments

表 3. 下采样方式的对比实验

Table 3. Comparison experiment of the down-sampling method

3.3 对比实验

表 4. 不同网络的实验结果

Table 4. Experimental results of different networks

图 5. Cityscapes数据集的可视化结果。(a)原始图像;(b)真实的分割结果;(c)本网络的分割结果;(d) ERFNet的分割结果

Fig. 5. Visualization results of the Cityscapes dataset. (a) Original image; (b) real segmentation result; (c) segmentation result of our network; (d) segmentation result of the ERFNet

4 结论

Article Outline

关于本站 Cookie 的使用提示

全站搜索

基于区域自我注意力的实时语义分割网络 下载： 799次

1 引言

2 网络框架的设计

2.1 自我注意力机制

2.2 区域级的注意力模块

图 1. 局部区域的像素分布

Fig. 1. Pixel distribution of the local area

图 2. RSA模块的结构。(a) RSA模块;(b) PS与R-PS模块

Fig. 2. Structure of the RSA module. (a) RSA module; (b) PS and R-PS modules

2.3 局部通道交互注意力模块

图 3. LCIA模块的结构

Fig. 3. Structure of the LCIA module

2.4 网络结构

图 4. 本网络的结构。(a)网络结构;(b)特征融合模块;(c)辅助损失分类器

Fig. 4. Structure of our network. (a) Network structure; (b) feature fusion module; (c) auxiliary loss classifier

3 实验结果

3.1 实验设置

3.2 验证实验

表 1. 缩放率的对比实验

Table 1. Comparison experiment of the zoom ratio

表 2. 消融实验的结果

Table 2. Results of the ablation experiments

表 3. 下采样方式的对比实验

Table 3. Comparison experiment of the down-sampling method

3.3 对比实验

表 4. 不同网络的实验结果

Table 4. Experimental results of different networks

图 5. Cityscapes数据集的可视化结果。(a)原始图像;(b)真实的分割结果;(c)本网络的分割结果;(d) ERFNet的分割结果

Fig. 5. Visualization results of the Cityscapes dataset. (a) Original image; (b) real segmentation result; (c) segmentation result of our network; (d) segmentation result of the ERFNet

4 结论

Article Outline

相关论文

相关资讯

关于本站 Cookie 的使用提示

全站搜索

基于区域自我注意力的实时语义分割网络下载： 799次