基于区域自我注意力的实时语义分割网络 下载: 799次
1 引言
随着深度学习的快速发展,图像处理任务如光学领域的红外图像、光谱图像处理任务[1-2]、以摄像头为主要应用载体的自动驾驶、人物识别和遥感图像分割等计算机视觉任务[3-6]都得到了快速发展。语义分割是计算机视觉任务的一项核心技术,目的是将图像分割成几组具有特定语义类别的区域,属于像素级的密集分类问题[7]。语义分割可用于红外图像的分割,实现全天候的图像分析与理解,也可应用于现实街道场景的分割,实现自动驾驶的环境感知等任务。对于自动驾驶等快速移动场景,网络的分割速率和精度十分重要,要想获得高精度的分割结果,分割网络必须要获取足够多的语义信息与细节信息[8-9]。但这两者均需要通过加深网络参数或提高输入图像的分辨率实现,导致网络的计算量过大、分割效率过低[10-11]。
自我注意力(SA)机制[12-13]是计算机视觉领域中用来获取长距离语义信息的方法,能很大程度地加深网络对整个特征图的理解。但该方法需要计算出特征图中两两特征点之间的关系,以得到任意特征点对当前特征点的关系权值,该过程的计算量为O(N2C)(N=H×W,H和W分别为特征图的长和宽,C为特征的通道数),且计算量随特征图尺寸的增加呈2次平方增长关系(如特征图尺寸由N增至aN,计算量则由N2C增至a2N2C),不适用于实时网络的搭建。虽然可通过池化等下采样方式降低图像的分辨率、减少计算量,但会丢失特征图中大量的语义信息,尤其对于低分辨率的高层特征,不利于网络性能的提升[14]。
实际运用中,图像的局部像素分布是具有相似性的,同一区域或同一类别一般拥有相似甚至相同的像素值,传统SA机制[12-13]遍历计算所有特征点的两两关联性是冗余且不必要的。因此,本文提出了一个轻量级的区域SA (RSA)模块,在不损失特征信息的情况下,将特征图通过缩放因子r进行区域缩放,将传统SA机制的像素级关联性计算转变为区域级关联性计算,从而将计算量减少为O(N2C)/r2。随后又提出了一个轻量级的局部通道交互注意力(LCIA)模块,可在不降维、不损失通道信息的情况下,提高网络性能。基于RSA和LCIA模块,搭建了一个编码器-解码器形式的实时分割网络,利用编码器提取不同阶段的图像特征信息;再利用RSA模块对每一阶段的特征进行二次处理,加强网络对每一层信息的全局理解;最后在解码器中结合LCIA模块对每一阶段的信息进行有效融合,依次恢复图像的尺寸与细节信息。
2 网络框架的设计
2.1 自我注意力机制
SA机制可获取所有特征点之间的两两关联性,计算出一个特征点对其他所有特征点的加权影响,从而得到更全面的语义信息,可表示为
式中,Y为SA机制的输出,f为相似度计算函数,T为矩阵的转置操作,Q、K和V为原特征图X∈RC×H×W分别通过3个不同的1×1卷积得到的相关特征图,3者的结构与X相同。其中,V包含了原有像素的语义信息,Q和K通过f (Q , KT)计算出两两特征点之间的关联性,同时结合Softmax函数得到注意力图(Attention map),可表示为
式中,Xi为特征图Q中的第i个像素,Xj为特征图KT中的第j个像素,n为Q与KT的像素数量,Yj,i为像素i对像素j的影响,两者越相似,则影响值越大[12]。为方便计算所有空间上的像素点,将上述3个相关特征图通过矩阵平铺处理得到X∈RC×N,f(Q, KT)对应的矩阵行列计算式为(N,C)·(C,N),计算量为O(N2C)。可以看出,计算量很大,且随特征图尺寸的增加呈2次平方增长关系。
2.2 区域级的注意力模块
可利用局部区域内相邻像素具有相似性的特点减少SA机制的计算量,设计出一个轻量级的RSA模块。RSA模块可在不损失特征信息的情况下减少计算量,并得到相应的注意力信息,结构如
图 2. RSA模块的结构。(a) RSA模块;(b) PS与R-PS模块
Fig. 2. Structure of the RSA module. (a) RSA module; (b) PS and R-PS modules
首先,利用3个不同的1×1卷积(Conv 1×1)与批标准化(BN)处理输入特征图。然后,利用PS模块控制缩放因子r,将一个像素i四周r2-1个相似像素点移位至与自身同一通道的相邻位置,即将一片区域的特征点整理在同一通道上,从而在不损失特征信息的同时降低图像的分辨率。R-PS为PS的反向操作,可将通道上移位后的r2-1个像素点还原到像素i周围原来的空间位置。基于PS和R-PS可将(1)式转换为
将(2)式转换为
式中,XPS为PS操作,Xu,k和Xv,k为需要计算的两个缩放区域,k为两个区域对应位置的第k个像素点,Yv,u为区域Xu,k对Xv,k的影响力。可以看出,(4)式通过计算对应位置像素点的关联性得到区域Xu,k和Xv,k的关联性。在计算量方面,特征图X∈RC×H×W通过缩放因子为r的PS模块得到X∈
完成区域级的全局特征关系计算后,先采用矩阵反向操作将特征图恢复为空间维度上的二维图像,然后采用R-PS模块将通道C上移位的像素点恢复到原来所在的空间位置,即将
2.3 局部通道交互注意力模块
通道注意力机制可为特征图的每一通道获取到相应的权值信息,提高网络的表达能力。现有通道注意力机制如SENet(Squeeze-and excitation networks)[15]和卷积块注意模块(CBAM)[16],均利用全连接计算得到权值信息,通常会用通道降维操作(减至原始图像尺寸的1/16)减少全连接的计算负担。与空间降维类似,通道降维同样会损失大量的语义信息,且捕捉所有通道信息之间的依赖是低效且不必要的。考虑到CBAM可通过局部卷积的方式获取空间注意力信息,设计了LCIA模块,通过少量的参数计算提升网络的性能,LCIA模块的结构如
从
式中,L为大小为M的一维卷积核,可聚合M个相邻局部通道值,Xo,m为输入特征第o个通道的第m个相邻通道,δ为Softmax激活函数,Yo为M个局部通道对当前通道特征的注意力信息。卷积本身的权值共享特性,使整个LCIA模块仅有M个参数,计算量为O(MC),保证了网络的效率,且仅采用部分相邻通道信息(如M=3)也能带来明显的性能增益。
2.4 网络结构
结合RSA与LCIA模块并采用编码器-解码器结构搭建了分割网络框架,如
图 4. 本网络的结构。(a)网络结构;(b)特征融合模块;(c)辅助损失分类器
Fig. 4. Structure of our network. (a) Network structure; (b) feature fusion module; (c) auxiliary loss classifier
为进一步提升分割效果,设计出一个强化训练Booster[19]模块,即在解码器每一阶段设置一个辅助损失分类器(ALC)对初始的分割结果进行监督学习,如
3 实验结果
3.1 实验设置
通过Cityscapes数据集[20]验证本网络的有效性,Cityscapes数据集包括50个不同城市中的街道场景图像,共5000张精标注的图像,其中,2975张用以训练,500张用于验证,1525张用于测试。基于精标注的图像数据进行实验,用包含19类物体的图像进行训练和测试。实验环境:软件环境为Pytorch深度学习框架,显卡为1080ti。实验过程中,用随机梯度下降(SGD)算法优化收敛过程;采用poly学习率衰减策略,初始学习率为e-2,权值衰减率为e-4,动量为0.9。损失函数为交叉熵损失函数,批量大小为10。为增强模型的学习能力,对数据集进行增强处理,包括随机镜像、随机尺寸缩放等,其中缩放范围为{0.75, 1.0, 1.5, 1.75, 2.0}。用平均交互比(MIoU)衡量网络的分割精度,用每秒传输帧数(FPS)衡量网络的分割效率。
3.2 验证实验
3.2.1 缩放率对比实验
RSA模块可获取有效的区域级特征关联性,但不同阶段的特征图有不同的分辨率,低层特征图的分辨率较大,有较为粗糙的语义信息和更广的相似性,高层信息则相反[21]。因此,对不同阶段分别设置不同的缩放率进行对比实验,结果如
表 1. 缩放率的对比实验
Table 1. Comparison experiment of the zoom ratio
|
其中,第1组第2、3、4、5阶段RSA 模块的缩放率为(1,1,1,1),表示不对特征图进行区域缩放,即原始的SA机制[13],其MIoU为71.9%,FPS仅为10 frame,无法满足实时分割的需求。进行缩放处理后,第2、3、4组参数的MIoU分别为71.7%、71.7%和71.6%,FPS分别为109,120,133 frame。可以看出,在几乎不影响分割精度的情况下,RSA模块极大提高了网络的分割速度。
3.2.2 消融实验
为验证RSA 模块对网络表达能力的提升,进行了消融实验,结果如
表 2. 消融实验的结果
Table 2. Results of the ablation experiments
|
为验证RSA模块对特征信息的保留能力,分别选择平均池化和最大池化进行对比实验,两者的下采样率与RSA模块相同,通过线性插值恢复图像的原始尺寸,结果如
表 3. 下采样方式的对比实验
Table 3. Comparison experiment of the down-sampling method
|
3.3 对比实验
选取几种常见的分割网络[22-28]与本网络的性能进行对比,其中ENet、ESPNet、ERFNet与DABNet没有采用骨干网络,ICNet和DFANet分别采用预训练网络PSPNet50和XceptionA作为骨干网络。输入图像的分辨率均为512 pixel×1024 pixel,结果如
表 4. 不同网络的实验结果
Table 4. Experimental results of different networks
|
为更直观地展现本网络的优越性,选取部分分割结果并对其进行可视化处理,同时与ERFNet进行可视化对比,结果如
图 5. Cityscapes数据集的可视化结果。(a)原始图像;(b)真实的分割结果;(c)本网络的分割结果;(d) ERFNet的分割结果
Fig. 5. Visualization results of the Cityscapes dataset. (a) Original image; (b) real segmentation result; (c) segmentation result of our network; (d) segmentation result of the ERFNet
4 结论
基于局部像素分布的相似性,设计了一个轻量级RSA模块,可在不损失特征信息的情况下,获取全局信息的区域级关联性;且不需要遍历计算所有特征点的两两关联性,极大降低了SA机制的计算量,提高网络的分割效率。随后提出了一个LCIA模块,仅通过相邻局部通道就能获取有效的通道注意力信息,且避免了通道降维操作,保留了通道信息的完整性。基于RSA和LCIA模块,搭建了一个编码器-解码器结构的实时语义分割网络,利用RSA模块提取每一阶段特征的区域关联性,加强网络的表达能力;在解码器部分结合LCIA模块,提升网络性能。实验结果表明,相比其他网络,本网络有更优分割结果和分割效率。
[1] 唐超影, 浦世亮, 叶鹏钊, 等. 基于卷积神经网络的低照度可见光与近红外图像融合[J]. 光学学报, 2020, 40(16): 1610001.
[2] 孔繁锵, 周永波, 沈秋, 等. 基于卷积神经网络的端到端多光谱图像压缩方法[J]. 中国激光, 2019, 46(10): 1009001.
[3] 刘辉, 彭力, 闻继伟. 基于改进全卷积网络的多尺度感知行人检测算法[J]. 激光与光电子学进展, 2018, 55(9): 091504.
[5] 姚丽莎, 徐国明, 赵凤. 基于卷积神经网络局部特征融合的人脸表情识别[J]. 激光与光电子学进展, 2020, 57(4): 041513.
[6] 张哲晗, 方薇, 杜丽丽, 等. 基于编码-解码卷积神经网络的遥感图像语义分割[J]. 光学学报, 2020, 40(3): 0310001.
[7] 张祥甫, 刘健, 石章松, 等. 基于深度学习的语义分割问题研究综述[J]. 激光与光电子学进展, 2019, 56(15): 150003.
[8] Lin GS, MilanA, Shen CH, et al.RefineNet: multi-path refinement networks for high-resolution semantic segmentation[C] //2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE Press, 2017: 5168- 5177.
[9] PengC, Zhang XY, YuG, et al.Large kernel matters: improve semantic segmentation by global convolutional network[C] //2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE Press, 2017: 1743- 1751.
[10] Zhao HS, Shi JP, Qi XJ, et al.Pyramid scene parsing network[C] //2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA.New York: IEEE Press, 2017: 6230- 6239.
[12] Wang XL, GirshickR, GuptaA, et al.Non-local neural networks[C] //2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA.New York: IEEE Press, 2018: 7794- 7803.
[13] FuJ, LiuJ, Tian HJ, et al.Dual attention network for scene segmentation[C] //2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 15-20, 2019, Long Beach, CA, USA.New York: IEEE Press, 2019: 3141- 3149.
[14] Yu CQ, Wang JB, PengC, et al.Learning a discriminative feature network for semantic segmentation[C] //2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA.New York: IEEE Press, 2018: 1857- 1866.
[17] He KM, Zhang XY, Ren SQ, et al.Deep residual learning for image recognition[C] //2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA.New York: IEEE Press, 2016: 770- 778.
[19] MehtaS, RastegariM, ShapiroL, et al.ESPNetv2: a light-weight, power efficient, and general purpose convolutional neural network[C] //2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 15-20, 2019, Long Beach, CA, USA. New York: IEEE Press, 2019: 9182- 9192.
[20] CordtsM, OmranM, RamosS, et al.The cityscapes dataset for semantic urban scene understanding[C] //2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA.New York: IEEE Press, 2016: 3213- 3223.
[21] Yu CQ, Wang JB, PengC, et al. BiSeNet: bilateral segmentation network for real-time semantic segmentation[M] //Ferrari V, Hebert M, Sminchisescu C, et al. Computer Vision-ECCV 2018. Lecture Notes in Computer Science. Cham: Springer, 2018, 11217: 334- 349.
[23] MehtaS, RastegariM, CaspiA, et al. ESPNet: efficient spatial pyramid of dilated convolutions for semantic segmentation[M] //Ferrari V, Hebert M, Sminchisescu C, et al. Computer Vision-ECCV 2018. Lecture Notes in Computer Science. Cham: Springer, 2018, 11214: 561- 580.
[25] Zhao HS, Qi XJ, Shen XY, et al. ICNet for real-time semantic segmentation on high-resolution images[M] //Ferrari V, Hebert M, Sminchisescu C, et al. Computer Vision-ECCV 2018. Lecture Notes in Computer Science. Cham: Springer, 2018, 11207: 418- 434.
[26] WangY, ZhouQ, LiuJ, et al.Lednet: a lightweight encoder-decoder network for real-time semantic segmentation[C] //2019 IEEE International Conference on Image Processing (ICIP), September 22-25, 2019, Taipei, Taiwan, China. New York: IEEE Press, 2019: 1860- 1864.
[28] Li HC, Xiong PF, Fan HQ, et al.DFANet: deep feature aggregation for real-time semantic segmentation[C] //2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 15-20, 2019, Long Beach, CA, USA. New York: IEEE Press, 2019: 9514- 9523.
Article Outline
鲍海龙, 万敏, 刘忠祥, 秦勉, 崔浩宇. 基于区域自我注意力的实时语义分割网络[J]. 激光与光电子学进展, 2021, 58(8): 0810018. Hailong Bao, Min Wan, Zhongxiang Liu, Mian Qin, Haoyu Cui. Real-Time Semantic Segmentation Network Based on Regional Self-Attention[J]. Laser & Optoelectronics Progress, 2021, 58(8): 0810018.