基于改进DeepLabV3+的无人机高速公路护栏检测
1 引言
高速公路护栏作为道路沿线设施的重要组成部分,是高速公路巡检与养护的重要内容,但目前高速公路护栏检测通常依赖人工巡检和手工测量,存在周期长、效率低等问题。因此,高精度、高效率的高速公路护栏检测是现在的研究热点,具备较高的研究价值和应用前景。传统的高速公路护栏检测主要通过3D点云建模、路侧设备信息传输或车载视频滤波处理等方法实现,如Vidal等[1]提出了一种使用移动激光扫描仪采集数据的护栏分割分类方法,通过点云与护栏几何特征相结合实现对护栏的分割。Gomes等[2]提出了一种基于物联网的护栏碰撞检测系统,通过物联网与路侧传感设备的相互连接实现对护栏的检测。Zhu等[3]将定向梯度直方图和局部二进制模式相结合进行特征融合,然后通过滑动窗口及聚类方法实现对护栏的检测。但3D点云数据分辨率不足,路侧设备及车载视频易受外界干扰影响且覆盖范围有限。
近年来,无人机技术发展迅速,因具备高机动性、低成本、随时悬停等特点,已广泛应用于智慧城市、空中安防等方面[4-6],结合近年来爆发式发展的语义分割技术,可以为高速公路护栏检测提供新的解决思路。作为计算机视觉领域的基本问题之一,语义分割经历了从传统机器学习分类器到深度学习方法的演变[7-8]。传统的语义分割方法每运行一次只能切割一次图片,对多目标图像的分割效率低且准确度不高。随着全卷积神经网络(FCN)[9]的出现,深度学习正式进入图像分割领域,并以此为基础演化为专门池化网络(PSPNet)、编码器-解码器架构(Unet和DeepLab)、多尺度处理网络(DeepLab)等[10]。其中Google提出的DeepLabV1[11]被认为是语义分割的经典结构之一,针对传统卷积神经网络(CNN)下采样降低分辨率的问题,提出了空洞卷积和条件随机场,提高了模型捕获细节的能力。DeepLabV2[12]在此基础上,利用残差网络替换模型主干,并提出空洞空间金字塔池化(ASPP)扩大模型的感受野,有效地提高了模型的检测精度。DeepLabV3[13]使用串行或并行的方式重新布局空洞卷积模块,采用多比例空洞卷积捕获多尺度背景,获得了更高的检测精度。DeepLabV3+[14]引入语义分割常用的编码器-解码器结构,实现了特征层的跨尺度融合,并采用深度可分离卷积代替普通卷积,获得了更加精细的物体边界,在高速公路护栏检测上取得了不错的结果,但该算法的预测速度较慢,且在复杂多变的高速公路场景下仍存在一定的错分割和漏分割问题。
为了解决DeepLabV3+模型对高速公路护栏检测存在的上述问题,本文提出了一种基于改进DeepLabV3+的无人机高速公路护栏检测算法,通过替换主干网络、增加中层特征融合、改进空洞空间金字塔池化模块和引入轻量级注意力机制,在有效改善模型错分割和漏分割问题的同时显著提升预测速度。
2 基本原理
2.1 DeepLabV3+原理
DeepLabV3+是由Google提出的语义分割经典模型,主要包含编码器和解码器,使用Xception[15]主干网络。在编码器部分,利用主干网络进行图像特征提取并将其分为浅层语义特征和深层语义特征两部分。中间层输出的浅层语义特征被直接送入解码器,最后一层输出的深层语义特征将送入ASPP进行多尺度特征提取。在解码器部分,对ASPP输出的深层语义特征进行4倍线性插值上采样后将结果与主干网络中间层输出的浅层语义特征相融合,融合特征在经过3×3卷积和4倍线性插值上采样后,得到与原始图像相同分辨率的预测图像。DeepLabV3+网络架构[14]如
2.2 改进的DeepLabV3+模型
为了提升高速公路护栏检测效率,改善错分割和漏分割的问题,通过4个方面改进DeepLabV3+模型。首先,采用改进轻量级MobileNetv2网络[16]替换主干网络,有效减少模型参数量的同时提高预测速度;其次,输出主干网络中的第4层、第7层特征并进行多尺度特征融合,减少降采样过程中的特征丢失,提高模型的分割精度;然后,利用密集连接空洞卷积改进的DenseASPP[17]替换原模型的ASPP模块,DenseASPP中的空洞率(d)分别设置为3、6、12、18、24,获得更大感受野的同时减少模型漏分割的现象;最后,在主干网络输出的多尺度特征和DenseASPP输出的深层特征结果中加入空间分组增强(SGE)注意力机制[18],将多尺度特征相加融合后对结果进行3×3卷积和1×1卷积操作,调整通道数并输出特征图张量,对深层特征进行4倍线性插值上采样后与多尺度融合特征相加,并进行3×3卷积和第二次4倍线性插值上采样,输出预测图像。改进DeepLabV3+模型如
2.2.1 替换主干网络
DeepLabV3+的主干网络Xception模型参数量大、训练时间和预测时间较长,无法满足对护栏分割效率的需求。采用经过剪枝的轻量级主干网络MobileNetv2替换原本的主干网络,在有效减少模型参数量和训练时间的同时提高了预测速度。
MobileNetv2是Google提出的轻量级主干网络模型,在引入深度可分离卷积的MobileNetv1的基础上,增加了线性瓶颈和反向残差结构来提高对特征的表征能力。MobileNetv2经过5次下采样会使得特征图的尺寸进一步减小,导致图像丢失大量细节特征,这对精细边界敏感区域的分割是不利的,因此在DeepLabV3+等语义分割网络中通常不会进行5次下采样。为了保留更多的图像细节特征信息,本文对网络结构参数进行了修改,仅进行4次下采样[19-20];并通过剪枝删除MobileNetv2中用于分类的网络结构,进一步提高模型的运行效率。以640×640×3的图像作为输入,改进后的MobileNetv2网络结构如
表 1. 改进MobileNetv2网络结构
Table 1. Improved MobileNetv2 network structure
|
2.2.2 多尺度特征融合
DeepLabV3+将主干网络输出的经过空洞空间金字塔池化4倍上采样的深层特征直接与浅层特征融合,这种单一尺度的特征融合方式容易导致特征细节丢失。为了充分利用主干的不同层次特征,对主干网络输出的不同特征层进行可视化分析,结果如
由
2.2.3 改进的空洞空间金字塔池化
ASPP包含多个不同采样率的并行空洞卷积,通过不同空洞率构建不同感受野的卷积核,从而获得图像的多尺度信息。针对无人机等高分辨率图像,需要很大的空洞率才能获得足够的感受野,导致空洞卷积的衰退衰减无效。而DenseASPP采用密集连接的方式将空洞卷积的输出融合,在获得更大感受野的同时避免了空洞率过大导致卷积退化的问题。
空洞卷积的扩张能够在保留原有图像分辨率的情况下增加感受野,获得更详细的图像全局信息,从而减小分割遗漏率。其中,感受野指卷积过程中某一层输出结果中某个元素对应的上一层区域的大小,计算方法为
式中:Rn为感受野大小;d是空洞率;Kn为卷积核大小。ASPP对不同空洞率的空洞卷积层进行并联,故最大感受野为并联空洞卷积层中最大空洞率所对应的感受野,以空洞率(6,12,18)为例,最大感受野为
将两个空洞卷积层堆叠连接将会获得更大的感受野,对于滤波层为K1和K2的两个空洞卷积层,其等效感受野叠加计算方法为
故DenseASPP对应空洞率(6,12,18)的最大感受野为
空洞率相同的情况下,DenseASPP对应的最大感受野明显大于ASPP,可以获得更多尺度的图像语义信息并有效增强模型对不同尺度物体的敏感程度,从而减少漏分割的现象。
2.2.4 引入SGE注意力机制
注意力机制可以模拟人类视觉机制,帮助模型判断局部信息的影响力大小,是提升语义分割网络性能的重要方法之一。常见的注意力机制包括空间注意力、通道注意力、卷积注意力等,但注意力往往会增加模型参数量,降低网络的训练及检测速度。本文为了保障对无人机影像识别的速度,引入轻量级注意力网络SGE,其主要思想是将特征图分组,并认定每一组代表一个语义特征,之后通过语义组中各目标的空间位置生成注意力来调整每个子特征的重要性,结合局部特征与全局特征的相似性生成注意力掩码,增强语义特征的空间分布。SGE注意力网络结构[18]如
3 实验与结果
3.1 实验数据集
所用数据主要包含两部分:1)采集于新疆某高速公路,包含无人机飞行50 m正射视角、50 m前45°视角、70 m正射视角、70 m前45°视角等6段视频,每30帧保留一张图像,图像分辨率为3840×2160和1920×1080;2)收集于网络,包含正常环境和雾天环境等4段视频,每30帧保留一张图像,图像分辨率为1920×1080。为加快检测速度,提高数据集质量,采用随机窗口将图像裁剪为640×640分辨率,共计2023张。使用开源标注软件Labelme对图像进行标注,包括2065个right-guardrail(右侧护栏)标签和2014个left-guardrail(左侧护栏)标签,按照8∶2划分为训练集和测试集,部分数据集如
3.2 实验环境和评价指标
实验环境如
表 2. 实验环境设置
Table 2. Experimental environment setting
|
为了减少模型的训练时间,利用迁移学习思想将训练过程分为冻结阶段和解冻阶段。冻结训练阶段,冻结模型的主干权重,将更多的资源放在训练模型后面部分的网络参数,冻结阶段的Batchsize设置为24,训练轮数设置为50;在解冻阶段,对模型的参数进行调整,Batchsize设置为12,训练轮数设置为450。两阶段其余参数相同,最大学习率设置为0.007,学习率下降方式为cos;设置权值衰减为0.0001,以防止模型过拟合;训练损失函数使用交叉熵损失函数CE-Loss。值得注意的是,为了准确验证所提算法的有效性,各对比实验的参数设置相同。采用的评估指标为平均交并比(mIoU)、类别平均像素准确率(mpa),计算公式分别为
式中:n+1表示有n个目标类与1个背景;mjj表示分类正确的像素数量;mjk表示属于第j类却被分到第k类的像素数量;mkj表示属于第k类却被分到第j类的像素数量。
3.3 实验结果对比分析
为了验证所提算法的先进性,设计3组实验进行论证。首先在模型的相同位置增加不同的注意力模块,验证SGE注意力模块的优越性;之后根据所提改进方法设计消融实验,验证各模块的有效性;最后进行相同超参数的语义分割模型对比,验证所提改进DeepLabV3+的高效性。
3.3.1 注意力机制对比实验
在采用MobileNetv2作为主干网络后,为了提高模型的检测精度,进行注意力对比实验。选择目前在语义分割领域表现较好的CBAM[21]、Coord[22]、ECA[23]及本文使用的轻量级注意力机制SGE进行对比。输入图像为随机测试集图像,选取经空洞空间金字塔池化处理后的深层特征进行特征层可视化,可视化结果如
由
表 3. 注意力机制对比实验
Table 3. Comparison experiment of attentional mechanisms
|
由
3.3.2 不同模块的消融实验
为了验证所提改进策略在护栏检测上具有优化作用,利用控制变量法设计7组消融实验。在DeepLabV3+网络的基础上分别进行替换MobileNetv2主干网络、融合中层特征、添加SGE注意力机制、引入DenseASPP的改进,然后对各模块进行依次累加,并与基础模型进行对比,以mIoU、mpa、速度、Params为评价指标,结果如
表 4. 消融实验结果对比
Table 4. Comparison of ablation experiment results
|
对比①和②发现,改进MobileNetv2主干网络后,模型的mIoU、mpa与检测速度分别提高了1.21个百分点、2.39个百分点与91.69%,参数量降低了89.38%;对比②和③可以发现,进行中层特征多尺度融合后,模型的mIoU提高了0.44个百分点,检测速度仅降低8.32%,参数量仅增加0.34%;对比②和④可以发现,SGE模块的引入使得模型在参数量几乎不变的情况下,mIoU、mpa、检测速度分别提高了0.74个百分点、0.44个百分点、3.75%;对比②、⑤、⑥可以发现,虽然密集连接带来了参数量的增加,但对mIoU的提升效果较好,且与其余模块融合时也能保持较好效果;从实验①和⑦可以看出,相较基础网络,所提算法的mIoU提高了2.59个百分点,mpa提高了2.93个百分点,检测速度提高了56.70%,参数量降低了78.85%。综合分析
3.3.3 分割网络模型对比实验
对所提模型与近年来主流的语义分割模型UNet[24]、PSPNet[25]、DeepLabV3+在所使用的数据集上进行对比,设置相同的超参数和训练轮次,它们的训练损失收敛情况如
由
表 5. 主流语义分割模型的实验结果对比
Table 5. Comparison of experimental results of mainstream semantic segmentation models
|
由
由
4 结论
为了实现对高速公路护栏的高效检测,提出一种基于改进DeepLabV3+的无人机高速公路护栏检测方法。采用改进MobileNetv2替换原网络的主干,将输出的中层特征与原本的浅层特征融合;采用密集连接的DenseASPP替换原本的ASPP,使得模型生成更大的感受野,获得多尺度特征;最后通过对比不同的注意力模型,选择轻量级注意力机制SGE,获取更多的图像边缘特征。通过对比实验与消融实验发现,改进DeepLabV3+模型在显著降低参数量的基础上,极大地提高了检测效果,明显改善了对高速公路护栏的错分割和漏分割等问题,且获得了更清晰的边缘特征。下一步工作将考虑高速公路中存在的柔性护栏、混凝土护栏等多种类护栏分割问题,标注更多的高速公路护栏数据,进一步增强改进DeepLabV3+算法的鲁棒性,并探究如何将网络模型部署至无人机,提高护栏巡检的效率与安全性。
[1] Vidal M, Díaz-Vilariño L, Arias P, et al. Barrier and guardrail extraction and classification from point clouds[J]. The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 2020, 43: 157-162.
[2] GomesT, FernandesD, EkpanyapongM, et al. An IoT-based system for collision detection on guardrails[C]∥2016 IEEE International Conference on Industrial Technology (ICIT), March 14-17, 2016, Taipei, China. New York: IEEE Press, 2016: 1926-1931.
[3] ZhuH, ChenF R, WangZ Y. A robust feature fusion method for camera-based highway guardrail detection[C]∥2019 Chinese Automation Congress (CAC), November 22-24, 2019, Hangzhou, China. New York: IEEE Press, 2020: 1368-1373.
[4] 苏昂, 陆伟康, 张仕林, 等. 基于目标运动模型的无人机对地视觉目标跟踪[J]. 激光与光电子学进展, 2022, 59(14): 1415022.
[5] 蒋镕圻, 叶泽聪, 彭月平, 等. 针对弱小无人机目标的轻量级目标检测算法[J]. 激光与光电子学进展, 2022, 59(8): 0810006.
[6] 张宇, 张焱, 石志广, 等. 基于图像衍生的红外无人机图像仿真方法研究[J]. 光学学报, 2022, 42(2): 0210003.
[8] 陈兵, 贺晟, 刘坚, 等. 基于轻量化DeepLab v3+网络的焊缝结构光图像分割[J]. 中国激光, 2023, 50(8): 0802105.
[9] Shelhamer E, Long J, Darrell T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 640-651.
[10] 王瑞绅, 宋公飞, 王明. 引入ECA注意力机制的U-Net语义分割[J]. 电光与控制, 2023, 30(1): 92-96.
[11] Chen L C, Papandreou G, Kokkinos I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs[J]. Computer Science, 2014(4): 357-361.
[12] Chen L C, Papandreou G, Kokkinos I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834-848.
[14] ChenL C, ZhuY K, PapandreouG, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[M]∥FerrariV, HebertM, SminchisescuC, et al. Computer vision-ECCV 2018. Lecture notes in computer science. Cham: Springer, 2018, 11211: 833-851.
[15] CholletF. Xception: deep learning with depthwise separable convolutions[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE Press, 2017: 1800-1807.
[16] SandlerM, HowardA, ZhuM L, et al. MobileNetV2: inverted residuals and linear bottlenecks[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA. New York: IEEE Press, 2018: 4510-4520.
[17] YangM K, YuK, ZhangC, et al. DenseASPP for semantic segmentation in street scenes[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA. New York: IEEE Press, 2018: 3684-3692.
[19] 黎颖, 吴清锋, 刘佳桐, 等. 引导性权重驱动的图表问答重定位关系网络[J]. 中国图象图形学报, 2023, 28(2): 510-521.
Li Y, Wu Q F, Liu J T, et al. Repositioning relational network of chart question-answering driven by guiding weight[J]. Journal of Image and Graphics, 2023, 28(2): 510-521.
[20] 洛怡航, 赵振宇, 胡银记, 等. 基于孪生网络的轻量级高速跟踪算法[J]. 电光与控制, 2022, 29(1): 51-55.
[21] WooS, ParkJ, LeeJ Y, et al. CBAM: convolutional block attention module[M]∥FerrariV, HebertM, SminchisescuC, et al. Computer vision-ECCV 2018. Lecture notes in computer science. Cham: Springer, 2018, 11211: 3-19.
[22] HouQ B, ZhouD Q, FengJ S. Coordinate attention for efficient mobile network design[C]∥2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 20-25, 2021, Nashville, TN, USA. New York: IEEE Press, 2021: 13708-13717.
[23] WangQ L, WuB G, ZhuP F, et al. ECA-net: efficient channel attention for deep convolutional neural networks[C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 13-19, 2020, Seattle, WA, USA. New York: IEEE Press, 2020: 11531-11539.
[24] ZhaoH S, ShiJ P, QiX J, et al. Pyramid scene parsing network[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE Press, 2017: 6230-6239.
[25] RonnebergerO, FischerP, BroxT. U-net: convolutional networks for biomedical image segmentation[M]∥NavabN, HorneggerJ, WellsW M, et al. Medical image computing and computer-assisted intervention-MICCAI 2015. Lecture notes in computer science. Cham: Springer, 2015, 9351: 234-241.
Article Outline
王洋, 郭杜杜, 王庆庆, 周飞, 秦音. 基于改进DeepLabV3+的无人机高速公路护栏检测[J]. 激光与光电子学进展, 2024, 61(4): 0412004. Yang Wang, Dudu Guo, Qingqing Wang, Fei Zhou, Ying Qin. UAV Highway Guardrail Inspection Based on Improved DeepLabV3+[J]. Laser & Optoelectronics Progress, 2024, 61(4): 0412004.