GPNet:轻量型红外图像目标检测算法
1 引言
利用红外图像进行目标检测在很多领域具有不可替代的地位,如红外夜视、工业探伤、红外成像制导等[1-2]。目标检测是红外成像系统中最关键也最具挑战性的任务之一。随着深度学习的快速发展,一些基于卷积神经网络(Convolutional Neural Networks,CNN)的红外图像目标检测算法被提出,显著提高了检测准确度。但是这些算法的部署成本比较高——计算复杂度高、参数量大,只有高端图形处理器才能保证其性能。而大多数红外成像系统通常部署在仅配备CPU或中低端GPU的资源受限设备上。因此,研究设计适合红外成像系统的准确、实时检测算法及模型具有重要的意义和实用价值。
红外图像目标检测算法可分为两类:传统算法和基于深度学习的算法[3]。传统算法的主要思想是将图像视为物体、背景和噪声三部分,通过传统的图像处理方法抑制红外图像中的背景和噪声实现目标检测任务。Zhang等人[4]分析了可见光图像和红外图像的共享特征,将方向梯度直方图(Histogram of Oriented Gradient,HOG)、AdaBoost以及支持向量机(Support Vector Machine,SVM)引入到红外图像行人检测任务;Ge等人[5]提出将感兴趣区域(Region-of-Interest,RoI)生成、物体分类和跟踪三个模块整合为一个级联,每个模块都利用互补的视觉特征来区分物体和杂乱的背景;Su等人[6]提出一种使用区域估计的帧差法实现车载红外图像行人检测的算法;Zhu等人[7]将双边滤波与横纵多尺度灰度差结合来增强弱目标,抑制背景的同时提高目标强度,并通过自适应局部阈值分割和全局阈值分割提取候选目标;Cai等人[8]提出一种箱粒子标签多伯努利多目标检测算法,通过使用均值滤波对获得的灰度图进行降噪处理,并将所有像素按强度大小进行排序选出强度较大的区域。这类算法计算量小,能一定程度上对背景进行抑制,但参数选择较为复杂,对于复杂的背景检出率较低且鲁棒性较差。
KAIST[9]、FLIR[10]以及CVC-09[11]等红外热成像数据集的公开,促进了基于深度学习的算法在红外成像领域的应用。Ghose等人[12]将Faster R-CNN应用到红外图像上,使用显著性图谱增强红外图像;Devaguptapu等人[13]提出了一个多模型的Faster R-CNN,通过RGB通道获得高级红外特征。这类基于先产生候选框再检测的两阶段目标检测算法虽然准确率较高,但运行速度较慢,且训练成本较高。为了解决两阶段目标检测算法的问题,并便于在资源受限的嵌入式系统上执行,Dai等人[14]提出一种类SSD的红外图像目标检测算法——TIRNet,采用VGG作为特征提取网络并引入残差分支,提高了运行速度;Mate等人[15]将YOLOv3应用在红外图像目标检测中,用于检测恶劣天气下的行人;Song等人[16]将SE模块引入YOLOv3,提高了网络的特征表达能力,在小目标行人检测上取得了更高的精度和更低的误报率;Du等人[17]将可见光数据集迁移到红外数据集,使用YOLOv4进行二次迁移学习,在车辆检测方面取得了良好效果;Wu等人[18]提出了一种基于YOLOv4的行人实时检测算法Rep-YOLO,但存在泛化能力不强的缺点;Li等人[19]基于YOLOv5提出了YOLO-FIRI算法,在红外图像低识别率和高误报率方面有所改善。这类一阶段目标检测算法,实现了端到端的检测,检测速度大幅度提高,但由于红外图像存在波长较长、噪声较大、空间分辨率较差以及对环境温度变化敏感等问题,检测准确度不高。
本文研究并提出了一种基于YOLOv4的轻量型红外图像目标检测算法——GPNet。主要贡献主要有3个方面:第一,以YOLOv4作为基本框架,使用GhostNet替换YOLOv4的主干网络,能够以很低的运算量生成冗余的特征图,提高算法的执行速度;第二,使用深度可分离卷积替换特征提取、特征融合和检测头模块特定位置的普通3×3卷积,可更好地提取深层和浅层的特征并减少参数量;第三,设计了一种改进型的PANet结构,可更好地融合特征,提高检测的准确度。
1 算法的网络结构
YOLOv4和GhostNet在可见光图像目标检测方面取得了良好的性能。与YOLOv3相比,YOLOv4采用CSP(Cross Stage Partial Networks)[20]和PANet(Path Aggregation Network)[21]结构对其进行改进,在检测准确度和计算复杂度方面都更有利于进行目标检测。GhostNet网络主要由Ghost 模块组成的步长为1和2两种形式的Ghost Bottle-necks构成,通过Ghost 模块代替普通卷积以更低的运算量来生成冗余的特征图,从而降低整个网络的运算量[22]。
本文通过分析YOLOv4和GhostNet这两种网络的结构特点、优化方法等,提出了一种轻量型的红外目标检测算法GPNet,以快速准确地检测图像中的物体。GPNet的整体网络结构如
在
1.1 改进的特征提取模块
Ghost 模块(如
深度卷积神经网络[24-26]需要大量的计算成本。尽管MobileNet[27]和ShuffleNet[28]引入了深度可分离卷积和shuffle操作,以较小的卷积核(浮点运算)构建CNN,但其余1×1的卷积层仍占用大量内存和FLOPs。对于普通卷积,给定输入数据,其中代表输入通道数,和代表输入数据的高和宽,一个任意的产生个特征图的卷积层的操作可以被表述为
其中代表卷积运算,代表偏差项,代表具有个通道的输出特征图,是这一层中的卷积核,和分别代表输出数据的高和宽,代表卷积核的内核大小。在此卷积过程中,由于卷积核数量和通道数通常很大(例如256和512),所需的FLOPs数量达之多。在GhostNet中,作者指出普通卷积层的输出特征图通常包含很多冗余,并且其中一些彼此相似,无需使用如此大数量的FLOPs和参数来生成这些冗余特征图,可选择用少数原始特征图以更廉价的操作生成这些特征图。这些原始特征图相对较小,并由普通的卷积核生成。具体来说,m个原始特征图是使用一次卷积生成的,具体计算式为
其中,代表使用的卷积核,,代表偏差。为了进一步得到所需的n个特征图,文献[22]提出对中的每个原始特征图应用一系列廉价的线性运算,以生成s个Ghost特征图:
其中是中第i个原始特征图,是第j个线性运算,用于生成第j个Ghost特征图。最终,可以获得个特征图作为Ghost模块的输出数据。
通过对这些Ghost模块堆叠从而组成Ghost瓶颈模块,将其简称为GBX模块。如
通过对GBX模块的堆叠,构建如
对于输入的红外图像,首先通过一次卷积得到的原始特征图可表示为
其中,表示卷积操作。这类少量的原始特征图作为Ghost模块的输入可以通过简便的操作生成批量的特征图。每经过一个GB1模块后得到相应的一个特征图,例如特征图可表示为
其中,表示经过一个Ghost模块的操作,表示线性运算。每经过一个GB2模块后,也得到一个特征图,例如特征图可表示为
其中,表示深度可分离卷积操作。经过组合1后得到第一类特征融合模块所需的特征图,再经过组合2后得到第二类所需的特征图,最后经过组合3后得到第三类所需的特征图。
研究表明[31-32],相比单纯的使用最大池化的方式,SPP模块使用的最大池化的方式,即利用四种尺度对特征图进行划分,然后从每个区域中选取一个最大值作为输出,如
特征图在DSCM3模块中,首先经过标准卷积得到特征图,然后利用替换的深度可分离卷积进行特征图的提取得到特征图,深度可分离卷积由深度卷积和逐点卷积组成,深度卷积将单个滤波器应用到每一个输入通道,然后,逐点卷积用1×1卷积来组合不同深度卷积的输出,大大降低了参数量。深度可分离卷积的参数量为
标准卷积的参数量为
则参数量的比值为
其中,表示卷积核的尺寸,N表示输入通道数,M表示输出通道数。由
1.2 改进的多尺度特征融合模块
在目标检测领域,为更好地提取融合特征,本文GPNet的特征融合模块中沿用了YOLOv4特征融合中的PANet结构[21],但进行了一些改进。设计了一种改进型的PANet结构,如
与DSCM3模块作用相同,DSCM5模块进一步减少了网络参数、提高了检测效率。由
1.3 改进的检测头模块
得益于深度可分离卷积在特征提取模块和多尺度特征融合模块取得的效果,将深度可分离卷积同样应用在了检测头模块,将常用的标准的3×3卷积替换为深度可分离卷积。相比采用标准的3×3卷积,深度可分离卷积具有降低参数并提高AP值的优势。
在多尺度特征融合模块中,如
其中,表示卷积操作,表示深度可分离卷积操作,表示DSCM5模块操作,表示特征图拼接操作,表示上采样操作。通过多尺度特征融合的方式,将浅层网络中丰富的位置信息和纹理信息更好的与深层网络的语义特征信息相融合,增强模型在小目标下的多尺度特征学习能力,从而提升模型在小目标在复杂场景下的检测能力。
2 实验分析
使用公开的和自制的红外数据集测试本文所提出的红外图像目标检测算法GPNet的性能。首先,从检测精度、速度和参数等方面与SOTA(state-of-the-art)目标检测算法进行对比。然后,进行消融实验,以测试不同方法带来的性能提升。
2.1 检测性能的比较
FLIR的红外数据集是一个经典的公开目标检测数据集,被很多红外图像物体检测算法所评估[19]。采用来自多个短视频的10228张图片,并将其被划分为train和test两个子集,分别包含8862张和1366张图片。
输入图像大小均为416×416,epoch为300,batch size为32,初始学习率为0.001,momentum为0.0005,weight decay为0.937,IoU阈值为0.5,优化器选用SGD,使用mosic数据增强算法扩充样本的多样性。所有实验都是基于Pytorch框架,并利用两块GeForce GTX 1080Ti GPU进行训练。其中GPNet模型训练选用GhostNet在ImageNet数据集上取得73.98%准确率时预训练模型。如
表 1. GPNet和SOTA算法在FLIR红外测试集上的定量比较
Table 1. Quantitative comparison of GPNet and SOTA algorithms on the FLIR IR test set
|
从
与仅对YOLOv4替换主干特征提取网络的YOLOv4+GhostNet算法相比,后者相较于YOLOv4在参数量和FLOPs方面分别降低了约38%和57%,检测时间减少了8 ms。而本文GPNet算法,在此基础上参数量和FLOPs又分别降低约69%和72%,检测时间进一步减少了3 ms,同时在准确性方面AP(person)和mAP50数值分别提升了3.24%和0.97%,进一步带来了推理速度和准确度的提升。
为验证算法的鲁棒性,又在KAIST红外数据集的测试集上(set06-set11,10914张图片)进行了实验,结果如
表 2. GPNet和SOTA算法在KAIST红外数据集上的定量比较
Table 2. Quantitative comparison of GPNet and SOTA algorithms on the KAIST IR test set
|
为了进一步验证算法的鲁棒性,采用上文在FLIR数据集训练得到的模型在CVC-09红外数据集(含2884张夜晚图片和707张白天图片)以及自制的校园红外数据集(1103张图片)上进行测试。
CVC-09红外数据集的测试结果如
表 3. GPNet和SOTA算法在CVC-09测试集上的定量比较
Table 3. Quantitative comparison of GPNet and SOTA algorithms on the CVC-09 IR test set
|
自制的校园红外数据集图片样例如
图 10. 自制的校园红外数据集 (a)广场,(b)教学楼,(c)操场
Fig. 10. Self-made campus infrared dataset (a)square, (b)academic Building, (c)playground
表 4. GPNet和SOTA算法在自制校园红外数据集上的定量比较
Table 4. Quantitative comparison of GPNet and SOTA algorithms on the self-made campus infrared dataset
|
综合分析上述4组表格中的数据,本文算法在4种数据集下的多个场景中,性能指标上均有一定优势,验证了本文算法在降低大量参数的同时仍然保持了良好的鲁棒性。
图 11. GPNet和SOTA算法在FLIR红外测试集上的检测结果图 (a) YOLOv4检测结果,(b)YOLOv5-m检测结果,(c)YOLOX-m检测结果,(d)GPNet(本文)检测结果
Fig. 11. Detection comparison of GPNet and SOTA algorithms on the FLIR IR test set(a)YOLOv4 detection results,(b)YOLOv5-m detection results,(c)YOLOX-m detection results,(d)GPNet(ours)detection results
2.2 消融实验
为了更直观地看到不同改进方法对模型性能的影响,进行了消融实验。具体来说,首先将YOLOv4的主干网络直接替换为GhostNet,然后在此基础上逐次利用深度可分离卷积在不同位置进行改进,以观察实验结果并分析其影响。
为了保证消融实验的严谨性,在同一训练平台上设置300个epoch,训练完成后并在FLIR测试集上测试,实验数据如
表 5. 在FLIR红外数据集进行消融实验
Table 5. Ablation experiments in FLIR infrared dataset
|
第一组实验数据为在仅替换主干网络时,模型的各项指标。为了验证改进型的PANet的有效性,通过对比前两组实验数据可以看出,在对网络特征融合模块的PANet中的普通3×3卷积替换为深度可分离卷积后,在参数量下降了13.1M的前提下,AP(person)和mAP分别提升了1.80%和0.36%。为了验证特征融合模块处三次卷积块的有效性,选用前三组实验数据进行对比,结果显示,该实验模型的Recall指标取得最优的49.27%,该指标表示整个数据集中被成功检测出的实例比例,同时参数量下降了8M。为了验证改进检测头的有效性,选用前四组实验数据集进行对比,结果显示,模型的指标再次得到了提升,AP(person)和mAP分别达到了最高的72.65%和78.74%,参数量被进一步降低5.5M。最后一组实验数据表明,虽然该实验模型可以将网络的参数量降到最低,相比与第四组实验数据可以再降低1.3M,但此时的模型各项指标也随之有大幅的下降。综合上述五组实验数据,本文设计的第四组网络模型在检测精度和计算成本上达到了更好的平衡。
3 结论
本文基于YOLOv4和GhostNet提出了一种轻量型红外图像目标检测算法GPNet,设计了其网络结构。将YOLOv4的主干网络的CSP模块替换为了GhostNet,使参数量由原来的63.9 M降低为39.3 M;在网络的特征提取模块、多尺度特征融合模块和检测头模块用深度可分离卷积去替换特定位置的普通3×3卷积,将参数量进一步降低到了12.7 M;优化了PANet结构,更好地融合特征,提高了检测精度。在FLIR红外数据集上对person和car两个种类进行了测试,本文算法在car上的平均精度均值比YOLOv4提高了0.1%,参数量减少了81%;与YOLOX-m相比,平均精度均值提高了2.5%,参数量降低了51%;参数量为12.3M,检测时间为14ms。在KAIST红外数据集上对person种类进行了测试,GPNet相比于YOLOv4取得了最优结果,实现了检测准确性和参数量的平衡;在CVC-09和自制数据集上的测试表明,GPNet的AP和F1指标均有一定的优势,验证了本文提出的算法在红外图像目标检测方面的正确性、有效性和鲁棒性。
[1] Han J, Yu Y, Liang K, et al. Infraredsmall-target detection under complex background based on subblock-level ratio-difference joint local contrast measure[J]. Optical Engineering, 2018, 57(10): 103105.
[2] 李同顺, 奚勇, 印剑飞。对空红外制导关键技术发展分析。上海航天), 2021, 38(3): 163-170.
LI Tong-shun, XI Yong, YIN Jian-Fei. Analysis of the development of key technologies for air-to-air infrared gui-dance[J]. Shanghai Aerospace.
[3] Fang L, Wang X, Wan Y. Adaptable active contour model with applicationsto infrared ship target segmentation[J]. Journal of Electronic Imaging, 2016, 25(4): 041010.
[4] ZhangL, WuB, NevatiaR. Pedestrian detection in infrared images based on local shape features[C]//2007 IEEE Conference on Computer Vision and Pattern Recognition, 2007: 1-8.
[5] Ge J, Luo Y, Tei G. Real-time pedestrian detection and tracking at nighttime for driver-assistance systems[J]. IEEE Transactions on Intelligent Transportation Systems, 2009, 10(2): 283-298.
[6] 苏晓倩,孙韶媛,戈曼,等。车载红外图像的行人检测与跟踪技术。激光与红外), 2012, 42(8): 949-953. 10.3969/j.issn.1001-5078.2012.08.026
SU Xiao-Qian, SUN Shao-Yuan, GE Man, et al. Pedestrian detection and tracking of vehicle infrared images[J]. Laser & Infrared.
[7] 朱含露,张旭中,陈忻,等。基于横纵多尺度灰度差异加权双边滤波的弱小目标检测。红外与毫米波学报), 2020, 39(4): 513-522.
ZHU Han-Lu, ZHANG Xu-Zhong, CHEN Xin, et al. Dim small targets detection based on horizontal-vertical multi-scale grayscale difference weighted bilateral filtering[J]. J. Infrared Millim. Waves.
CAI Ru-Hua, YANG Biao, WU Sun-Yong, et al. Weak Targets Box Particle Labeled Multi-bernoulli Multi-target Detection and Tracking Algorithm[J]. J. Infrared Millim. Waves.
[9] Choi Y, Kim N, Hwang S, et al. KAIST multi-spectral day/night data set for autonomous and assisted driving[J]. IEEE Transactions on Intelligent Transportation Systems, 2018, 19(3): 934-948.
[11] SocarrásY, RamosS, VázquezD, et al. Adapting pedestrian detection from synthetic to far infrared images[C]//ICCV Workshops. 2013, 3.
[12] GhoseD, DesaiS M, BhattacharyaS,et al. Pedestrian detection in thermal images using saliency maps[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2019: 1-10.
[13] DevaguptapuC, AkolekarN, SharmaM, et al. Borrow from anywhere: Pseudo multi-modal object detection inthermal imagery[C]//Proceedings of theIEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, 2019: 1029-1038.
[14] Dai X, Yuan X, Wei X. TIRNet: Object detection in thermal infrared images for autonomous driving[J]. Applied Intelligence, 2021, 51(3): 1244-1261.
[15] Krišto M, Ivasic-Kos M, Pobar M. Thermal object detection in difficult weather conditions using YOLO[J]. IEEE access, 2020, 8: 125459-125476.
[16] Song X, Gao S, Chen C. A multispectral feature fusion network for robust pedestrian detection[J]. Alexandria Engineering Journal, 2021, 60(1): 73-85.
[17] Du S, Zhang P, Zhang B, et al. Weakand occluded vehicle detection in complex infrared environment based on improved YOLOv4[J]. IEEE Access, 2021, 9: 25671-25680.
[18] Wu Z, Wang X, Chen C. Research on light weight infrared pedestrian detection model algorithm for embedded Platform[J]. Security and Communication Networks, 2021, 2021: 1549772.
[19] Li S, Li Y, Li Y, et al. YOLO-FIRI: Improved YOLOv5 for Infrared ImageObject Detection[J]. IEEE Access, 2021, 9: 141861-141875.
[20] Bochkovskiy A, Wang C Y, Liao H Y M. Yolov4: Optimal speed and accuracy of object detection[J], 2020.
[21] YangJ, FuX, HuY, et al. PanNet: A deep network architecture for pan-sharpening[C] //Proceedings of the IEEE international conference on computer vision, 2017: 5449-5457.
[22] HanK, WangY, TianQ, et al. Ghostnet: More features from cheap operations[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 1580-1589.
[23] He K, Zhang X, Ren S, et al. Spatialpyramid pooling in deep convolutionalnetworks for visual recognition[J]. IEEE transactions on pattern analysis andmachine intelligence, 2015, 37(9): 1904-1916.
[24] KrizhevskyA, SutskeverI, HintonG E. Imagenet classification with deep convolutional neural networks[C]. Advances in neural information processing systems, 2012: 1097-1105.
[25] Simonyan K, Zisserman A. Very deepconvolutional networks for large-scale image recognition[J], 2014.
[26] HeK, ZhangX, RenS, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2016: 770-778.
[27] Howard A G, Zhu M, Chen B, et al. Mobilenets: Efficient convolutional neural networks for mobile vision applications[J], 2017.
[28] ZhangX, ZhouX, LinM, et al. Shufflenet: An extremely efficient convolutional neural network for mobile devices[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2018: 6848-6856.
[29] SandlerM, HowardA, ZhuM, et al. Mobilenetv2: Inverted residuals and linear bottlenecks[C]//Proceedings of theIEEE conference on computer vision and pattern recognition, 2018: 4510-4520.
[30] IoffeS, SzegedyC. Batch normalization: Accelerating deep network trainingby reducing internal covariate shift[C]//International conference on machine learning, PMLR, 2015: 448-456.
[31] Bochkovskiy A, Wang C Y, Liao H Y M. Yolov4: Optimal speed and accuracy of object detection[J], 2020.
[32] Huang Z, Wang J, Fu X, et al. DC-SPP-YOLO: Dense connection and spatial pyramid pooling based YOLO for object detection[J]. Information Sciences, 2020, 522: 241-258.
李现国, 曹明腾, 李滨, 刘意, 苗长云. GPNet:轻量型红外图像目标检测算法[J]. 红外与毫米波学报, 2022, 41(6): 1092. Xian-Guo LI, Ming-Teng CAO, Bin LI, Yi LIU, Chang-Yun MIAO. GPNet:Lightweight infrared image target detection algorithm[J]. Journal of Infrared and Millimeter Waves, 2022, 41(6): 1092.