基于关键点的快速红外目标检测方法 下载: 1053次
ing at the real-time request of the infrared detection system for target detection, we propose a method for fast detection of infrared targets based on key points. Taking the target center as the key point of target detection, we first design a lightweight feature extraction network. Then, we design a corresponding feature fusion network using the spatial and semantic information of features at different levels combined with the characteristics of small infrared targets. Finally, the prediction of target category, location and size is realized. The model is comparatively tested on the self-built aerial infrared target dataset. Compared with the classic detection models such as YOLOv3, the detection speed is greatly improved and the detection accuracy is only slightly reduced. Compared with the same type of fast detection model, Tiny-YOLOv3, the detection accuracy increases by 8.9% and the detection speed running on the central processing unit (CPU)increases by 13.9 ms/frame under the condition that the model size is compressed to 23.39% of Tiny-YOLOv3's size. The detection performance is significantly improved and the effectiveness of the method is confirmed.
1 引言
得益于隐蔽性好、抗干扰性强和可全天候作业等优点,红外探测系统在**和民用领域均得到了广泛的应用。目标检测作为红外探测系统的核心任务,需要在定位目标的同时确定目标类别,有效提高检测能力是提升系统性能的关键。自2014年区域卷积神经网络(R-CNN)[1]率先利用卷积神经网络(CNN)完成特征提取并在检测效果上取得重大突破以来,以CNN为基础的各类检测模型相继被提出,与之结合的红外目标检测方法已成为红外探测领域的研究热点[2-3]。当前大部分的研究主要集中于改进模型以提高红外目标的检测精度[4-5],而忽略了检测速度的重要性,特别是在仅包含中央处理器(CPU)的应用场景下,模型复杂,计算量大且检测速度过慢。因此,随着红外系统小型化的加速发展,如何利用有限的系统资源在保证一定检测精度的前提下提高检测速度是一项十分重要且具有挑战性的研究工作。
目前,基于预选框(anchor-based)的主流目标检测模型大致可分为以Faster R-CNN[6]为代表的二阶检测模型和以YOLO(You Only Look Once)[7-9]为代表的一阶检测模型两大类。Faster R-CNN作为R-CNN的延伸,首先需要利用区域候选网络(RPN)生成感兴趣区域(ROI),然后再对该区域进行目标分类和位置回归。虽然模型的检测精度比较高,但是以牺牲检测速度为代价,因而无法满足诸多系统对实时性的要求。相比Faster R-CNN,YOLO直接利用回归的思想,使用单一网络完成目标类别和位置的检测,检测速度大幅提升。通过精简网络结构,以YOLO为基础的快速检测模型Tiny-YOLO[7-9]已成为当前小型化系统部署的首选。
本文受ConerNet[10]和CenterNet[11]等无预选框(anchor-free)模型的启发,结合实际红外应用场景,设计了以目标中心为检测关键点的快速红外目标检测模型,简称FKPD(fast key points detection)模型。与同类型快速检测模型Tiny-YOLOv3相比,FKPD模型无需通过先验知识设置预选框,可直接预测目标的中心坐标和尺寸。通过采用分离卷积等方法[12-15]设计网络结构,将模型尺寸和计算量分别压缩至Tiny-YOLOv3的23.39%和66.24%,在CPU上进行测试,单帧红外图像的推理时间可达115.18 ms。同时,通过不同层次特征融合的方法,在保证模型检测速度的同时,实现了模型检测精度的提升。实验结果表明,在空中红外目标数据集上,检测精度提高了8.90%。
2 FKPD目标检测模型
如
2.1 特征提取网络
特征提取网络作为检测模型的骨干网络,通常需要将其设计成一个较深的网络结构,以提高拟合能力进而提升模型的检测精度。而网络深度的增加意味着模型计算量的增加,因此对于快速检测模型来说,在保证一定检测精度的前提下降低网络的计算量是特征提取网络设计的关键要素。
2.2 特征融合网络
在实际工程应用中,红外系统一般承担远距离探测的任务,因而待检测目标的尺寸通常比较小。如果直接利用特征提取网络最后一层的输出来进行预测,虽然特征图中包含了高层次的语义信息,但此时下采样率已经很大(本文为16),小目标经过下采样后往往仅占据特征图中的几个点。而在这仅有的几个点中,由于每个点的感受野很大,因此每个特征点会包含大量目标周围区域的特征,目标自身特征占比减小,进而目标的定位精度受到影响。如果降低采样率,直接利用低层次的特征图进行预测,一个最主要的问题就是特征图的语义信息不足,进而影响目标的识别精度。因此,为了更好地利用深层特征图的语义性和浅层特征图的空间性,本文设计了
为了充分融合特征提取网络第二阶至第五阶所提供的特征信息,特征融合网络需要依次完成三组融合。由于每一组融合涉及到了不同尺度和通道数量的两阶特征图,因此每一组融合均需要经历三个阶段。第一阶段首先需要实现高阶特征图通道数量的变换,考虑到前两组融合中特征图通道数量比较多,常规的卷积操作运算量比较大,因此为了降低网络的计算量,设计了
2.3 目标预测网络
如
在FKPD模型训练阶段,针对这三类信息分别计算其损失函数以优化网络参数。对于目标中心点的预测,为了改善正负样本不平衡的问题,采用CornerNet中提出的修改版Focal Loss[10,16]作为损失函数Lk,其表达式为
式中: N为训练样本中真实目标的总数;
对于目标尺寸的预测,仅需特征图上真实目标中心点处的预测值参与计算,其损失函数Ls的表达式为
式中:
对于目标中心点坐标的偏差预测,与(2)式类似,亦仅需特征图上真实目标中心点处的预测值参与计算,其损失函数Lo的表达式为
式中: p为真实目标中心点在原始图像上的坐标;R为下采样率;
结合(1)~(3)式,FKPD模型的总损失函数为Ltotal=Lk+λsLs+λoLo。其中,λs 和 λo 分别为Ls和Lo的损失权重,在本文后续实验中二者均默认设置为0.1。
在FKPD模型检测阶段,首先选择特征图中预测置信度得分最高的m个点作为目标中心点,要求点之间不能相连,之后根据设定的置信度阈值完成目标筛选。
3 实验与分析
3.1 训练与实验
本文所有模型均使用Pytorch深度学习框架来实现,并在搭载Intel i9-9900ks和NVIDIA GTX1080Ti的硬件平台上进行训练和测试。为了验证模型的性能,本文使用了自建的红外数据集进行实验。依托地对空红外预警的应用场景,自建红外数据集取自以往外场实验数据,筛选并标注了2758张红外图像,其中包含飞鸟、战斗机、客机、直升机和训练机五大类共计3000个空中红外目标。实验中用于训练和测试的数据量比例为7∶3。同时考虑到文献中YOLO等相关模型大多采用PASCAL VOC数据集进行实验,因此为了更好地验证模型的性能,本文亦在该数据集上对FKPD进行了训练和测试。
在FKPD模型训练过程中,默认输入图片尺寸为384 pixel×384 pixel(FKPD-384),每次训练默认150轮,采用Adam算法更新网络参数,Adam算法的初始学习率为1.25×10-3,当训练进行至第70轮和第120轮时,其学习率以1/10的速率递减。同时为了提高模型的泛化能力,输入图片在进入网络前每次都会随机进行翻转、平移和色调对比度调节等一系列预处理。
3.2 检测精度分析
检测精度是评估快速检测模型性能的关键指标之一,通常期望模型在满足速度要求的同时,检测精度能够尽可能高,一般采用各类目标平均精度(AP)的均值mAP(mean Average Precision)对其进行客观评价,mAP值越大,检测精度越高。
表 1. FKPD模型的训练参数
Table 1. Training parameters used for FKPD model
|
表 2. 红外数据集上的检测结果
Table 2. Detection results on infrared dataset
|
为了能够更加直观地观察检测效果的差异,
图 5. 不同模型下红外目标检测效果对比。(a)标注图片;(b) CenterNet-Res18;(c) YOLOv3-Darknet53;(d) Tiny-YOLOv3;(e) FKPD-384
Fig. 5. Comparison of infrared target detection results under different models. (a) Labeled image; (b) CenterNet-Res18; (c) YOLOv3-Darknet53; (d) Tiny-YOLOv3; (e) FKPD-384
通过上述比较可知,FKPD-384的目标虚警率较Tiny-YOLOv3要低很多,而作为模型在红外系统端应用的重要考核指标,
表 3. 模型的虚警率
Table 3. False alarm rate of model
|
除红外数据集外,
表 4. PASCAL VOC数据集上的检测结果
Table 4. Detection results on PASCAL VOC dataset
|
3.3 检测速度分析
利用有限的系统资源,在确保检测精度的前提下,尽可能提高检测速度是快速检测方法设计的核心目标,亦是其后续在系统端应用的前提。
分析
表 5. FKPD的实时性分析
Table 5. Real-time analysis of FKPD
|
3.4 优化分析
本节旨在通过调节模型中的网络结构和参数(Ablation Experiments)来分析影响模型性能的关键因素,为下一步的优化和应用打下基础,
分析
表 6. FKPD的消融实验
Table 6. Ablation experiment of FKPD
|
4 结论
为了满足小型红外探测系统实时检测的应用需求,提出了一种以目标中心为检测关键点的快速红外目标检测方法。在实现过程中,首先为了降低模型的计算量和提高检测速率,设计了轻量化的网路结构用于提取目标特征;其次针对红外目标尺寸小和特征少等特点,将目标不同层次特征的空间信息和语义信息进行融合,以提升目标的检测能力。在自建红外数据集上进行测试,与业界广泛应用的快速检测模型Tiny-YOLOv3相比,在检测精度提高8.9%的情况下,CPU端的检测速度提高了13.9 ms/frame,这验证了所提检测方法的有效性和实用性。下一阶段工作的重点将是在确保检测速度不降低的前提下,提升模型在复杂背景下的目标检测能力,同时优化模型的实现方式,为模型在系统端的部署打下基础。
[1] GirshickR, DonahueJ, DarrellT, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition, June 23-28, 2014, Columbus, OH, USA. New York: IEEE, 2014: 14632381.
[2] 谢江荣, 李范鸣, 卫红, 等. 用于空中红外目标检测的增强单发多框检测器方法[J]. 光学学报, 2019, 39(6): 0615001.
[3] 吴双忱, 左峥嵘. 基于深度卷积神经网络的红外小目标检测[J]. 红外与毫米波学报, 2019, 38(3): 371-380.
[4] 王笛, 沈涛. 复杂天空背景下的红外弱小目标检测算法研究[J]. 光学学报, 2019, 39(5): 0512001.
[5] 马铭阳, 王德江, 孙翯, 等. 基于稳健主成分分析和多点恒虚警的红外弱小目标检测[J]. 光学学报, 2019, 39(8): 0810001.
[6] Ren S Q, He K, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[7] RedmonJ, DivvalaS, GirshickR, et al. You only look once: unified, real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 16526932.
[8] RedmonJ, FarhadiA. YOLO9000: better, faster, stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 17355115.
[10] Law H, Deng J. CornerNet: detecting objects as paired keypoints[J]. International Journal of Computer Vision, 2020, 128(3): 642-656.
[12] HowardJ, Zhu ML, ChenB, et al. ( 2017-05-17)[2020-08-15]. https://arxiv.org/abs/1704. 04861.
[13] SandlerM, HowardJ, Zhu ML, et al. Mobilenetv2: inverted residuals and linear bottlenecks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, Utah, USA. New York: IEEE, 2018: 18311793.
[14] Zhang XY, Zhou XY, Lin MX, et al. ShuffleNet: an extremely efficient convolutional neural network for mobile devices[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA. New York: IEEE, 2018: 18326147.
[15] Ma NN, Zhang XY, Zheng HT, et al. ShuffleNet V2: practical guidelines for efficient CNN architecture design[M] //Ferrari V, Hebert M, Sminchisescu C, et al. Computer vision: ECCV 2018. Lecture notes in computer science. Cham: Springer, 2018, 11218: 122- 138.
[16] Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 318-327.
Article Outline
苗壮, 张湧, 陈瑞敏, 李伟华. 基于关键点的快速红外目标检测方法[J]. 光学学报, 2020, 40(23): 2312006. Zhuang Miao, Yong Zhang, Ruimin Chen, Weihua Li. Method for Fast Detection of Infrared Targets Based on Key Points[J]. Acta Optica Sinica, 2020, 40(23): 2312006.