多尺度特征融合的安检图像危险品检测 下载: 644次
1 引言
公共场所的安全问题一直备受关注,不管是过去还是现在,不管是国内还是国外,在出行场所均需要对旅客行李进行安全检查,而检查所用的设备大都是双能X射线安检设备[1]。当物品通过该设备时,利用了X射线的穿透性对行李内的物品进行检测并以图片的形式自动呈现出来,但是对行李内物品的判别仍然需要人工操作。由于X光安检图像常常复杂多变,大量的交通需求也给安检人员带来了巨大的工作压力,稍有不慎就容易造成错检和漏检。因此,X光安检图像中危险品的自动检测研究具有重要意义。
传统的X射线图像处理方法是利用人工设计的特征对物体进行分类。早期,Bastan等[2]采用了视觉词袋(BoVW)方法对X射线行李图像进行分类,但其分类性能仍与普通可见光图像差距较大。2015年,Bastan[3]对此前关于X射线危险品图像的检测工作进行了回顾和总结,指出神经网络将会成为解决X射线图像检测的方法之一。
近年来,随着人工智能技术在日常生活中的广泛应用,以及卷积神经网络(CNN)的进一步发展,X射线图像中危险品的识别从图像分类发展到了目标检测[4]。目前,目标检测框架大致可以分为两类:一类是以R-CNN(Region-CNN)[5]为代表的两阶段检测模型,另一类是端到端的一阶段检测模型,如YOLO(You Only Look Once)[6]和SSD(Single Shot Multibox Detector)[7]等。SSD模型借鉴了Faster R-CNN[8]与YOLO的思想,在一阶网络的基础上使用了固定框进行区域生成,而且利用了多层的特征信息,这在速度与检测精度上都有了一定的提升[9]。但SSD模型用于检测的浅层特征层只有一层,特征细节信息较少,多个特征层之间的信息并未得到综合的利用,这对于小尺度目标的检测效果不佳。
提高小尺度违禁物品的检测精度一直是X光图像检测领域的主要技术挑战之一。在提升SSD模型对小尺度目标的检测能力方面,已经有部分学者进行了相应的研究。Fu等[10]提出了DSSD(Deconvolutional SSD)模型,其最大的改进就是加入了反卷积模块,将网络模型的上下层信息融合到一起,有效提升了小尺度目标的检测精度,但该模型结构过于复杂,使得检测速度大大降低。FSSD(Feature Fusion SSD)模型[11]同样是基于SSD模型进行改进,通过对网络中的两个低层特征进行融合,可以改善了模型的多尺度特征的表达能力,为网络增加了特征细节信息,虽然在一定程度上提升了小目标的检测效果,但仍然有待提高。
针对复杂背景下X光安检图像中小尺度目标检测效果不佳的问题,本文以SSD模型为基础,提出一种新的用于X光安检图像检测的特征融合框架,即MFFNet(Multi-scale Feature Fusion Network)。MFFNet选用ResNet-101作为骨干网络以更好地提取特征图信息,对不同深度的高语义特征层的特征进行放大,可以得到更高分辨率的特征,接着将高语义特征层与低层细节特征丰富的特征层通过跳跃连接的方式进行融合。为了充分利用上下文信息,设计特征融合模块,新的融合特征具有丰富的语义信息和较高的分辨率,能够在有效提高小尺度目标检测精度的同时,也能实现不同尺度和不同特征层多元信息的分类预测与位置回归。在X光安检图像数据集SIXray_OD中对模型进行测试,获得优于现有模型的检测结果。
2 基本原理
2.1 SSD模型分析
SSD模型是一种端到端的单阶段检测模型,其从多个角度对物体检测进行创新,是一个速度与精度兼具的检测模型。
SSD模型如
SSD模型虽然在同期的检测模型中表现较为优秀,但对于小目标的检测效果一般。小尺度目标通常会由感受野较小的网络中的浅层部分检测出来,而SSD模型中用于小尺度目标检测的特征层只有Conv4_3层[15],虽然浅层特征图的分辨率大但语义信息不足,所以小目标的特征提取不充分。此外,模型虽然能够在不同的特征图上进行预测,但特征图之间语义信息的相互关联性未得到充分利用,从而导致网络对小尺度目标特征的表征能力较弱,检测效果不佳。
2.2 多尺度特征融合
在CNN提取特征的过程中,随着网络层次的加深,不同层级上的特征图呈现出不同的特点[16]。通常低层特征的分辨率较高,更多地保留了图像的边缘信息,但语义信息相对欠缺;高层特征层经过多次卷积之后,语义信息较为丰富,但像素在卷积过程中的缺失使其对细节的感知能力变差。若充分利用网络各层和各个尺度的特征信息,以便对各类目标物体进行预测,通常需要对不同尺度的特征进行融合。2019年,Dlouhy等[17]提出的FPN(Feature Pyramid Network)就利用了特征融合的方法,通过横向连接来构建自下而上和自上而下的金字塔特征,较好地解决了多尺度检测的问题。FCN(Fully Convolutional Network)[18]则是通过对称结构和跳跃连接的方式来关联低层特征和高层特征。
与传统的网络相比,上述网络在精度上有了显著提高,然而这些网络大都是利用了最顶层的反卷积层,这对于小目标的精细细节表达较少。另外,基于融合特征的体系结构虽能够实现对每个预测层的连接,但更多的附加层无疑会引起更多的计算开销,这对检测速度要求较高的实际应用变得不现实。
3 MFFNet模型
基于第2节的研究,提出MFFNet模型并用于X光安检图像中危险品的检测,该模型融合了高层和低层特征,为小尺度目标添加了上下文信息,通过将目标的高层语义特征有效地加入到不同分辨率的特征层中,不同分辨率的特征层可以具有更高层的语义信息,从而有效提高网络对小尺度目标的识别和定位精度。
3.1 MFFNet模型的构建
MFFNet模型结构如
MFFNet模型中共有6个不同尺度的预测层,其中包括两个融合模块(FM 1和FM 2)和4个原始的SSD预测层(Conv8_2、Conv9_2、Conv10_2和Conv11_2)。此外,SSD模型中用来检测的最低网络特征层为Conv4_3层,而MFFNet模型却用到了两个融合特征层。与此同时,跳跃连接的方式增加了网络中特征图的种类,这在一定程度上增加了模型的运算复杂度,使得检测速度有所降低,但仍然能够较快地为小目标物体的分类及定位提供更准确的语义信息和几何信息,而且充分利用了高低层网络中上下文的语义信息,使检测结果得到了有效提升。
3.2 融合模块
MFFNet模型有两个融合模块,融合操作过程如
高层特征经过上采样处理后,还需要对其进行降维处理。具体操作过程:引入一个卷积核大小为1×1的卷积,其能够在保持特征尺度不变的前提下实现降维,还可以利用后续非线性激活函数来增加网络的非线性特性[19],从而进一步提升网络的表达能力,最终实现跨通道的特征信息融合。
经过上采样与降维操作处理后,高、低层特征图的通道数与尺寸已经完全相同,接下来直接通过对应元素相加运算后就能够得到新的融合特征图。新的融合特征图不仅保留了低层的细节信息,还额外增加了高层的语义信息,这更有利于较小尺寸目标的检测。
融合模块在充分利用上下文语义信息的同时,也会在一定程度上增加模型的复杂度。相比于SSD模型,融合模块多出两个跳跃连接方式,其采用对应元素进行相加运算,该运算过程涉及的特征图有多个尺度,这在一定程度上影响了模型的总体实时性,但是在牺牲较少实时性的同时较大地提升了检测精度。
3.3 候选框设置
CNN中不同的尺度特征图有不同的感受野,其对应检测图像中不同尺度的区域。为了处理不同图像中尺寸不同和形状各异的目标,对于网络产生的不同特征图需要设置不同尺度与比例的候选框,候选框的设置包含尺度和长宽比两个方面。相应的理论推导公式为
式中:m表示特征图的个数;Sk表示候选框的大小相对于特征图的比例;Smin和Smax分别表示比例的最小值与最大值。中间层的候选框可以使用(1)式计算得出。根据SIXray_OD数据集中各类违禁品的尺度信息,在此将尺度系数S的范围设为{0.1,0.9},即Smin=0.1,Smax=0.9。同时,在同一特征图中使用纵横比例不同的候选框,可以增强候选框对物体形状的鲁棒性。为此,实验设计相应尺度与纵横比的候选框,且每个特征图中设置不同数量的候选框。候选框的纵横比r通常设为{1,2,3,1/2,1/3},根据面积和长宽比可以得到候选框的宽和高,表达式为
默认情况下,每个特征图中除了上面5个比例的候选框,还会设置一个尺度s'k=
4 实验结果与分析
4.1 实验设计
实验平台配置:CPU为Intel i7-6700,内存为32 G;GPU为GTX1080Ti;操作系统为64位Ubuntu 16.04 LTS;实验框架为PyTorch开源框架。
4.1.1 实验数据集及设置
实验使用SIXray_OD数据集,其源于开源数据集(Security Inspection X-ray Bench-mark,SIXray)[20]。SIXray数据集共包含1059231张图片,其中有8929张图片包含6类违禁品,其余为不包含违禁品作为负样本。由于实验是对违禁品进行检测,故只选取其中包含违禁品的部分图片。其中锤子一类因为包含样本数量过少而被弃用,后使用图像标注工具重新对这些图片进行手动标注并作为实验所用的SIXray_OD数据集,如
表 1. 数据集中不同类型的图片数量
Table 1. Number of images of different types in datasets
|
4.1.2 实验参数设置
为了节省训练时间以及加快收敛速度,将预训练好的SSD模型中低层结构的权值参数共享。此外,实验采用随机梯度下降(SGD)法来优化参数,优化器的动量设为0.9,批处理大小设为16,初始学习率设为1×10-3,权重衰减参数设为5×10-4。
4.1.3 性能评估指标
对于X光安检图像中违禁品的检测,首先需要对各个物品类别单独计算其平均检测精度(AP),然后对各个类别的AP值求和并求解平均值,即可得到综合检测指标的平均精度均值(mAP)。mAP衡量的是在所有类别上的平均好坏程度,可以用来评估目标检测模型的性能,有效避免某些极端化类别对其他类别的影响。mAP的表达式为
式中:N表示总的类别数目。mAP值越大,则表示模型的检测精度越高,相反则越低。
检测速度是另外一个非常重要的性能评价指标,其对于实时性要求高的检测应用场景极其重要。常用的评估检测速度的指标是每秒帧率(FPS),即每秒内可以处理的图片数量。在单位时间内处理的图片数量越多,则表示速度越快。所有对比实验均在同一硬件的条件下进行。
4.2 实验结果分析
4.2.1 对比实验
为了验证不同卷积层的融合对模型效果的影响,分别进行三种不同组合的实验,具体的组合方式如
表 2. 不同融合特征层的组合方式
Table 2. Combination of different fusion feature layers
|
从
表 3. 不同融合方式的检测精度结果
Table 3. Detection accuracy results of different fusion methods unit: %
|
从
对数据集中的各类违禁品分别在SSD原始模型和改进后的MFFNet模型上进行对比,结果如
表 4. 各类违禁品的检测精度结果
Table 4. Detection accuracy results of all kinds of contraband unit: %
|
从
使用SIXray_OD数据集分别在SSD模型和MFFNet模型上进行可视化对比,如
图 6. 不同模型的可视化检测结果。(a)原始图像;(b)SSD模型;(c)MFFNet模型
Fig. 6. Visual detection results of different models. (a) Original images; (b) SSD model; (c) MFFNet model
4.2.2 消融实验
本节以SSD网络为基础模型进行消融实验,添加不同模块后对MFFNet模型检测效果的影响进行对比。FM 1由block 30与Conv8融合而成,FM 2由block 33与Conv9融合而成。该部分实验参数设置与对比实验一致,实验结果如
表 5. 消融实验的结果
Table 5. Results of ablation experiment
|
从
为了更好地评估MFFNet模型,将其与其他模型进行性能对比,结果如
表 6. 不同模型的检测结果
Table 6. Detection results of different models
|
从
5 结论
提出一种新的违禁品检测模型,即MFFNet。在SSD模型的基础上将更深的ResNet-101作为骨干网络以更好地提取特征,新增两个轻量级的特征融合模块并生成新的特征金字塔,用于X光安检图像中危险品的检测。对特征融合模块的组合方式和不同特征层间的融合方式进行对比,并通过详细的消融和对比实验得到最佳方案。实验结果表明,MFFNet模型对X光安检图像中的违禁品检测具有有效性。相较于现有的一阶段和两阶段模型络,MFFNet模型的mAP值都有不同程度的提升,且每秒内可以处理的图片数量为19张,这符合安检工作的实际要求,为智慧机场的建设提供新思路。
[1] 韩宁. 基于深度学习的X射线图像危险品检测与跟踪算法研究[D]. 兰州: 兰州大学, 2018.
HanN. A deep learning-based dangerous goods detection and tracking algorithm from X-ray images[D]. Lanzhou: Lanzhou University, 2018.
[2] BastanM, Yousefi MR, Breuel TM. Visual words on bag-gage X-ray images[M] //Real P, Diaz-Pernil D, Molina-Abril H, et al. Computer analysis of images and patterns. Lecture notes in computer science. Heidelberg: Springer, 2011, 6854: 360- 368.
[3] Baştan M. Multi-view object detection in dual-energy X-ray images[J]. Machine Vision and Applications, 2015, 26(7/8): 1045-1060.
[4] 苏寒松, 刘腾腾, 刘高华, 等. 基于神经网络的学生行为检测算法研究[J]. 激光与光电子学进展, 2020, 57(22): 221016.
[5] GirshickR, DonahueJ, DarrellT, et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C] //2014 IEEE Conference on Computer Vision and Pattern Recognition, June 23-28, 2014, Columbus, OH, USA.New York: IEEE Press, 2014: 580- 587.
[6] RedmonJ, DivvalaS, GirshickR, et al.You only look once: unified, real-time object detection[C] //2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE Press, 2016: 779- 788.
[7] LiuW, AnguelovD, ErhanD, et al. SSD: single shot MultiBox detector[M] //Leibe B, Matas J, Sebe N, et al. Computer vision. Lecture notes in computer science. Cham: Springer, 2016, 9905: 21- 37.
[8] Ren S Q, He K M, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[9] 吉祥凌, 吴军, 易见兵, 等. 基于深度学习的管制物品自动检测算法研究[J]. 激光与光电子学进展, 2019, 56(18): 180402.
[12] 赵亚男, 吴黎明, 陈琦. 基于多尺度融合SSD的小目标检测算法[J]. 计算机工程, 2020, 46(1): 247-254.
Zhao Y N, Wu L M, Chen Q. Small object detection algorithm based on multi-scale fusion SSD[J]. Computer Engineering, 2020, 46(1): 247-254.
[13] 陈鹏飞. 基于多尺度特征融合的实时目标检测[D]. 西安: 西安电子科技大学, 2018.
Chen PF. Real-time object detection based on multi-scale feature fusion[D]. Xi'an: Xidian University, 2018.
[14] NeubeckA, van GoolL. Efficient non-maximum suppression[C] //18th International Conference on Pattern Recognition (ICPR'06), August 20-24, 2006, Hong Kong, China.New York: IEEE Press, 2006: 850- 855.
[15] 陈幻杰, 王琦琦, 杨国威, 等. 多尺度卷积特征融合的SSD目标检测算法[J]. 计算机科学与探索, 2019, 13(6): 1049-1061.
[16] 黄豪杰, 段先华, 黄欣辰. 基于深度学习水果检测的研究与改进[J]. 计算机工程与应用, 2020, 56(3): 127-133.
[19] 朱明明, 许悦雷, 马时平, 等. 基于特征融合与软判决的遥感图像飞机检测[J]. 光学学报, 2019, 39(2): 0210001.
[20] Miao CJ, Xie LX, WanF, et al.SIXray: a large-scale security inspection X-ray benchmark for prohibited item discovery in overlapping images[C] //2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 15-20, 2019, Long Beach, CA, USA. New York: IEEE Press, 2019: 2114- 2123.
[21] 姜文涛, 张驰, 张晟翀, 等. 多尺度特征图融合的目标检测[J]. 中国图象图形学报, 2019, 24(11): 1918-1931.
Article Outline
王昱晓, 张良. 多尺度特征融合的安检图像危险品检测[J]. 激光与光电子学进展, 2021, 58(8): 0810012. Yuxiao Wang, Liang Zhang. Dangerous Goods Detection Based on Multi-Scale Feature Fusion in Security Images[J]. Laser & Optoelectronics Progress, 2021, 58(8): 0810012.