基于改进特征金字塔的Mask R-CNN目标检测方法 下载: 1982次
1 引言
目标检测广泛应用于智能监控、自动驾驶、人机交互等领域,其任务是从复杂场景中标识出目标的分类信息与位置信息,用于后续的跟踪[1]、识别[2-3]以及更为复杂的任务。并且,目标检测需要同时解决分类和定位的问题,还要注意目标数量和目标尺寸。因此,目标检测一直是计算机视觉领域研究的热点和难点。
传统的目标检测方法,如尺度不变特征变换(SIFT)[4]、梯度方向直方图(HOG)[5]及可变形组件模型(DPM)[6]等,根据先验知识设计特征,虽在特定的场景达到了较高的检测速度与精度,但由于该类方法依赖先验知识,导致自适应性及泛化性较差。近年来,基于深度学习机制的目标检测方法能自适应提取目标不同层级的特征,并将训练好的模型应用在不同的场景中,有效提高了检测精度及泛化性。基于深度学习的目标检测模型根据分类回归与区域提取是否分开分为以下两类。1)基于回归的目标检测模型,根据特征映射图预先划定默认框,进而对目标分类。典型方法有:YOLO[7]、SSD[8]及YOLOv3[9],上述算法采用回归的思想提取边界回归框,极大地提高了检测速度,但检测精度较差[10];2)基于区域候选的目标检测模型,先对特征映射图进行边界框提取,再将其输出与特征映射图一同输入至兴趣区域(RoI)池化层,以实现对目标的分类与定位,该类方法是近几年的研究热点。从R-CNN [11]首次将深度学习机制引入目标检测领域实现了目标自适应检测起,诸多研究者对其进行改进,如:SPP-Net[12]在R-CNN中引入空间金字塔池化层,在减少输入图像尺寸对网络影响的同时提升了检测精度;Fast R-CNN[13]进一步在SPP-Net的空间金字塔池化层的基础上,采用单尺度池化,极大提高了检测速度;Faster R-CNN[14] 又在Fast R-CNN提取候选区域过程中引入区域建议网络(RPN),实现了端到端的训练,提高了区域提取的精度及网络训练速度,是当前应用较广的检测框架[15];Mask R-CNN[16]将Faster R-CNN 的RoI池化层改进为RoIAlign,并采用双线性插值法降低了边界回归框的位置误差,同时加入了掩模生成任务,一定程度上提高了检测的精度。Mask R-CNN尽管嵌入了特征金字塔网络(FPN)[17],可以学习到丰富的特征,但由于边界回归框尺寸的限制,只能利用少数几层特征映射图的信息,这就会不可避免地导致其他层次可利用信息的丢失,进而影响后续的分类回归任务。
为此,本文提出了基于改进特征金字塔的Mask R-CNN目标检测方法。采用填零扩充对原图像进行预处理,在FPN中增加自下向上的反向侧边连接路径,再对所有层次的特征映射图进行自上而下的上采样侧边连接,将连接后的特征映射图分别输入RPN和RoIAlign,RPN对其提取边界框再输入RoIAlign,对RoIAlign的输出进行分类和回归,以有效提取出目标的空间位置信息,最终达到提高检测准确率的目的。
2 基本原理
2.1 方法框架
1) 数据预处理:对输入图像四周进行填零补足,因所使用的数据集[18]中的图像宽高最大为640 pixel,所以为方便之后的网络处理,将图像扩充为1024 pixel×1024 pixel。
2) 特征提取:采用改进的FPN进行特征提取,对FPN增加自下而上的反向侧边连接并融合特征映射图,输入至RPN和RoIAlign。
3) RPN和RoIAlign分类回归:利用RPN对特征映射图进行边界框提取并映射到特征映射图上,输入RoIAlign,根据损失函数对输出结果进行分类回归。
4) 修改与完善:网络完成目标检测后,根据评价指标分析各因素对检测效果的影响,进一步对网络进行修改与完善。
总体框架如
2.2 基于改进特征金字塔的Mask R-CNN目标检测方法
2.2.1 Mask R-CNN基本原理及流程
Mask R-CNN属于R-CNN系列检测框架,在Faster R-CNN的基础上添加一个掩模预测分支,并将FPN结合到ResNet中,改进RoIPooling层为RoIAlign层,在预测框提取过程中使用双线性插值法代替了原方法中简单的四舍五入取整,具体步骤如
2.2.2 改进的Mask R-CNN检测流程
Mask R-CNN框架结合的FPN对于多尺度的特征映射图采用了侧边连接的方法,将高层语义信息融合进低层精确的定位信息中,在实验结果中有良好表现[16]。但是,从FPN结构分析来看,虽然它利用了多尺度的信息,但是文中的侧边连接方法只有自上而下的路径,而且对于RPN的输入是在这一组特征映射图中选取单一尺寸进行处理。这样会导致两个问题:其一,最高层的特征映射图与原特征提取网络[17]结构的最终输出是一样的,而大尺寸[18]目标的信息主要由此层特征映射图提供,所以对于大目标检测的准确率与原网络相近甚至略低;其二,对自上而下路径结构进行分析,可以知道对于FPN输出的一组特征映射图中,每一层包含本层和更高层的信息而不包含更低层的信息,而对RPN又是从中选取最优尺寸特征映射图进行输入,这样就会导致无法充分利用所有尺寸特征映射图的信息,造成检测准确率并非更优值。
为解决现有方法所存在的问题,提出了改进的Mask R-CNN目标检测方法,其整体目标检测框架流程如
1) 自下而上的反向侧边连接。对FPN生成不同尺寸的特征映射图,增加一条自下而上的路径,如
2) 融合多尺度特征映射图。根据
3 实验结果与分析
实验采用公开的coco数据集[18]进行训练与测试,将经典的ResNet-101[19]作为特征提取的骨架网络,并利用coco数据集及imagenet数据集预训练该特征提取网络。采用的评价指标为不同
如
如
表 1. Instance segmentation的mAP结果比较
Table 1. Comparison of mAP results in instance segmentation%
|
表 2. Bounding box的mAP结果比较
Table 2. Comparison of mAP results in bounding box%
|
4 结论
提出了基于改进特征金字塔的Mask R-CNN目标检测方法,针对Mask R-CNN在FPN提取特征阶段无法充分利用所有尺度特征映射图信息的问题,结合FPN和反向侧边连接,融合连接后的特征映射图。通过在coco公开数据集上的训练和测试,实验结果表明相比较于原Mask R-CNN检测框架,所提方法对于不同
所提方法对于大目标的检测准确率和
[1] 蔺素珍, 郑瑶, 禄晓飞, 等. 基于多域卷积神经网络与自回归模型的空中小目标自适应跟踪方法[J]. 光学学报, 2017, 37(12): 1215006.
[2] 刘峰, 沈同圣, 马新星. 特征融合的卷积神经网络多波段舰船目标识别[J]. 光学学报, 2017, 37(10): 1015002.
[3] 何志超, 赵龙章, 陈闯. 用于人脸表情识别的多分辨率特征融合卷积神经网络[J]. 激光与光电子学进展, 2018, 55(7): 071503.
[5] DalalN, TriggsB. Histograms of oriented gradients for human detection[C]∥IEEE Conference on Computer Vision and Pattern Recognition, June 20-25, 2005, San Diego, CA, USA. IEEE: New York, 2005: 886- 893.
[6] FelzenszwalbP, McAllester D, Ramanan D. A discriminatively trained, multiscale, deformable part model[C]∥IEEE Conference on Computer Vision and Pattern Recognition, June 23-28, 2008, Anchorage, AK, USA. New York: IEEE, 2008: 1- 8.
[7] RedmonJ, DivvalaS, GirshickR, et al. You only look once: unified, real-time object detection[C]∥IEEE Conference on Computer Vision and Pattern Recognition, June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 779- 788.
[8] LiuW, AnguelovD, ErhanD, et al. SSD: single shot multibox detector[C]∥Leibe B, Matas J, Sebe N, et al. European Conference on Computer Vision, Cham: Springer, 2016, 9905: 21- 37.
[9] RedmonJ, Farhadi A. Yolov3: an incremental improvement[EB/OL]. ( 2018-04-08)[2018-07-31]. https:∥arxiv.org/abs/1804. 02767.
[10] Lin TY, GoyalP, GirshickR, et al. Focal loss for dense object detection[C]∥IEEE International Conference on Computer Vision, October 22-29, 2017, Venice, Italy. New York: IEEE, 2017: 2999- 3007.
[11] GirshickR, DonahueJ, DarrellT, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]∥IEEE Conference on Computer Vision and Pattern Recognition, June 23-28, 2014, Columbus, OH, USA. New York: IEEE, 2014: 580- 587.
[13] GirshickR. Fast R-CNN[C]∥IEEE International Conference on Computer Vision, December 7-13, 2015, Santiago, Chile. New York: IEEE, 2015: 1440- 1448.
[15] 冯小雨, 梅卫, 胡大帅. 基于改进Faster R-CNN的空中目标检测[J]. 光学学报, 2018, 38(6): 0615004.
[16] He KM, GkioxariG, DollárP, et al. Mask R-CNN[C]∥2017 IEEE International Conference on Computer Vision, October 22-29, 2017, Venice, Italy. New York: IEEE, 2017: 2980- 2988.
[17] Lin TY, DollárP, GirshickR, et al. Feature pyramid networks for object detection[C]∥IEEE Conference on Computer Vision and Pattern Recognition, July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 936- 944.
[18] Lin TY, MaireM, BelongieS, et al. Microsoft coco: common objects in context[C]∥Fleet D, Pajdla T, Schiele B, et al. European Conference on Computer Vision, Cham: Springer, 2014, 8693: 740- 755.
[19] He KM, Zhang XY, Ren SQ, et al. Deep residual learning for image recognition[C]∥IEEE Conference on Computer Vision and Pattern Recognition, June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 770- 778.
[20] Dai JF, He KM, SunJ. Instance-aware semantic segmentation via multi-task network cascades[C]∥IEEE Conference on Computer Vision and Pattern Recognition, June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 3150- 3158.
[21] LiY, Qi HZ, Dai JF, et al. Fully convolutional instance-aware semantic segmentation[C]∥IEEE Conference on Computer Vision and Pattern Recognition, July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 4438- 4446.
任之俊, 蔺素珍, 李大威, 王丽芳, 左健宏. 基于改进特征金字塔的Mask R-CNN目标检测方法[J]. 激光与光电子学进展, 2019, 56(4): 041502. Zhijun Ren, Suzhen Lin, Dawei Li, Lifang Wang, Jianhong Zuo. Mask R-CNN Object Detection Method Based on Improved Feature Pyramid[J]. Laser & Optoelectronics Progress, 2019, 56(4): 041502.