激光与光电子学进展, 2019, 56 (4): 041502, 网络出版: 2019-07-31   

基于改进特征金字塔的Mask R-CNN目标检测方法 下载: 1982次

Mask R-CNN Object Detection Method Based on Improved Feature Pyramid
作者单位
中北大学大数据学院, 山西 太原 030051
摘要
提出了一种基于改进特征金字塔的Mask R-CNN目标检测方法。实验结果表明,在目标边缘和包围盒两项检测中,相比于Mask R-CNN检测框架,所提方法在不同的交并比阈值下的平均准确率分别提高了约2.4%和3.8%。尤其对于中等尺寸目标的检测准确率有较大的提高,分别为7.7%和8.5%,具有较强的稳健性。
Abstract
The Mask R-CNN (mask region-based convolutional neural network) object detection method is proposed based on the improved feature pyramid. The experimental results show that compared with the Mask R-CNN detection structure, the mean average precision (mAP) under different Intersection-over-Union (IoU) thresholds increases by 2.4% and 3.8% in the detection of object edge and bounding box, respectively. In particular, the detection accuracy of medium size objects is greatly improved by 7.7% and 8.5%, respectively, which indicates strong robustness.

1 引言

目标检测广泛应用于智能监控、自动驾驶、人机交互等领域,其任务是从复杂场景中标识出目标的分类信息与位置信息,用于后续的跟踪[1]、识别[2-3]以及更为复杂的任务。并且,目标检测需要同时解决分类和定位的问题,还要注意目标数量和目标尺寸。因此,目标检测一直是计算机视觉领域研究的热点和难点。

传统的目标检测方法,如尺度不变特征变换(SIFT)[4]、梯度方向直方图(HOG)[5]及可变形组件模型(DPM)[6]等,根据先验知识设计特征,虽在特定的场景达到了较高的检测速度与精度,但由于该类方法依赖先验知识,导致自适应性及泛化性较差。近年来,基于深度学习机制的目标检测方法能自适应提取目标不同层级的特征,并将训练好的模型应用在不同的场景中,有效提高了检测精度及泛化性。基于深度学习的目标检测模型根据分类回归与区域提取是否分开分为以下两类。1)基于回归的目标检测模型,根据特征映射图预先划定默认框,进而对目标分类。典型方法有:YOLO[7]、SSD[8]及YOLOv3[9],上述算法采用回归的思想提取边界回归框,极大地提高了检测速度,但检测精度较差[10];2)基于区域候选的目标检测模型,先对特征映射图进行边界框提取,再将其输出与特征映射图一同输入至兴趣区域(RoI)池化层,以实现对目标的分类与定位,该类方法是近几年的研究热点。从R-CNN [11]首次将深度学习机制引入目标检测领域实现了目标自适应检测起,诸多研究者对其进行改进,如:SPP-Net[12]在R-CNN中引入空间金字塔池化层,在减少输入图像尺寸对网络影响的同时提升了检测精度;Fast R-CNN[13]进一步在SPP-Net的空间金字塔池化层的基础上,采用单尺度池化,极大提高了检测速度;Faster R-CNN[14] 又在Fast R-CNN提取候选区域过程中引入区域建议网络(RPN),实现了端到端的训练,提高了区域提取的精度及网络训练速度,是当前应用较广的检测框架[15];Mask R-CNN[16]将Faster R-CNN 的RoI池化层改进为RoIAlign,并采用双线性插值法降低了边界回归框的位置误差,同时加入了掩模生成任务,一定程度上提高了检测的精度。Mask R-CNN尽管嵌入了特征金字塔网络(FPN)[17],可以学习到丰富的特征,但由于边界回归框尺寸的限制,只能利用少数几层特征映射图的信息,这就会不可避免地导致其他层次可利用信息的丢失,进而影响后续的分类回归任务。

为此,本文提出了基于改进特征金字塔的Mask R-CNN目标检测方法。采用填零扩充对原图像进行预处理,在FPN中增加自下向上的反向侧边连接路径,再对所有层次的特征映射图进行自上而下的上采样侧边连接,将连接后的特征映射图分别输入RPN和RoIAlign,RPN对其提取边界框再输入RoIAlign,对RoIAlign的输出进行分类和回归,以有效提取出目标的空间位置信息,最终达到提高检测准确率的目的。

2 基本原理

2.1 方法框架

1) 数据预处理:对输入图像四周进行填零补足,因所使用的数据集[18]中的图像宽高最大为640 pixel,所以为方便之后的网络处理,将图像扩充为1024 pixel×1024 pixel。

2) 特征提取:采用改进的FPN进行特征提取,对FPN增加自下而上的反向侧边连接并融合特征映射图,输入至RPN和RoIAlign。

3) RPN和RoIAlign分类回归:利用RPN对特征映射图进行边界框提取并映射到特征映射图上,输入RoIAlign,根据损失函数对输出结果进行分类回归。

4) 修改与完善:网络完成目标检测后,根据评价指标分析各因素对检测效果的影响,进一步对网络进行修改与完善。

总体框架如图1所示。

图 1. 检测方法框架

Fig. 1. Flow chart of detection method

下载图片 查看所有图片

2.2 基于改进特征金字塔的Mask R-CNN目标检测方法

2.2.1 Mask R-CNN基本原理及流程

Mask R-CNN属于R-CNN系列检测框架,在Faster R-CNN的基础上添加一个掩模预测分支,并将FPN结合到ResNet中,改进RoIPooling层为RoIAlign层,在预测框提取过程中使用双线性插值法代替了原方法中简单的四舍五入取整,具体步骤如图2所示。图中,Ci(2≤i≤5)为共享卷积层第i阶段的特征映射图;Pj(2≤j≤4)为FPN由Ci(2≤i≤4)及Pj+1(j=i)经过侧边连接生成的第j阶段特征映射图;由于尺寸问题,P5为直接由C5经过卷积操作生成的特征映射图,且并未改变尺寸。先将图像输入至共享卷积层提取特征,生成多尺度特征映射图,再进行侧边连接,将每一阶段的特征映射图二倍上采样后与相邻低层进行张量相加,利用RPN对不同尺寸的特征映射图生成候选区域,并将其与特征映射图输入RoIAlign得到预测框,最后,对预测框进行分类和回归。但是,由于FPN只使用了自上而下路径,对于多层特征映射图的利用并不充分,尤其是对于高层特征映射图处理时会造成部分信息丢失,无法达到更好的检测效果。

图 2. Mask R-CNN检测流程图

Fig. 2. Flow chart of Mask R-CNN detection

下载图片 查看所有图片

2.2.2 改进的Mask R-CNN检测流程

Mask R-CNN框架结合的FPN对于多尺度的特征映射图采用了侧边连接的方法,将高层语义信息融合进低层精确的定位信息中,在实验结果中有良好表现[16]。但是,从FPN结构分析来看,虽然它利用了多尺度的信息,但是文中的侧边连接方法只有自上而下的路径,而且对于RPN的输入是在这一组特征映射图中选取单一尺寸进行处理。这样会导致两个问题:其一,最高层的特征映射图与原特征提取网络[17]结构的最终输出是一样的,而大尺寸[18]目标的信息主要由此层特征映射图提供,所以对于大目标检测的准确率与原网络相近甚至略低;其二,对自上而下路径结构进行分析,可以知道对于FPN输出的一组特征映射图中,每一层包含本层和更高层的信息而不包含更低层的信息,而对RPN又是从中选取最优尺寸特征映射图进行输入,这样就会导致无法充分利用所有尺寸特征映射图的信息,造成检测准确率并非更优值。

为解决现有方法所存在的问题,提出了改进的Mask R-CNN目标检测方法,其整体目标检测框架流程如图3所示。其中,Ci(2≤i≤5)、Pj(2≤j≤5)、Nl(2≤l≤5)和Mk(2≤k≤5)分别为共享卷积层、FPN及所提方法生成的特征映射图。检测方法的步骤如下。

图 3. 改进后的检测框架流程图

Fig. 3. Flow chart of improved detection framework

下载图片 查看所有图片

1) 自下而上的反向侧边连接。对FPN生成不同尺寸的特征映射图,增加一条自下而上的路径,如图3N2~N5所示。具体步骤如图4所示,N2P2尺寸相同,Nl(2≤l≤4)经步长为2的3×3卷积,得到与Pj+1(2≤j≤4)相同尺寸的特征映射图并与Pj+1(2≤j≤4)进行相加,再进行卷积操作得到Nl+1(2≤l≤4)。上述卷积操作的卷积核数量均为256。

图 4. 反向侧边连接具体步骤

Fig. 4. Concrete steps of reverse lateral connection

下载图片 查看所有图片

图 5. 融合特征映射图

Fig. 5. Fused feature map

下载图片 查看所有图片

2) 融合多尺度特征映射图。根据图5所示,具体步骤为:N5经1×1卷积得到M5,将Mk(3≤k≤5)进行二倍上采样得到与Nl-1(l=k)尺寸相同的特征映射图并与Nl-1相加,再经3×3卷积得Mk-1(3≤k≤5),再采用sigmoid激活函数得到RPN的输入[16]

3 实验结果与分析

实验采用公开的coco数据集[18]进行训练与测试,将经典的ResNet-101[19]作为特征提取的骨架网络,并利用coco数据集及imagenet数据集预训练该特征提取网络。采用的评价指标为不同TIoU阈值(0.50≤TIoU≤0.95)及不同尺寸目标下所有类别的平均准确率均值(mAP)。实验中,共享卷积层经过了imagenet数据集的预训练,根据实验测试对网络学习率从0.02调整为0.001,并对所改进部分单独训练,然后将学习率调整为0.0001,从而对网络进行整体的微调。

表1所示,PAP是以0.05为步长从0.50至0.95共10个TIoU阈值下的平均准确率均值。同理,PAP50PAP75分别是TIoU阈值为0.50和0.75时的平均准确率均值。PAPsPAPmPAPl分别为小、中、大不同尺寸目标的平均准确率均值。MNC和FCIS为instance segmentation任务中的经典模型。分析表1可知,由于采用反向侧边连接的方法生成特征映射图,包含了低层准确的定位信息和高层语义信息,避免了由于Mask R-CNN中FPN只有一条自上而下的侧边连接路径导致的高层特征映射图无法有效包含低层定位信息的问题,将中、小尺寸目标的识别准确率提高了4%。并且,所提方法对改进FPN的中间层融合了更多的信息,在PAPm上提升了7.7%。

表2所示,PAPbb为目标包围盒检测的平均准确率均值,根据不同阈值的TIoU进行区分。对结果进行分析可知,相对于Mask R-CNN的结果,在不同的TIoU阈值中,所提方法在PAP75bb中的提高更为显著,为3.9%,说明在所检测到的目标包围盒中,本方法的结果更精确。PAPmbb的结果提高了8.5%,显著高于另外两项的提升。根据分析结果和网络结构可知,FPN和所添加的自下而上路径对于中间两层的信息既融合了高层语义信息,又融合了低层准确的定位信息。所以相对于最高层和最低层中主要判断大目标和小目标的信息,中间层对于中等目标的检测准确率更高。

表 1. Instance segmentation的mAP结果比较

Table 1. Comparison of mAP results in instance segmentation%

MethodBackbonePAPPAP50PAP75PAPsPAPmPAPl
MNC[20]ResNet-101-C424.644.324.84.725.943.6
FCIS[21]+OHEMResNet-101-C5-dilated29.249.5-7.131.350.0
Mask R-CNNResNet-101-FPN35.758.037.815.538.152.4
ProposedResNet-101-improved FPN37.258.239.418.445.852.7

查看所有表

表 2. Bounding box的mAP结果比较

Table 2. Comparison of mAP results in bounding box%

MethodBackbonePAPbbPAP50bbPAP75bbPAPsbbPAPmbbPAPlbb
Faster R-CNNResNet-101-C434.955.737.415.638.750.9
Faster R-CNN with FPNResNet-101-FPN36.259.139.018.239.048.2
Mask R-CNNResNet-101-FPN38.260.341.720.141.150.2
ProposedResNet-101-improved FPN42.361.445.624.249.651.3

查看所有表

4 结论

提出了基于改进特征金字塔的Mask R-CNN目标检测方法,针对Mask R-CNN在FPN提取特征阶段无法充分利用所有尺度特征映射图信息的问题,结合FPN和反向侧边连接,融合连接后的特征映射图。通过在coco公开数据集上的训练和测试,实验结果表明相比较于原Mask R-CNN检测框架,所提方法对于不同TIoU阈值下的mAP在目标边界和包围盒两项检测中分别提高了2.4%和3.8%,尤其对于中等尺寸目标的检测准确率提高较多,分别为7.7%和8.5%。

所提方法对于大目标的检测准确率和PAP50指标提高幅度较小,原因是在使用多层特征映射图时将无用的冗余信息进行处理,对结果造成了一定的影响。下一步工作是在改进的FPN基础上对冗余信息进行排除,以达到更好的检测效果。

参考文献

[1] 蔺素珍, 郑瑶, 禄晓飞, 等. 基于多域卷积神经网络与自回归模型的空中小目标自适应跟踪方法[J]. 光学学报, 2017, 37(12): 1215006.

    Lin S Z, Zheng Y, Lu X F, et al. Adaptive tracking algorithm for aerial small targets based on multi-domain convolutional neural networks and autoregression model[J]. Acta Optica Sinica, 2017, 37(12): 1215006.

[2] 刘峰, 沈同圣, 马新星. 特征融合的卷积神经网络多波段舰船目标识别[J]. 光学学报, 2017, 37(10): 1015002.

    Liu F, Shen T S, Ma X X. Convolutional neural network based multi-band ship target recognition with feature fusion[J]. Acta Optica Sinica, 2017, 37(10): 1015002.

[3] 何志超, 赵龙章, 陈闯. 用于人脸表情识别的多分辨率特征融合卷积神经网络[J]. 激光与光电子学进展, 2018, 55(7): 071503.

    He Z C, Zhao L Z, Chen C. Convolution neural network with multi-resolution feature fusion for facial expression recognition[J]. Laser & Optoelectronics Progress, 2018, 55(7): 071503.

[4] Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110.

[5] DalalN, TriggsB. Histograms of oriented gradients for human detection[C]∥IEEE Conference on Computer Vision and Pattern Recognition, June 20-25, 2005, San Diego, CA, USA. IEEE: New York, 2005: 886- 893.

[6] FelzenszwalbP, McAllester D, Ramanan D. A discriminatively trained, multiscale, deformable part model[C]∥IEEE Conference on Computer Vision and Pattern Recognition, June 23-28, 2008, Anchorage, AK, USA. New York: IEEE, 2008: 1- 8.

[7] RedmonJ, DivvalaS, GirshickR, et al. You only look once: unified, real-time object detection[C]∥IEEE Conference on Computer Vision and Pattern Recognition, June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 779- 788.

[8] LiuW, AnguelovD, ErhanD, et al. SSD: single shot multibox detector[C]∥Leibe B, Matas J, Sebe N, et al. European Conference on Computer Vision, Cham: Springer, 2016, 9905: 21- 37.

[9] RedmonJ, Farhadi A. Yolov3: an incremental improvement[EB/OL]. ( 2018-04-08)[2018-07-31]. https:∥arxiv.org/abs/1804. 02767.

[10] Lin TY, GoyalP, GirshickR, et al. Focal loss for dense object detection[C]∥IEEE International Conference on Computer Vision, October 22-29, 2017, Venice, Italy. New York: IEEE, 2017: 2999- 3007.

[11] GirshickR, DonahueJ, DarrellT, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]∥IEEE Conference on Computer Vision and Pattern Recognition, June 23-28, 2014, Columbus, OH, USA. New York: IEEE, 2014: 580- 587.

[12] He K M, Zhang X Y, Ren S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916.

[13] GirshickR. Fast R-CNN[C]∥IEEE International Conference on Computer Vision, December 7-13, 2015, Santiago, Chile. New York: IEEE, 2015: 1440- 1448.

[14] Ren S Q, He K M, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

[15] 冯小雨, 梅卫, 胡大帅. 基于改进Faster R-CNN的空中目标检测[J]. 光学学报, 2018, 38(6): 0615004.

    Feng X Y, Mei W, Hu D S. Aerial target detection based on improved faster R-CNN[J]. Acta Optica Sinica, 2018, 38(6): 0615004.

[16] He KM, GkioxariG, DollárP, et al. Mask R-CNN[C]∥2017 IEEE International Conference on Computer Vision, October 22-29, 2017, Venice, Italy. New York: IEEE, 2017: 2980- 2988.

[17] Lin TY, DollárP, GirshickR, et al. Feature pyramid networks for object detection[C]∥IEEE Conference on Computer Vision and Pattern Recognition, July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 936- 944.

[18] Lin TY, MaireM, BelongieS, et al. Microsoft coco: common objects in context[C]∥Fleet D, Pajdla T, Schiele B, et al. European Conference on Computer Vision, Cham: Springer, 2014, 8693: 740- 755.

[19] He KM, Zhang XY, Ren SQ, et al. Deep residual learning for image recognition[C]∥IEEE Conference on Computer Vision and Pattern Recognition, June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 770- 778.

[20] Dai JF, He KM, SunJ. Instance-aware semantic segmentation via multi-task network cascades[C]∥IEEE Conference on Computer Vision and Pattern Recognition, June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 3150- 3158.

[21] LiY, Qi HZ, Dai JF, et al. Fully convolutional instance-aware semantic segmentation[C]∥IEEE Conference on Computer Vision and Pattern Recognition, July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 4438- 4446.

任之俊, 蔺素珍, 李大威, 王丽芳, 左健宏. 基于改进特征金字塔的Mask R-CNN目标检测方法[J]. 激光与光电子学进展, 2019, 56(4): 041502. Zhijun Ren, Suzhen Lin, Dawei Li, Lifang Wang, Jianhong Zuo. Mask R-CNN Object Detection Method Based on Improved Feature Pyramid[J]. Laser & Optoelectronics Progress, 2019, 56(4): 041502.

本文已被 13 篇论文引用
被引统计数据来源于中国光学期刊网
引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!