激光与光电子学进展, 2019, 56 (23): 231008, 网络出版: 2019-11-27   

基于改进的特征提取网络的目标检测算法 下载: 961次

Object Detection Algorithm Based on Improved Feature Extraction Network
作者单位
天津大学电气自动化与信息工程学院, 天津 300072
摘要
针对目标检测准确率低,物体位置不精准的缺点,设计了一种基于改进的特征提取网络的目标检测算法。首先将训练集进行数据增强;其次设计了一种双通道网络,用于目标检测算法Faster R-CNN的特征提取;最后在算法的预测部分,对非极大值抑制(NMS)机制进行了改进,并采用加权平均方法获取存在多个相近的预测框的位置。在VOC 2007和VOC 2012数据库上进行实验,表明本文算法比经典的目标检测算法效果要好,准确率达到79.1%,提升了3%~4%,验证了本文算法的有效性。
Abstract
In this study, an object detection algorithm is designed based on an improved feature extraction network to solve the shortcomings of low object detection accuracy and inaccurate object position detection. Initially, the training set is enhanced; subsequently, a two-path network is designed for usage in feature extraction of the Faster R-CNN algorithm; finally, the non-maximum suppression mechanism is improved in the prediction part of the algorithm, and the weighted averaging method is adopted for obtaining the positions of multiple similar prediction boxes. The experiments conducted using the VOC 2007 and VOC 2012 databases denote that the proposed algorithm outperforms the classical object detection algorithm, with an accuracy rate of 79.1% and an improvement of 3%-4%. Thus, the effectiveness of the algorithm is verified.

1 引言

随着人工智能时代的到来,目标检测已经成为人工智能及计算机视觉领域中的一个研究重点和难点,它的主要目标是识别出图像中感兴趣区域中的物体类别,并预测出物体的具体位置。目标检测在各个领域都有着非常重要的应用,如交通运输、人脸识别[1]、****[2]、医学诊断、视频监控等领域。

基于深度学习的目标检测算法主要可以分为2大类:一类是基于区域提名的算法,通过区域建议的方法生成一系列候选区域,对候选区域进行特征提取,然后进行分类和位置回归,经典的算法有R-CNN[3]、Fast R-CNN[4]、Faster R-CNN[5]等;另一类是端到端的算法,通过将输入图像划分成一系列的网格,对网格进行深度特征提取,最后完成目标的分类识别,该算法省去了生成候选框过程,将目标检测问题转化为回归问题,在保证一定精确度的前提下,能够有效提高检测速度,经典的算法有YOLO[6]、SSD[7]等。还有很多学者尝试着在此两类算法上进行创新,如在单次多检测框检测(SSD)基础上进行创新的有Faster-SSD算法[8],在改善感兴趣区域(ROI)分类效果上进行创新的有R-FCN算法[9],除此之外还有基于自适应卷积特征的目标跟踪算法[10]等。

虽然现阶段优秀的目标检测算法有很多,但还是存在识别准确率不高的问题。光照、天气等环境干扰因素,对输入图像特征提取不充分,以及去除多余重复框后确定目标位置时准确率不高,都会影响目标检测效果。本文提出一种基于改进的卷积神经网络(CNN)特征提取网络的目标检测算法,旨在提高目标检测精度。首先将训练集进行数据增强,并对数据增强技术作定量分析;其次设计一种只利用1×1、3×3、1×1卷积的双通道网络,用作目标检测算法Faster R-CNN的特征提取网络,对输入图像特征进行深层次利用;最后对非极大抑制(NMS)算法进行改进,使得预测阶段中含有目标的检测框能够因置信度的降低机制而更多地保留下来。

2 原理与方法

2.1 数据增强

利用数据增强来提高目标检测效果是一个很重要的环节,如果增强方法选择不当,则会降低准确性和稳健性。所以针对翻转、裁剪、旋转、添加高斯噪声4种方法,在ImageNet数据集的子集上,采用AlexNet[11]对分类效果进行定量讨论。该子集共包含15类物体,每类物体有500张训练图片,输入图片大小为224×224×3。实验硬件设备是Ubuntu 16.04操作系统,语言版本是Python 2.7,使用Caffe平台。用这4种方法及其组合分别生成新的样本数量,数量是原始训练集的1倍和3倍,分别进行对比实验。

图1是4种方法各自生成1倍和3倍数据集的实验结果。从结果可知,1)翻转、裁剪、旋转3种方法,可以提高训练模型准确率,并且随着训练样本的成倍增加,效果越好;2)添加高斯噪声不能改善训练模型的效果;3)单独使用翻转方法效果较好,在只增加1倍数据量的情况下,准确率高出旋转方法1.8%,高出裁剪方法1.1%,在增加3倍数据量的情况下,准确率高出旋转方法0.3%,高出裁剪方法1.4%。

图 1. 4种数据增强技巧效果对比图

Fig. 1. Comparison of effects of four data augmentation techniques

下载图片 查看所有图片

图 2. 翻转、裁剪、旋转方法组合效果对比图

Fig. 2. Comparison of combination effects of flipping, cropping, and rotating methods

下载图片 查看所有图片

由于添加高斯噪声并不能改善结果,于是对剩下3种方法的组合作进一步分析。图2表明2种方法结合效果要优于只使用1种方法,3种方法相结合时效果最好。在只增加1倍数据量和3倍数据量的情况下,准确率分别是82.60%和84%。考虑到目标检测算法所用的Pascal VOC数据库容量并不大(2G),所以在实验结果与分析部分,对训练数据采取3种方法组合的形式,增加3倍数据集,以达到最好的检测效果。

2.2 改进的特征提取网络

采取最新的网络内部链接拓扑结构,结合DensNet[12]和ResNet[13]的优点,设计一种双通道特征提取网络,如图3所示。对于特征提取网络(表1),有两条输入通道可以传输:一是经过1×1、3×3和1×1卷积,与下方输入作相加操作,形成ResNet通道,利用跳跃连接技巧使得网络能够重复利用特征,减少冗余,提高传输效率;二是经过1×1、3×3和1×1卷积,与上方输入作拼接操作,形成DensNet通道,利用密集连接技巧将网络的输入特征和输出特征拼接,从之前的网络中学习新的特征。

该特征提取网络能够更好地提取图片的信息,提高特征的复用和传播,同时,还能够通过共享中间三个卷积,提高网络的计算效率,能在减少参数量上取得较大的优势,最终提高了模型的性能,降低目标检测的错误率,相对于其他检测方法具有较高的精度。

图 3. ResNet、DensNet、双通道网络单元结构节点表示图。(a) ResNet网络单元;(b) DensNe网络单元;(c)双通道网络单元

Fig. 3. Node representations of cell structures of ResNet, DensNet, and two-path networks. (a) ResNet network; (b) DensNet network; (c) two-path network

下载图片 查看所有图片

表 1. 特征提取网络结构

Table 1. Structure of feature extraction network

LayerOutput sizeDetail
Conv1112×1127×7,64,stride 2
Conv256×563×3 max pool,stride 21×1conv3×3conv1×1conv×α1
Conv328×281×1conv3×3conv1×1conv×α2
Conv414×141×1conv3×3conv1×1conv×α3
Conv57×71×1conv3×3conv1×1conv×α4

查看所有表

为突出特征网络在参数量上的优势,这里选择较复杂的100层网络、VGG-16网络、ResNet、DensNet进行参数量对比。超参数K表征特征提取网络的增长率,α1α2α3α4为网络层数的不同数量。从表2可以看出当K=48时,设计的100层特征提取网络,相较于VGG-16特征提取网络,参数量减少了20.24%,相较于ResNet特征提取网络,参数量减少了10.67%,因此在计算量上获得了更好的性能。

表 2. 不同特征提取网络的复杂性比较

Table 2. Comparison of complexity of different feature extraction networks

Feature extraction networkDepthParameter /106
VGG-1616168
DensNet(K=48)161111
ResNet101150
Ours(α1α2α3α4=6,8,16,3; K=48)100134

查看所有表

2.3 改进的非极大值抑制算法

Faster R-CNN算法中建议窗口生成网络在计算过程中会得到2万多个带有置信值的预测框,这些预测框通过NMS的方法进行去冗余。但该算法仍然存在缺陷:如图4(a)所示,图中虚线预测框A会因与实线预测框B重叠面积过大而被删除,从而导致A框漏检;同样如图4(b)所示,鸟周围存在多个相近的预测框,传统的NMS无法保留最准确的那个框。

图 4. 传统的NMS问题举例图。(a)马;(b)鸟

Fig. 4. Examples of traditional NMS problems. (a) Horses; (b) birds

下载图片 查看所有图片

针对该问题作进一步改进,将所有预测框按置信度分数排序,分数最高的预测框选作对比框,剩下的预测框与对比框的重叠面积大于交并比(IoU,RIOU)阈值[14]时,将该预测框的置信度分数与衰减函数相乘。为保证分数降低后连续,并且只对IoU重叠度大的有降低效果,选择高斯的衰减函数, e-β(RIOU)2,其中β定义为 1σ。为比较改进算法与传统算法的性能和稳健性,选择在一组公开提供的MS-COCO数据集中的5000张图片上进行实验。从表3得知,普通NMS算法随着IoU阈值的提升下降幅度较大,而改进后的NMS虽也有下降,但整体幅度较为稳定,并且在相同阈值下,平均准确率均高于普通NMS算法。随着β的减小,改进后的NMS平均准确率先提升后下降,在此数据集下IoU阈值为0.5、σ为0.6时能达到最好的效果。为使对比公平准确,在后文实际训练中IoU阈值选择和原算法保持一致,设为0.7,同时σ设为0.6。

表 3. IoU阈值、β参数、加权平均对平均值(AP)的影响(0.5、0.6、0.7代表不同的IoU阈值,w代表加权平均)

Table 3. Influences of IoU threshold, β parameter, and weighted average on AP (0.5, 0.6, and 0.7 represent different IoU thresholds; w represents weighted average)

Different parameterAP0.5AP0.5wAP0.6AP0.6wAP0.7AP0.7w
Normal NMS44.3744.8339.1839.6729.8330.34
β=2.5, σ=0.446.4246.9242.8343.4034.6835.24
β=1.67, σ=0.646.5847.1143.3043.7935.2135.76
β=1.25, σ=0.845.9346.4541.6842.2133.0133.53

查看所有表

除此之外,针对一个物体周围存在多个位置相近的预测框的情况,选择生成一个组合框,即对这几个相近预测框位置作加权平均,进一步改善预测框的位置。从表3中可以看出,加权平均对AP值能够起到积极作用,平均准确率能够提高的范围在0.45~0.60之间。对于预测框位置不太精确且距离范围特别大的情况,在未来的研究工作中,需要对加权平均方法作进一步改进,以提高算法的普适性。

3 实现结果与分析

实验使用的环境配置为CPU Intel (R) Core (TM) i7-6700,GPU型号为NVIDIA GTX 1080Ti,操作系统是Ubuntu16.04,基于Caffe框架,python 2.7版本,MATLAB 2014b实现。本文采用端到端的联合训练法,占用显存小,并且训练速度快。采用随机梯度下降法和反向传播进行训练,动量设置为0.9,批次(batch size)设置为16,权重衰减(weight decay)设置为0.0005。由于使用数据增强导致数据集增多,因此训练次数也增加,设置为110万次。起初学习率(learning rate)设置为0.1,迭代65万次后学习率降为0.01,继续迭代至90万次,学习率降为0.001,直到训练结束,得到最终模型。

3.1 数据增强和改进的非极大值抑制的影响

表4表明使用数据增强和改进的NMS可以起到积极效果。将VOC2007数据集中的5011张训练集和VOC2012数据集中的11540张训练集进行数据增强,准确率提高了2.5%;使用改进的NMS机制,更多地保留了预测阶段中含有目标的检测框,并且对存在多个相近的预测框进行加权平均,使本文算法的准确度提高了1.1%。

表 4. 数据增强和改进的NMS机制对准确率的影响

Table 4. Influences of data augmentation and improved NMS mechanism on accuracy

Detection framworkBackboneTraining setTesting setmAP /%
OursNo augmentation No improved NMSProposedProposedProposedVOC2007+VOC2012VOC2007+VOC2012VOC2007+VOC2012VOC2007VOC2007VOC200779.176.678.0

查看所有表

3.2 训练时热身(warming up)技巧的影响

本实验采取热身技巧设置了学习率,在训练初始阶段,先以小学习率训练一定次数,然后再将学习率提升回来。对训练的前N个epoch采取warming up,并对N进行相应的讨论。由表5可知将前5个epoch初始学习率分别设置为0.00001、0.0001、0.001、0.01、0.1时效果最好,能够提高0.51%的准确率。该技巧让学习率有一个缓慢的提升过程,有利于网络跨越随机梯度下降时的鞍点,使网络更快地收敛,同时提高了最终准确率。

表 5. 不同epoch对准确率的影响结果

Table 5. Influences of different epochs on accuracy

Nums of epochLearning rate settingmAP /%
0No warming up78.20
20.01, 0.178.25
3450.001, 0.01, 0.10.0001, 0.001, 0.01, 0.10.00001, 0.0001, 0.001, 0.01, 0.178.3678.6778.71

查看所有表

3.3 网络深度和网络增长率的影响

设计52层、100层和133层3种不同深度的特征提取网络,α1α2α3α4分别是(3,4,6,4)、(6,8,16,3)和(6,8,26,4),图5中数据点从左至右依次代表52层、100层和133层,并且设置增长率为12。由图5可知随网络层数的加深,目标检测的Top-1错误率不断下降,133层的预测网络比52层预测网络错误率下降1.5%,比100层预测网络错误率下降0.8%。由此可知双通道网络能够吸取ResNet和DensNet的优点,当网络深度不断加深时,能够很好地解决梯度爆炸或网络退化问题,利用跳跃连接的技巧,使得网络易于优化与泛化。

图 5. 52层、100层、133层深度的特征提取网络参数量和Top-1错误率趋势图

Fig. 5. Trend of parameter quantity of feature extraction network with Top-1 error rate and 52, 100, and 133 layers

下载图片 查看所有图片

关于网络增长率K对比实验,为减少训练时间,选择52层网络,并设计了K为12、18、24、48四种情况(图6中数据点从左到右依次顺序排列)。由图6可得当特征提取网络层数固定时,随着K的增加,网络参数不断增加,同时Top-1错误率不断下降,这意味着准确率不断提高,模型性能不断提升。K为48时,Top-1错误率比K为18时下降了0.8%。证明该特征网络能够通过拼接前一层的特征,增加后续层的输入特征变化,更好地提取了图片的信息,提高了特征的复用和传播,从而能够学习到更加精准的模型。

图 6. 网络增长率为12,18,24,48的特征提取网络的参数量和Top-1错误率趋势图

Fig. 6. Trend of parameter quantity of feature extraction network with Top-1 error rate and network growth rates of 12, 18, 24, and 48

下载图片 查看所有图片

3.4 检测精度和检测速度

表6为本文算法和其他算法的检测精度和检测速度对比,并将目标检测主流算法做了分类。本文算法(网络层数为133层,网络增长率为48)的检测精度为79.1%,超过了one stage和two stage大部分算法,高于基于VGG-16的Faster R-CNN算法5.9个百分点,高于基于ResNet-101的Faster R-CNN算法2.7个百分点,充分说明本算法设计的特征提取网络起到了很好的效果,从而验证了本文算法的有效性。本文算法的检测速度是2.10 frame/s,由于输入图像需要同时经过两路较大的网络,造成计算量比简单的特征提取网络要大,所以检测速度并没有明显的提升。但是本文算法的检测速度,优于MR-CNN算法2.07 frame/s,优于Fast R-CNN算法1.60 frame/s,在two stage系列算法中具有一定优势。

表 6. 不同算法在VOC2007+VOC2012训练集下的测试结果

Table 6. Testing results of different algorithms under VOC2007+VOC2012 training sets

MethodBackboneTraining setTesting setmAP/%Frame rate /(frame·s-1)
TwostageFast R-CNNFaster R-CNNFaster R-CNNMR-CNNIONOursVGG-16VGG-16ResNet-101ResNet-101VGG-16ProposedVOC2007+VOC2012VOC2007+VOC2012VOC2007+VOC2012VOC2007+VOC2012VOC2007+VOC2012VOC2007+VOC2012VOC2007VOC2007VOC2007VOC2007VOC2007VOC200770.073.276.478.276.579.10.5072.400.031.252.10
OnestageYOLOYOLOv2SSD321SSD300*DSOD300DSSD513GoogleNetDarknet-19ResNet-101VGG-16DS/64-192-48-1ResNet-101VOC2007+VOC2012VOC2007+VOC2012VOC2007+VOC2012VOC2007+VOC2012VOC2007+VOC2012VOC2007+VOC2012VOC2007VOC2007VOC2007VOC2007VOC2007VOC200763.478.677.177.277.781.5454011.204617.405.50

查看所有表

4 结论

提出一种基于改进的特征提取网络的目标检测算法,将Faster R-CNN的特征提取网络替换成双通道网络;同时还对训练集进行了翻转、裁剪、旋转数据增强操作;在最后的预测部分改进了NMS算法,对所有IoU大于阈值的预测框的置信度分数进行降低,并对存在多个相近的预测框的位置进行加权平均以提高准确度。实验结果证明,本文算法的检测精度为79.1%,检测速度为2.1 frame/s,相比于其他主流算法,有效提高了检测精度,同时在two stage系列算法中具有一定的检测速度优势。由于two stage系列的目标检测算法检测速度较低,难以满足不同情境下的实时性要求,所以在未来算法改进中,希望能够在保证检测精度的基础上,提高检测速度,以满足实时性的要求。

参考文献

[1] 何志超, 赵龙章, 陈闯. 用于人脸表情识别的多分辨率特征融合卷积神经网络[J]. 激光与光电子学进展, 2018, 55(7): 071503.

    He Z C, Zhao L Z, Chen C. Convolution neural network with multi-resolution feature fusion for facial expression recognition[J]. Laser & Optoelectronics Progress, 2018, 55(7): 071503.

[2] 陈洋, 范荣双, 王竞雪, 等. 基于深度学习的资源三号卫星遥感影像云检测方法[J]. 光学学报, 2018, 38(1): 0128005.

    Chen Y, Fan R S, Wang J X, et al. Cloud detection of ZY-3 satellite remote sensing images based on deep learning[J]. Acta Optica Sinica, 2018, 38(1): 0128005.

[3] GirshickR, DonahueJ, DarrellT, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]∥2014 IEEE Conference on Computer Vision and Pattern Recognition, June 23-28, 2014, Columbus, OH, USA. New York: IEEE, 2014: 580- 587.

[4] GirshickR. Fast R-CNN[C]∥2015 IEEE International Conference on Computer Vision (ICCV), December 7-13, 2015, Santiago, Chile. New York: IEEE, 2015: 1440- 1448.

[5] Ren S Q, He K M, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

[6] RedmonJ, DivvalaS, GirshickR, et al. You only look once: unified, real-time object detection[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 779- 788.

[7] LiuW, AnguelovD, ErhanD, et al. SSD: single shot MultiBox detector[M] ∥Leibe B, Matas J, Sebe N, et al. Computer vision-ECCV 2016. Lecture notes in computer science. Cham: Springer, 2016, 9905: 21- 37.

[8] 陈立里, 张正道, 彭力. 基于改进SSD的实时检测方法[J]. 激光与光电子学进展, 2019, 56(1): 011002.

    Chen L L, Zhang Z D, Peng L. Real-time detection based on improved single shot MultiBox detector[J]. Laser & Optoelectronics Progress, 2019, 56(1): 011002.

[9] Dai JF, LiY, He KM, et al. R-FCN: object detection via region-based fully convolutional networks[C]∥Proceedings of the 30th International Conference on Neural Information Processing Systems, December 5-10, 2016, Barcelona, Spain. New York: ACM, 2016: 379- 387.

[10] 蔡玉柱, 杨德东, 毛宁, 等. 基于自适应卷积特征的目标跟踪算法[J]. 光学学报, 2017, 37(3): 0315002.

    Cai Y Z, Yang D D, Mao N, et al. Visual tracking algorithm based on adaptive convolutional features[J]. Acta Optica Sinica, 2017, 37(3): 0315002.

[11] KrizhevskyA, SutskeverI, Hinton GE. ImageNet classification with deep convolutional neural networks[C]∥Proceedings of the 25th International Conference on Neural Information Processing Systems, December 3-6, 2012, Lake Tahoe, Nevada. New York: ACM, 2012: 1097- 1105.

[12] HuangG, Liu Z, van der Maaten L, et al. Densely connected convolutional networks[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 2261- 2269.

[13] He KM, Zhang XY, Ren SQ, et al. Deep residual learning for image recognition[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 770- 778.

[14] NeubeckA, van GoolL. Efficient non-maximum suppression[C]∥18th International Conference on Pattern Recognition (ICPR'06), August 20-24, 2006, Hong Kong, China. New York: IEEE, 2006: 9210072.

乔婷, 苏寒松, 刘高华, 王萌. 基于改进的特征提取网络的目标检测算法[J]. 激光与光电子学进展, 2019, 56(23): 231008. Ting Qiao, Hansong Su, Gaohua Liu, Meng Wang. Object Detection Algorithm Based on Improved Feature Extraction Network[J]. Laser & Optoelectronics Progress, 2019, 56(23): 231008.

本文已被 4 篇论文引用
被引统计数据来源于中国光学期刊网
引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!