应用于嵌入式图形处理器的实时目标检测方法

王晓青; 王向军

doi:doi:10.3788/AOS201939.0315005

光学学报, 2019, 39 (3): 0315005, 网络出版: 2019-05-10

应用于嵌入式图形处理器的实时目标检测方法下载： 1307次

Real-Time Target Detection Method Applied to Embedded Graphic Processing Unit

论文大纲

王晓青王向军 ^*

作者单位

天津大学精密测试技术及仪器国家重点实验室, 天津 300072

机器视觉目标检测卷积神经网络嵌入式平台图形处理器 machine vision target detection convolutional neural network embedded platform graphic processing unit

AI 词云图 AI语音精读 AI语音超短摘要

注：本部分内容由 AI 自动生成，请您知悉。

摘要

提出了一种应用于嵌入式图形处理器(GPU)的实时目标检测算法。针对嵌入式平台计算单元较少、处理速度较慢的现状,提出了一种基于YOLO-V3(You Only Look Once-Version 3)架构的改进的轻量目标检测模型,对汽车目标进行了离线训练,在嵌入式平台上部署训练好的模型,实现了在线检测。实验结果表明,在嵌入式平台上,所提方法对分辨率为640 pixel×480 pixel的视频图像的检测速度大于23 frame/s。

Abstract

A real-time target detection algorithm is proposed and used in the embedded graphic processing unit (GPU). In view of the lack of computing units and the slow processing speed for an embedded platform, an improved lightweight target detection model is proposed based on the YOLO-V3 (You Only Look Once-Version 3) structure. This model is first trained off-line with vehicle targets and then deployed on the embedded GPU platform to achieve the online prediction. The experimental results show that the processing speed of the proposed method on the embedded GPU platform reaches 23 frame/s for a 640 pixel×480 pixel video.

1 引言

目标检测是大量高级视觉任务的必备前提,它要求算法不仅能够检验出图像中存在什么物体,还需要确定物体在图片中的位置。传统目标检测的方法一般分为三个阶段:1)在给定的图像上选择一些候选的区域;2)对这些区域进行特征提取;3)使用训练的分类器进行分类。传统目标检测存在的两个主要问题:1)基于滑动窗口的区域选择策略时间复杂度高,窗口冗余,处理时间长;2)手工设计的特征对于目标多样性的变化不具有很好的稳健性。

近几年,得益于基于深度学习的算法,尤其是基于深度卷积神经网络^[1](CNN)的算法,目标检测的准确率得到大幅提升。2014年,Girshick等^[2]设计了R-CNN(Regions with CNN)目标检测框架,使得目标检测的效果取得巨大突破,并开启了应用深度学习算法进行目标检测的研究热潮。最近几年,学术界涌现出一系列基于R-CNN的检测算法,如SPP-Net (Spatial Pyramid Pooling Net)^[3]、Fast-RCNN^[4]、Faster R-CNN^[5]、R-FCN(Region-based Fully Convolutional Networks)^[6]等,检测精度得到大幅度提升。此外,还出现了区别于R-CNN系列两步检测方法的端到端检测算法,如SSD(Single Shot MultiBox Detector)^[7]和YOLO(You Only Look Once)^[8-10]等,检测速度得到较大提升。早期的基于深度学习的目标检测算法R-CNN,首先通过区域提名的方式识别出可能存在目标的区域,将图片划分成若干可能包含目标的小图片送入CNN中,由CNN确定是哪一类物体存在于这个小区域上,从而完成检测。这种检测流程的一大缺陷是检测一幅图片要经过CNN处理数千次,完成一幅图片的检测需要2 s。后来的Fast R-CNN和Faster R-CNN对此进行改进,不再将整幅图片分成小块的图片一次次送入CNN提取特征,而是将图片整体一次性送入CNN,提取到特征图后,再对特征图做进一步处理,但这一系列算法的整体流程依旧是分为区域提取和目标分类两部分,这样做虽然确保了精度,但牺牲了速度,于是以SSD和YOLO为主要代表的端到端的目标检测算法应运而生。YOLO算法被提出以来,已经经过了3个版本的更替,在精度和速度上均获得了巨大的提升,在Titan X上检测速度可达到45 frame/s,是目前检测速度最快的目标检测算法之一。然而,目前基于CNN的目标检测模型的训练与测试均依赖如Titan X这样的台式GPU计算平台,计算资源消耗大,难以向嵌入式平台移植,因此难以适应工业界对于目标检测实时性和便携性的需求^[11-12]。只有解决CNN模型的效率问题,设计轻量化网络模型,才能让CNN走出实验室,实现更广泛的应用。针对这一现状,Iandola等^[13]提出SqueezeNet模型,基于fire module思想,采用1×1卷积对特征图的维数进行压缩,从而达到减少权值参数的目的;Howard等^[14]提出MobileNet模型,采用深度可分离的卷积方式代替传统卷积方式,以达到减少网络权值参数的目的,并在2018年初又提出改进版MobileNet-V2^[15]。

以上几种方法本质上都是针对特征提取与分类网络结构的优化,目前将它们应用于目标检测中时普遍采用的是与SSD算法结合的方式。考虑到YOLO系列算法本身速度要优于SSD算法,因此本文提出一种基于YOLO-V3的轻量型目标检测网络结构。在该网络结构中,对特征提取部分的网络层数进行适度压缩,在检测部分通过引入SP(Spatial Pooling)模块配合1×1卷积进行降维的方式,一方面使得网络能够融合不同尺度的特征,另一方面使得网络可以对不同宽高比的图片进行训练,从而提高网络的检测能力。在对车辆目标进行检测训练时,通过使用仿真图片辅助训练的方式弥补真实场景数据库样本数量的不足,进一步提升检测精度,并在嵌入式GPU平台上部署了基于所提方法训练得到的检测模型,实现了对目标的实时检测,为将基于深度学习的目标检测技术应用到智能驾驶、智能安防和智能无人机等产品中提供了一套目标检测原型系统。

2 改进的YOLO目标检测模型

2.1 网络结构

为了将神经网络技术应用于嵌入式平台实现实时的目标检测,需要设计轻量级的目标检测模型,为此,提出一种基于YOLO的目标检测网络模型改进方案,简化后的模型结构如图1所示,其中N为卷积核数量(通道数),K为卷积核大小,S为步长,Conv表示卷积层,Fc表示全连接层。提出的网络结构具有以下特点:

1) 对于特征提取部分,在Darknet-53结构的基础上对网络层数进行了压缩,以减少网络的参数,简化后的特征提取部分包括1个卷积层,4个降采样卷积层和9个resnet block。

2) 在预测目标部分,采用了与YOLO不同的结构。预测过程中使用了从不同层中提取的2个不同尺度的特征图以提高对于小目标的检测效果。通过引入SP模块,将特征图的大小统一为13 pixel×13 pixel。再通过1×1卷积对通道数进行降维处理,得到最后用于目标检测的特征向量。

2.2 SP模块

初代YOLO的模型结构中存在全连接层,因而输入图片的尺寸必须固定。为解决这个问题,YOLO-V3取消了全连接层的使用,转而使用了全局平均池化的方式,而所提方法则选择保留全连接层并加入SP模块。SP模块主要基于SPP原理,对于输入为任意大小a×b的特征图,SP模块根据图像的大小动态地计算池化窗口的大小w×h、水平步长t_w和竖直步长t_h,得到尺寸固定为n×n的特征图,通过这种方式,将输入的不同大小的特征图进行尺度归一化,这样网络就可以对不同尺寸的图片进行训练,从而提高网络的检测能力。池化窗口大小和池化步长分别为

\{\begin{array}{l} w = ceiling (a / n), h = ceiling (b / n) \\ t_{w} = floor (a / n), t_{h} = floor (b / n) \end{array}, (1)

式中:ceiling(·)为向上取整函数;floor(·)为向下取整函数。

在对网络模型进行训练时,每隔10次迭代后就会对训练数据进行缩放,调整网络的输入尺寸,训练过程中使用的最小图像尺寸为416 pixel×416 pixel,最大图像尺寸为672 pixel×672 pixel。

图 1. 网络结构示意图

Fig. 1. Structural diagram of network

下载图片查看所有图片

2.3 训练策略

下面结合图1简述参数的确定方式以及网络的训练策略。以输入尺寸为416 pixel×416 pixel的图片为例,经过特征提取后,得到的两个特征图的大小分别是52 pixel×52 pixel和26 pixel×26 pixel,其特征通道数分别为256和512。通过SP模块后两个通道尺度分别变为13×13×256和13×13×512,再通过1×1卷积进行降维后,最终得到维度为13×13×18的特征向量作为全连接层的输入。其中13×13表示(1)式中n=13 pixel,对应将输入图像分为对应的13×13个栅格,这里采用了与YOLO-V3一致的策略,为每个栅格预测三个可能的目标边界框,对每个边界框预测4个坐标值(t_x,t_y,t_w,t_h),1个置信度和m个条件概率(m为待识别目标的类别数量)。在后续实验中,只检测车辆目标,因而m=1,所以每一个栅格对应的特征维数是3×(4+1+1)=18。由此得到总的特征向量的维度是13×13×18。

在预测边界框的4个坐标值时,采用平方和距离误差作为损失函数。在预测某一个边界框的置信度时,如果这个预测的边界框与真实的边界框的重合部分大于一定阈值(实验中设定为0.5)且比其他所有预测的要好,那么这个置信度值就为1,否则这个预测的边界框将会被忽略。使用经典的softmax函数对每个框的内容进行目标分类预测。

3 实验

3.1 实验数据集

为测试所提网络结构的性能,对车辆目标进行目标检测实验,实验中使用的两个数据集分别是KITTI^[16]和DIM^[17]。KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。KITTI包含市区、乡村和高速公路等场景采集的真实图像数据,其中KITTI_detection子数据集用于二维图像中的目标检测,目标类别细分为car, van, truck, pedestrian, pedestrian-sitting, cyclist, tram以及misc,共8类。实验中,使用全部7481张KITTI_detection数据集图片,将其按照8…2的比例分为训练集和测试集,并将tram,truck,van和car这几类目标合并为汽车类作为待检测目标。由于KITTI数据集样本量较少,为能进一步提高检测准确率,实验中还使用了DIM数据集作为补充。DIM数据集是采集自游戏截图的仿真图片,共有10⁵张样本图片,其中只标注了汽车类,在本实验中,共使用其中的10⁴张图片。图2展示了两个数据集的示例图片。

3.2 评价标准

实验中使用平均准确率(P_mAP)和召回率(R)作为目标检测结果的评价指标。召回率表示被正确识别出来的目标个数(N_True)与测试集中所有目标的个数(N_Total)的比值:

R = \frac{N_{True}}{N_{Total}} 。 (2)

数据集中某个类别C在一张图片上的检测准确率P_C等于在该图片上正确识别出的类别C的个数N_True-C与该图片上识别出的类别C的总数(包括正确识别N_True-C和误识别N_False-C)的比值:

P_{c} = \frac{N_{True - C}}{N_{True - C} + N_{Fals e - C}} 。 (3)

判断某个目标是否正确识别的标准交并比(R_IoU)定义为预测产生的候选框A与真实目标的标记框B的交集与并集的比值:

R_{IoU} = \frac{A_{area_1}}{A_{area_2}}, (4)

式中:A_area_{_}₁表示A与B的相交面积;A_area_{_}₂表示A与B的集合面积。该比值越高说明预测的定位准确性越高,本实验中设定阈值为0.5,R_IoU大于该阈值的预测是一个正确的预测。类别C在所有包含该类别的图片中的单类平均准确率P_AP-C等于每张图片上的P_C求和后除以含有类别C的图片数目N_Total-C:

P_{AP - C} = \frac{\sum P_{C}}{N_{Total - C}} 。 (5)

对于包含m个类别的整个数据集,其平均准确率P_mAP等于各个单类平均准确率求和后除以类别数m:

P_{mAP} = \frac{\sum P_{AP - C}}{m} 。 (6)

由于本实验中类别数m=1,因此实际中P_mAP=P_AP。

图 2. 数据集的示例图片。(a) KITTI;(b) DIM

Fig. 2. Sample images from datasets. (a) KITTI; (b) DIM

下载图片查看所有图片

3.3 网络模型的训练与测试实验

下面通过实验对所提网络模型进行目标检测的训练与测试,并将实验结果与另外两个网络模型(YOLO-V3 和YOLO-tiny^[18])进行对比。YOLO-V3是目前最优秀的目标检测模型之一,YOLO-tiny是YOLO的作者自己提出的简化版模型。本节中所述实验的训练与测试过程均在配有NVIDIA GTX1080显卡的工作站上进行,实验中使用第3.1节提到的KITTI和DIM数据集对汽车目标进行检测。实验共分三组。第一组实验中,分别使用YOLO-V3、YOLO-tiny以及所提网络结构,在KITTI数据集上进行模型训练和测试,得到的实验结果见表1。考虑到实际应用中,像KITTI这样的真实场景数据集的采集和标记都会耗费大量的人力物力,而仿真数据集较容易获取,可作为真实数据集不足时的一种数据补充,因此在第二组实验中,使用10⁴张DIM数据集图片对模型进行训练,并在KITTI测试数据集上进行测试,得到的实验结果见表2。第三组实验中,使用在DIM数据集上预训练好的模型,在KITTI训练集上进行微调训练,并在KITTI测试数据集上进行测试,实验结果见表3。图3展示了第三组实验中,使用完整的YOLO模型和所提模型得到的部分测试结果的对比图。

表 1. 第一组实验结果

Table 1. Results of first group of experiments

Model	P_mAP /%	R /%
YOLO-V3	86.20	85.49
YOLO-tiny	65.89	75.56
Proposed method	64.22	78.22

查看所有表

表 2. 第二组实验结果

Table 2. Results of second group of experiments

Model	P_mAP /%	R /%
YOLO-V3	72.48	78.96
YOLO-tiny	56.32	67.77
Proposed method	52.87	69.13

查看所有表

表 3. 第三组实验结果

Table 3. Results of third group of experiments

Model	P_mAP /%	R /%
YOLO-V3	89.29	81.76
YOLO-tiny	72.40	69.13
Proposed method	71.35	73.90

查看所有表

实验结果表明,所提模型在检测准确率上与YOLO-tiny持平且召回率高于YOLO-tiny,但与YOLO-V3相比,检测准确率和召回率均有一定差距。这是由于网络结构简化以及网络参数的减少造成了精度损失。从图3的对比中也可以看出,相比YOLO-V3网络模型,所提网络模型对于小目标和有遮挡、有残缺的目标存在漏检现象。

图 3. 第三组实验的部分检测结果对比。(a)~(e)使用YOLO-V3的结果;(f)~(j)使用所提网络结构的结果

Fig. 3. Comparison of partial detection results in third group of experiments. (a)-(e) Results by YOLO-V3; (f)-(j) results by proposed network structure

下载图片查看所有图片

对比三组实验结果,还可以看出:第二组使用仿真数据训练的测试结果在三组实验中精度最低,这是因为仿真数据与真实场景数据的特征分布存在一定差异,直接跨数据集进行测试,难以达到良好的检测效果;但第三组实验中,使用对仿真数据进行预训练、对真实数据进行再训练的方法得到的检测效果是三组实验中效果最优的,平均准确率在YOLO-V3上达到89.29%,在所提网络模型上达到71.35%,这说明即使是存在一定的特征差异,使用仿真的数据集作为真实场景数据的补充,配合适当的训练策略,可以起到提升网络模型性能的作用,从而弥补因网络结构简化带来的检测精度的降低。这一实验结果为诸如智能驾驶和智能无人机等真实训练数据集获取成本高、难度大的应用领域提供了一种解决思路。

3.4 网络模型向嵌入式平台的移植实验

目前基于深度学习的目标检测算法多数基于台式GPU计算机进行训练和测试,这类计算平台的运算能力强,可以胜任大规模网络模型的训练,但由于体积相对庞大,即使在这类平台上达到了实时的目标检测,也难以实现工业应用。将该类算法向嵌入式平台进行移植,是实现智能车载、机载目标识别的关键。在嵌入式平台的选择上,使用NVIDIA Jetson TX1作为嵌入式GPU计算平台来搭建实时目标检测原型系统。Jeston TX1的CPU采用的是ARM Cortex-A57,GPU采用NVIDIA Maxwell架构,内含256个CUDA(Compute Unified Device Architecture)核心,非常适合嵌入式人工智能计算。

在本节实验中,针对模型的检测速度进行实验,将网络模型部署在NVIDIA Jetson TX1嵌入式计算平台上,使用分辨率为640 pixel×480 pixel、包含200 frame图像的视频对所提网络模型进行了检测速度的测试,并与其他轻量型网络模型的检测速度进行了对比,部分实验过程如图4所示。MobileNet-V1-SSD和MobileNet-V2-SSD部署在Tensorflow框架上,使用Tensorflow object detection API提供的模型;YOLO-V3,YOLO-tiny和所提模型部署在Darknet框架上,使用第3.3节中训练得到的模型。实验结果见表4。

表 4. 目标检测的速度对比

Table 4. Speed comparison of target detection

Model	Average speed on TX1 /(frame·s^-1)
MobileNet-V1-SSD	14
MobileNet-V2-SSD	13
YOLO-V3	2
YOLO-tiny	17
Proposed method	23

查看所有表

图 4. 在嵌入式平台上的检测结果。(a) YOLO-V3;(b) YOLO-tiny;(c)所提网络结构;(d) MobileNet-V1-SSD;(e) MobileNet-V2-SSD

Fig. 4. Detection results on embedded platform. (a) YOLO-V3; (b) YOLO-tiny; (c) proposed network structure; (d) MobileNet-V1-SSD; (e) MobileNet-V2-SSD

下载图片查看所有图片

实验结果表明,受到嵌入式平台计算能力的限制,即使是在台式GPU显卡上已经可以实现实时目标检测的方法,如YOLO-V3,在嵌入式平台上的运行速度依然很慢,检测帧率仅为2 frame/s。在对比实验中,选取了针对SSD检测模型进行速度优化的方法MobileNet-V1-SSD和MobileNet-V2-SSD进行测试,平均检测速度分别为14 frame/s和13 frame/s。YOLO-tiny是基于YOLO-V3的优化方案,相比YOLO-V3在检测速度上有了大幅度提升,达到17 frame/s。由于一般摄像机(PAL制式)的帧率为25 frame/s,因此以上的优化方案均没有达到实时检测的标准。所提模型结构在检测准确率和召回率上与YOLO-tiny持平的情况下,检测速度提升35%,达到23 frame/s,可基本实现在嵌入式平台上的实时目标检测。

4 结论

基于YOLO-V3提出了一种适用于嵌入式GPU平台的轻量化目标检测模型,在两个公开车辆检测数据集上对网络模型进行了训练,并将模型移植到嵌入式GPU计算平台上。实验证明,所提方法初步实现了嵌入式平台上的实时目标检测,为后期将基于深度学习的目标检测技术应用到智能驾驶、智能安防和智能无人机等产品中提供了一套目标检测原型系统。通过与复杂网络模型的对比实验可以看出,简化的网络结构相较于复杂的网络结构,其准确率和召回率均有所降低,说明目标检测网络运行速度的提升是以牺牲一定的检测准确率为代价的,如何进一步优化网络结构,在保证检测速度的情况下进一步提升检测准确率,将是下一步研究的重点。

参考文献

[1] LeCun Y, Bottou L, Bengio Y, et al. . Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

LeCun Y, Bottou L, Bengio Y, et al. . Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

[2] GirshickR, DonahueJ, DarrellT, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2014: 580- 587.

GirshickR, DonahueJ, DarrellT, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2014: 580- 587.

[3] He K M, Zhang X Y, Ren S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916.

He K M, Zhang X Y, Ren S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916.

[4] GirshickR. Fast R-CNN[C]. IEEE International Conference on Computer Vision, 2015: 1440- 1448.

GirshickR. Fast R-CNN[C]. IEEE International Conference on Computer Vision, 2015: 1440- 1448.

[5] Ren S Q, He K M, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

Ren S Q, He K M, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

[6] LiY, HeK, SunJ. R-FCN: Object detection via region-based fully convolutional networks[C]. Advances in Neural Information Processing Systems, 2016: 379- 387.

LiY, HeK, SunJ. R-FCN: Object detection via region-based fully convolutional networks[C]. Advances in Neural Information Processing Systems, 2016: 379- 387.

[7] LiuW, AnguelovD, ErhanD, et al. SSD: Single shot multibox detector[C]. European Conference on Computer Vision, 2016: 21- 37.

LiuW, AnguelovD, ErhanD, et al. SSD: Single shot multibox detector[C]. European Conference on Computer Vision, 2016: 21- 37.

[8] RedmonJ, FarhadiA. YOLO9000: Better, faster, stronger[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2017: 6517- 6525.

RedmonJ, FarhadiA. YOLO9000: Better, faster, stronger[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2017: 6517- 6525.

[9] RedmonJ, Farhadi A. Yolov3: An incremental improvement[EB/OL]. ( 2018-04-08)[2018-09-07]. org/abs/1804. 02767. https://arxiv.

RedmonJ, Farhadi A. Yolov3: An incremental improvement[EB/OL]. ( 2018-04-08)[2018-09-07]. org/abs/1804. 02767. https://arxiv.

[10] RedmonJ, DivvalaS, GirshickR, et al. You only look once: Unified, real-time object detection[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2016: 779- 788.

RedmonJ, DivvalaS, GirshickR, et al. You only look once: Unified, real-time object detection[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2016: 779- 788.

[11] 冯小雨, 梅卫, 胡大帅. 基于改进Faster R-CNN的空中目标检测[J]. 光学学报, 2018, 38(6): 0615004.

冯小雨, 梅卫, 胡大帅. 基于改进Faster R-CNN的空中目标检测[J]. 光学学报, 2018, 38(6): 0615004.

Feng X Y, Mei W, Hu D S. Aerial target detection based on improved faster R-CNN[J]. Acta Optica Sinica, 2018, 38(6): 0615004.

[12] 辛鹏, 许悦雷, 唐红, 等. 全卷积网络多层特征融合的飞机快速检测[J]. 光学学报, 2018, 38(3): 0315003.

辛鹏, 许悦雷, 唐红, 等. 全卷积网络多层特征融合的飞机快速检测[J]. 光学学报, 2018, 38(3): 0315003.

Xin P, Xu Y L, Tang H, et al. Fast airplane detection based on multi-layer feature fusion of fully convolutional networks[J]. Acta Optica Sinica, 2018, 38(3): 0315003.

[13] Iandola FN, HanS, Moskewicz MW, et al. Squeezenet: Alexnet-level accuracy with 50x fewer parameters and <0.5 MB modelsize[EB/OL]. ( 2016-11-04)[2018-09-07]. org/abs/1602. 07360. https://arxiv.

Iandola FN, HanS, Moskewicz MW, et al. Squeezenet: Alexnet-level accuracy with 50x fewer parameters and <0.5 MB modelsize[EB/OL]. ( 2016-11-04)[2018-09-07]. org/abs/1602. 07360. https://arxiv.

[14] Howard AG, ZhuM, ChenB, et al. Mobilenets: Efficient convolutional neural networks for mobile vision applications[EB/OL]. ( 2017-04-17)[2018-09-07]. / 1704. 04861. https://arxiv.org/abs

Howard AG, ZhuM, ChenB, et al. Mobilenets: Efficient convolutional neural networks for mobile vision applications[EB/OL]. ( 2017-04-17)[2018-09-07]. / 1704. 04861. https://arxiv.org/abs

[15] SandlerM, HowardA, ZhuM, et al. Inverted residuals and linear bottlenecks: Mobile networks for classification, detection and segmentation[EB/OL]. ( 2018-04-02)[2018-09-07]. org/abs/1801. 04381. https://arxiv.

SandlerM, HowardA, ZhuM, et al. Inverted residuals and linear bottlenecks: Mobile networks for classification, detection and segmentation[EB/OL]. ( 2018-04-02)[2018-09-07]. org/abs/1801. 04381. https://arxiv.

[16] GeigerA, LenzP, UrtasunR. Are we ready for autonomous driving? The KITTI vision benchmark suite[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2012: 3354- 3361.

GeigerA, LenzP, UrtasunR. Are we ready for autonomous driving? The KITTI vision benchmark suite[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2012: 3354- 3361.

[17] Johnson-RobersonM, BartoC, MehtaR, et al. Driving in the Matrix: Can virtual worlds replace human-generated annotations for real world tasks?[C]. IEEE International Conference on Robotics and Automation, 2017: 746- 753.

Johnson-RobersonM, BartoC, MehtaR, et al. Driving in the Matrix: Can virtual worlds replace human-generated annotations for real world tasks?[C]. IEEE International Conference on Robotics and Automation, 2017: 746- 753.

[18] Redmon J.YOLO-tiny[EB/OL]. ( 2018-08-16)[2018-09-07]. https://github.com/pjreddie/darknet/blob/master/cfg/yolov3-tiny.cfg.

Redmon J.YOLO-tiny[EB/OL]. ( 2018-08-16)[2018-09-07]. https://github.com/pjreddie/darknet/blob/master/cfg/yolov3-tiny.cfg.

王晓青, 王向军. 应用于嵌入式图形处理器的实时目标检测方法[J]. 光学学报, 2019, 39(3): 0315005. Xiaoqing Wang, Xiangjun Wang. Real-Time Target Detection Method Applied to Embedded Graphic Processing Unit[J]. Acta Optica Sinica, 2019, 39(3): 0315005.

应用于嵌入式图形处理器的实时目标检测方法下载： 1307次

1 引言

2 改进的YOLO目标检测模型

2.1 网络结构

2.2 SP模块

图 1. 网络结构示意图

Fig. 1. Structural diagram of network

2.3 训练策略

3 实验

3.1 实验数据集

3.2 评价标准

图 2. 数据集的示例图片。(a) KITTI;(b) DIM

Fig. 2. Sample images from datasets. (a) KITTI; (b) DIM

3.3 网络模型的训练与测试实验

表 1. 第一组实验结果

Table 1. Results of first group of experiments

表 2. 第二组实验结果

Table 2. Results of second group of experiments

表 3. 第三组实验结果

Table 3. Results of third group of experiments

图 3. 第三组实验的部分检测结果对比。(a)~(e)使用YOLO-V3的结果;(f)~(j)使用所提网络结构的结果

Fig. 3. Comparison of partial detection results in third group of experiments. (a)-(e) Results by YOLO-V3; (f)-(j) results by proposed network structure

3.4 网络模型向嵌入式平台的移植实验

表 4. 目标检测的速度对比

Table 4. Speed comparison of target detection

图 4. 在嵌入式平台上的检测结果。(a) YOLO-V3;(b) YOLO-tiny;(c)所提网络结构;(d) MobileNet-V1-SSD;(e) MobileNet-V2-SSD

Fig. 4. Detection results on embedded platform. (a) YOLO-V3; (b) YOLO-tiny; (c) proposed network structure; (d) MobileNet-V1-SSD; (e) MobileNet-V2-SSD

4 结论

Article Outline

关于本站 Cookie 的使用提示

全站搜索

应用于嵌入式图形处理器的实时目标检测方法 下载： 1307次

1 引言

2 改进的YOLO目标检测模型

2.1 网络结构

2.2 SP模块

图 1. 网络结构示意图

Fig. 1. Structural diagram of network

2.3 训练策略

3 实验

3.1 实验数据集

3.2 评价标准

图 2. 数据集的示例图片。(a) KITTI;(b) DIM

Fig. 2. Sample images from datasets. (a) KITTI; (b) DIM

3.3 网络模型的训练与测试实验

表 1. 第一组实验结果

Table 1. Results of first group of experiments

表 2. 第二组实验结果

Table 2. Results of second group of experiments

表 3. 第三组实验结果

Table 3. Results of third group of experiments

图 3. 第三组实验的部分检测结果对比。(a)~(e)使用YOLO-V3的结果;(f)~(j)使用所提网络结构的结果

Fig. 3. Comparison of partial detection results in third group of experiments. (a)-(e) Results by YOLO-V3; (f)-(j) results by proposed network structure

3.4 网络模型向嵌入式平台的移植实验

表 4. 目标检测的速度对比

Table 4. Speed comparison of target detection

图 4. 在嵌入式平台上的检测结果。(a) YOLO-V3;(b) YOLO-tiny;(c)所提网络结构;(d) MobileNet-V1-SSD;(e) MobileNet-V2-SSD

Fig. 4. Detection results on embedded platform. (a) YOLO-V3; (b) YOLO-tiny; (c) proposed network structure; (d) MobileNet-V1-SSD; (e) MobileNet-V2-SSD

4 结论

Article Outline

相关论文

相关资讯

关于本站 Cookie 的使用提示

全站搜索

应用于嵌入式图形处理器的实时目标检测方法下载： 1307次