激光与光电子学进展, 2018, 55 (11): 111507, 网络出版: 2019-08-14   

融合多层次卷积神经网络特征的闭环检测算法 下载: 1080次

Loop Closure Detection Algorithm Based On Multi-Level Convolutional Neural Network Features
作者单位
火箭军工程大学作战保障学院, 陕西 西安 710025
摘要
在外部环境和图像视角变化的情况下,传统视觉闭环检测算法的精度和稳健性变得很差。为此,提出一种融合多层次卷积神经网络特征的闭环检测算法。高层次的卷积特征包含较多的语义信息,可以应对图像视角的变化;中等层次卷积特征包含更多的几何空间信息,对光照等变化具有更好的稳健性。通过充分利用中高等层次卷积特征的特性进行组合式相似性度量,提高了闭环检测的精度与稳健性。由于卷积特征向量的维度特别大,因此,首先对卷积特征向量进行降维处理。在Gardens Point数据集上的实验结果证明,利用多层次卷积特征的图像匹配检测效果好于其他单一层。针对不同时刻所拍摄图像中的动态干扰因素,进一步提出图像动态干扰语义滤波机制,利用过滤掉动态干扰的图像进行匹配,在Tokyo24/7数据集上的实验证实了此方法的可行性和有效性。
Abstract
In the cases of appearance changes and viewpoint changes, the accuracy and robustness of traditional visual loop closure detection algorithms become very poor.To overcome this problem, we propose a loop closure detection algorithm, which utilizes the features of multi-level convolutional neural networks. The high-level convolution features contain much semantic information and can cope with viewpoint changes. The medium-level convolutional features contain more geometry and spatial information, which is more robust to lighting changes. Therefore, the accuracy and robustness of loop closure detection is improved by taking full advantage of the characteristics of the middle and high levels convolutional features and modular similarity measures. However, the convolutional feature vectors have a particularly large dimension, so the convolutional feature vectors are firstly dimension-reduced. The experimental results on the Gardens Point dataset show that the image matching detection effect is better by using multi-level convolutional features than by other single layers. In addition, for the dynamic interference factors in the images captured at different moments, a dynamic interference semantic filtering mechanism is further proposed. The filtered images are used to perform the matching. The experiments on the Tokyo 24/7 dataset prove the feasibility and effectiveness of this method.

1 引言

闭环检测是机器人同时定位与建图(SLAM)技术[1]中的重要一环,精准的检测可以高效地减小由传感器及位姿计算所产生的累积误差,并能在机器人丢失位置后实现重定位,从而实现更加精确的定位与地图构建。现有视觉SLAM系统中的闭环检测算法都是通过对关键帧图像的匹配来实现,即图像相似性计算[2-3]。然而,传统的闭环检测算法依靠人工设计的特征描述子进行匹配,人工特征完全依靠人类经验进行设计,因此具有很大的局限性。特征描述子可分为全局描述子和局部描述子,全局特征描述子从整体角度考虑图像,局部特征描述子提取更加详细的局部特征而忽略了整体。局部特征描述子,如尺度不变特征转换(SIFT)[4]、加速稳健特征(SURF)[5]以及快速特征点提取和描述(ORB)算法[6],可以有效地提取到图像中各个角点、轮廓线等局部特征,却没有考虑场景的空间和结构信息。全局特征描述子如Gist[7],采用Gabor滤波对整幅图像从不同的方向和频率提取图像特征,最终得到图像的低维全局描述,但图像的局部特征并未提取,而且当相机视角发生变化时,效果很差。以上特征都是人工设计的,并不能很好地表达图像,加之不能同时提取图像的局部特征和全局特征,特别是在环境发生改变的情况下,误匹配率会更高。另外,人工特征的提取与匹配计算量大,非常耗时,无法实时应用。

近年来,随着深度学习的兴起,利用卷积神经网络(CNN)学习的特征逐渐取代了传统的人工特征。研究表明,学习特征的判别性能远远超过了传统的人工设计特征[8]。基于CNN方法的视觉闭环检测算法对光照、视角、距离、外表等因素都有很好的适应性,大大提高了检测的稳健性,但是网络的训练过程非常耗时,对硬件的计算性能也提出了很高的要求,在参数调节方面也需要经验。为此,很多研究人员利用在大型数据集(如ImageNet、Places[9])上训练好的深度CNN来进行闭环检测。2014年,Chen等[10]将CNN提取的特征应用于闭环检测,采用ImageNet数据集上训练的Overfeat网络,在对象侧重的数据集(ImageNet)上训练的CNN可以很好地完成分类任务,但并不适于闭环检测任务。2015年,Hou等[11]采用Places数据集上训练的VGG11[12]模型进行闭环检测,详细地比较了不同层的检测效果,证明该模型在光照发生变化的场景下性能显著优于传统算法。其中,不同层次的CNN特征包含不同的图像信息:高等层次的CNN特征包含更多的语义信息,可以很好地应对视角变化;中等层次的CNN特征则包含相应的场景空间几何信息,能够克服光照变化的影响。然而,以上方法并没有充分利用不同层次CNN特征的特性,为此,本文提出一种融合多层次CNN特征的闭环检测算法,充分利用中等层次和高层次CNN特征来表达图像。另外,CNN模型应针对场景而非对象建立,应使用在以场景图像为中心的数据集上训练的网络,这些模型在应对动态干扰、视角变化、环境变化等情况下具有更好的稳健性。为此,本文选取在Places数据集上训练的VGG19[12]进行特征提取,对场景具有更好的敏感性,更适于闭环检测任务[13]。当场景中的行人、车辆等移动物体变化很大时,会对检测结果造成很大的影响,如何消去或减小动态干扰造成的影响非常重要,为此,本文进一步提出图像动态干扰语义滤波机制来解决这一问题。

2 融合多层次CNN特征的闭环检测算法

本文检测算法主要包括图像表达与相似性度量两部分,具体的流程如图1所示。利用中高等层次CNN特征对图像进行组合式表示,最大限度地涵盖更多的图像信息。同时,由于卷积特征的维度庞大,应对其进行降维处理。

图 1. 融合多层次CNN特征的闭环检测流程图

Fig. 1. Flow of loop closure detection based on multi-level features

下载图片 查看所有图片

2.1 CNN结构

如上所述,利用训练好的VGG19作为特征提取器,该网络具体的结构如表1所示。该网络所有的卷积层均使用3×3大小的卷积核,共包含5个卷积模块和3个全连接模块。前2个卷积模块分别包含两个卷积层、两个线性整流函数(ReLU)层和1个最大池化层,后3个卷积模块分别包含4个卷积层、4个ReLU层和1个最大池化层。前2个全连接模块分别有1个全连接层、1个ReLU层和1个dropout层,最后1个全连接模块只包含1个全连接输出层。最大池化层在对卷积层特征进行降维的同时,可以保持特征的位置和旋转不变性,进一步减小了模型的参数数量。

表 1. VGG19结构

Table 1. Structure of VGG19

NumberLayerDimensionNumberLayerDimension
1conv1_1321126413conv4_2401408
2conv1_2321126414conv4_3401408
3pool180281615conv4_4401408
4conv2_1160563216pool4100352
5conv2_1160563217conv5_1100352
6pool240140818conv5_2100352
7conv3_180281619conv5_3100352
8conv3_280281620conv5_4100352
9conv3_380281621pool525088
10conv3_480281622fc14096
11pool320070423fc24096
12conv4_140140824fc31000

查看所有表

2.2 图像表达

常用闭环检测算法对当前帧图像与历史帧图像进行匹配,分别提取对应的特征并转化为向量的形式,然后通过向量间的相似度大小来判断是否存在闭环,如果相似度超过一定的阈值,则认为存在闭环。然而,CNN的各层特征输出均为多维矩阵,由表1可知其维度都比较大。若直接作为特征向量进行相似性计算则非常耗时,难以满足实时性的要求,故常进行降维处理。本文方法分别提取多个卷积层的特征来表征图像,从而对图像进行更加充分的表达。

2.3 相似性度量

相似性度量的标准包括距离度量和相关性度量。目前,利用CNN特征向量进行图像相似性度量的常用方法包括欧氏距离和向量余弦。欧氏距离是最常见的距离度量,用于衡量多维向量空间中各个点之间的绝对距离;向量余弦采用向量空间中两个向量夹角的余弦值度量两个特征向量间差异的大小。相比于欧氏距离,向量余弦更加注重两个向量在方向上的差异,而非距离或长度上的差异。在使用欧氏距离进行相似度计算时,需要对特征向量进行归一化操作。为减少计算复杂度,选择向量余弦作为相似性度量的标准。 其计算公式如下:

cosθ(u,v)=u·vuv,(1)

式中uv为两卷积特征向量,θ(u,v)是它们之间的夹角。

然而,CNN提取的特征向量维度特别大,计算量大,难以应用。为此采用文献[ 14]中的局部敏感哈希(LSH)方法对其进行降维,采用随机超平面产生LSH函数。在Sünderhauf等[13]的研究中已经证明,相比于采用原卷积特征进行匹配的方法,使用该降维方法在略微损失检测精度的情况下大大减小了相似性的计算量,提高了检测速度。定义Vl(I)表示第l层网络提取的卷积特征向量,则有Vl(I)=( v1l, v2l,…, vdl)∈ℝd,式中,I表示图像,d表示向量的维度。针对此卷积特征向量,Hash 函数定义如下:

hr(u)=1,r·ν00,r·ν<0,(2)

式中r为从d维空间生成的单位长度球对称随机向量,ν表示卷积特征向量。定义k个随机向量r,则实现了对卷积特征向量的降维处理,即卷积向量可以用长度为k的字节来表示,在本文中k均取8192。对于两卷积特征向量uv,有:

Pr[hr(u)=hr(v)]=1-θ(u,v)π(3)

用sim(u,v)表示两卷积特征向量uv间余弦相似度大小,则可得:

sim(u,v)=cos[θ(u,v)]=cos{{1-Pr[hr(u)=hr(v)]}π}(4)

本文方法选取多层次(pool3、pool5、fc1)的卷积网络特征进行相似性计算,即最终的相似性计算公式为

S=w1S1+w2S2+w3S3,(5)

式中S1S2S3分别为利用pool3、pool5、fc1层卷积特征计算的相似性得分,w1w2w3为其对应的权重,根据具体的环境特点设为常量,即有w1+w2+w3=1。

3 实验与分析

3.1 数据集与度量标准

首先,使用Gardens Point数据集对所提出的闭环检测算法进行测试,该数据集在昆士兰大学校园内采集,包括两个白天和一个晚上共三个子数据集。其中,两个白天的子数据集分别在人行道的左边和右边拍摄,分别记为day_left和day_right,而晚上的数据集则在人行道的右边采集,记为night_right。该数据集拥有视角变化和光照变化两个特性,非常适于对闭环检测算法的性能进行测试。每个子数据集中有200张图像,样本图像如图2所示。

图 2. Gardens Point数据集样本图像。(a)白天_左侧;(b)白天_右侧;(c)晚上_右侧

Fig. 2. Sample images of Gardens Point dataset. (a) Day_left; (b) day_right; (c) night_right

下载图片 查看所有图片

图 3. Gardens Point数据集的相似性矩阵可视化图。(a) pool3+pool5+fc1;(b) pool1;(c) pool3;(d) fc1

Fig. 3. Visualization of similarity matrix for Gardens Point dataset. (a) pool3+pool5+fc1; (b) pool1; (c) pool3; (d) fc1

下载图片 查看所有图片

同其他检测算法一样,本文采用精确率-召回率曲线(P-R曲线)进行评估,计算公式如下:

P=TPTP+FP,(6)R=TPTP+FN,(7)

式中:PR分别为精确率和召回率;TP表示实际为匹配、预测为匹配;FP表示实际为非匹配、预测为匹配;FN表示实际为匹配、预测为非匹配。

3.2 结果与分析

所有图像对间的相似性得分构成了相似矩阵S,用以表示图像间的相似度。为更加直观地显示本文算法的优越性,对day_left和night_right两个子数据集图像间的相似性矩阵进行了可视化,利用不同卷积层特征得到的相似性矩阵可视化结果如图3所示。图中越明亮的地方图像的相似度越大。显而易见,利用多层次卷积特征进行检测的效果明显好于其他单层卷积特征的效果。设定匹配阈值,当相似性得分大于该阈值时认为检测到匹配图像。通过扫描此阈值得到P-R曲线,如图4所示。

图4中可以看出,融合多层次卷积(pool3, poo5, fc1)特征的闭环检测效果(黑色曲线)要明显好于其他单层卷积特征的效果。高层次卷积特征(fc1)包含更多的语义信息,在图像拍摄视角发生变化时具有较好的稳健性(蓝色虚线),而当环境(光照)发生变化时效果则相对较差(蓝色细线);中等层次卷积特征(pool3)包含更多的边缘轮廓等空间信息,可应对光照的变化(红色细线),而在视角变化时效果则较差(红色虚线);低层次卷积特征(pool1)仅包含一些图像的浅层信息,在图像拍摄视角变化和光照等环境变化的情况下检测效果都很差(绿色曲线),特别是在两者均发生变化的情况下,效果更差(绿色粗线)。综上可知,融合多层次卷积特征的闭环检测算法在环境(光照)变化和视角变化的情况下检测准确率更高,并且具有很好的稳健性。

图 4. Gardens Point数据集上不同方法的精确率-召回率曲线

Fig. 4. Precision-recall curve of different method on Gardens Point dataset

下载图片 查看所有图片

然而,环境中的动态干扰因素使得上述闭环检测算法难以发挥最优的性能,在面对如图5所示的情况时,图像中的行人、车辆等移动物体占据了整幅图像相当比例的一部分,由此形成的非检测因素对正确检测形成了很大的影响。为此,提出一种图像动态干扰语义滤波机制,过滤掉图像中的动态物体,从而只利用纯粹的场景图像来进行检测。

4 基于图像动态干扰语义滤波机制的闭环检测算法

4.1 图像动态干扰语义滤波机制

图像动态干扰语义滤波机制利用目标检测算法YOLOv2[15]实现,即利用改进后的YOLOv2算法对原图像中的动态干扰因素进行过滤。不同于以往基于候选区域和深度卷积神经网络的目标检测算法,需要先采用启发式方法获得候选区域, 然后基于由候选区域所提取的卷积特征分别进行目标的类别分类和位置回归。YOLO系列算法利用回归的思想,直接利用整幅图像来预测目标类别和目标边界框,可以精确检测到图像中的动态物体,并且检测速度非常快。YOLOv2算法在YOLOv1的基础上进行了改进,设计了新的网络结构Darknet-19,从而在保证原有检测速度的基础上进一步提高了检测准确率。该算法能够检测出多种类别目标,而在本应用中只需要检测到人、车辆、动物等移动物体即可,对一些静态的物体不进行过滤。利用YOLOv2算法对图像中的多类别多个相同物体进行检测,结果如图6所示,使用不同颜色不同大小的方框来标识不同种类的不同目标,其中,图6(a)为该模型检测结果,图6(b)为采用本文滤波机制进行图像剪裁的效果图(红色阴影部分为需要剪裁掉的部分)。基于动态干扰语义滤波机制的闭环检测算法流程如图7所示。

在图像预处理模块中,使用YOLOv2算法进行目标检测,过滤图像中大部分的非场景干扰因素,并将剪裁后得到的纯场景图像输入CNN提取多层次特征,然后在闭环检测模块中利用本文提出的融合多层次卷积特征方法进行匹配。在图像预处理模块中,判断是否需要对图像进行剪裁。当检测到的图像中动态干扰因素所占比例大于一定阈值时,即Sd/Sp>α(SdSp分别为动态干扰因素面积大小和图像总面积大小,α为常量),则执行图像剪裁,否则不进行处理。

图 5. 同一地点不同时间所拍摄图像

Fig. 5. Images taken at the same location but at different time

下载图片 查看所有图片

图 6. YOLOv2算法动态目标检测结果。(a) YOLOv2算法检测结果;(b)本文算法检测结果

Fig. 6. Dynamic object detection results for YOLOv2. (a) Results of YOLOv2 method; (b) results of proposed method

下载图片 查看所有图片

图 7. 基于图像动态干扰语义滤波机制的闭环检测流程图

Fig. 7. Flow of loop closure detection based on image dynamic interference semantic filter mechanism

下载图片 查看所有图片

4.2 性能验证

为检验上述方法的可行性和优越性,选用Tokyo24/7[16]数据集进行实验,利用该数据集来模拟关键帧的集合。该数据集图像多在人流和车辆较多的城市街道采集,其中,约1/3的图像中行人和车辆特别多(图5),非常适于上述方法的性能验证。该数据集共包含3个子数据集,每个子数据集中包含375张图像,是在同一地点不同时间(白天、傍晚和晚上)从不同角度拍摄,分别记为daytime、sunset、night,故此数据集拥有图像拍摄视角和环境变化(光照等)的特性。在该数据集上进行测试的结果如图8所示,其中,Filter_CNN表示添加了图像动态干扰

图 8. Tokyo24/7数据集上不同方法的精确率-召回率曲线图

Fig. 8. Precision-recall curve of different method on Tokyo24/7 dataset

下载图片 查看所有图片

语义滤波机制的闭环检测算法,CNN表示没有添加图像动态干扰语义滤波机制的闭环检测算法。从图8可以看出,在任意两子数据集的匹配比较上,前者均优于后者(对应的黑色曲线好于红色曲线),表明对不同时间所拍摄的图像进行预处理得到没有非场景因素干扰的纯场景图像后,利用纯场景信息进行图像匹配可以提高闭环检测算法的准确率和识别率。

5 结论

针对视觉SLAM技术中的闭环检测问题,提出了一种融合多层次CNN特征进行图像匹配的方法,其本质是场景识别问题。在图像间的相似性度量中,充分利用中等层次CNN特征包含的几何空间信息和高层次CNN特征包含的语义信息进行匹配计算。实验证明,在图像拍摄视角和光照变化的条件下,本文方法具有更好的稳健性和识别率。另外,在熙熙攘攘的城市环境中,行人、车辆等移动物体对匹配检测形成了很大的干扰,为此,利用目标检测算法YOLOv2,进一步提出了图像动态干扰语义滤波机制,过滤掉图像中的移动物体,保留图像的纯场景信息进行匹配检测。在Tokyo24/7数据集上的实验证明了本方法的可行性和有效性。除此之外,通过语义检测进行目标识别,也可以进一步帮助自主移动机器人完成避障、安保监控等任务,从而做出实时决策。

参考文献

[1] 林志林, 张国良, 姚二亮, 等. 动态场景下基于运动物体检测的立体视觉里程计[J]. 光学学报, 2017, 37(11): 1115001.

    Lin Z L, Zhang G L, Yao E L, et al. Stereo visual odometry based on motion object detection in the dynamic scene[J]. Acta Optica Sinica, 2017, 37(11): 1115001.

[2] 张鑫, 靳雁霞, 薛丹. SICA-SIFT和粒子群优化的图像匹配算法[J]. 激光与光电子学进展, 2017, 54(9): 091002.

    Zhang X, Jin Y X, Xue D. Image matching algorithm based on SICA-SIFT and particle swarm optimization[J]. Laser & Optoelectronics Progress, 2017, 54(9): 091002.

[3] 单宝华, 霍晓洋, 刘洋. 一种极线约束修正数字图像相关匹配的立体视觉测量方法[J]. 中国激光, 2017, 44(8): 0804003.

    Shan B H, Huo X Y, Liu Y. A stereovision measurement method using epipolar constraint to correct digital image correlation matching[J]. Chinese Journal of Lasers, 2017, 44(8): 0804003.

[4] Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110.

[5] BayH, Tuytelaars T, van Gool L. SURF: speeded up robust features[C]∥European Conference on Computer Vision, 2006: 404- 417.

[6] RubleeE, RabaudV, KonoligeK, et al. ORB: an efficient alternative to SIFT or SURF[C]∥International Conference on Computer Vision, 2011: 2564- 2571.

[7] Oliva A, Torralba A. Modeling the shape of the scene: a holistic representation of the spatial envelope[J]. International Journal of Computer Vision, 2001, 42(3): 145-175.

[8] SzegedyC, LiuW, Jia YQ, et al. Going deeper with convolutions[C]∥IEEE Conference on Computer Vision and Pattern Recognition, 2015: 1- 9.

[9] ZhouB, LapedrizaA, XiaoJ, et al. Learning deep features for scene recognition using places database[C]∥Annual Conference on Neural Information Processing Systems, 2014: 487- 495.

[10] Chen ZT, LamO, JacobsonA, et al. Convolutional neural network-based place recognition[C]∥Computer Vision and Pattern Recognition, 2014.

[11] HouY, ZhangH, Zhou SL. Convolutional neural network-based image representation for visual loop closure detection[C]∥IEEE International Conference on Information and Automation, 2015: 2238- 2245.

[12] SimonyanK, ZissermanA. Very deep convolutional networks for large-scale image recognition[C]∥International Conference on Learning Representations, 2015.

[13] SünderhaufN, ShiraziS, DayoubF, et al. On the performance of ConvNet features for place recognition[C]∥IEEE/RSJ International Conference on Intelligent Robots and Systems, 2015: 4297- 4304.

[14] Charikar MS. Similarity estimation techniques from rounding algorithms[C]∥34th Annual ACM Symposium on Theory of Computing, 2002: 380- 388.

[15] RedmonJ, FarhadiA. YOLO9000: better, faster, stronger[C]∥IEEE Conference on Computer Vision and Pattern Recognition, 2017: 6517- 6525.

[16] ToriiA, Arandjelovi R, Sivic J, et al. 24/7 place recognition by view synthesis [C]∥IEEE Conference on Computer Vision and Pattern Recognition, 2015: 1808- 1817.

鲍振强, 李艾华, 崔智高, 苏延召, 郑勇. 融合多层次卷积神经网络特征的闭环检测算法[J]. 激光与光电子学进展, 2018, 55(11): 111507. Zhenqiang Bao, Aihua Li, Zhigao Cui, Yanzhao Su, Yong Zheng. Loop Closure Detection Algorithm Based On Multi-Level Convolutional Neural Network Features[J]. Laser & Optoelectronics Progress, 2018, 55(11): 111507.

本文已被 2 篇论文引用
被引统计数据来源于中国光学期刊网
引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!