基于RGBD图像和卷积神经网络的快速道路检测 下载: 1587次
1 引言
道路检测是汽车辅助驾驶、移动机器人、智慧交通等领域最基础、最重要的研究内容之一。传统的道路检测算法主要分为基于道路边缘提取的道路检测和基于区域分割的道路检测。前者主要利用道路边缘信息提取道路边界线或者消失点,如王文锋等[1]利用局部道路边缘的直线检测和方向一致性判别准则,提出一种基于平行边缘的道路识别算法。后者主要利用道路颜色、纹理等信息对道路图像进行像素级区域分割、聚类等,如段志刚等[2]对彩色光照不变图像进行分割和聚类,并通过投票函数及道路判别准则提取道路区域。近年来,随着卷积神经网络的发展,基于卷积神经网络的算法已在道路检测算法评测中居于领先地位[3]。Mendes等[4]在Krizhevsky等[5]的基础上提出9层全卷积神经网络实现了道路的快速检测,不仅能保证检测精度,而且检测速度在KITTI道路检测[3]中领先;Teichmann等[6]在VGG16的基础上采用端到端和多任务联合训练的方式,在实时情况下,实现了道路的精准检测。
随着网络深度的不断增加,道路检测精度越来越高,但网络计算的复杂度与资源占用率也越来越高,现有的移动平台计算能力无法满足深度网络的要求。另一方面,传统的基于卷积神经网络的道路检测算法大多仅以彩色图片作为网络输入。基于彩色图像的道路检测容易受到地面阴影、路面反光、路面类型变化、动态复杂环境等影响,从而导致路面、建筑、车体等误检或漏检[4,7]。因此,在使用较浅网络的情况下,同时提升检测速度与检测精度,显得尤为重要。
近年来,Gupta等[8]提出的HHA方法在基于RGBD图像的物体检测与语意分割领域得以广泛使用。HHA方法将深度图像变换为水平视差、地面高度和重力夹角三通道图表示,并输入卷积网络以提取高层特征,在提升检测精度的同时,降低了网络深度的需求。然而,HHA方法需要转化为三种映射图,不仅计算复杂,而且假设了地面的位置,因此并不适合道路检测。本文利用视差图像的相对梯度信息代替绝对的深度信息,提出一种简单有效的地面梯度表征方法,将视差图表征为单通道的视差梯度图作为网络输入,该方法可用于神经网络的预处理环节,能方便地融入网络的数据输入层。另外,区别于HHA等使用深度图的方法,该方法直接使用视差图像,因此避免了标定相机外部参数和计算三维空间坐标的额外计算量。
为解决传统的基于彩色图像的道路检测方法在极端光照情况下和路面类型变化时存在的问题,本文提出了一种综合运用彩色图像和视差图像的基于卷积神经网络的快速道路检测算法。根据视差图中地面的先验结构信息,提出基于视差梯度图来学习路面的高层特征。采用了两种网络模型,即双通道后融合网络和单通道前融合网络。双通道后融合网络在卷积层部分设计了两个卷积通道,分别输入颜色图和对应的视差梯度图,并采用后融合方法[9]进行网络融合,这种双通道后融合结构有利于对卷积层输出响应进行可视化,以对比和分析视差梯度图的影响与作用机理;而单通道前融合网络则有利于提升检测速度,比较适合移动平台部署。实验使用流行的KITTI道路检测标准数据集[3],定性和定量地评估算法性能。
2 算法原理
2.1 视差梯度图
基于Hu等[10]提出的
式中
视差梯度图的每个像素存储该中心像素与周围邻域像素的视差梯度。由
式中grad
图 1. 典型道路场景模拟图。 (a)~(c)不同坡度的路面;(d)~(j)不同朝向的物体表面
Fig. 1. Simulation of typical road scenes. (a)-(c) Road surfaces with different longitudinal slopes; (d)-(j) object surfaces with different orientations
图 2. 模拟视差图、视差梯度图以及二值化视差梯度图。(a)水平道路;(b)上坡道路;(c)下坡道路;(d)车辆左侧平面;(e)车辆右侧平面;(f)车辆前倾平面;(g)车辆后倾平面;(h)车辆左侧斜平面;(i)车辆右侧斜平面;(j)竖直平面
Fig. 2. Simulated disparity images, disparity gradient images and binarized disparity gradient images. (a) Level road; (b) uphill road; (c) downhill road; (d) left-side plane of the vehicle; (e) right-side plane of the vehicle; (f) forward plane of the vehicle; (g) backward plane of the vehicle; (h) left oblique plane of the vehicle; (i) right oblique plane of the vehicle; (j) vertical plane
2.2 卷积网络结构
卷积神经网络包括两种网络模型,即双通道后融合网络与单通道前融合网络。其中,双通道后融合网络的整个网络流程如
图 3. 双通道后融合卷积神经网络的流程图
Fig. 3. Flowchart of double-path convolutional neural network with late fusion
网络输入是一个66 pixel×66 pixel的4通道图像块,包括3通道的彩色图和单通道的视差梯度图。输出是图像块中心4 pixel×4 pixel区域的类别。与文献[ 4]相同,也集中地将所有图像尺寸缩放为621 pixel×187 pixel,每隔4 pixel×4 pixel步长提取一个图像块。不同的是,由于双目视差图像无法准确计算边缘处(盲区)的视差值,因此,本文算法只对图像的中央区域进行道路检测。
整个网络共9层,包括4层卷积层,2层池化层和2层全连接层,并使用Softmax函数输出。输入的4通道66 pixel×66 pixel图像块被分别输入两个通路,即彩色通路和视差通路。两个通路结构相同,每个通路都是从一个32×3×3卷积层(32个3×3的卷积滤波器,步长1)开始,汇聚得到32个15 pixel×15 pixel的特征映射图,经过两层全连接网络,最后使用Softmax函数输出二分类结果。其中,所有卷积层和第一全连接层都配有修正线性单元(ReLU)激活函数[5,12]。为避免过拟合,全连接层都配有随机丢弃(Dropout[5,13])层(概率为0.5)。
3 实验过程与结果
3.1 数据集
本文实验数据使用KITTI道路检测标准数据集[3],包括289张训练图片和290张测试图片。KITTI道路检测数据集包括三类道路:有标记的单行道,无标记的单行道和有标记的多行道,是目前最流行的道路检测数据集之一。使用Zbontar等[14]提出的立体匹配算法计算视差图。
与文献[ 4]方法相同,将289张训练图片分为含260张的训练集和含29张的验证集。所有定量的评价结果都是基于验证集获得的。本次实验使用低分辨率图片,所有的图片尺度都被缩放为621 pixel×187 pixel。如此可以加速训练过程,节约内存。在每张图片中遍历选取66 pixel×66 pixel的图像块作为样本。每个样本都由3通道的RGB图像和单通道的梯度图像以及一个对应的类别标签构成。与文献[ 4]方法相同,只使用那些图像块中心4 pixel×4 pixel区域内像素是同一类的作为样本数据,并对正样本采用垂直翻转的数据扩增方法,从而增加正样本量以平衡数据。
本次实验分为普通性与困难性两组实验。普通性实验采用随机的方法划分训练集和验证集进行训练与评价,而困难性实验则使用文献[ 4]方法评价结果中较差的29张图片以构成验证集,其余构成训练集。因此,本次实验包括普通性和困难性两组训练集和验证集,其中困难性实验更能体现出本文算法对检测性能的巨大提升。
3.2 训练
以文献[ 4]方法作为对比,进行以下6组实验,其中RGBDT-IN和RGB-DT-IN是本文提出的最终算法:
1) RGB:即文献[ 4]方法,以RGB彩色图作为输入,等同于本文算法仅使用彩色通路。
2) RGBD:采用单通道前融合网络结构,以RGB彩色图和单通道视差图构成的4通道图作为输入。
3) RGBDT:采用单通道前融合网络结构,以RGB彩色图和单通道视差梯度图构成的4通道图作为输入。
4) RGB-DT:采用双通道后融合网络结构,以RGB彩色图和单通道视差梯度图构成的4通道图作为输入。
5) RGBDT-IN: 采用单通道前融合网络结构,以RGB彩色图和单通道视差梯度图构成的4通道图作为输入,对正样本进行垂直翻转以增加样本量。
6) RGB-DT-IN:采用双通道后融合网络结构,以RGB彩色图和单通道视差梯度图构成的4通道图作为输入,对正样本进行垂直翻转以增加样本量。
所有实验使用批梯度下降法(MBGD)训练网络模型,批大小为100。初始学习率为0.01,每轮更新率0.96,即
3.3 定性评价
图 4. KITTI道路检测测试集实验结果图。(a)(c)文献[ 4]方法;(b)(d)本文的RGB-DT-IN算法
Fig. 4. Experimental results of KITTI road detection testing dataset. (a)(c) Method of Ref. [4]; (b)(d) proposed RGB-DT-IN algorithm
3.4 定量评价
采用多种指标以衡量实验结果,包括最大F1指标(MaxF1)、交并比(IoU)、精确率(Pre)、召回率(Rec)、假阳率(FPR)、假阴率(FNR)。所有定量评价结果都是基于验证集获得的。与文献[ 4]方法类似,每组实验重复多次,选择MaxF1值最大的模型作为结果。
实验结果如
表 1. 不同实验方法在普通数据集上的评价结果
Table 1. Evaluation results of different methods on the common dataset%
|
表 2. 不同实验方法在困难数据集上的评价结果
Table 2. Evaluation results of different methods on the difficult dataset%
|
实验3、4和实验5、6的对比结果表明:双通道后融合网络可以稳定地提升检测效果,这主要得益于网络容量的增大。实验3、5和实验4、6的对比结果表明,采用垂直翻转的数据扩增也有益于网络性能提升。与文献[ 4]方法相比,在普通数据集上,RGB-DT-IN算法在Pre降低0.75%的情况下,Rec提升了3.92%;在FPR增大0.16%的情况下,FNR降低了3.92%。 这表明RGB-DT-IN算法明显减少了地面的漏检情况,能够更准确地检测出地面区域。在普通数据集上,利用RGB-DT-IN算法MaxF1提升了1.61%,IoU提升了2.98%。在困难数据集上,利用RGB-DT-IN算法所有指标都大幅提升,MaxF1提升了11.58%,IoU提升了15.76%,基本达到普通数据集上的评价结果。这表明RGB-DT-IN算法能够较好克服文献[ 4]方法存在的不足,对光照、阴影、路面类型变化等情况有较强稳健性。
3.5 预测时间
为了进一步提升检测速度,将全连接网络改为全卷积网络,将网络中的连接层使用相同数量参数的卷积层代替,其中,第一全连接层使用1000×15×15卷积层代替,第二全连接层使用2×1×1卷积层代替。
网络预测时间如
表 3. 实验方法耗时统计
Table 3. Processing time of methodss
|
4 网络可视化分析
卷积网络的可视化对网络优化具有重要作用。利用双通道后融合卷积网络分别可视化了几种典型的道路与非道路图像的卷积输出响应。如
从
从
图 5. 道路图像的卷积输出可视化。(a)输入的4通道彩色图与梯度图;(b)汇聚层输出结果
Fig. 5. Convolutional output visualization of road images. (a) Color and gradient maps of input four channel; (b) output results of convergence layer
图 6. 非道路图像的卷积输出可视化。(a)输入的4通道彩色图与梯度图;(b)汇聚层输出结果
Fig. 6. Convolutional output visualization of non-road images. (a) Color and gradient maps of input four channel; (b) output results of convergence layer
5 结论
提出了一种综合运用彩色图像和视差梯度图的基于卷积融合神经网络的快速道路检测算法。利用视差图中道路视差规律性变化的先验信息,将视差图预处理为视差梯度图作为网络输入。该算法充分利用了视差图像的梯度信息。为进行深入的特征分析,对卷积层输出响应进行了可视化,对比和分析了颜色与视差梯度对道路检测的影响。结果表明,本文算法更有利于增强路面特征,从而降低对网络深度的需求,有利于移动平台部署。
设计了快速的单通道前融合卷积神经网络和双通道后融合卷积神经网络,在卷积层部分设计了两个卷积通道,分别输入彩色图和对应的视差梯度图,并采用后融合方法进行网络融合。不仅提升了网络容量,提高了检测精度,而且具有独立研究和分析彩色图和视差梯度图的作用,避免了相互之间的跨通道影响。
在KITTI道路检测标准数据集上重点对比和分析了视差梯度图与网络结构对检测性能的影响。与文献[ 4]方法相比,RGB-DT-IN算法在普通数据集上MaxF1提升了1.61%;在困难数据集上MaxF1提升了11.58%。在保证检测精度的同时,RGBDT-IN算法检测速度可达26 frame/s,网络参数模型也只有14 M,比较合适移动平台使用。实验证明,本文算法可以稳定而有效地克服光照、阴影和道路类型变化等对道路检测的影响,减少路面、建筑等被误检或漏检的情况发生。
当然,本文算法也存在一定的漏分、错分小区域问题,并且由于视差盲区的存在,并不适用于整图中的道路检测,如何避免视差盲区对基于RGBD图像的道路检测的影响,仍需要进一步研究解决。
[1] 王文锋, 丁伟利, 李勇, 等. 一种高效的基于平行边缘的道路识别算法[J]. 光学学报, 2015, 35(7): 0715001.
王文锋, 丁伟利, 李勇, 等. 一种高效的基于平行边缘的道路识别算法[J]. 光学学报, 2015, 35(7): 0715001.
[2] 段志刚, 李勇, 王恩德, 等. 基于光照不变图像的阴影图像道路及导航线提取算法[J]. 光学学报, 2016, 36(12): 1215004.
段志刚, 李勇, 王恩德, 等. 基于光照不变图像的阴影图像道路及导航线提取算法[J]. 光学学报, 2016, 36(12): 1215004.
[3] UrtasunR, LenzP, GeigerA. Are we ready for autonomous driving? The KITTI vision benchmark suite[C]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2012: 3354- 3361.
UrtasunR, LenzP, GeigerA. Are we ready for autonomous driving? The KITTI vision benchmark suite[C]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2012: 3354- 3361.
[4] Mendes C CT, Fr MontV, Wolf DF. Exploiting fully convolutional neural networks for fast road detection[C]. IEEE International Conference on Robotics and Automation (ICRA), 2016: 3174- 3179.
Mendes C CT, Fr MontV, Wolf DF. Exploiting fully convolutional neural networks for fast road detection[C]. IEEE International Conference on Robotics and Automation (ICRA), 2016: 3174- 3179.
[5] KrizhevskyA, SutskeverI, Hinton GE. ImageNet classification with deep convolutional neural networks[C]. International Conference on Neural Information Processing Systems (NIPS), 2012, 25( 2): 1097- 1105.
KrizhevskyA, SutskeverI, Hinton GE. ImageNet classification with deep convolutional neural networks[C]. International Conference on Neural Information Processing Systems (NIPS), 2012, 25( 2): 1097- 1105.
[7] Oliveira GL, BurgardW, BroxT. Efficient deep models for monocular road segmentation[C]. IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2016: 4885- 4891.
Oliveira GL, BurgardW, BroxT. Efficient deep models for monocular road segmentation[C]. IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2016: 4885- 4891.
[8] GuptaS, GirshickR, Arbel EzP, et al. Learning rich features from RGB-D images for object detection and segmentation[C]. 13th European Conference on Computer Vision (ECCV), 2014: 345- 360.
GuptaS, GirshickR, Arbel EzP, et al. Learning rich features from RGB-D images for object detection and segmentation[C]. 13th European Conference on Computer Vision (ECCV), 2014: 345- 360.
[9] Chen XZ, Ma HM, WanJ, et al. Multi-view 3D object detection network for autonomous driving[C]. IEEE Conference on Computer Vision and Pattern Recognition ( CVPR), 2016.
Chen XZ, Ma HM, WanJ, et al. Multi-view 3D object detection network for autonomous driving[C]. IEEE Conference on Computer Vision and Pattern Recognition ( CVPR), 2016.
[10] HuZ, UchimuraK. U-V-disparity: an efficient algorithm for stereovision based scene analysis[C]. IEEE Intelligent Vehicles Symposium (IVS), 2005: 48- 54.
HuZ, UchimuraK. U-V-disparity: an efficient algorithm for stereovision based scene analysis[C]. IEEE Intelligent Vehicles Symposium (IVS), 2005: 48- 54.
[11] OjalaT, PietikainenM, HarwoodD. Performance evaluation of texture measures with classification based on Kullback discrimination of distributions[C]. 12th International Conference on Pattern Recognition (ICPR), 1994: 582- 585.
OjalaT, PietikainenM, HarwoodD. Performance evaluation of texture measures with classification based on Kullback discrimination of distributions[C]. 12th International Conference on Pattern Recognition (ICPR), 1994: 582- 585.
[12] NairV, Hinton GE. Rectified linear units improve restricted boltzmann machines[C]. 27th International Conference on Machine Learning (ICML), 2010: 807- 814.
NairV, Hinton GE. Rectified linear units improve restricted boltzmann machines[C]. 27th International Conference on Machine Learning (ICML), 2010: 807- 814.
[14] ZbontarJ, LecunY. Computing the stereo matching cost with a convolutional neural network[C]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015: 1592- 1599.
ZbontarJ, LecunY. Computing the stereo matching cost with a convolutional neural network[C]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015: 1592- 1599.
Article Outline
曲磊, 王康如, 陈利利, 李嘉茂, 张晓林. 基于RGBD图像和卷积神经网络的快速道路检测[J]. 光学学报, 2017, 37(10): 1010003. Lei Qu, Kangru Wang, Lili Chen, Jiamao Li, Xiaolin Zhang. Fast Road Detection Based on RGBD Images and Convolutional Neural Network[J]. Acta Optica Sinica, 2017, 37(10): 1010003.