基于双流卷积神经网络的RGB-D图像联合检测

刘帆; 刘鹏远; 张峻宁; 徐彬彬

doi:doi:10.3788/LOP55.021503

激光与光电子学进展, 2018, 55 (2): 021503, 网络出版: 2018-09-10

基于双流卷积神经网络的RGB-D图像联合检测下载： 1328次

Joint Detection of RGB-D Images Based on Double Flow Convolutional Neural Network

论文大纲

刘帆刘鹏远 ^*张峻宁徐彬彬

作者单位

军械工程学院, 河北石家庄 050003

机器视觉 RGB-D 卷积神经网络多模态信息联合检测深度学习 machine vision RGB-D convolutional neural network multimodal information joint detection depth learning

AI 词云图 AI一句话精读 AI短摘要

注：本部分内容由 AI 自动生成，请您知悉。

摘要

当前卷积神经网络结构未能充分考虑RGB图像和深度图像的独立性和相关性,针对其联合检测效率不高的问题,提出了一种新的双流卷积网络。将RGB图像和深度图像分别输入到两个卷积网络中,两个卷积网络结构相同且权值共享,经过数次卷积提取各自独立的特征后,在卷积层根据最优权值对两个卷积网络进行融合;继续使用卷积核提取融合后的特征,最后通过全连接层得到输出。相比于以往卷积网络对RGB-D图像采用的早期融合和后期融合方法,在检测时间相近的情况下,双流卷积网络检测的准确率和成功率分别提高了4.1%和3.5%。

Abstract

The convolutional neural network structure fails to consider the independence and correlation between RGB images and depth images fully, so its detection is not high. A new double flow convolution network is proposed for the joint detection of RGB-D images. The RGB image and depth image are inputted to the two convolutional networks and the two networks have the same structure and weight sharing. After several convolutions, the independent features are extracted. According to the optimal weights in the convolution layer, the two convolutional networks are fused. The fused features are extracted continuously using convolution kernels, and the output is obtained by full connection layer finally. When the detection time is similar, the detection accuracy and the success rate are increased by 4.1% and 3.5% respectively, compared with the previous early and late fusion methods.

1 引言

红绿黄彩色图像和深度(RGB-D)图像是当前计算机视觉领域新的研究热点^[1],主要由深度相机获得,包括红绿黄彩色(RGB)图像和对应的深度图像。RGB图像包含所拍摄物体的表面颜色和纹理等信息,而深度图像包含物体的空间形状等信息。两种图像对彼此都是一个很好的补充。因此,有效利用RGB信息和深度信息能显著提高场景中物体识别检测的准确率。当前,RGB-D图像的联合检测方法有基于人工设计特征的提取表达法和自动特征学习法^[2]两种。

基于人工设计特征的提取表达法是指根据先验知识设计特定的特征,如尺度不变特征变换(SIFT)、加速稳健特性(SURF)、方向梯度直方图(HOG)等。首先采用词袋模型、空间金字塔匹配和稀疏编码等方法进行特征表达,然后对彩色图像和深度图像特征描述进行融合,最后使用分类算法,如支持向量机(SVM)、贝叶斯分类器等,进行图像识别检测。该方法的主要缺点是需要很强的先验知识才能设计好区分性强的特征与融合规则,不具有普适性。

自动特征学习法可以克服人工设计特征通用性不强的缺点,它采用特定的神经网络结构,通过无监督或有监督的训练,自动地学习源图像中的低层或高层特征,并采用一定的方式进行融合。基于卷积神经网络(CNN)的深度学习模型是当前这一领域的优秀代表。该学习模型使用卷积核将相邻像素之间的共同特性较好地提取表达出来,并在卷积核之间进行权值共享,大幅减少了神经网络训练过程中的参数数量,具有识别精度高、训练参数少的优势。Couprie等^[3]将四通道的RGB-D图像同时输入到卷积网络中,得到了高于单一RGB或深度图像的识别精度。Gupta等^[4]采用多方向梯度算子提取RGB-D图像的边缘特征,将提取到的边缘特征融合后送入到卷积神经网络中进行特征学习,在特定物体的识别方面取得了比原始RGB-D图像更好的分类效果。Eitel等^[5]将不同模态的数据输入到独立的卷积神经网络中进行训练,经过五层卷积和下采样操作,再经过两个全连接层,最后将RGB信息和深度信息融合输入到输出层,得到了比四通道RGB-D信息同时输入更优的识别效果。

2 卷积神经网络

2.1 卷积神经网络模型结构

卷积神经网络是图像识别检测领域优秀的深度学习模型^[6-7],与传统的后向传播(BP)神经网络相比增加了可以进行特征提取的卷积层和保证位移不变的池化层。卷积层能将相邻像素之间的共同特性较好地提取出来,池化层用来对图像信息进行降采样。为了降低运算的复杂度,卷积神经网络每层内的神经元权值实行共享,使用不同的卷积核进行卷积可提取前一层特征图的不同特征。这些代表不同特征的特征图共同作为下一层网络的输入数据,其结构如图1所示。图1中的C为卷积层,P为池化层,FC为全连接层。

图 1. 卷积神经网络结构

Fig. 1. Convolution neural network structure

下载图片查看所有图片

如图1所示,在卷积神经网络中将输入层与卷积层相连接,从输入层获得输入图像X,使用不同的卷积核可以得到不同的特征图。如在卷积层C1中使用6种卷积核得到了对应的6个特征图,之后对每个特征图进行池化操作得到池化层P2,P2中的特征图与C1中的特征图是一一对应的。之后对P2层再次进行卷积操作,得到对应的10个特征图,这两层之间的连接方式类似于全连接,每个卷积核对P2层中的6个特征图进行卷积操作,相加后得到C3中对应的1个特征图;之后再对C3进行池化操作得到P4,最后经过数次全连接后得到输出Y。

2.2 卷积神经网络前向传播过程

卷积神经网络的训练过程可分为前向传播和后向传播两个阶段。在前向传播阶段,信息从输入层开始向前逐层传播,经过各个卷积层和全连接层直至输出层,神经元的基本模型如图2如示。在图2中,x为神经元的输入,卷积网络内神经元权值共享,w为共同的权值,b为偏置,f(·)为激活函数,Y为输出。

图 2. 神经元基本模型

Fig. 2. Basic model of neuron

下载图片查看所有图片

设卷积网络的第l层第j个神经元的输出为 $\begin{matrix} a_{j}^{l} \end{matrix}$ ,当第l层为卷积层时,该层中第j个神经元的输出计算公式为

$\begin{matrix} a_{j}^{l} = f_{C} [W^{l} (\sum_{i \in Ml_{j}} a_{i}^{l - 1} * k_{ij}^{l}) + b^{l}], (1) \end{matrix}$

式中 $\begin{matrix} a_{i}^{l - 1} \end{matrix}$ 为上一层的输出;f_C(·)为卷积层的激活函数,激活函数一般可选取sigmoid或ReLU函数;k为卷积核;M为选择的输入特征图的集合,当l=1时,输入的特征图的集合M为原始输出图像X;W^l为卷积网络第l层的权重;b^l为网络第l层的偏置;*代表卷积运算。图像卷积过程如图3所示。

图3选用2*2的卷积核对上一层输入的特征图 $\begin{matrix} a_{i}^{l - 1} \end{matrix}$ 进行卷积操作,得到的输出为 $\begin{matrix} a_{i}^{l - 1} \end{matrix}$ *k^l。设a为输入的特征图,k为卷积核,s、h为卷积核的尺寸,卷积计算g=a*k的具体表达式为

$\begin{matrix} g (i, j) = \sum_{s, h} a (i - s, j - h) k (s, h) 。 (2) \end{matrix}$

当第l层为池化层时,该层中第j个神经元的输出计算公式为

$\begin{matrix} a_{j}^{l} = f_{P} [W^{l} \cdot P (a_{i}^{l - 1}) + b^{l}], (3) \end{matrix}$

式中f_P(·)为池化层的激活函数,P(·)为池化函数。池化不改变上层神经元的个数,池化层中的每个神经元直接对应上一层的神经元。一般可选取最大池化或平均值池化法进行池化。

图 3. 图像卷积过程

Fig. 3. Image convolution process

下载图片查看所有图片

图 4. 平均池化操作

Fig. 4. Average pooling operation

下载图片查看所有图片

图4所示的是平均池化操作,对输入的特征图 $\begin{matrix} a_{i}^{l - 1} \end{matrix}$ ,将每个2×2的方格压缩成一个像素,其值为该方格内所有像素的平均值,得到输出P( $\begin{matrix} a_{i}^{l - 1} \end{matrix}$ );池化后特征图的维数成倍降低,可以有效降低卷积网络的计算复杂度。设a为输入的特征图,s_p和h_p为池化核的尺寸,“/”为整除取整操作,则平均池化操作g=P_s_p,_h_p(a)的具体表达式为

$\begin{matrix} g (i / s_{p}, j / h_{p}) = \frac{\sum_{sp, h p} a (i + s_{p}, j + h_{p})}{s_{p} h_{p}} 。 (4) \end{matrix}$

当第l层为全连接层时,该层中第j个神经元输出计算公式为

$\begin{matrix} a_{j}^{l} = f_{F} [W_{F}^{l} (\sum_{i \in M^{l} j} a_{i}^{l - 1}) + b_{F}^{l}], (5) \end{matrix}$

式中f_F(·)为全连接层的激活函数,W_F为全连接层的权重,b_F为全连接的偏置。经过若干全连接层后,最后一层为Softmax输出层,该输出层与普通全连接层的区别在于激活函数为Softmax函数^[8]。

2.3 卷积神经网络后向传播过程

卷积网络的训练目标是最小化网络的损失函数L,又称代价函数。该函数的功能是用来评价模型的预测值 $\begin{matrix} \dot{y} \end{matrix}$ 与真实值y的不一致程度,它是一个非负实值函数。损失函数L越小,模型的性能就越好。损失函数的表达式如下:

$\begin{matrix} L = \overset{N}{\sum_{i = 1}} l (y_{i}, {\dot{y}}_{i}) 。 (6) \end{matrix}$

卷积神经网络后向传播的实质是根据损失函数L的变化情况迭代调整网络的权重W和偏置b,公式如下

$\begin{matrix} \begin{matrix} W_{t + 1} = W_{t} - η \frac{\partial L (W_{t}, b_{t})}{\partial W_{t}}, (7) \\ b_{t + 1} = b_{t} - η \frac{\partial L (W_{t}, b_{t})}{\partial b_{t}}, (8) \end{matrix} \end{matrix}$

式中t为迭代次数,W_t和b_t分别为第t次迭代得到的网络权重和偏置向量,L(W_t,b_t)为在参数向量W_t、b_t下的损失函数,η为学习率。

图5所示为后向传播模型,其中y_t+₁为神经元当前的输入,L_t为模型当前的损失函数,w_t+₁和b_t+₁分别是由当前损失函数调整得到的新的权值和偏置,x_t+₁为反向传播过程中的输出。

与传统识别算法相比,基于卷积神经网络的深度学习模型具有权值共享、模型复杂度低、权值数量少等优点,可避免复杂的手动特征提取和数据重建过程,也可实现自动特征学习,具有较高的研究价值与实用价值。

图 5. 后向传播模型

Fig. 5. Backward propagation model

下载图片查看所有图片

3 基于双流卷积神经网络的RGB-D信息融合

3.1 早期融合和后期融合策略

为了对RGB-D图像进行联合检测,可以通过卷积神经网络对RGB和深度图像的信息进行融合。当前基于卷积神经网络的主要的RGB-D信息融合模式为早期融合和后期融合^[9-10],其结构分别如图6和图7所示。卷积网络使用卷积层C和池化层P交替连接的方式,但在最后一个池化层之前使用连续卷积的方法,如图6中的C6和C7所示,这种策略是为了在池化次数不变的情况下使用多次卷积挖掘图像更深层次的特征。为了方便表述,下文所有方法中RGB-D信息的融合层都设为l层。

图6所示的早期融合过程为采用卷积核对四通道的RGB图像和深度图像进行卷积,将卷积后的信息按相等的权值进行相加。设输出的RGB原始图像为X_r,深度原始图像为X_d,根据(1)式可以得到融合层的第j个神经元表达式:

$\begin{matrix} a_{j}^{l} = f_{C} [W^{l} \cdot (0.5 \cdot X_{r} * k_{ij}^{l} + 0.5 \cdot X_{d} * k_{ij}^{l}) + b^{l}], (9) \end{matrix}$

式中“+”指对卷积得到的RGB特征图和深度特征图进行加法运算,本质是矩阵的加法运算。所有的RGB-D信息在第一个卷积层即完成了融合,其融合权值都为0.5,之后对融合后的RGB-D信息进行完整的卷积网络映射,这种方式偏向于对初始图像信息进行融合。

图 6. 早期融合结构

Fig. 6. Early fusion structure

下载图片查看所有图片

图7所示的后期融合过程是将RGB图像和深度图像分别输入到两个卷积神经网络中,这两个卷积神经网络具有完全相同的结构,经过卷积、池化和全连接操作后,共同连接到输出层,这种方式偏向于在决策层对RGB-D信息进行融合。

图 7. 后期融合结构

Fig. 7. Late fusion structure

下载图片查看所有图片

在输出层对两种图像进行融合之前,两个独立的卷积神经网络分别对两种图像进行运算,其卷积、池化、全连接运算过程分别如(1)、(3)、(5)式所示。RGB网络通道中最后一层全连接层中得到的神经元为 $\begin{matrix} {a^{l - 1}}_{rj} \end{matrix}$ ,Depth网络通道中最后一层全连接层中得到的神经元为 $\begin{matrix} {a^{l - 1}}_{dj} \end{matrix}$ ,根据(5)式可以得到融合层的第j个神经元计算公式:

$\begin{matrix} a_{j}^{l} = f_{F} \{0.5 [W_{r}^{l} (\sum_{i \in M^{l} rj} a_{rj}^{l - 1}) + b_{r}^{l}] + 0.5 [W_{d}^{l} (\sum_{i \in M^{l}_{dj}} a_{rj}^{l - 1}) + b_{d}^{l}]\}, (10) \end{matrix}$

式中W_r和b_r分别为RGB网络通道的权重和偏置,W_d和b_d分别为Depth网络通道的权重和偏置,M_r为从RGB网络通道中选择的输入特征图的集合,M_d为从Depth网络通道中选择的输入特征图的集合,f_F为Softmax激活函数, $\begin{matrix} a_{j}^{l} \end{matrix}$ 为神经网络的输出。

3.2 全连接层融合和卷积层融合策略

3.1节中的两种网络结构都对RGB-D图像特征进行了一定的融合,但是早期融合结构偏重考虑RGB-D图像之间的相关性,对RGB和深度图像的独立特性考虑得不够充分,后期融合结构则偏重考虑RGB-D图像的独立性。为了更有效地融合RGB-D信息,本课题组提出了全连接层融合和卷积层融合的策略,其结构分别如图8和图9所示。

图8所示的全连接层融合结构与后期融合结构类似,只是RGB-D信息的融合不是在输出层上,而是在第一个全连接层上,并且两个卷积神经网络不仅采用相同的结构,还进行了权值共享。这一特点的意义在于网络间权值共享不仅增强了两种模态信息在分别进行特征学习时的联系,而且减少了训练参数,提高了训练识别效率。

RGB网络通道中最后一层得到的神经元为 $\begin{matrix} {a^{l - 1}}_{rj} \end{matrix}$ ,Depth网络通道中最后一层得到的神经元为 $\begin{matrix} {a^{l - 1}}_{dj} \end{matrix}$ ,根据(5)、(10)式可以得到融合层的第j个神经元计算公式:

$\begin{matrix} a_{j}^{l} = f_{F} \{W_{}^{l} \cdot [\sum_{i \in M^{l}_{rj}} (α \cdot a_{rj}^{l - 1}) + \sum_{i \in M^{l}_{dj}} (β \cdot a_{dj}^{l - 1}) + b_{}^{l}]\}, (11) \end{matrix}$

式中α、β分别为RGB图像和深度图像的融合系数。因为两个卷积网络间权值共享,所以共用相同的W和b。

图 8. 全连接层融合结构

Fig. 8. Full connection layer fusion structure

下载图片查看所有图片

图9所示的卷积层融合结构如下:首先将RGB图像和深度图像分别输入到两个卷积网络中,两个卷积网络间权值共享,经过数次卷积和池化提取各自特征后,对两个卷积网络最后一层的神经元使用相同的卷积核进行卷积,根据最优权值对卷积的结果进行融合,然后继续使用卷积核提取融合后的特征,最后通过全连接层得到输出,由(1)、(11)式可得到融合后的神经元表达式:

$\begin{matrix} a_{j}^{l} = f_{C} \{W^{l} \cdot [\sum_{i \in M^{l} rj} (α \cdot a_{i}^{l - 1} * k_{ij}^{l}) + \sum_{i \in M^{l} dj} (β \cdot a_{i}^{l - 1} * k_{ij}^{l})] + b^{l}\} 。 (12) \end{matrix}$

该网络改进的关键点在于为了保证RGB和深度信息的独立性,并没有在最开始时将两种模态的信息输入到同一卷积层中,而是分别在两个卷积通道中进行训练。同时为了保持两种模态信息的联系,在两个卷积网络之间进行权值共享,这样也减少了训练参数,提升了训练和检测速度。经过数层卷积运算挖掘提取图像的内在特征后,为了得到RGB信息和深度信息的关联性,再通过相同的卷积核将两种模态信息融合。

对于融合系数α、β的计算,本课题组提出了一种最优权值算法。该方法首先使用单通道的卷积神

图 9. 卷积层融合结构

Fig. 9. Convolution layer fusion structure

下载图片查看所有图片

经网络对RGB图像和深度图像分别进行训练,得到对应的检测准确度之后,按照(10)式计算RGB图像和深度图像融合的最优权重。其中,

$\begin{matrix} \begin{matrix} \begin{matrix} \frac{α}{β} = \frac{R_{RGB}}{R_{d}} \end{matrix}, (13) \\ α + β = 1, (14) \end{matrix} \end{matrix}$

式中R_RGB为单独对RGB图像进行检测的准确度,R_d为单独对深度图像进行检测的准确度。

4 实验实现及结果分析

4.1 实验平台和数据集选取

选取Tensorflow^[11-12]作为实验平台,因其在搭建深度学习模型方面具有独特优势。它可提供Python和C++编程接口,通过把节点分配给多个图像处理器(GPU)可便捷地实现并行计算,加快运算效率。

实验数据库选用华盛顿大学采集构建的RGB-D数据库^[13],该数据库利用Kinect传感器同步拍摄物体的RGB和深度信息,是一个大规模、多层次、多视角的物体和场景数据库。数据集分为两大部分:300个家用物体构成的51个类别数据集以及8个办公室和厨房视频RGB-D场景数据集。本实验从8个视频RGB-D场景数据集中抽取部分数据作为训练样本。

4.2 评价指标

使用中心位置误差、准确率和成功率^[14]对识别检测结果进行评价。中心位置误差ε是检测得到的目标中心点坐标与实际目标中心点坐标的二次方根差,其定义为

$\begin{matrix} ε = \sqrt[]{(x_{1} - x_{0})^{2} + (y_{1} - y_{0})^{2}}, (15) \end{matrix}$

式中(x₁,y₁)为识别出的目标中心点的位置,(x₀,y₀)为标记中心点的位置。本研究对中心位置误差进行了归一化处理。

准确率P的定义为中心位置误差小于设定阈值的检测目标个数占检测总目标个数的百分比,其表达式如下:

$\begin{matrix} P = \frac{N_{a}}{N_{z}}, (16) \end{matrix}$

式中N_a为中心位置误差小于设定阈值的检测目标个数,N_z为检测总目标数。本研究以20个像素作为阈值。

成功率S的定义为

$\begin{matrix} S = \frac{|R_{t} ⋂ R_{a}|}{|R_{t} ⋃ R_{a}|}, (17) \end{matrix}$

式中R_t为检测出的目标边界区域,R_a为目标真实的边框区域,∩、∪分别表示对R_t和R_a作集合的交运算和并运算,|·|表示集合中像素的个数。当S>0.6时,认为检测成功。

4.3 网络参数设置

选用均方误差函数作为网络的损失函数^[15]:

$\begin{matrix} MSE (W, b) = \frac{1}{|y|} \overset{|y|}{\sum_{i = 1}} {[y_{(W, b)} (i) - \dot{y} (i)]}^{2}, (18) \end{matrix}$

式中W和b分别为网络的权重和偏置向量,MSE(W,b)为在当前参数向量W和b下的损失函数值,y₍_W_,_b₎为在当前参数向量W和b下的实际输出, $\begin{matrix} \dot{y} \end{matrix}$ 为理想输出。

采用随机梯度下降法求取损失函数下降最大的方向。学习率设置为0.01,激活函数选用Sigmoid函数,其形式如下

$\begin{matrix} f (x) = \frac{1}{1 + e^{- αx}}, 0 < f (x) < 1, (19) \end{matrix}$

式中x是(1)、(3)、(5)式中激活函数的输入。Sigmoid函数的导数为

$\begin{matrix} f' (x) = \frac{α e^{- αx}}{(1 + e^{- αx})^{2}} = αf (x) [1 - f (x)] 。 (20) \end{matrix}$

损失函数和测试中心位置误差随训练步数的变化情况如图10所示,在200步训练步数之内,损失函数和测试中心位置误差随着训练步数降低而迅速下降,之后趋于平缓,在700步左右时损失函数达到一个极小值,因此本实验训练步数选700。

图 10. 测试中心位置误差和训练损失函数随训练步数的变化曲线

Fig. 10. Change curves of center position error and training loss function with the training steps

下载图片查看所有图片

由构建的卷积网络结构分别对RGB图像和深度图像进行训练,得到几类不同物体分别在RGB和深度图像下的检测精度,然后由(10)式计算出RGB和深度图像的融合权重,结果如表1所示。

表 1. 不同检测物体的融合权重

Table 1. Fusion weight of different detection objects

	RGB-accuracy	D-accuracy	RGB-weight	D-weight
Flashlight	82.8	77.2	0.518	0.482
Coffee cup	80.4	75.8	0.514	0.486
Cereal boxes	83.2	78.6	0.513	0.487
Bowl	78.4	75.1	0.511	0.489

查看所有表

4.4 实验结果分析

使用图9中提出的网络结构和4.2节得到的网络参数对RGB-D图像集进行训练,RGB-D信息的融合层选在第三层卷积层之后;采用交叉验证法进行实验^[16],即从每组数据集中随机选取100对RGB和深度图像作为测试数据集,其余的图像作为训练数据集;反复选取五次,进行五次实验,取五次实验结果的平均值。图11所示是对一只白碗的部分检测结果。

图 11. 不同算法下的检测结果。(a)基于RGB图像的检测;(b)基于后期融合的RGB-D联合检测;(c)基于卷积层融合的RGB-D联合检测

Fig. 11. Detection results at different algorithms. (a) Detection based on RGB images; (b) joint detection of RGB-D based on late fusion; (c) joint detection of RGB-D based on convolution layer fusion

下载图片查看所有图片

在图11(a)中可以看出,基于RGB的检测在这两幅图片中都出现了误检的情况,这是因为只利用RGB信息很难区分与目标颜色相近的干扰物体。基于后期融合的RGB-D联合检测在一定程度上避免了这种干扰,正确地检测出了图11(b)中左侧碗的位置。但是当目标与干扰物体相距较近且颜色相似时,仍然存在误检,这是因为RGB-D联合检测对深度信息的融合不够充分。所提RGB-D信息卷积层融合网络结构由于更有效地融合了RGB-D图像的互补特征信息,较好地避免了误检现象,取得了更好的检测效果。不同方法下的检测结果如表2所示。

表 2. 不同方法的检测结果

Table 2. Detection results by different methods

Method	Centralerror	Accuracyrate /%	Successrate /%	Detectiontime /s
RGB image	0.0324	81.2	75.4	0.228
Depth image	0.0371	76.7	71.9	0.177
Early fusion	0.0292	85.6	79.4	0.248
Late fusion	0.0277	87.1	81.3	0.325
FC-fusion	0.0258	88.3	82.2	0.306
C-fusion	0.0235	91.2	84.8	0.288

查看所有表

由得到的检测结果可以看出,无论采用哪种融合方式,基于RGB-D图像的联合检测均可显著提高检测精度。RGB信息的全连接层融合比早期融合、后期融合具有更高的检测准确率和成功率,而且由于双流卷积网络之间的权值共享,检测时间比后期融合方式也有一定缩短。卷积层的融合方式充分考虑了RGB图像和深度图像的独立性和关联性,进一步提高了联合检测的效率,其识别准确率和成功率相比于之前最好的融合方法分别提高了4.1%和3.5%。

5 结论

针对RGB-D图像联合检测效率不高的问题提出了一种新的双流卷积神经网络结构。该网络结构有效地融合了RGB图像和深度图像的互补信息,提高了识别检测精度和成功率,为RGB-D图像的联合检测提供了一条新途径。

将RGB-D图像分别输入到两个结构相同、权值共享的卷积网络中进行特征学习训练,之后根据一定的权值在卷积层中进行融合,对融合后的特征进行二次卷积训练,有效地提升了RGB-D信息的融合利用程度。提出了一种最优融合权值算法,根据各类识别目标在单一模态信息下的识别准确率确定融合时所占的权重,确保得到最高效的融合结果。相比于已有的融合方法,所提RGB-D信息融合策略更好地挖掘了RGB图像和深度图像之间的内在联系,提高了互补信息的融合效率,其识别准确率和成功率分别提高了4.1%和3.5%。

参考文献

[1] 崔波. 基于RGB-D信息的显著物体检测[D]. 天津: 天津大学, 2014: 17- 26.

CuiB. Significant object detection based on RGB-D information[D]. Tianjin: Tianjin University, 2014: 17- 26.

[2] GuptaS, GirshickR, ArbeláezP, et al. Learning rich features from RGB-D images for object detection and segmentation[C]. European Conference on Computer Vision, 2014, 8695: 345- 360.

[3] CouprieC, FarabetC, NajmanL, et al. Indoor semantic segmentation using depth information [J]. arXiv: 1301. 3572v2.

[4] GuptaS, ArbelaezP, MalikJ. Perceptual organization and recognition of indoor scenes from RGB-D images[C]. IEEE Computer Vision and Pattern Recognition, 2013: 564- 571.

[5] EitelA, Springenberg JT, SpinelloL, et al. Multimodal deep learning for robust RGB-D object recognition[C]. IEEE/RSJ International Conference on Intelligent Robots and Systems, 2015: 681- 687.

[6] 芮挺, 费建超, 周遊, 等. 基于深度卷积神经网络的行人检测[J]. 计算机工程与应用, 2016, 52(13): 163-168.

Rui T, Fei J C, Zhou Y, et al. Pedestrian detection based on deep convolutional neural network[J]. Computer Engineering and Application, 2016, 52(13): 163-168.

[7] 卢宏涛, 张秦川. 深度卷积神经网络在计算机视觉中的应用研究综述[J]. 数据采集与处理, 2016, 31(1): 1-17.

Lu H T, Zhang Q C. Overview of application of depth convolutional neural network in computer vision[J]. Data Acquisition and Processing, 2016, 31(1): 1-17.

[8] SongS, Xiao JX. Deep sliding shapes for amodal 3D object detection in RGB-D images[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2016: 808- 816.

[9] 涂淑琴, 薛月菊, 梁云, 等. RGB-D图像分类方法研究综述[J]. 激光与光电子学进展, 2016, 53(6): 060003.

Tu S Q, Xue Y J, Liang Y, et al. RGB-D image classification methods[J]. Laser & Optoelectronics Progress, 2016, 53(6): 060003.

[10] 卢良锋, 谢志军, 叶宏武. 基于RGB-D特征与深度特征融合的物体识别算法[J]. 计算机工程, 2015, 42(5): 187-192.

Lu L F, Xie Z J, Ye H W. Object recognition algorithm based on RGB-D feature and depth feature fusion[J]. Computer Engineering, 2015, 42(5): 187-192.

[11] 张俊, 李鑫. TensorFlow平台下的手写字符识别[J]. 电脑知识, 2016, 12(16): 199-201.

Zhang J, Li X. Handwritten character recognition based on TensorFlow platform[J]. Computer Knowledge, 2016, 12(16): 199-201.

[12] 张炜. 基于机器学习的智能家居系统设计与实现[D]. 吉林: 吉林大学, 2016: 25- 37.

ZhangW. Design and implementation of intelligent home system based on machinelearning[D]. Jilin: Jilin University, 2016: 25- 37.

[13] LaiK, BoL, RenX, et al. A large-scale hierarchical multi-view RGB-D object dataset[C]. IEEE International Conference on Robotics and Automation, 2011: 1817- 1824.

[14] 毛宁, 杨德东, 杨福才, 等. 基于分层卷积特征的自适应目标跟踪[J]. 激光与光电子学进展, 2016, 53(12): 121501.

Mao N, Yang D D, Yang F C, et al. Adaptive target tracking based on hierarchical convolution[J]. Laser & Optoelectronics Progress, 2016, 53(12): 121501.

[15] JiaY, ShelhamerE, DonahueJ, et al. Caffe: Convolutional architecture for fast feature embedding[C]. ACM International Conference on Multimedia, 2014: 675- 678.

[16] 蔡强, 魏立伟, 李海生, 等. 基于ANNet网络的 RGB-D 图像的目标检测[J]. 系统仿真学报, 2016, 28(9): 2260-2266.

Cai Q, Wei L W, Li H S, et al. Target detection of RGB-D images based on ANNet networks[J]. Journal of Systems Simulation, 2016, 28(9): 2260-2266.

3 基于双流卷积神经网络的RGB-D信息融合

刘帆, 刘鹏远, 张峻宁, 徐彬彬. 基于双流卷积神经网络的RGB-D图像联合检测[J]. 激光与光电子学进展, 2018, 55(2): 021503. fan Liu, Pengyuan Liu, Junning Zhang, Binbin Xu. Joint Detection of RGB-D Images Based on Double Flow Convolutional Neural Network[J]. Laser & Optoelectronics Progress, 2018, 55(2): 021503.

基于双流卷积神经网络的RGB-D图像联合检测 下载： 1328次

1 引言

2 卷积神经网络

2.1 卷积神经网络模型结构

图 1. 卷积神经网络结构

Fig. 1. Convolution neural network structure

2.2 卷积神经网络前向传播过程

图 2. 神经元基本模型

Fig. 2. Basic model of neuron

图 3. 图像卷积过程

Fig. 3. Image convolution process

图 4. 平均池化操作

Fig. 4. Average pooling operation

2.3 卷积神经网络后向传播过程

图 5. 后向传播模型

Fig. 5. Backward propagation model

3 基于双流卷积神经网络的RGB-D信息融合

3.1 早期融合和后期融合策略

图 6. 早期融合结构

Fig. 6. Early fusion structure

图 7. 后期融合结构

Fig. 7. Late fusion structure

3.2 全连接层融合和卷积层融合策略

图 8. 全连接层融合结构

Fig. 8. Full connection layer fusion structure

图 9. 卷积层融合结构

Fig. 9. Convolution layer fusion structure

4 实验实现及结果分析

4.1 实验平台和数据集选取

4.2 评价指标

4.3 网络参数设置

图 10. 测试中心位置误差和训练损失函数随训练步数的变化曲线

Fig. 10. Change curves of center position error and training loss function with the training steps

表 1. 不同检测物体的融合权重

Table 1. Fusion weight of different detection objects

4.4 实验结果分析

图 11. 不同算法下的检测结果。(a)基于RGB图像的检测;(b)基于后期融合的RGB-D联合检测;(c)基于卷积层融合的RGB-D联合检测

Fig. 11. Detection results at different algorithms. (a) Detection based on RGB images; (b) joint detection of RGB-D based on late fusion; (c) joint detection of RGB-D based on convolution layer fusion

表 2. 不同方法的检测结果

Table 2. Detection results by different methods

5 结论

Article Outline

相关论文

相关资讯

关于本站 Cookie 的使用提示

全站搜索

基于双流卷积神经网络的RGB-D图像联合检测下载： 1328次