基于稀疏原子融合的RGB-D场景图像融合算法 下载: 824次
1 引言
彩色图像和深度图像(RGB-D)是当前计算机视觉领域新的研究热点,主要由深度相机获得,包括RGB场景图像及其对应的深度场景图像。RGB场景图像包含所拍摄物体的表面颜色和纹理等信息,而深度场景图像包含物体的空间形状等信息,两种图像彼此之间是很好的补充。因此,有效融合利用RGB场景信息和深度场景信息,能够提高场景中物体识别的准确率。RGB-D图像属于多模态数据,需要使用特定的融合算法进行融合。RGB-D图像融合算法可分为像素级、特征级和决策级3个层次[1]。
特征级融合是指分别提取RGB图像和深度图像的特征后,再采用相应的方法进行融合,其优点是减少了计算量;但由于该方法只是对图像的某种或者几种特征进行提取融合,不可避免地会丢失许多有用信息。决策级融合是指对RGB图像和深度图像的识别分类信息进行统计或逻辑推理,分别得到相应的决策后再进行综合判断,因此有用特征的损失更加严重。
像素级融合通过对图像像素进行融合,得到有利于识别的融合图像,尽可能地避免图像信息的丢失,从而有效提升机器识别检测的准确率。王田等[2]融合图像的边缘信息,得到了有利于检测分类的融合轮廓图;向训文[3]提出将RGB显著图与深度显著图进行融合,得到的融合图像对显著部分的特征进行了更全面的表述,有效提高了识别检测的效率。但以上算法对原始图像信息的融合还不全面,基于稀疏表达的信息提取融合是解决这一问题的有效方法。本文致力于对原始图像的全部有效信息进行融合。 Yang等[4]提出了基于K奇异值分解(KSVD)字典的稀疏表达图像融合算法,余南南等[5]利用KSVD字典对医学计算机断层扫描(CT)和磁共振成像(MR)图像进行融合。以上方法是对多模态图像信息进行融合的成功案例,但其并未对图像特征对应的字典原子进行充分的筛选,因此融合后的图像会出现较多的冗余信息。
基于稀疏表达方法对RGB-D场景图像进行融合,并引入互信息理论(mRMR)来解决字典原子筛选困难和字典原子冗余问题。融合算法通过mRMR原则找到冗余度最小且最有效表达图像特征的原子,对两种图像中相同的特征原子按最优选法融合其对应的稀疏系数,之后对图像进行重构,对重合位置的像素取平均值。融合后的图像相比单一的RGB图像或深度图像具有更加丰富的视觉信息,在图像客观评价指标方面,与主成分分析-K奇异值分解(PCA-KSVD)、非下采样轮廓变换-K奇异值分解(NSCT-KSVD)稀疏融合算法相比,具有更好的性能,在相关数据库中进行目标定位检测时也取得了更高的识别准确率和成功率,从而验证了该算法融合图像特征的有效性。
2 算法原理
RGB图像和深度图像是对同一目标不同模态的表达,两种图像之间存在着重复的冗余信息,另外RGB图像和深度图像本身也具有大量的空间相关冗余和结构相关冗余。空间相关冗余是指相邻位置之间的像素具有很大的相关性,而结构相关冗余是指图像中反复出现相同或相近的纹理特征。在目标识别检测过程中,冗余信息会使图像数据量增加,从而增加提取特征向量的维度,影响匹配效率和精度。融合算法的目的在于尽可能去除两种图像之间和自身的冗余信息,以得到更有利于识别检测的融合图像。
2.1 KSVD字典学习算法
KSVD字典学习算法[6]是当前较为有效的稀疏表达方法,能够迭代学习得到与训练样本高度适应的冗余字典,并且可较好地对特征进行稀疏表达。本文使用KSVD字典学习算法对RGB图像和深度图像的空间和结构冗余信息进行有效压缩降维,从而稀疏化图像特征,方便后续有效识别特征的筛选,减小计算量。
KSVD模型可定义为
式中
算法步骤如下:
1) 初始化字典
2) 系数编码。固定字典
3) 字典学习。逐步更新字典原子
式中
4) 若满足停止条件(设定的迭代次数或重构图像与原图像的误差率),则得到最终的冗余字典
2.2 mRMR原则的特征选取
当使用KSVD字典学习算法对图像冗余信息进行稀疏表达后,致力于选取最有利于分类识别且冗余度最小的图像特征信息,以摒弃过多冗余信息对分类识别的干扰,提高分类识别的效率,因此利用mRMR原则对字典原子对应的稀疏系数进行优化选取。mRMR的主要思想是利用互信息从原始特征集中选择出最优特征集,该特征集每个特征之间的相关性最小,但与目标类之间的相关性最大。这里的原始特征集是原始图像块使用KSVD字典学习算法得到的字典原子集
设
使用互信息得到的mRMR准则为
式中
联立(4)、(5)式,设定mRMR算法的优化准则为
式中
3 图像特征融合过程
3.1 特征提取
RGB-D场景图像融合的目的是将多模态数据中的互补信息融合到较低的维度中,并尽可能保留有利于目标识别分类的信息。因此,首先要对原始图像特征进行完整的提取表达,基于KSVD的稀疏算法可较好地表达稀疏信息。
设RGB图像为
3.2 特征融合
设
式中
mRMR准则只能选择最优字典原子集合,即
式中
3.3 图像融合流程
1) 稀疏表达图像特征。使用第2.1节的滑动窗技术分别处理RGB图像和深度图像,得到2
2) 基于mRMR算法选取最优原子集。令
3) 融合相同特征原子的稀疏系数。由于RGB图像和深度图像既具有相同的特征原子集也具有不同的特征原子集,因此对于被选择的相同特征原子集,按照最大化原则融合其对应的稀疏系数,即
式中
4) 重构图像。根据
4 实验实现与结果分析
4.1 测试数据库
微软公司推出的kinect是当前比较流行的一款深度相机,基于kinect衍生了一些相当有价值的数据集,如华盛顿大学采集公布的RGB-D数据库,RGB-D数据库包含51类家居用品,300个实例,41877张RGB-D图像。选用该数据集进行实验验证。
4.2 图像预处理
深度图像是根据目标距离深度摄像机距离的远近对每个像素赋予一定的数值。距离摄像头越近则像素数值越小,而距离摄像头越远则像素数值越大,将深度图像的像素值适当调整到0~255范围内,如
当前设备条件下采集的深度图像存在一定的边缘毛刺和无效点问题,在融合之前需要进行图像增强和优化。采用文献[
11]中改进的联合双边滤波插值算法,得到处理后的图像如
4.3 基于KSVD和RMR的RGB-D图像融合
选取[12-13]平均梯度(
图 2. 深度图像预处理。(a)原始深度图像;(b)联合双边滤波处理后图像
Fig. 2. Depth image preprocessing. (a) Original depth image; (b) image after joint bilateral filtering processing
为确定选取的最优原子数,实验选取以上5项指标并按(9)式对融合图像进行评分,设5项评价指标的权值系数分别为
图 3. 不同原子数目的融合图像评分曲线
Fig. 3. Scoring curves of fusion images with different atomic numbers
由
由
为了验证所提融合算法的性能,将其与另外两种稀疏表示算法(PCA-KSVD[14] 算法和NSCT-KSVD[15]算法)进行比较,PCA-KSVD字典学习算法将主成分分析与KSVD字典学习算法结合起来,对高维的特征降维进行分解与重构; NSCT-KSVD字典学习算法是使用KSVD字典对非下采样剪切波变换(NSST)分解后的低频子带系数进行学习训练。实验中使用的滑动窗大小为8×8,滑动步长为1,字典大小为64×256。
图 4. (a)原始选择的字典原子;(b)优化选择后的字典原子
Fig. 4. (a) Dictionary atoms of original selection; (b) dictionary atoms after optimized selection
图 5. 识别物体为帽子的RGB-D图像融合效果。 (a)深度图像;(b)灰度图像;(c) PCA-KSVD方法;(d) NSCT-KSVD方法;(e) K-mRMR方法
Fig. 5. RGB-D image fusion effect of a hat used as the identification target. (a) Depth image; (b) gray image; (c) PCA-KSVD method; (d) NSCT-KSVD method; (e) K-mRMR method
图 6. 识别物体为碗的RGB-D图像融合效果。(a)深度图像;(b)灰度图像;(c) PCA-KSVD方法;(d) NSCT-KSVD方法;(e) K-mRMR方法
Fig. 6. RGB-D image fusion effect of a bowl used as the identification target. (a) Depth image; (b) gray image; (c) PCA-KSVD method; (d) NSCT-KSVD method; (e) K-mRMR method
4.4 融合图像性能验证
融合后的图像对目标的边缘轮廓信息进行了强化,并在一定程度上增强了目标区域的灰度值与背景区域灰度值的区分度。
融合图像的评价指标如
表 1. 融合图像评价指标
Table 1. Evaluation indexes of fusion images
|
5 融合后图像的识别准确率对比
融合图像对RGB图像没有表达出的深度轮廓信息进行了补充,同时也强化了目标区域与背景区域灰度值的差异,因此针对轮廓、区域特征进行识别的算法在融合图像上的识别检测效果会得到改善。为了更进一步验证本文算法的融合图像特征的优势,使用尺度不变特征和支持向量机(SIFT+SVM)与卷积神经网络(CNN)[16]两种算法对4种图像中的目标进行检测定位,这4种图像分别为单一RGB图像、单一深度图像、RGB和深度联合图像,以及本文算法融合后的图像。
5.1 识别目标及评价指标
使用RGB-D数据库中的目标检测集进行实验,主要检测帽子、碗、手电筒和咖啡杯等4类物体。使用准确率和成功率来评价识别性能[17]。准确率的定义是中心位置误差小于设定阈值的识别目标占识别总数的百分比,这里以20个像素点作为阈值。成功率的定义为
式中
5.2 识别方法
使用SIFT+SVM和CNN两种算法对4种图像的识别检测流程如下:
1) SIFT+SVM检测融合图像。对图像目标区和背景区域使用滑动窗提取一个个的图像块,对每个图像块使用SIFT算子提取特征向量,之后使用SVM分类器对目标区域和背景区域图像块对应的SIFT特征向量
2) SIFT+SVM检测RGB-D联合图像。使用SIFT算子分别提取RGB和深度图像块的特征向量
式中
3) CNN检测融合图像。将融合后的训练图像输入到CNN神经网络中,经过卷积网络的各层节点间运算后,将得到的输出与标签信息(目标区域中心位置)进行对比,根据此误差对神经网络参数进行反向调节,直到误差小于一定值或达到一定训练步数后停止训练,利用训练好的模型对检测样本进行测试,得到识别结果。使用此方法对单一的RGB图像和深度图像进行检测时,只需要将实验图像换成各自的图像即可。
4) CNN检测RGB-D联合图像。同时将RGB图像和深度图像组合成一个4通道的信息输入到卷积网络中,在卷积神经网络中将4通道的RGB-D信息进行融合,其示意图如
5.3 识别结果
每类识别物体选取50对RGB-D图像,4类物体共选取200对图像,使用K-mRMR算法对这200对图像进行融合,得到200幅融合后的图像。按照第5.2节中给出的识别方法并采用交叉验证法进行测试,即从每类物体图像中随机选取一半的图像用于训练,另外一半用于测试,反复进行10次实验,取10次实验结果的平均值,如
表 2. 不同算法下识别准确率的对比
Table 2. Comparison of recognition accuracy under different algorithms
|
表 3. 不同算法下识别成功率的对比
Table 3. Comparison of recognition success rate under different algorithms
|
由
K-mRMR融合算法基于KSVD字典稀疏图像特征,利用mRMR原则求取维度最小且各维度之间相关性最小的特征原子组合,从而降低了两种图像本身的冗余度。该方法根据最大化稀疏系数的原则对重合部分的特征进行融合,使重合部分表达区分性更强的图像特征,弥补了单一图像特征不全面的缺点。因此,使用融合后的图像进行目标识别检测,有效提高了识别的准确率和成功率,从而验证了本文算法对于RGB-D图像联合检测的优越性。
6 结论
提出一种应用于RGB-D场景图像融合的K-mRMR算法,该算法结合了稀疏表达和mRMR选择准则,提取并融合RGB图像和深度图像中的有效信息,滤除了无关和冗余信息,得到了包含更多识别信息的融合图像,有效改善了RGB-D场景图像特征融合困难、联合识别效率不高的问题。将使用KSVD字典原子得到的稀疏系数作为特征融合参数,基于mRMR准则选取含有最多识别有效信息的稀疏系数,融合其对应的字典原子,能够更好地获取图像信息中最有利于识别的特征。建立了一种最优字典原子数选取原则,得到了融合后图像质量评价最高且原子数目最少的原子集合,提高了图像融合的效率。与PCA-KSVD、NSCT-KSVD稀疏融合算法相比,本文算法融合后的图像性能指标整体占优;利用SIFT-SVM和CNN识别多种类图像,本文算法融合的图像识别准确率和成功率更高。
[1] 卢良锋, 谢志军, 叶宏武. 基于RGB特征与深度特征融合的物体识别算法[J]. 计算机工程, 2015, 42(5): 187-192.
卢良锋, 谢志军, 叶宏武. 基于RGB特征与深度特征融合的物体识别算法[J]. 计算机工程, 2015, 42(5): 187-192.
卢良锋, 谢志军, 叶宏武. 基于RGB特征与深度特征融合的物体识别算法[J]. 计算机工程, 2015, 42(5): 187-192.
Lu L F, Xie Z J, Ye H W. Object recognition algorithm based on RGB feature and depth feature fusing[J]. Computer Engineering, 2015, 42(5): 187-192.
[2] 王田, 邹子龙, 乔美娜. 基于图像特征分析的物体轮廓提取[J]. 北京航空航天大学学报, 2016, 42(8): 1762-1767.
王田, 邹子龙, 乔美娜. 基于图像特征分析的物体轮廓提取[J]. 北京航空航天大学学报, 2016, 42(8): 1762-1767.
王田, 邹子龙, 乔美娜. 基于图像特征分析的物体轮廓提取[J]. 北京航空航天大学学报, 2016, 42(8): 1762-1767.
Wang T, Zou Z L, Qiao M N. Object contour extraction based on image feature analysis[J]. Journal of Beihang University, 2016, 42(8): 1762-1767.
[3] 向训文. RGB-D图像显著性检测研究[D]. 广州: 华南理工大学, 2015.
向训文. RGB-D图像显著性检测研究[D]. 广州: 华南理工大学, 2015.
向训文. RGB-D图像显著性检测研究[D]. 广州: 华南理工大学, 2015.
Xiang XW. RGB-D saliency detection[D]. Guangzhou: Institutes of Technology of South China, 2015.
Xiang XW. RGB-D saliency detection[D]. Guangzhou: Institutes of Technology of South China, 2015.
Xiang XW. RGB-D saliency detection[D]. Guangzhou: Institutes of Technology of South China, 2015.
[5] 余南南, 邱天爽, 毕峰, 等. 基于K-SVD的医学图像特征提取和融合[J]. 大连理工大学学报, 2012, 52(4): 605-610.
余南南, 邱天爽, 毕峰, 等. 基于K-SVD的医学图像特征提取和融合[J]. 大连理工大学学报, 2012, 52(4): 605-610.
余南南, 邱天爽, 毕峰, 等. 基于K-SVD的医学图像特征提取和融合[J]. 大连理工大学学报, 2012, 52(4): 605-610.
Yu N N, Qiu T S, Bi F, et al. Medical image features extraction and fusion based on K-SVD[J]. Journal of Dalian University of Technology, 2012, 52(4): 605-610.
[8] 李兵, 张培林, 任国全, 等. 基于互信息的滚动轴承故障特征选择方法[J]. 测试技术学报, 2009, 23(2): 184-190.
李兵, 张培林, 任国全, 等. 基于互信息的滚动轴承故障特征选择方法[J]. 测试技术学报, 2009, 23(2): 184-190.
李兵, 张培林, 任国全, 等. 基于互信息的滚动轴承故障特征选择方法[J]. 测试技术学报, 2009, 23(2): 184-190.
Li B, Zhang P L, Ren G Q, et al. Features selection for rolling bearing fault diagnosis based on mutual information[J]. Journal of Test and Measurement Technology, 2009, 23(2): 184-190.
[11] 刘金荣, 李淳芃, 欧阳建权, 等. 基于联合双边滤波的深度图像增强算法[J]. 计算机工程, 2014, 40(3): 249-253.
刘金荣, 李淳芃, 欧阳建权, 等. 基于联合双边滤波的深度图像增强算法[J]. 计算机工程, 2014, 40(3): 249-253.
刘金荣, 李淳芃, 欧阳建权, 等. 基于联合双边滤波的深度图像增强算法[J]. 计算机工程, 2014, 40(3): 249-253.
Liu J R, Li C P, Ouyang J Q, et al. Depth image enhancement algorithm based on joint bilateral filtering[J]. Computer Engineering, 2014, 40(3): 249-253.
[12] 张铖程. 基于稀疏表示的RGB-D物体检测[D]. 杭州: 浙江大学, 2015.
张铖程. 基于稀疏表示的RGB-D物体检测[D]. 杭州: 浙江大学, 2015.
张铖程. 基于稀疏表示的RGB-D物体检测[D]. 杭州: 浙江大学, 2015.
Zhang CC. Detection based on sparse representation RGB-D object[D]. Hangzhou: Zhejiang University, 2015.
Zhang CC. Detection based on sparse representation RGB-D object[D]. Hangzhou: Zhejiang University, 2015.
Zhang CC. Detection based on sparse representation RGB-D object[D]. Hangzhou: Zhejiang University, 2015.
[13] 尹雯, 李元祥, 周则明, 等. 基于稀疏表示的遥感图像融合方法[J]. 光学学报, 2013, 33(4): 0428003.
尹雯, 李元祥, 周则明, 等. 基于稀疏表示的遥感图像融合方法[J]. 光学学报, 2013, 33(4): 0428003.
尹雯, 李元祥, 周则明, 等. 基于稀疏表示的遥感图像融合方法[J]. 光学学报, 2013, 33(4): 0428003.
[14] 欧阳宁, 郑雪英, 袁华. 基于NSCT和稀疏表示的多聚焦图像融合[J]. 计算机工程与设计, 2017, 38(1): 177-182.
欧阳宁, 郑雪英, 袁华. 基于NSCT和稀疏表示的多聚焦图像融合[J]. 计算机工程与设计, 2017, 38(1): 177-182.
欧阳宁, 郑雪英, 袁华. 基于NSCT和稀疏表示的多聚焦图像融合[J]. 计算机工程与设计, 2017, 38(1): 177-182.
Ouyang N, Zheng X Y, Yuan H. Multi-focus image fusion based on NSCT and sparse representation[J]. Computer Engineering and Design, 2017, 38(1): 177-182.
[15] 秦丽娟, 谷雨, 蒋磊磊. PCA与K-SVD联合滤波方法的研究[J]. 光电技术应用, 2016, 31(4): 31-36.
秦丽娟, 谷雨, 蒋磊磊. PCA与K-SVD联合滤波方法的研究[J]. 光电技术应用, 2016, 31(4): 31-36.
秦丽娟, 谷雨, 蒋磊磊. PCA与K-SVD联合滤波方法的研究[J]. 光电技术应用, 2016, 31(4): 31-36.
Qin L J. Gu YJiang L L. Research on combined filtering method of PCA and K-SVD[J]. Electro-optic Technology Application, 2016, 31(4): 32-37.
[16] 涂淑琴, 薛月菊, 梁云, 等. RGB-D图像分类方法研究综述[J]. 激光与光电子学进展, 2016, 53(6): 060003.
涂淑琴, 薛月菊, 梁云, 等. RGB-D图像分类方法研究综述[J]. 激光与光电子学进展, 2016, 53(6): 060003.
涂淑琴, 薛月菊, 梁云, 等. RGB-D图像分类方法研究综述[J]. 激光与光电子学进展, 2016, 53(6): 060003.
Tu S Q, Xue Y J, Liang Y, et al. Review on RGB-D image classification[J]. Laser and Optoelectronics Progress, 2016, 53(6): 060003.
[17] 汪洪桥, 蔡艳宁, 付光远, 等. 基于图像序列的地面慢动多目标识别与跟踪[J]. 激光与光电子学进展, 2016, 53(5): 051501.
汪洪桥, 蔡艳宁, 付光远, 等. 基于图像序列的地面慢动多目标识别与跟踪[J]. 激光与光电子学进展, 2016, 53(5): 051501.
汪洪桥, 蔡艳宁, 付光远, 等. 基于图像序列的地面慢动多目标识别与跟踪[J]. 激光与光电子学进展, 2016, 53(5): 051501.
Wang H Q, Cai Y N, Fu G Y, et al. Image recognition and tracking based on image sequences for slow moving targets in the ground[J]. Laser and Optoelectronics Progress, 2016, 53(5): 051501.
Article Outline
刘帆, 刘鹏远, 张峻宁, 徐彬彬. 基于稀疏原子融合的RGB-D场景图像融合算法[J]. 光学学报, 2018, 38(1): 0115003. Fan Liu, Pengyuan Liu, Junning Zhang, Binbin Xu. RGB-D Scene Image Fusion Algorithm Based on Sparse Atom Fusion[J]. Acta Optica Sinica, 2018, 38(1): 0115003.