基于跨尺度引导图像滤波的稠密立体匹配 下载: 878次
1 引言
在计算机视觉和图形学中,超像素、降噪等都可以视为一个病态的逆问题。在多目视觉立体匹配中同样面临着病态问题的挑战。噪声、抖动、角度、畸变等因素的影响,使得精确得到立体图像间像素级的匹配关系和深度信息成为一个极具挑战性的问题。Scharstein等[1]将立体匹配问题分为匹配代价计算、聚合代价、初步视差计算和后处理4个步骤,将相关匹配算法分为全局和局部立体匹配算法。全局立体匹配算法的主要思想是将立体匹配问题形式化为能量函数,通过最小化能量函数得到匹配结果,其特点是精度较高,但是计算复杂度高、实时性差。常见的全局匹配算法有图割[2]和动态规划[3]等。局部立体匹配算法的主要思想是通过支持窗口进行聚合代价,进而计算视差,其匹配精度相对较差,但模型复杂度较低,易于实现,因此应用广泛。
近年来,基于机器学习的立体匹配算法[4-5]获得了较高的匹配精度,该算法以深度神经网络算法为基础,自主学习模型中的参数。但由于模型可解释性差,在现阶段高精度立体匹配图像数据较少的情况下难以有效验证其泛化能力,限制了其在现实系统中的应用。
现有的局部立体匹配算法一般基于自适应支持窗口[6]和自适应支持权重[7],利用局部支持区域和支持权重的方法来增强中心像素的可辨别性。Shi等[8]基于分割来获取像素的支持区域,但随后的多特征融合策略更多依赖于经验设定,泛化能力较差;Yang[9]基于最小生成树将聚合代价形式化为权值滤波,将支持区域扩展到全图,但是其计算复杂度较高;Rhemann等[10]将聚合代价视为在代价空间中进行滤波,利用引导图像滤波器[11]有效提升了聚合代价的效率;Zhang等[12]对立体图进行下采样,利用多尺度信息得到了高效的聚合代价,提出了一个多尺度立体匹配框架。但是下采样图不可避免地丢失了很多细节信息,且理论上后期难以弥补框架本身的固有问题;祝世平等[13]改进了Census变换策略,有效提升了单像素匹配代价的可靠性,并改进了动态规划算法,有效提升了匹配精度。
综上所述,基于图像滤波的立体匹配[10,12]算法具有实时性好、算法匹配精度高的优点,但是现有算法难以有效解决支持窗口的选择问题,为了有效利用现有的快速求和技术(如积分图[14]和盒滤波器[15]等),图像滤波基本上采用以中心像素为核心的固定尺寸矩形窗口来进行聚合代价,很大程度上限制了支持区域的表达能力。事实上,中心像素本身的支持窗口可为任意形状和尺寸。为了解决上述问题,本文设计了一种基于跨尺度图像引导滤波的聚合代价策略,首先用Mean-Shift[16]图像分割技术对立体图像进行预分割,获取像素的分割区域半径;以此区域半径作为指导,在代价空间中以3种不同尺寸的滤波核进行滤波,得到对应的代价空间;引入正则化项确保聚合代价的一致性,以得到更有效的聚合代价;以贪心(WTA)策略进行视差选择以验证聚合代价的可靠性。
2 跨尺度引导图像滤波立体匹配
立体匹配是多目视觉的关键,旨在获取多目立体图像间像素级的对应关系。聚合代价可以视为在代价空间中进行滤波,本节从尺度空间方面探讨了现有局部立体匹配方案的特点,基于图像滤波器[7,11]提出了一种跨尺度图像滤波立体匹配方案。
2.1 立体匹配
立体匹配可以分为匹配代价计算、聚合代价、初始视差计算和视差精调4个步骤[1]。代价计算主要是为了计算立体图像单像素间的匹配代价,常用的方法有绝对亮度差、归一化互相关和普查变换等。采用目前先进匹配算法中常用的梯度和强度进行单像素的匹配代价计算[10,12],则像素
式中
聚合代价即通过一定规则将得到的局部区域中的匹配代价进行累加聚合,如基于中心像素邻域特性的自适应支持权重聚合[7]。一定程度上,局部区域的聚合代价相当于在代价空间中进行滤波,即
式中
初始视差计算环节利用聚合代价按照一定的方法构造目标函数,以得到初始视差图,经典算法有WTA算法和动态规划等。视差精调的作用主要包含降低初始视差阶段的误匹配率和按照一定规则计算亚像素级精度的视差两部分。
2.2 引导图像滤波
图像滤波器具备抑制噪声和抽取图像结构信息的特性。在解决立体匹配问题时,需要得到基于中心像素的支持窗口,支持窗口内的像素需要尽可能地与中心像素具备相近的视差(即平滑性),并摒弃与之距离相近且视差相差较大的相邻像素,这就使得聚合代价的计算与图像滤波具备一定的共通性,如文献[
10]中将聚合代价视为在代价空间中进行联合滤波。从滤波的角度来进行聚合代价,为立体视觉的研究指引了新的方向。由于图像滤波自身的高效性,用图像滤波器在代价空间中进行滤波以完成聚合代价受到了越来越多研究者的关注。但是,图像滤波的高效性使得滤波核形状局限在矩形上,甚至是固定尺寸的矩形上。在矩形区域内进行权值分配,一定程度上意味着可以获取自适应形状支持区域(有最大尺度限定),如
图 1. (a)支持区域内有效像素的支持权值;(b)对应的自适应支持区域
Fig. 1. (a) Support weights of effective pixels in support regions; (b) corresponding adaptive support regions
需要说明的是,基于图像滤波的聚合代价[10,12]采用了文献[
7,11]中设置最大支持窗口尺寸的方案,而现实中难以预知像素的最大支持区域尺寸,因此在原始图上以固定尺寸的核进行滤波来完成聚合代价的思路,忽略了一部分支持像素,从而降低了聚合代价的有效性和稳定性。此外,支持区域不具备连通性,如
2.3 跨尺度引导图像滤波
以优化的角度可以将聚合代价视为加权最小二乘问题[18],即
式中
式中上标
为了避免上述问题,采用Mean-Shift算法[16]对立体图像进行预分割,得到一系列分割区域
式中floor(·)和ceil(·)分别表示向下和向上取整;
算初始视差图。
为了更好地利用小尺寸下的细节信息和较大核尺寸下的平滑度,引入了正则化项,则加入正则项后的聚合代价为
式中上标
图 2. 不同尺寸滤波核得到的初始视差图。(a) l=r˙cmin; (b) l=r˙min; (c) l=r˙max; (d)加入正则化项后得到的初始视差图
Fig. 2. Initial disparity maps with different sizes of filter kernels. (a) l=r˙cmin; (b) l=r˙min; (c) l=r˙max; (d) initial disparity map with regularization term
2.4 视差选择
计算得到聚合代价后,为了简单高效地验证在代价空间中进行图像滤波所得到聚合代价的有效性,采用WTA策略计算初步视差,可表示为
所提算法的主要贡献在聚合代价环节,因此在视差计算环节只进行简单处理。用不同尺寸的滤波核在代价空间中进行聚合,并加入正则化项以确保不同代价空间的一致性,进而得到更可靠的聚合代价。之后采用WTA策略完成视差选择,得到初步视差后,可以用视差精度对跨尺度引导滤波(S-GF)得到的聚合代价进行可靠性验证。
3 实验结果与分析
为了验证所提算法的匹配精度,在Visual studio集成开发环境中配合图像处理开源库Opencv实现了所提算法,并在立体匹配算法测试平台Middlebury[19]上进行了评测。基于图像滤波的立体匹配算法视差图如
图 4. 基于图像滤波的立体匹配算法视差图。(a)原始彩色图像;(b)真实视差图;(c)引导滤波聚合代价得到的视差图;(d)多尺度引导滤波聚合代价得到的视差图;(e)所提算法得到的视差图
Fig. 4. Disparity maps of stereo matching algorithms based on image filtering. (a) Original color images; (b) real disparity maps; (c) disparity maps obtained by guided filtering cost aggregation; (d) disparity maps obtained by multiscale guided filtering cost aggregation; (e) disparity maps obtained by proposed algorithm
[
值得注意的是,所提算法的主要目标是在确保相当匹配精度的同时进一步提升实时性,并不单纯以提升匹配精度为目标。同时,为了更好地观察聚合代价算法本身对匹配精度的影响,对采用视差精调处理的算法进行了标注,无标注的即为聚合代价后简单采用WTA算法得到的初始视差。虽然仅使用了简单的WTA策略,所提算法依然得到了较高的匹配精度。与文献[
10]中基于GF和文献[
7]中基于双边滤波器(BF)的两个经典方案相比,跨尺度信息的加入使匹配精度得到明显提升。可以很清楚地看出,所提算法得到的视差图在视差层次感、细节保留程度、边缘平滑度及弱纹理区域上的匹配精度均有提升,视差图整体上也显得更加精确。相较于文献[
12],所提算法得到的视差图匹配精度更高、误匹配区域更少,但整体匹配精度的提升并不明显。所提算法采用3种不同的尺寸在原始立体图上进行聚合代价,得到的代价空间保持了一致性,因此可在正则化环节计算插值时节省开销,使算法的整体时间复杂度降低,实际运行时间减少了大约15%。几种基于引导图像滤波立体匹配算法的运行时间与匹配精度的对比如
需要说明的是,与GF相比,BF的滤波核尺寸
图 5. 基于引导图像滤波的几种立体匹配算法的运行时间与匹配精度对比
Fig. 5. Comparison of running time and matching accuracy of several stereo matching algorithms based on guided image filtering
与运行时间是呈非线性的,对时间复杂度而言,其并不适用于S-GF算法(实际运行时间为引导滤波的30倍左右),因此
由
表 1. 不同算法误匹配像素百分比
Table 1. Percentage of mismatching pixels of different algorithms
|
4 结论
提出了一种基于跨尺度引导图像滤波的立体匹配算法,该算法对立体图进行预分割,以得到分割区域内像素的半径,并以该半径为指导,用3种不同尺寸的滤波核在原尺寸立体图代价空间中进行滤波,以完成聚合代价。通过加入正则化项,确保3个聚合代价空间的一致性,以得到更有效的聚合代价。在Middlebury测试平台上的实验结果表明所提算法兼备实时性和精确性,在特殊区域的精度高于现有基于图像滤波的方案。现阶段仅在计算机上实现了所提算法,今后可以在多个图形处理器平台上进一步提升算法的实时性。
[1] ScharsteinD, SzeliskiR, ZabihR. A taxonomy and evaluation of dense two-frame stereo correspondence algorithms[C]. IEEE Stereo and Multi-Baseline Vision, 2002, 47( 1): 7- 42.
ScharsteinD, SzeliskiR, ZabihR. A taxonomy and evaluation of dense two-frame stereo correspondence algorithms[C]. IEEE Stereo and Multi-Baseline Vision, 2002, 47( 1): 7- 42.
ScharsteinD, SzeliskiR, ZabihR. A taxonomy and evaluation of dense two-frame stereo correspondence algorithms[C]. IEEE Stereo and Multi-Baseline Vision, 2002, 47( 1): 7- 42.
[3] Kim JC, Lee KM, Choi BT. A dense stereo matching using two-pass dynamic programming with generalized ground control points[C]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2005, 2( 2): 1075- 1082.
Kim JC, Lee KM, Choi BT. A dense stereo matching using two-pass dynamic programming with generalized ground control points[C]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2005, 2( 2): 1075- 1082.
Kim JC, Lee KM, Choi BT. A dense stereo matching using two-pass dynamic programming with generalized ground control points[C]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2005, 2( 2): 1075- 1082.
[4] Luo WJ, Schwing AG, UrtasunR. Efficient deep learning for stereo matching[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2016: 5695- 5703.
Luo WJ, Schwing AG, UrtasunR. Efficient deep learning for stereo matching[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2016: 5695- 5703.
Luo WJ, Schwing AG, UrtasunR. Efficient deep learning for stereo matching[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2016: 5695- 5703.
[6] Kanade T, Okutomi M. A stereo matching algorithm with an adaptive window: Theory and experiment[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1994, 16(9): 920-932.
Kanade T, Okutomi M. A stereo matching algorithm with an adaptive window: Theory and experiment[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1994, 16(9): 920-932.
Kanade T, Okutomi M. A stereo matching algorithm with an adaptive window: Theory and experiment[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1994, 16(9): 920-932.
[10] RhemannC, HosniA, BleyerM, et al. Fast cost-volume filtering for visual correspondence and beyond[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2011: 3017- 3024.
RhemannC, HosniA, BleyerM, et al. Fast cost-volume filtering for visual correspondence and beyond[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2011: 3017- 3024.
RhemannC, HosniA, BleyerM, et al. Fast cost-volume filtering for visual correspondence and beyond[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2011: 3017- 3024.
[13] . programming, [J]. Acta Optica Sinica, 2016, 36(4): 0415001.
. programming, [J]. Acta Optica Sinica, 2016, 36(4): 0415001.
. programming, [J]. Acta Optica Sinica, 2016, 36(4): 0415001.
Zhu SP, Yan LN, LiZ. Stereo matching algorithm based on improved Census transform and dynamic
Zhu SP, Yan LN, LiZ. Stereo matching algorithm based on improved Census transform and dynamic
Zhu SP, Yan LN, LiZ. Stereo matching algorithm based on improved Census transform and dynamic
[14] 祝世平, 闫利那, 李政. 基于改进Census变换和动态规划的立体匹配算法[J]. 光学学报, 2016, 36(4): 0415001.
祝世平, 闫利那, 李政. 基于改进Census变换和动态规划的立体匹配算法[J]. 光学学报, 2016, 36(4): 0415001.
祝世平, 闫利那, 李政. 基于改进Census变换和动态规划的立体匹配算法[J]. 光学学报, 2016, 36(4): 0415001.
Crow FC. Summed-area tables for texture mapping[C]. ACM Conference on Computer Graphics and Interactive Techniques, 1984: 207- 212.
[15] Pires BR, SinghK, Moura J M F. Approximating image filters with box filters[C]. IEEE International Conference on Image Processing, 2011: 85- 88.
Pires BR, SinghK, Moura J M F. Approximating image filters with box filters[C]. IEEE International Conference on Image Processing, 2011: 85- 88.
Pires BR, SinghK, Moura J M F. Approximating image filters with box filters[C]. IEEE International Conference on Image Processing, 2011: 85- 88.
[17] 刘杰, 张建勋, 代煜. 基于区域增长的稠密立体匹配[J]. 机器人, 2017, 39(2): 182-188.
刘杰, 张建勋, 代煜. 基于区域增长的稠密立体匹配[J]. 机器人, 2017, 39(2): 182-188.
刘杰, 张建勋, 代煜. 基于区域增长的稠密立体匹配[J]. 机器人, 2017, 39(2): 182-188.
Liu J, Zhang J X, Dai Y. Dense stereo matching based on region growing[J]. Robot, 2017, 39(2): 182-188.
[21] WangL, Yang RG. Global stereo matching leveraged by sparse ground control points[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2011: 3033- 3040.
WangL, Yang RG. Global stereo matching leveraged by sparse ground control points[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2011: 3033- 3040.
WangL, Yang RG. Global stereo matching leveraged by sparse ground control points[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2011: 3033- 3040.
刘杰, 张建勋, 代煜, 苏赫. 基于跨尺度引导图像滤波的稠密立体匹配[J]. 光学学报, 2018, 38(1): 0115004. Jie Liu, Jianxun Zhang, Yu Dai, He Su. Dense Stereo Matching Based on Cross-Scale Guided Image Filtering[J]. Acta Optica Sinica, 2018, 38(1): 0115004.