激光与光电子学进展, 2018, 55 (12): 121005, 网络出版: 2019-08-01   

基于流形正则化随机游走的图像显著性检测 下载: 915次

Image Saliency Detection Based on Manifold Regularized Random Walk
作者单位
1 黄山学院信息工程学院, 安徽 黄山 245041
2 安徽大学计算机科学与技术学院, 安徽 合肥 230601
摘要
针对吸收马尔可夫随机游走方法未能充分抑制显著图的中心背景区域和丢失位于图像边界的显著目标的问题,提出一种基于流形正则化随机游走的图像显著性检测方法。首先以超像素作为节点对输入图像构造全局图,通过吸收马尔可夫链随机游走算法计算得到初始显著图,再对初始显著图利用自适应阈值分割获得稳健前景查询节点。其次,为有效利用图像全局信息和局部信息的互补性,构建局部正则图以获得局部最优相似度矩阵。最后,将获得的局部最优相似度矩阵和前景查询节点信息应用于流形正则化框架中得到最终显著值结果。在公共数据集上进行实验验证,结果表明,运用本文算法的显著性检测在查准率和查全率等评价指标方面均有提升。
Abstract
Owing to the problems of the absorbing Markov random walk method failing to fully suppress the central background area of the saliency map and losing parts of salient objects near the image boundary, an image saliency detection method based on manifold regularized random walk is proposed. First, a global graph with superpixels from the input image is constructed. An initial saliency map is obtained by using the absorbing Markov chain, and then an adaptive threshold is used to segment the initial saliency map to get robust foreground queries. Second, in order to make effective use of the complementarity of global information and local information, an optimal affinity matrix is obtained by constructing the local regular graph. Finally, the obtained optimal affinity matrix and foreground queries are applied in the manifold regularized framework to obtain the final saliency results. Experimental verifications are carried out on three public datasets. The results show that the precision and recall rate of saliency detection have been improved by the proposed method.

1 引言

随着物联网和移动智能成像设备的发展,互联网上的图像和视频信息爆炸式增加。在此大数据环境下,如何对海量信息实现快速分类处理显得尤为重要。在此背景下,视觉显著性检测技术应运而生,其目标是排除图像或视频中的背景信息,提取其中的显著目标或区域,从而降低图像理解等后续任务的复杂度。近年来,显著性检测已被广泛应用于图像/视频智能压缩[1]、图像自适应缩放[2]、目标识别[3-4]、图像拼接[5]等计算机视觉任务中。

从机器学习的样本标注角度对显著性检测模型进行分类,大致可分为有监督模型和无监督模型。其中有监督模型通过对训练样本的真值图进行学习得出显著目标检测器,其在样本真值标注、训练时间和硬件计算性能方面均有较高要求[6-7]。较之前者,无监督模型大都为基于底层视觉特征的自底向上检测方法[8-24],其运算速度快、无需预训练,因此灵活度较高。

近年来,基于图的自底向上显著性检测算法,通过引入图像中像素点之间的内在结构信息,取得了较好的检测效果[8-12,22]。此类算法受人类视觉注意机制启发,为解决计算复杂度问题,将图像分割为若干超像素,从而构造出图节点,再通过随机游走算法计算节点间的相似性。在此基础上,对大量图片进行统计可以发现,显著目标大都位于图像中心区域,而图像的边界区域为显著性目标的概率则较低,故而在图模型中加入背景先验有利于提高算法检测性能[9-12,22]。据此,Jiang等[9]基于随机游走算法,引入吸收马尔可夫链(AMC),在超像素构图中使用四边界节点作为吸收节点,计算图中其余节点到吸收节点的吸收时间作为显著值。但当图像中心区域为非显著目标时,利用该算法进行检测会给予较大显著值。为此,Sun等[11]在AMC的基础上进行改进(即MC15算法),将上边界和左边界超像素作为吸收节点,并引入三种改进策略以平滑显著目标内部和抑制背景。AMC和MC15算法均采用边界节点作为吸收节点,因此当显著目标出现在边界时,算法的查全率会大幅降低。同时,由于吸收时间计算方法的影响,中心背景区域的抑制仍未得到很好解决。Yang等[12]也将图像四周边界超像素作为初始背景查询节点,再进行基于背景和前景的流形排序获得最终显著图。该算法在第一级排序阶段也会将位于边界的显著目标误当作背景,但由于采用了流形正则化框架,在第二级排序中可修正此类错误。同时该算法采用局部正则图和流形正则化对相邻节点进行相似性约束,可有效抑制背景区域。受此启发,针对AMC算法未能充分抑制显著图的中心背景区域和丢失位于图像边界显著目标问题,本文运用全局图模型和AMC算法获得初始显著图,再构造局部正则图和引入流形正则化框架对初始结果进行优化。

2 算法原理

简单线性迭代聚类(SLIC)算法[25]相对于其他超像素分割算法具有运算速度快、内存占用少、像素块大小均匀、对图像中的边缘保留较好等优势,本文首先对输入图像采用SLIC超像素分割,在此基础上进行AMC的全局构图,形成吸收节点和暂态节点,计算暂态节点到吸收节点所需的时间作为该暂态节点的显著值,将各超像素的显著值赋予其所包含的像素点,得到初始显著图。再对超像素构建正则图,获得局部图的相似度矩阵。对初始显著图结果进行自适应阈值分割,大于阈值的超像素点作为前景种子节点,并运用流形正则框架计算出最终结果。整个算法的流程图如图1所示。

图 1. 本文算法流程图

Fig. 1. Flow chart of proposed algorithm

下载图片 查看所有图片

2.1 全局图模型构建

待构建的全局图记为G1=(Vg,Eg)。首先利用SLIC算法将输入图像分割为n个超像素,作为暂态节点。假设图中四边界的节点数目为k,作为吸收节点。为了获得所有节点到吸收节点的吸收时间,实现全尺寸显著图,需要复制四边界节点,因此全局图的超像素总个数为n+k,记为Vg={V1,V2,…,Vn,Vn+1,Vn+2,…,Vn+k}。节点之间的边连接规则[9]如下:1) 所有的吸收节点之间独立,没有边连接;2) 所有的边界节点之间两两连接;3) 暂态节点或者吸收节点与直接相邻和二阶相邻的暂态节点连接,记为Eg 。边的权重w表示为

wij=exp-ci-cjσ12,(1)

式中cicj分别为第i和第j个超像素点的CIELAB空间中的颜色向量,σ1为控制权重的常数。全局图示意如图 2所示,图中紫色框外的节点为复制的虚拟吸收节点,黄色圆点代表超像素,黑色连接线表示直接相邻节点,橙色连接线表示二近邻节点。

图 2. 全局图示意

Fig. 2. Global graph illustration

下载图片 查看所有图片

2.2 吸收马尔可夫链

对于暂态节点被吸收时间的计算,关键是获取图中各节点之间的转移概率矩阵P,其公式为[9]

P=Dg-1×A,(2)

式中:A为节点间的相似度矩阵,其元素记为aij;Dg为全局图的度矩阵,定义为 Dg=diagj=1n+kaij

相似度矩阵中元素aij定义如下 :1) 对角线上元素为1;2) i为暂态节点且j为其相连节点时,aij=wij;3) 其余元素均为0。先计算前n个暂态节点,后计算k个吸收节点,代入(2)式可计算出标准型转移概率矩阵P,P可简写为分块矩阵,即

P=Qn×nRn×k0k×nIk×k,(3)

式中Q为暂态节点之间的转移概率矩阵,R为暂态节点和吸收节点之间的转移概率矩阵,I为单位矩阵。

Q可得到吸收AMC的基本矩阵T=(I-Q)-1,其元素tij表示从暂态i出发到达暂态j所需要的期望时间,其行和表示暂态节点i在被吸收前所需的总期望时间。则所有暂态节点的被吸收时间可计算为

y=T×c,(4)

式中c为单位列向量,y为暂态节点被吸收时间构成的向量。

2.3 初始显著图计算

对(4)式进行归一化操作,可得所有超像素点的初始显著值

si=y-i,i=1,2,,n(5)

由(5)式得到超像素显著值,将其赋值给图中对应的像素,可获得初始显著图。初始显著图结果如图3(b)所示。

图 3. 初始显著图和最终显著图效果对比。(a)输入图像;(b)初始显著图;(c)最终显著图;(d)真值图

Fig. 3. Comparison results between initial saliency maps and final saliency maps. (a) Input images; (b) initial saliency maps; (c) final saliency maps; (d) ground truth

下载图片 查看所有图片

2.4 局部图模型构建

考虑节点间的流形结构,构造k正则图(k=2),记为G2=(Vl,El)。节点即为全局图中的V1,V2,…,Vn,边的连接规则[12]如下:1) 所有四边界超像素点两两连接,以构成闭环图;2) 所有节点与其直接相邻和二邻接节点相连。边权重矩阵W'中的元素定义为

w'ij=exp-ci-cjσ22,(6)

式中σ2为控制权重常数。局部图的度矩阵 Dl=diagj=1nw'ij局部正则图如图 4所示,与图 2相比,局部图模型减小σ2以增强节点间的边权重,同时无虚拟外部节点。

图 4. 局部正则图示意

Fig. 4. Local regular graph illustration

下载图片 查看所有图片

2.5 流形正则化

文献[ 12]中定义流形正则化框架如下:

f*=argminf12i,j=1nw'ijfidii-fjdjj2+αi=1nfi-yi2  ,(7)

式中diidjj分别为局部图的度矩阵第ij行的对角元素。第一项实现显著图相邻节点间的显著值尽量相似(平滑),第二项约束显著值尽量与指示向量y接近,α控制两项之间的比重。其优化求解结果为

f*=A'y,(8)A'=Dl-βW'-1,(9)

式中β=1/(1)。A' 为通过局部正则图学得的最佳相似度矩阵,指示向量y可由(5)式的初始显著值通过自适应阈值进行求解,阈值定义为 T=1ni=1nsiyi定义式为

yi=1,siT0,si<T(10)

将(10)式代入(8)式可计算出各超像素点最终的显著值,扩散赋值给每个像素点,得到最终显著图。其结果如图3(c)所示。

3 实验

在微软亚洲研究院1K数据集(MSRA1K,又称ASD)[16]、微软亚洲研究院10K数据集(MSRA10K)[17]和图像分割评价数据集(SED)[18]上进行测试。实验中超像素个数选取250,权重系数σ1σ2根据经验取值分别为10和8。将改进方法与9种已有图像显著性检测方法进行比较,各方法分别为协方差检测法(COV)[14]、快速有效检测法(FES)[20]、测地线检测法(GS)[10]、AMC[9]、MC15[11]、多尺度超像素检测法(MS)[21]、最小生成树检测法(MST) [22]、主成分分析法(PCA)[23]和显著值滤波检测法(SF) [24]。对实验结果在查准率、查全率和F-measure等指标方面进行定量分析,并给出定性分析效果图。

3.1 数据集

ASD数据集共包括1000张图片,该数据集上的真值图为像素级标注,虽然其中目标的种类变化多样,但大多数为单个目标,且目标与背景差异较为明显。使用简单显著性检测算法也能得到较好效果。MSRA10K数据集由MSRA-A和MSRA-B[19]中共选出10000张图片,并进行像素级标注,图片数目多使其具有很大挑战性。SED数据集共含有200张图片,分为SED1单目标和SED2双目标两个子集,各有100张。

3.2 评价指标

评价指标能够定量度量计算出的显著图与真值之间差异,可通过固定阈值和自适应阈值两种方式进行衡量[16]。固定阈值指分别计算0~255之间共256个阈值。自适应阈值将分割阈值定义为

T'=2w×hx=1hy=1ws(x,y),(11)

式中wh为当前图像的宽度和高度,s(x,y)为像素点(x,y)的显著值。利用阈值进行二值分割后的结果和真值进行比较,可得到查准率、查全率和F-measure值等评价指标。对固定阈值下计算得到的每对查准率-查全率(PR)可绘制出曲线,对自适应阈值下计算得到的查准率、查全率和F-measure值绘制柱形图。

将二值分割后的显著图结果记为M,真值图记为G。查准率定义为检测出为显著目标的总像素点中,对应在真值图中确实为显著目标的像素点数目所占的比例,即Rprecision= MG/ M。查全率定义为在真值图中确实为显著目标的像素点数目占真值图中所有显著目标像素点的比例,即Rrecall= MG/ G。通常情况下,查准率和查全率是相互矛盾的,利用F-measure值来衡量两者之间的比重。F-measure值为查准率和查全率的加权调和平均,定义为

Fλ=(1+λ)Rprecision×RrecallλRprecision+Rrecall,(12)

式中参数λ控制对查准率和查全率的偏好,在显著性检测算法中,λ=0.3[16]

3.3 定量分析

改进算法与AMC算法在ASD、MSRA10K和SED数据集上的PR曲线对比如图5所示。改进算法在SED数据集上提高幅度最大,因为在ASD和MSRA10K数据集上,AMC算法性能已表现出良好稳健性。改进算法与其他方法在以上数据集上的性能对比如图6~8所示。从PR曲线可知,尽管MC15算法也为AMC改进算法,但本文算法由于引入局部流形正则框架,其查准率和查全率均超过MC15算法。COV方法由于主要用于图像中人眼注意点的预测,故随着查全率的增加,查准率下降迅速,PR曲线也更陡。FES方法采用稀疏编码和核密度估计,运行速度上仅次于MST,但其查准率和查全率仅优于COV方法。PCA方法和SF方法在ASD和MSRA10K数据集上,PR曲线的前部分很接近,曲线后部分SF方法查全率持续降低,因为SF方法采用滤波对前景和背景的压制均较大,这点在后续的定性效果图里能明显发现。同时在SED数据集上,尽管PCA方法的PR曲线完全在SF上方,但其自适应阈值下的F-measure值却低于SF方法。由图8可知,SF方法的查准率和查全率差距更大,(11)式计算的F-measure对查准率更偏好,故SF方法计算得到的F-measure更高。MS方法采用多尺度融合计算最终显著值,因此在查全率和查准率方面较前几种方法均有提升,但在融合时也可能导致背景部分增加,例如在ASD数据集,其查全率高于MST,查准率却低于MST。MST方法由于采用最小生成树计算显著值,故其计算速度在所有比较方法中最快,由PR曲线前部分的空缺可知其查准率很高,在SED数据集上其F-measure值达到最高,但是在查全率方面不如改进算法。综上所述,改进算法在综合评价PR曲线和F-measure值方面达到最优。

图 5. 改进算法和AMC算法在三个数据集上的PR曲线对比。(a) ASD数据集;(b) SED数据集;(c) MSRA10K数据集

Fig. 5. PR curves of proposed method and AMC on three datasets. (a) ASD dataset; (b) SED dataset; (c) MSRA10K dataset

下载图片 查看所有图片

图 6. ASD数据集上各方法的(a) PR曲线和(b) F-measure值

Fig. 6. (a) PR curves and (b) F-measure values of all methods on ASD dataset

下载图片 查看所有图片

图 7. MSRA10K数据集上各方法的(a) PR曲线和(b) F-measure值

Fig. 7. (a) PR curves and (b) F-measure values of all methods on MSRA10K dataset

下载图片 查看所有图片

图 8. SED数据集上各方法的(a) PR曲线和(b) F-measure值

Fig. 8. (a) PR curves and (b) F-measure values of all methods on SED dataset

下载图片 查看所有图片

图 9. 各方法显著图视觉效果对比

Fig. 9. Visual comparisons between all methods

下载图片 查看所有图片

3.4 定性分析

图9所示为各方法的视觉效果图,从上到下依次为原图、真值图、本文算法、COV、FES、MC15、GS、AMC、MS、MST、PCA和SF。结果也验证了各算法的检测特点。COV方法注重寻找人眼注意点,因此整个显著目标检测比例低。FES方法由于采用稀疏编码,导致显著目标的轮廓较难检测。GS方法采用测地线距离计算显著值,能够凸显出图片中的显著目标,但对于背景部分难以抑制。MC15方法由于采用全局吸收时间计算显著值,导致当检测图像中心区域包含大面积背景时,无法抑制大幅背景,因此在MC15方法中采取了引导滤波,对结果进行平滑,但背景并未能消除。PCA方法采用主成分分析,对于显著目标的轮廓保留好,但无法均匀显示显著目标内部。SF方法对显著目标存在过分抑制,导致只能检测显著目标的部分信息。MST方法采用最小生成树和边界连通性计算显著值,当目标远离中心区域时检测性能欠佳[图9(c)、(d)、(g)]。改进算法在显著目标接触边界[图9(c)、(d)、(g)]和中心区域为大幅背景[图9(c)、(d)、(g)]时均能较好凸显显著目标和抑制背景。同时,尽管颜色特征已被证明是显著性检测中最重要的特征,大部分图片采用基于颜色特征的稳健检测算法即可获得准确检测结果,但在图片的显著目标和背景颜色相似度高时,各算法大都不能准确检测出显著目标[图9(h)、(i)],图9(i)背景较单一,MS方法采用多尺度故能检测出显著目标;但图9(h)背景复杂,MS方法在不同尺度下的误差叠加也导致检测失败。

4 结论

提出了基于流形正则化的随机游走显著性检测方法。构造的全局图模型利用AMC算法来计算图中节点在被吸收节点吸收前的全局吸收时间,并作为节点的显著值,故能够较准确地检测出场景中的显著目标。再针对全局图和AMC算法不能充分抑制背景区域和漏检边界显著目标的不足,引入局部正则图,挖掘相邻超像素间的流形结构以解决上述问题。在三个公开数据集上对其进行测试,实验结果表明,该方法与近几年的其他检测方法相比,在查准率、查全率和F值等评测指标上均表现出良好效果。本文算法采用超像素的颜色特征作为边权重度量,颜色是最容易引起人类视觉注意的因素,因此在显著性检测中被认为是最高效的特征。但针对复杂场景,例如背景色彩纹理复杂、显著目标与背景对比度低等场景,显著性检测性能仍有待提高。在未来工作中,需考虑引入纹理、梯度或深度等特征,并研究如何融合多特征以发挥不同特征间的互补作用来增强检测算法的稳健性。

参考文献

[1] Guo C L, Zhang L M. A novel multiresolution spatiotemporal saliency detection model and its applications in image and video compression[J]. IEEE Transactions on Image Processing, 2010, 19(1): 185-198.

[2] Feng S H, Xu D, Yang X. Attention-driven salient edge(s) and region(s) extraction with application to CBIR[J]. Signal Processing, 2010, 90(1): 1-15.

[3] Ren Z X, Gao S H, Chia L T, et al. Region-based saliency detection and its application in object recognition[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2014, 24(5): 769-779.

[4] 陈洋, 范荣双, 王竞雪, 等. 结合相位一致和分水岭变换的高分辨率遥感影像分割方法[J]. 激光与光电子学进展, 2017, 54(9): 092803.

    Chen Y, Fan R S, Wang J X, et al. Segmentation of high-resolution remote sensing image combining phase consistency with watershed transformation[J]. Laser & Optoelectronics Progress, 2017, 54(9): 092803.

[5] Goferman S, Tal A, Zelnik-Manor L. Puzzle-like collage[J]. Computer Graphics Forum, 2010, 29(2): 459-468.

[6] Zhang PP, WangD, Lu HC, et al. Amulet: aggregating multi-level convolutional features for salient object detection[C]∥2017 IEEE International Conference on Computer Vision (ICCV), 2017: 202- 211.

[7] 吴迪, 唐勇奇, 林国汉, 等. 基于显著性局部定向模式和深度学习的鲁棒人脸识别[J]. 光电子·激光, 2016, 27(6): 655-661.

    Wu D, Tang Y Q, Lin G H, et al. Roboust face recognition based on significance local directional pattern and deep learning[J]. Journal of Optoelectronics·Laser, 2016, 27(6): 655-661.

[8] Gopalakrishnan V, Hu Y Q, Rajan D. Random walks on graphs for salient object detection in images[J]. IEEE Transactions on Image Processing, 2010, 19(12): 3232-3242.

[9] Jiang BW, Zhang LH, Lu HC, et al. Saliency detection via absorbing markov chain[C]∥2013 IEEE International Conference on Computer Vision, 2013: 1665- 1672.

[10] Wei YC, WenF, Zhu WJ, et al. Geodesic saliency using background priors[C]∥European Conference on Computer Vision, 2012: 29- 42.

[11] Sun J G, Lu H C, Liu X. Saliency region detection based on markov absorption probabilities[J]. IEEE Transactions on Image Processing, 2015, 24(5): 1639-1649.

[12] YangC, Zhang LH, Lu HC, et al. Saliency detection via graph-based manifold ranking[C]∥2013 IEEE Conference on Computer Vision and Pattern Recognition, 2013: 3166- 3173.

[13] 成培瑞, 王建立, 王斌, 等. 基于多尺度区域对比的显著目标识别[J]. 中国光学, 2016, 9(1): 97-105.

    Cheng P R, Wang J L, Wang B, et al. Salient object detection based on multi-scale region contrast[J]. Chinese Optics, 2016, 9(1): 97-105.

[14] Erdem E, Erdem A. Visual saliency estimation by nonlinearly integrating features using region covariances[J]. Journal of Vision, 2013, 13(4): 11.

[15] 方志明, 崔荣一, 金璟璇. 交通场景静态显著性区域检测[J]. 激光与光电子学进展, 2017, 54(5): 051501.

    Fang Z M, Cui R Y, Jin J X. Static saliency region detection in traffic scenes[J]. Laser & Optoelectronics Progress, 2017, 54(5): 051501.

[16] AchantaR, HemamiS, EstradaF, et al. Frequency-tuned salient region detection[C]∥2009 IEEE Conference on Computer Vision and Pattern Recognition, 2009: 1597- 1604.

[17] Cheng M M, Mitra N J, Huang X L, et al. Global contrast based salient region detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 569-582.

[18] AlpertS, GalunM, BasriR, et al. Image segmentation by probabilistic bottom-up aggregation and cue integration[C]∥2007 IEEE Conference on Computer Vision and Pattern Recognition, 2007: 1- 8.

[19] Liu T, Yuan Z J, Sun J, et al. Learning to detect a salient object[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(2): 353-367.

[20] Tavakoli HR, RahtuE, HeikkiläJ. Fast and efficient saliency detection using sparse sampling and kernel density estimation[C]∥Scandinavian Conference on Image Analysis, 2011: 666- 675.

[21] Tong N, Lu H C, Zhang L H, et al. Saliency detection with multi-scale superpixels[J]. IEEE Signal Processing Letters, 2014, 21(9): 1035-1039.

[22] Tu WC, He SF, Yang QX, et al. Real-time salient object detection with a minimum spanning tree[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016: 2334- 2342.

[23] MargolinR, TalA, Zelnik-ManorL. What makes a patch distinct?[C]∥2013 IEEE Conference on Computer Vision and Pattern Recognition, 2013: 1139- 1146.

[24] PerazziF, KrähenbühlP, PritchY, et al. Saliency filters: contrast based filtering for salient region detection[C]∥2012 IEEE Conference on Computer Vision and Pattern Recognition, 2012: 733- 740.

[25] Achanta R, Shaji A, Smith K, et al. SLIC superpixels compared to state-of-the-art superpixel methods[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(11): 2274-2282.

汪丽华, 涂铮铮, 王泽梁. 基于流形正则化随机游走的图像显著性检测[J]. 激光与光电子学进展, 2018, 55(12): 121005. Lihua Wang, Zhengzheng Tu, Zeliang Wang. Image Saliency Detection Based on Manifold Regularized Random Walk[J]. Laser & Optoelectronics Progress, 2018, 55(12): 121005.

本文已被 2 篇论文引用
被引统计数据来源于中国光学期刊网
引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!