全局模型和局部优化的深度网络显著性检测 下载: 1028次
1 引言
基于视觉注意机制的显著性检测对图像分析具有非常重要的意义。注意机制是人类信息加工过程中的一项重要心理调节机制,能够对有限的信息资源进行分配,使感知具备选择能力。若能将这种机制引入图像分析领域,将计算资源优先分配给容易引起观察者注意的区域,必将极大提高现有图像处理分析方法的工作效率。因此,显著性检测已经受到国内外学者的广泛关注,然而,随着应用场景的日益复杂和准确率要求的不断提高,显著性检测算法仍在持续的发展和完善之中。
传统的显著性检测方法,大多采用特定的先验知识来近似人眼视觉注意机制并结合手工提取目标的颜色、纹理、形状等特征作为显著性判断的依据,如对比度测量[1-2]、中心先验[3]、背景先验[4]等。Kim等[1]利用目标与背景的颜色对比差异,将目标映射到高维线性空间进行显著性区域的划分。Zhu等[3]将图像中心物体设定为目标,边界先验的判断为背景,提出边界连通性的概念进行定量分析,再对目标进行显著性分割。Yan等[5]利用超像素对图像进行多尺度分析,通过不同尺度之间的继承性分析图像全局与局部的特性,再利用随机森林回归生成显著图。此外,还有基于微分方程求解的方法[6]、基于频域分析的方法[7]等。
为了更加精确地表达显著性目标的特征,研究方法趋向于对图像的多层级分解、局部与全局特征的结合,以及对高维特征向量的表述等。然而,这些基于先验知识和人工提取的特征通常基于对目标数据库的观察而设计,在未知的自然图像和日益复杂的场景应用中容易受到限制。近年来,深度神经网络技术在机器学习和人工智能领域产生了革命性的变化,如图像分类[8]、目标检测[9]、人脸识别[10]等。此类方法可以自动地在原始图像上提取分层特征,考虑图像全局因素,并且具有较好的通用性和移植性,在显著性检测领域也逐渐得到应用。
Wang等[11]首先利用卷积神经网络(CNN)对每个像素的局部区域预测显著性得分,再从全局角度对候选区域的显著性进行精细化微调。Lee等[12]利用VGG-16网络提取图像的高级特征,再利用手工设计的特征对规则化的超像素区域提取低级特征,最后添加全连接层进行联合训练,判断区域的显著性。Liu等[13]利用递归神经网络(RNN)将不同图像区域进行上下文联系,再设计与CNN对称的反卷积结构,端到端地生成全分辨率显著图。Li等[14]使用多尺度的CNN特征预测每一个超像素候选区域的显著性得分。相似地,Zhao等[15]利用两个独立的卷积网络分别从全局和局部的角度对多级上下文信息进行联合建模,生成显著图。
相比于上述提到的诸多方法,本文利用卷积神经网络分别提取图像的全局特征和局部特征。其中,全局特征利用改进的VGG-16模型从图像的整体角度对潜在的目标进行定位,局部特征利用手工设计的特征向量构造初始特征图,再构造神经网络进行训练,判断每个分割区域的显著性,结合多级分割的方法可以实现更加精细的划分,最后对多个显著图进行融合得到最终结果。
2 算法模型
2.1 全局模型
在全局模型的构建上,设计了端到端的卷积网络,通过网络训练可以将输入图像直接映射为显著图,模型结构如
该网络初始化的设定如文献[
8]所述,采用在大数据集ILSVRC12上得到的训练模型参数,在训练阶段,利用标准显著图和随机梯度下降法进行有监督的学习,再利用额外增加的卷积层和全连接层合并分辨率相同的5个图像{
2.2 局部优化模型
局部模型利用邻域像素之间的颜色、纹理等特征提取吸引人注意的点或区域,采用简单线性迭代聚类(SLIC)分割方法对图像进行多级划分。针对图像
区域对比度描述子对每一个超像素区域构造一个特征向量,包括颜色和纹理特征,记为
式中
表 1. 对比度描述子特征向量
Table 1. Feature vectors of contrast descriptor
|
区域特性描述子为利用区域自身特性建立的描述子,记为
表 2. 区域特性描述子参数
Table 2. Parameters of regional feature descriptor
|
区域显著性得分是将上述两种描述子作为超像素分割区域的特征向量,则每一个区域可以得到一个75维的特征向量
每个超像素点构造成20×20×75维的初始特征距离图,作为网络的输入,按照
2.3 显著图融合
通过全局和局部模型共得到
图 4. 各步骤显著图结果。(a)原图;(b)全局模型;(c)局部优化图;(d)最终显著图;(e)标准显著图
Fig. 4. Saliency maps of different steps. (a) Original images; (b) global models; (c) images of local optimization; (d) final saliency maps; (e) ground truth images
式中权重系数
此外,还可以采用条件随机场(CRF)的方法对多级显著图进行融合[14,17],然而,针对本文的情况,简单的线性组合即可得到较为满意的结果,生成与复杂算法近似的最终显著图。
3 实验仿真及对比分析
3.1 测试数据集及训练参数
为了对本文方法进行验证,在通用的4个数据集中进行测试,4个数据集分别为SOD、ECSSD、PASCAL-S和MSRA。SOD数据集来源于伯克利大学的目标分割数据库,共包含300幅图像,每幅图像包含多个不同尺寸和位置的目标。ECSSD数据集共1000张来源于网络的图像,其更贴近真实场景下的图像,因此具有复杂的场景。PASCAL-S是在PASCAL VOC 2012数据集中选出的部分图像制作的显著性检测数据集,共850幅,图像包含多个目标和复杂背景,是目前最难以检测的数据集之一。MSRA数据集由微软亚洲研究院发布,共5000幅图像,该数据集包含大量不同类别的目标,但多数图像仅包含一个显著性目标。以上4个数据集均包含手工标注和标准显著图供算法验证。在实验中,选用MSRA中的3000幅图像,以及CSSD和PASCAL-S中各300幅图像作为训练集,其余图像作为测试集。
为了对本文方法的性能进行评价,使用准确率-召回率(PR)曲线和F-measure平均测量误差(MAE)对算法进行定量分析,其中,PR曲线通过不同的阈值对显著图进行划分,并将二值图像与标准显著图进行对比,F-measure曲线定义为
式中
本文方法的实现利用深度学习框架Caffe[18]进行训练和测试,在全局模型中,首先将输入图像映射为224 pixel×224 pixel,新添加的网络层初始学习率设为0.01,原VGG-16网络层为0.001,冲量参数为0.9,权重延迟为0.0005。
3.2 性能对比
将本文方法与目前较为流行的HDCT[1]、GC[2]、wCtr[3]、DRFI[4]、MR[5]、主成分分析(PCA)[19]、视觉显着性(GBVS)[20]、LEGS[11]和SF[15]等方法进行对比,所用的实验结果和显著图均为原文中公开的数据。
成的显著图不清晰,无法定位目标中心的准确位置。本文方法在这些复杂情况下均获得了较为理想的显著性提取。分析原因,本文模型的成功之处在于包含了两种不同的注意机制,全局模型的训练关注图像的整体,使其可以检测到图像中的多个目标区域,不受孤立噪声的影响;而局部模型起到优化的作用,因此检测到的结果更加准确精细。
图 5. 4个数据集下不同方法的PR曲线。(a) SOD; (b) PASCAL-S; (c) CSSD; (d) MSRA
Fig. 5. PR curves of four data sets with different methods. (a) SOD; (b) PASCAL-S; (c) CSSD; (d) MSRA
表 3. 不同方法下的F-measure得分对比
Table 3. Comparison of F-measure scores with different methods%
|
图 6. 本文方法与其他方法显著图对比。(a)原图;(b)标准显著图;(c)本文方法;(d) LEGS;(e) DRFI;(f) HDCT; (g) wCtr;(h) PCA;(i) GBVS
Fig. 6. Visual comparisons of our results and others. (a) Original images; (b) ground truth images; (c) proposed method; (d) LEGS; (e) DRFI; (f) HDCT; (g) wCtr; (h) PCA; (i) GBVS
4 结论
提出了一种基于深度神经网络训练的显著性检测方法,该方法通过全局模型和局部模型两种网络结构构造多级显著图,再利用线性组合的方法进行融合,生成最终的精细显著图。其中,全局模型可以有效地利用全局显著性特征预测每一个目标区域的显著性值,局部模型可以从划分的多级超像素点中学习到目标的局部对比度、纹理和形状信息。此外,局部模型的初始特征是利用手工设计的方法进行提取,再结合神经网络进行训练,两种方法的结合有助于提取更有针对性的特征并提高网络模型的训练速度。测试数据集的实验表明,本文方法可以得到更加准确的显著性检测结果。
[1] Kim J, Han D, Tai Y W, et al. Salient region detection via high-dimensional color transform and local spatial support[J]. IEEE Transactions on Image Processing, 2016, 25(1): 9-23.
Kim J, Han D, Tai Y W, et al. Salient region detection via high-dimensional color transform and local spatial support[J]. IEEE Transactions on Image Processing, 2016, 25(1): 9-23.
[3] Zhu WJ, LiangS, Wei YC, et al. Saliency optimization from robust background detection[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2014: 2814- 2821.
Zhu WJ, LiangS, Wei YC, et al. Saliency optimization from robust background detection[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2014: 2814- 2821.
[4] Jiang HZ, Wang JD, Yuan ZJ, et al. Salient object detection: a discriminative regional feature integration approach[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2013: 2083- 2090.
Jiang HZ, Wang JD, Yuan ZJ, et al. Salient object detection: a discriminative regional feature integration approach[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2013: 2083- 2090.
[5] YanQ, XuL, Shi JP, et al. Hierarchical saliency detection[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2013: 1155- 1162.
YanQ, XuL, Shi JP, et al. Hierarchical saliency detection[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2013: 1155- 1162.
[6] Liu RS, Cao JJ, Lin ZS, et al. Adaptive partial differential equation learning for visual saliency detection[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2014: 3866- 3873.
Liu RS, Cao JJ, Lin ZS, et al. Adaptive partial differential equation learning for visual saliency detection[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2014: 3866- 3873.
[7] JiangP, VasconcelosN, Peng JL. Generic promotion of diffusion-based salient object detection[C]. IEEE International Conference on Computer Vision, 2015: 217- 225.
JiangP, VasconcelosN, Peng JL. Generic promotion of diffusion-based salient object detection[C]. IEEE International Conference on Computer Vision, 2015: 217- 225.
[8] 刘大伟, 韩玲, 韩晓勇. 基于深度学习的高分辨率遥感影像分类研究[J]. 光学学报, 2016, 36(4): 0428001.
刘大伟, 韩玲, 韩晓勇. 基于深度学习的高分辨率遥感影像分类研究[J]. 光学学报, 2016, 36(4): 0428001.
[9] GirshickR, DonahueJ, DarrellT, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2014: 580- 587.
GirshickR, DonahueJ, DarrellT, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2014: 580- 587.
[10] TaigmanY, YangM, Ranzato MA, et al. Deepface: closing the gap to human-level performance in face verification[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2014: 1701- 1708.
TaigmanY, YangM, Ranzato MA, et al. Deepface: closing the gap to human-level performance in face verification[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2014: 1701- 1708.
[11] Wang LJ, Lu HC, RuanX, et al. Deep networks for saliency detection via local estimation and global search[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2015: 3183- 3192.
Wang LJ, Lu HC, RuanX, et al. Deep networks for saliency detection via local estimation and global search[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2015: 3183- 3192.
[12] LeeG, Tai YW, KimJ. Deep saliency with encoded low level distance map and high level features[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2016: 660- 668.
LeeG, Tai YW, KimJ. Deep saliency with encoded low level distance map and high level features[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2016: 660- 668.
[13] LiuN, Han JW. DHSNet: deep hierarchical saliency network for salient object detection[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2016: 678- 686.
LiuN, Han JW. DHSNet: deep hierarchical saliency network for salient object detection[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2016: 678- 686.
[14] Li GB, Yu YZ. Visual saliency based on multiscale deep features[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2015: 5455- 5463.
Li GB, Yu YZ. Visual saliency based on multiscale deep features[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2015: 5455- 5463.
[15] ZhaoR, Ouyang WL, Li HS, et al. Saliency detection by multi-context deep learning[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2015: 1265- 1274.
ZhaoR, Ouyang WL, Li HS, et al. Saliency detection by multi-context deep learning[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2015: 1265- 1274.
[16] 刘峰, 沈同圣, 韩艳丽, 等. 融合背景感知和颜色对比的显著性检测方法[J]. 计算机辅助设计与图形学学报, 2016, 28(10): 1705-1712.
刘峰, 沈同圣, 韩艳丽, 等. 融合背景感知和颜色对比的显著性检测方法[J]. 计算机辅助设计与图形学学报, 2016, 28(10): 1705-1712.
Liu Feng, Shen Tongsheng, Han Yanli, et al. Saliency detection via background aware and color contrast[J]. Journal of Computer-Aided Design & Computer Graphics, 2016, 28(10): 1705-1712.
[17] KrähenbühlP, KoltunV. Efficient inference in fully connected CRFs with Gaussian edge potentials[C]. Advances in Neural Information Processing Systems, 2011: 109- 117.
KrähenbühlP, KoltunV. Efficient inference in fully connected CRFs with Gaussian edge potentials[C]. Advances in Neural Information Processing Systems, 2011: 109- 117.
[18] Jia YQ, ShelhamerE, DonahueJ, et al. Caffe: convolutional architecture for fast feature embedding[C]. 22nd ACM International Conference on Multimedia, ACM, 2014: 675- 678.
Jia YQ, ShelhamerE, DonahueJ, et al. Caffe: convolutional architecture for fast feature embedding[C]. 22nd ACM International Conference on Multimedia, ACM, 2014: 675- 678.
[19] MargolinR, TalA, Zelnik-ManorL. What makes a patch distinct?[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2013: 1139- 1146.
MargolinR, TalA, Zelnik-ManorL. What makes a patch distinct?[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2013: 1139- 1146.
[20] LiY, Hou XD, KochC, et al. The secrets of salient object segmentation[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2014: 280- 287.
LiY, Hou XD, KochC, et al. The secrets of salient object segmentation[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2014: 280- 287.
刘峰, 沈同圣, 娄树理, 韩冰. 全局模型和局部优化的深度网络显著性检测[J]. 光学学报, 2017, 37(12): 1215005. Feng Liu, Tongsheng Shen, Shuli Lou, Bing Han. Deep Network Saliency Detection Based on Global Model and Local Optimization[J]. Acta Optica Sinica, 2017, 37(12): 1215005.