一种立体全景图像显著性检测模型 下载: 817次
1 引言
随着虚拟现实技术的发展,大量虚拟现实(VR)设备进入消费者市场,三维全景给用户提供全方位视角的同时给人以强烈的三维立体真实感,传统三维建模技术在它面前便表现得相形见绌[1]。此外,全景图像/视频在商业、直播、医疗、监控等各行各业得到广泛的应用。相比传统平面图像,全景图像的视野范围更广、场景也更为复杂。准确预测出人眼感兴趣的区域将为图像的传输、编码及渲染提供基础。目前,全景图像视觉注意机制中的显著性检测方法成为了研究热点。
在纷繁复杂的外界场景中,人类视觉系统总是能够快速并无意识地定位重要的目标区域并对其进行细致分析,而对其他区域仅进行粗略分析甚至忽略,人眼的这种主动选择性的视觉心理活动通常被称为视觉注意机制[2]。根据视觉注意力是否由大脑视皮层知识引导,现有的视觉显著性检测模型可分为两种类型:基于自底向上机制的模型和基于自顶向下机制的模型。自底向上机制是一种数据驱动的、与任务无关的感知过程,用于自然场景的自动显著区域选择[3-7];而自顶向下的机制受执行的任务、目标的特征分布等因素的影响[8-13]。根据检测任务的不同,现有的视觉显著性模型又可分为两种类型:视觉关注点/区域检测模型[14]和视觉显著对象检测模型[15]。
在过去几十年中,许多显著性检测模型成功应用于各种视觉处理,如重定向[16]、质量评价[17]、编码[18]、图像分割[19]等。Li等[20]在考虑图像细节和基于区域预测的基础上,提出利用正则化的随机漫步排序来构造基于超像素的背景和前景显著估计的像素显著映射。Zhou等[21]提出一种自底向上融合紧密性和局部对比度信息的显著区域检测方法。Goferman等[22]考虑到图像特征,提出了一种结合上下文信息的显著预测方法。Wang等[23]针对立体信息以及立体对的两个视图之间的相关性,提出了一种立体显著性检测算法。Xia等[24]根据人类视觉系统对中心-环绕(C-S)对比非常敏感的特点,构建了一个深度C-S推理网络来训练和学习不同的显著特征。
最近,VR在工业和学术界越来越受欢迎,其中,全景图像被广泛用于相关的VR应用中。Maugey等[25]将360°图像投影到双立方体中,然后通过特征提取模型的聚合来估计它们的显著性,所述特征提取模型包括基于图形的视觉显著性(GBVS)[26]、图像签名[27]、自适应美白显著性模型[28]、基于多尺度稀疏度的显著性检测模型[29]、布尔映射方法[30]和人脸检测器[31]。Lebreton等[32]将现有的二维图像视觉显著预测模型(GBVS[26])进行扩展并应用于ERP格式的全景图像,另外考虑到观察者更倾向于观看球体的赤道区域,提出一种将自适应赤道偏置和GBVS相结合的框架。Abreu等[33]利用融合显著图后处理方法来减小当前显著性模型的中心先验限制,通过水平平移获得4组360°图像,对使用显著性模型预测得到的显著图进行平均处理。Xu等[34]提出了一种生成对抗性模拟学习(GAIL)算法用于模仿人类头部轨迹并进行训练学习。在多个深度强化学习(DRL)模型中,根据生成的头盔(HM)轨迹采样头部固定位置以预测显著信息。Chen等[35]提出了一种用于360°图像显著预测的局部-全局深度网络,通过两个深度子网络获得显著特征,最后利用线性组合生成最终的显著结果。
目前,三维全景能够为用户提供全方位视角,与二维图像的视觉注意力模型不同,立体图像的视觉注意力模型需要考虑图像的深度特征。近年来,研究人员开发了大量的算法来检测平面及立体图像的显著区域,但对立体全景图像显著性的研究较少。分析现有的显著预测模型[21,36]可以发现,颜色对比度较高的区域总是会具有视觉独特性。另外,考虑到背景区域在整个图像上具有较宽的分布,而显著对象则具有紧凑的空间分布。因此本文将经典的平面显著预测模型扩展到立体全景显著预测方法中。本文研究的创新点是:1)不同于平面显著提取方式,本文结合了等矩形投影(ERP)和立方体投影(CMP)两种投影格式分别提取全局和局部特征,解决了全景图像特有的采样失真问题;2)本文将平面显著预测模型和立体显著深度信息相结合,全面提取了立体全景显著特征,取得了较好的效果。将本文方法在ODI数据库上进行测试,得到的图像质量预测效果良好且准确,与其他方法相比,本文方法对显著性的预测性能更为出色。
2 投影格式转换
近几年研究人员针对传统2D图像的显著预测技术进行了广泛的研究,然而,这些模型不能直接应用于球面图像。全景图像都是球形的,为了计算全景图像的显著性,人们将球体映射到2D图像上,如
3 显著性检测方法
本文介绍的模型可有效地预测全景图像的显著性。整体框架图如
3.1 多尺度线性迭代聚类超像素分割
人类视觉系统在感知和理解一幅图像时偏向于关注整块区域而不是单独孤立的像素点。与传统的分块方法不同的是,简单线性迭代聚类(SLIC)算法[37]可以很好地保持对象的完整度。因此本文利用SLIC对图像进行预处理,并进行图像区域分割,以相对简单的格式表示图像并能减少图像的冗余。Cheng等[38]所用的图像分割方法是基于图的方法,虽然基于图的分割算法也能快速产生超像素,但是超像素的数量和形状是无法控制的。鉴于此,本文采用基于SLIC的方法对图像进行分割,在CIELAB颜色空间利用SLIC算法提取第k个超像素块hk(k=1,…,i,…,j,…,K),其中K为图像I的总超像素个数。根据所需的超像素个数K初始化种子并计算超像素之间的距离。其中,距离度量包括颜色差异和空间距离,两个距离的计算方法分别为
式中:ci和cj分别表示超像素hi和hj的颜色值;
si和sj分别表示超像素hi和hj的空间位置;l、a、b为CIELAB颜色空间中的3个通道变量;li,ai,bi表示超像素hi在Lab三个通道的颜色空间值;lj,aj,bj表示超像素hj在Lab三个通道的颜色空间值;mi,ni分别表示超像素hi的横、纵坐标值;mj和nj分别表示超像素hj的横、纵坐标值;D(ci,cj)为hi和hj的颜色差异;D(si,sj)为hi和hj的空间距离。
在本实验中,考虑到全景图像较平面图像的复杂度更高、分辨率也更大等特征,采用了多尺度超像素分割,即
式中:
图 3. SLIC对全局图像的超像素分割结果。(a)原始图像;(b)K=1200的超像素分割结果;(c)K=600的超像素分割结果;(d)K=300的超像素分割结果
Fig. 3. Results of superpixel segmentation of SLIC for global images. (a) Original images; (b) results of superpixel segmentation for K=1200; (c) results of superpixel segmentation for K=600; (d) results of superpixel segmentation for K=300
图 4. 局部图像超像素分割结果。(a)原始图像;(b)CMP 6个投影面;(c)K=600的超像素分割结果图
Fig. 4. Results of superpixel segmentation of local images. (a) Original images; (b) six projection surfaces of CMP; (c) results of superpixel segmentation for K=600
3.2 颜色相似度计算
针对全景图像的数据量更大、视野范围更广、场景也更为复杂等特点,为了减少需要考虑的颜色数目,采用了颜色量化的方法。另外,本文以超像素块作为基本元素来进行计算,以提高计算效率。如果定义超像素块hi的颜色值为ci,ci在CIELAB空间表示为ci=(li,ai,bi),那么计算图像中各量化后颜色出现的频率就可以表示为f(ci)=
观察现有的视觉显著模型可以发现,颜色对比度较高的区域总是会具有视觉独特性。如果一种颜色与图像中其他颜色的对比度较高,那么在视觉上,这种颜色通常就表现出较强的显著性。基于这一观察,对于任一幅彩色图像I,可以定义某个像素块的显著性是该像素块与其他所有像素块之间的颜色对比度之和,即
式中:D(hi,hK)为像素块hi和hK之间的颜色对比度。
此外,像素块hi和hj之间的颜色对比度又可定义为ci和cj的欧氏几何距离,即
对于图像I中任意两个相同颜色的像素块hj和hk,有D(hi,hj)=D(hi,hk),显著性只与像素块hi的颜色值ci相关。因此,将(4)式右边相同颜色的像素进行整合,即
式中:f(ci)是颜色值ci在图像I中出现的频率。
本文选取若干图片进行实验,得到的结果如
图 5. 原始图像和基于颜色相似度得到的显著图。(a)原始图像;(b)基于颜色相似度得到的显著图
Fig. 5. Original images and saliency maps achieved based on color similarity. (a) Original images; (b) saliency maps achieved based on color similarity
3.3 区域对比度计算
当前景区域与某些背景区域类似时,整体对比度方法可能会错误地抑制前景,而局部对比度方法可以基于前景区域与相邻区域的对比度突出显示前景。本文使用紧凑权重公式来抑制错误突出显示的背景区域,即
式中:Wij为像素间的权重信息;σ为常量;Ni为hi的邻域集。
一幅图像中,突出对象通常被背景区域包围。在空间域中,与显著颜色相比,背景区域的颜色通常在整个图像上具有较大的分布。因此,在图像中显示较大颜色分布使显著的可能性更低,超像素hi的空间方差为
式中:N为像素点个数;Nj是超像素块hj的像素点个数;zj为hj的质心(质心作为坐标轴的原点,记为[
心理物理学研究表明,人们在拍照时通常会在图像中心附近拍摄感兴趣的物体[39]。显然,突出的对象更有可能在图像中心附近,并且背景通常分布在整个图像上。超像素与图像中心的空间距离为
式中:Z为图像质心的空间坐标向量,Z=[
因此,基于区域对比度的显著结果的计算公式为
式中:Norm(x)为将x规范化为0和1之间的函数。
图 6. 原始图像和基于区域对比度得到的显著图。(a)原始图像;(b)基于区域对比度得到的显著图
Fig. 6. Original images and saliency maps achieved based on local contrast. (a) Original images; (b) saliency maps achieved based on local contrast
3.4 基于颜色相似度和区域对比度的显著性检测
若假设输入的彩色图像为I,基于颜色对比度得到的显著图为
式中:β为权重因子,本文为了提高计算效率取β=0.5。
3.5 全局视觉和局部视觉显著融合
所提出的融合方法首先需要将同一个立方体中的每6个局部显著图重新投影为ERP格式,利用简单乘积的融合方式将ERP图和CMP图进行融合。如
对于全景图像,用户可以通过自由移动眼睛和头部进行观看,但目前存储的都是ERP格式,另外,考虑到图像都会存在的中心区域(即赤道区域)偏置的问题[40],因此本文通过对等矩形平面上的像素赋予不同的权重来模拟球面的信息权重。根据ERP格式特征,加权窗口随着相对于赤道线的距离的减小而增加,权重大小只与纵坐标有关。对于M×R(长度×宽度)的等矩形投影格式的图像,加权窗口为
式中:(X, Y)代表图像的横纵坐标。
此外,研究表明人眼对场景中心区域和周围区域会表现出不同程度的视觉注意机制[41],也就是说,那些与图像几何中心位置越近的像素点,一般具有越强的视觉显著性,随着像素点在图像中心偏离程度的增大,其视觉显著性也随之下降。本文采用高斯核函数模拟人眼视觉的中心-偏移特性:
式中:CB(hi)为超像素hi的高斯核函数;(
4 结果与分析
4.1 数据库
为了验证本文方法的有效性和准确性,本文采用数据库[42]对算法的性能进行测试,数据库由96个立体ODI组成,包含了许多含有复杂背景和各种小物件的室内或室外全景图像。ODI的分辨率大小在1920 pixel×960 pixel与4640 pixel×2320 pixel之间。
4.2 主观评估
与二维图像的视觉注意力模型不同,立体图像的视觉注意力模型需要考虑图像的深度特征,本文利用光流估计算法[43]得到视差结果。为了更准确地检测立体图像视觉显著区域,需要同时考虑各种低层次特征及深度感知特征对视觉注意分布的影响[44-46]。本文通过将二维图像的显著图和深度特征线性进行结合得到立体图像的视觉显著图。
图 9. 立体显著结果。(a)原始图像;(b)视差图;(c)立体显著图;(d)最终融合显著图
Fig. 9. 3D saliency maps. (a) Original images; (b) disparity maps; (c) stereoscopic saliency maps; (d) final fused saliency maps
本文选取了6种经典的视觉显著性检测模型进行对比:GBVS模型[26]、RR模型[20]、RD模型[21]、CA模型[22]、TC模型[23]以及SAE模型[24]。实验中,直接采用作者提供的源代码或者可执行程序对这些对比算法的性能进行测试。其中,GBVS、RR及RD模型用于平面显著模型,TC模型用于立体图像显著模型,SAE模型中所提供的代码用于全景图像的显著性检测,因此,为了使测量结果具有可比性,对比模型分数都是通过融合左图像及深度信息得到的。
图 10. 不同显著性检测模型的性能比较
Fig. 10. Comparison of performance of different saliency detection models
4.3 显著性检测客观评价结果
为了更加客观地评估本文方法的有效性,采用曲线面积(AUC)、相关系数(CC)、KL散度(KLD)、准确率-召回率(PR)曲线以及综合指标(F-measure)值进行客观评价[35]。CC为显著图和真实显著图之间的线性相关程度,KLD用于测量这两个分布之间的差异。
表 1. 不同客观评价模型的性能评价指标比较
Table 1. Comparison of performance evaluation indexes of different objective evaluation models
|
此外,本文还采用自适应阈值对显著结果进行二值化分割,自适应阈值Ta为
式中:SSal(i, j)为像素(i,j)的显著值大小。基于自适应阈值,显著图被分为“正例”和“负例”。然后,根据准确率和召回率计算评价模型好坏的统计量F值:
式中:F为用于衡量分类模型好坏的指标;β2=0.3。
从
表 2. ERP和CMP投影格式的性能指标比较
Table 2. Comparison of evaluation performance of ERP and CMP projection formats
|
图 12. 不同显著模型的precision、recall、F-measure值比较
Fig. 12. Precision, recall, and F-measure of different saliency models
但是,本文方法也存在一定的局限性。由于目前在立体全景领域比较成熟的显著预测模型还比较少,实验中的6种对比方法是分别基于平面、立体或全景图像模型并结合深度信息获得的。另外,针对模型而言,倘若场景中的显著区域与背景区域的颜色特征差异较小或者对于一些特殊的背景比较复杂的图像,本文方法的实验效果并不十分理想。因此,接下来的工作不仅需要考虑低层次特征还应该融合高层次语义特征以提取显著特征。
5 结论
提出了一种立体全景显著性的预测模型,该模型结合颜色相似度及区域对比度这两种底层特征进行显著性检测,通过融合全局视觉注意力和局部视觉显著性得到二维图像的显著性结果。最后,针对全景投影的特点进行加权滤波并且结合深度感知信息得到最终的立体全景显著图。实验结果表明,该模型在ODI数据库中具有较好的性能。在接下来的工作中,考虑基于全景投影多视口来探究立体全景显著性检测。另外,人眼视觉舒适度也是需要考虑的问题,深入探索引起视觉不舒适的因素并设计相关的评价模型有助于立体全景图像/视频技术从采集到渲染等各环节的优化,从而对研究更高视觉舒适度的立体全景图像/视频系统提供参考。
[3] Palmer S E. Vision science: photons to phenomenology[J]. The Quarterly Review of Biology, 2001, 76(4): 523-524.
[4] Chang KY, Liu TL, Chen HT, et al.Fusing generic objectness and visual saliency for salient object detection[C] //2011 International Conference on Computer Vision, November 6-13, 2011, Barcelona, Spain.New York: IEEE Press, 2011: 914- 921.
[5] Fang YM, ChiZ, LiJ, et al.Visual attention modeling for stereoscopic video[C] //2016 IEEE International Conference on Multimedia & Expo Workshops (ICMEW), July 11-15, 2016, Seattle, WA, USA.New York: IEEE Press, 2016: 1- 6.
[6] 纪超, 黄新波, 曹雯, 等. 基于深度学习的图像显著区域检测[J]. 激光与光电子学进展, 2019, 56(9): 091007.
[7] Li S Q, Zeng C, Fu Y, et al. Optimizing multi-graph learning based salient object detection[J]. Signal Processing: Image Communication, 2017, 55: 93-105.
[8] 李艳荻, 徐熙平. 基于超像素时空特征的视频显著性检测方法[J]. 光学学报, 2019, 39(1): 0110001.
[9] 崔丽群, 陈晶晶, 齐博华, 等. 基于背景抑制和前景更新的显著性检测[J]. 激光与光电子学进展, 2020, 57(2): 021002.
[10] LiuT, Yuan ZJ, SunJ, et al.Learning to detect a salient object[C] //IEEE Transactions on Pattern Analysis and Machine Intelligence.New York: IEEE Press:353- 367.
[11] Yang JM, Yang MH. Top-down visual saliency via joint CRF and dictionary learning[C] //2012 IEEE Conference on Computer Vision and Pattern Recognition, June 16-21, 2012, Providence, RI, USA.New York: IEEE Press, 2012: 2296- 2303.
[13] 赵恒, 安维胜. 结合深度学习的图像显著目标检测[J]. 激光与光电子学进展, 2018, 55(12): 121003.
[14] 曲海成, 田小容, 刘腊梅, 等. 多尺度显著区域检测图像压缩[J]. 中国图象图形学报, 2020, 25(1): 31-42.
[15] 张莹莹, 葛洪伟. 基于图和多特征传播的图像显著性检测[J]. 激光与光电子学进展, 2020, 57(4): 041020.
[17] YangS, Jiang QP, Lin WS, et al. SGDNet: an end-to-end saliency-guided deep neural network for No-reference image quality assessment[C] //MM '19: Proceedings of the 27th ACM International Conference on Multimedia. New York: ACM, 2019: 1383- 1391.
[20] Li CY, Yuan YC, Cai WD, et al.Robust saliency detection via regularized random walks ranking[C] //2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 7-12, 2015, Boston, MA, USA.New York: IEEE Press, 2015: 2710- 2717.
[21] Zhou L, Yang Z H, Yuan Q, et al. Salient region detection via integrating diffusion-based compactness and local contrast[J]. IEEE Transactions on Image Processing, 2015, 24(11): 3308-3320.
[22] GofermanS, Zelnik-ManorL, TalA. Context-aware saliency detection[C] //IEEE Transactions on Pattern Analysis and Machine Intelligence.New York: IEEE Press: 1915-1926.
[25] MaugeyT, Le MeurO, LiuZ. Saliency-based navigation in omnidirectional image[C] //2017 IEEE 19th International Workshop on Multimedia Signal Processing (MMSP), October 16-18, 2017, Luton, UK.New York: IEEE Press, 2017: 1- 6.
[26] HarelJ, KochC, PeronaP, Graph-based visual saliency[C] //Advances in Neural Information Processing Systems 19, Proceedings of the 2006 Conference.Cambridge: MIT Press, 2017: 545- 552.
[28] Garcia-Diaz A, Fdez-Vidal X R, Pardo X M, et al. Saliency from hierarchical adaptation through decorrelation and variance normalization[J]. Image and Vision Computing, 2012, 30(1): 51-64.
[29] Riche N, Mancas M, Duvinage M, et al. RARE2012: a multi-scale rarity-based saliency detection with its comparative statistical analysis[J]. Signal Processing: Image Communication, 2013, 28(6): 642-658.
[30] Zhang JM, SclaroffS. Saliency detection: a Boolean map approach[C] //2013 IEEE International Conference on Computer Vision, December 1-8, 2013, Sydney, NSW, Australia. New York: IEEE Press, 2013: 153- 160.
[31] Zhu XX, RamananD. Face detection, pose estimation, and landmark localization in the wild[C] //2012 IEEE Conference on Computer Vision and Pattern Recognition, June 16-21, 2012, Providence, RI, USA.New York: IEEE Press, 2012: 2879- 2886.
[33] de AbreuA, OzcinarC, SmolicA. Look around you: saliency maps for omnidirectional images in VR applications[C] //2017 Ninth International Conference on Quality of Multimedia Experience (QoMEX), May 31-June 2, 2017, Erfurt, Germany. New York: IEEE Press, 2017: 1- 6.
[35] Chen DW, Qing CM, Xu XM, et al.SalBiNet360: saliency prediction on 360° images with local-global bifurcated deep network[C] //2020 IEEE Conference on Virtual Reality and 3D User Interfaces (VR), March 22-26, 2020, Atlanta, GA, USA. New York: IEEE Press, 2020: 92- 100.
[36] 邵枫, 姜求平, 蒋刚毅, 等. 基于显著性分析的立体图像视觉舒适度预测[J]. 光学精密工程, 2014, 22(6): 1631-1638.
[37] Achanta R, Shaji A, Smith K, et al. SLIC superpixel compared to state-of-the-art superpixel methods[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(11): 2274-2282.
[38] ChengM, ZhangG, MitraN, et al.Global contrast based salient region detection[C] //In Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition (CVPR).New York: IEEE Press, 2011: 409- 416.
[40] Safavi S M, Sundaram S M, Gorji A H, et al. Application of infrared scanning of the neck muscles to control a cursor in Human-Computer Interface[J]. 39th Annual International Conference of the IEEE Engineering in Medicine and Biology Society, July 11-15, 2017, Jeju, Korea (South), South Korea., 2017: 787-790.
[41] 崔丽群, 杨振忠, 段天龙, 等. 基于复合先验知识的显著性目标检测方法[J]. 激光与光电子学进展, 2020, 57(10): 101019.
[42] CrociS, KnorrS, SmolicA. Sharpness mismatch detection in stereoscopic content with 360-degree capability[C] //2018 25th IEEE International Conference on Image Processing (ICIP), October 7-10, 2018, Athens, Greece.New York: IEEE Press, 2018: 1423- 1427.
[43] Sun DQ, RothS, Black MJ. Secrets of optical flow estimation and their principles[C] //2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, June 13-18, 2010, San Francisco, CA, USA.New York: IEEE Press, 2010: 2432- 2439.
[44] 王阿红, 郁梅, 彭宗举, 等. 一种基于人眼视觉特性的立体图像质量客观评价方法[J]. 光电工程, 2011, 38(1): 134-141.
[45] Fang YM, Wang JL, NarwariaM, et al.Saliency detection for stereoscopic images[C] //IEEE Transactions on Image Processing.New York: IEEE Press, 2014: 2625- 2636.
Article Outline
邱淼淼, 柴雄力, 邵枫. 一种立体全景图像显著性检测模型[J]. 激光与光电子学进展, 2021, 58(8): 0810002. Miaomiao Qiu, Xiongli Chai, Feng Shao. Saliency Detection Model for Stereoscopic Panoramic Images[J]. Laser & Optoelectronics Progress, 2021, 58(8): 0810002.