基于改进拉普拉斯金字塔的HDR图像色调映射算法
1 引言
高动态范围(HDR)图像的亮度范围远超低动态范围(LDR)图像,在诸多领域[1]扮演着重要的角色。普通显示设备受硬件成本限制,无法直接显示HDR图像。为此,学者们提出一种用于压缩HDR图像亮度范围的算法,此类算法被统称为HDR图像色调映射算法[2]。
最初的色调映射算法采用全局映射法,即将同一个函数应用于图像中所有的像素。Lee等[3]引入了一种非对称曲线,改进了传统视网膜模型,并基于此提出了新型全局色调映射算法。Khan等[4]提出了一种结合人类视觉系统灵敏度模型的全局色调映射算法。全局色调映射算法易于实现,不容易产生伪影,但由此生成的低动态范围图像通常对比度较低,容易丢失图像细节。与全局映射算法相比,局部映射算法加入了局部区域的像素统计信息,能够更好地保留图像的局部细节。Reinhard等[5]在映射时加入了邻域内的像素信息,提出了一种经典的局部色调映射算法。
随着深度学习技术在图像领域的发展,HDR图像色调映射算法愈发丰富。Montulet等[6]将U-Net和Patch-GAN分别作为生成器与鉴别器,提出深度卷积生成对抗网络(DCGANs),该网络取得较好的效果。Cao等[7]提出一种自适应色调映射算法,在条件生成对抗网络(cGAN)的基础上进行相应优化。上述方法虽然取得较好的效果,但基于生成对抗网络(GAN)结构的网络计算开销较大,在处理高分辨率HDR图像时难以取得速度与效果间的平衡。Liang等[8]提出了一种将HDR图像进行多层分解后再重组的算法,避免了光晕伪影的问题,但该算法在HDR图像低亮度区域的图像细节保留度较低。同时,色调映射算法性能的最佳标准是人类的主观感知,上述算法在构建的过程中未充分考虑主观感知对算法性能的影响。
针对上述问题,本文提出了一种基于改进拉普拉斯金字塔[9]的色调映射算法。该算法将预处理后的HDR图像进行拉普拉斯分解,分解为高频层和低频层,分别输入全局提取网络与局部调整网络,然后将融合后的输出图像输入微调网络,得到主观感知效果优越的LDR图像。为增强子网络的特征提取能力,设计了自适应分组卷积模块(AGCM),通过自适应选取卷积核尺寸来获取更丰富的图像结构信息。在数据集构建过程中引入主观感知实验[10],搭建主客观相结合的质量评价模型来优化所构建的数据集,最终取得较好的效果。
2 色调映射算法
2.1 网络架构
所提的色调映射网络由3个子网络组成,分别为全局提取网络、局部调整网络以及微调网络,如
局部调整网络主要由5个卷积层组成,其目的是优化HDR图像中的高频信息部分,即分解后的高频层Ih。除了最后一层卷积外均采用卷积核大小为3的卷积并使用ReLU激活函数和批标准化对卷积结果进行处理。最后一层采用卷积核大小为1的卷积将卷积结果融合,加入跳跃连接结构来保持图像的结构。全局提取网络的结构与局部调整网络类似,倒数第2个卷积层中将激活函数修改为Sigmoid函数以增强卷积结果的非线性。AGCM模块是为了增强网络对局部信息和全局信息的综合理解能力。微调网络由2个AGCM模块和4个卷积层构成,用于优化由高频层输出图像和低频层输出图像融合后的重建图像。
为使网络能够快速高效地获取图像特征并对图像进行调整,针对3个子网络设计了不同的损失函数。L1损失和L2损失都是深度学习中最为著名且常用的损失函数。L1损失用于度量输出图像和参考图像之间差值的绝对值之和,L1可表示为
式中:n为输入图像的数量;
特征损失[11]使用已经在ImageNet数据集上预先训练好的16层VGG网络来衡量两幅图像在语义信息上的差异。该损失函数能够衡量两幅图像之间不同层次特征之间的相似性,相较于上述2种损失,其更注重图像的高维特征。特征损失
式中:
式中:
式中:
式中:
2.2 改进的拉普拉斯金字塔
传统拉普拉斯金字塔可以将图像的全局亮度信息压缩到较低分辨率而不牺牲细节,另一方面,对低分辨率图像进行卷积运算可以有效降低计算复杂度,从而降低对计算设备的要求。利用拉普拉斯金字塔可以将HDR图像分割成n个不同的频带,最低频带包含原始图像的亮度信息,而其他频带则包含了局部细节和纹理信息。然而,采用传统拉普拉斯金字塔进行分解也具有劣势,低频层的信息需要被极大地压缩,高频层需要被局部调整,仅使用单个网络无法完成所有任务。如果使用n个不同的网络来处理不同频带的图像,会大大增加整体网络的复杂度和计算量。
为此,改进传统拉普拉斯金字塔,具体如
2.3 自适应分组卷积模块
全局提取网络和微调网络需要兼具获取图像全局特征和局部特征的能力。Zhang等[12]采用双分支来提取不同的图像信息并通过空洞卷积扩大感受野来提升网络获取全局信息的能力。ExpandNet[13]采用了3种卷积核大小不同的分支结构来获取不同的图像信息,并且在局部和细节分支中采用了编解码器结构来捕获全局特征。上述方法虽然都能获取全局特征信息,但都存在一些问题。空洞卷积会导致输出图像出现棋盘格伪影,而编解码器结构需要固定大小的输入,这使得网络需要调整输出图像的大小来保证与原图的一致性,可能破坏原有的全局信息。
受Ioannou等[14]提出的分组卷积启发,提出了一种增强网络获取全局和局部信息能力的自适应分组卷积模块,如
式中:b=1。
2.4 色调映射数据集构建
参考Hu等[16]和Yang等[17]提出的方法,首先从网络上收集了大量HDR图像(其中大约80%的图像来自公开数据集,例如拉瓦尔室内HDR数据集[17],其余图像来自免费的摄影图片网站),将其统一剪裁并调整大小,共收集HDR图像1040张。挑选了4种色调映射方法来生成对应的LDR图像,包含了Durand TMO[18]、Reinhard TMO[5]、Liang等[8]算法以及Yang等[17]算法,参考图像将从这些图像中产生。鉴于数据集规模较大,人工筛选成本高,构建一个适用于所提的色调映射评价模型是十分必要的。
首先,从1040张HDR图像中选择60张不同主题的高质量HDR图像,这些图像的主题分为3类,分别为室内场景、人像以及自然场景,每种主题包含20张HDR图像。然后,采用4种算法进行映射,共生成240张图像,使用同一张HDR图像映射得到的4张LDR图像为一组。每次实验前,随机调整图像组的顺序,每组图像内部也随机排序,每幅图像不设置观察时间限制,观察结束后受测者对图像进行评分。受测者的观测位置如
表 1. 实验评分标准
Table 1. Grading standard of experiment
|
鉴于所提的色调映射评价模型与无参考图像质量评价任务[20]非常相似,决定通过建立多种图像特征与MOS之间的映射关系来完成评价模型。色调映射算法的目的是在降低亮度范围的同时尽可能保留原有的图像信息,亮度信息、边缘信息、图像细节与图像失真都是需要关注的特征。采用平均亮度值
式中:
式中:
在图像处理领域,清晰的图像一般被认为具有更明晰的边缘,也就具有更大的梯度函数值,因此将其作为表示边缘信息的特征。
色调映射算法是对HDR图像进行亮度压缩的算法,为衡量LDR图像所保留的图像细节,采用Yeganeh等[22]提出的统计自然度模型。
式中:
式中:
使用多元非线性回归模型来学习从上述多种特征到MOS的映射,模型采用sklearn包来实现。训练集和测试集按照8∶2的比例随机抽取,通过计算预测值和真实值的斯皮尔曼线性相关系数(SROCC)和皮尔逊线性相关系数(PLCC)来判断模型性能,重复实验100次取平均值,PLCC为0.9177,SROCC为0.9168。将训练好的模型用于对剩余所有图像的评分预测,同一组中预测得分最高的图像作为HDR图像的LDR参考图像,至此完成了数据集的构建。
3 算法性能分析
3.1 图像预处理及实现细节
由于构建数据集的图像来源较为复杂,为便于统一处理,将分辨率较高(图像分辨率大于1024 pixel✕512 pixel)的图像裁剪至1024 pixel✕512 pixel,调整分辨率略低于该尺寸的图像至1024 pixel✕512 pixel,删除分辨率过低的图像。数据集中随机抽取90%的图像对作为训练集,剩余10%的图作为测试集。为进一步增强网络针对不同尺寸图像的泛化能力,将训练样本进行随机下采样,下采样范围为原有尺寸的50%~100%,每张图像会生成9张子图像,与原图一起输入网络,共9360个训练图像样本。子网络的初始输入图像为单通道灰度图像,以此降低网络运算量,提升训练速度。网络最后的输出图像亦为灰度图像,经过颜色恢复[25]得到最终图像,具体可表示为
式中:
表 2. 系统配置
Table 2. System configuration
|
3.2 客观性能分析
为验证色调映射算法的客观性能,采用3个评价指标,分别为TMQI[22]、FSITM[26]、HDR-VDP2[27]。TMQI是一个著名的色调映射算法评价指标,其综合了结构相似度和统计自然度来对映射后的LDR图像进行评价,其值越接近1,说明LDR图像质量越好。FSITM通过计算不同通道间HDR图像与对应LDR图像的相似度来评价色调映射算法的结果,其值越接近1则说明对应图像间的特征越相似。HDR-VDP2是一种模拟HVS解剖结构的视觉指标,也可以用于度量色调映射算法的性能,其值越大,则说明算法性能越好。
选取4种HDR图像色调映射领域先进的方法来进行对比。Reinhard TMO通过考察每个像素不同尺寸的邻域,调整亮度不适宜的区域,以此来完成色调映射。Durand TMO是一个经典的色调映射算法,其将HDR图像分解为基础层和细节层,通过双边滤波器将基础层进行对比度压缩,再和细节层进行融合。该算法通过单个参数控制映射效果,本文中该参数采用文献[18]中的默认值。Liang等提出了一种更加先进的多尺度色调映射方案,所得到的图像具有良好的视觉感知效果且产生的伪影较少。Yang等提出了一种通过频带高低划分HDR图像层次并以此进行分解,采用多个卷积神经网络来完成色调映射任务的算法,能够保留更多的图像细节。
表 3. 不同方法的客观指标对比
Table 3. Comparison of objective indexes of different methods
|
表 4. 算法平均运行时间对比
Table 4. Comparison of average running time of algorithms
|
3.3 主观性能分析
主观感知实验是比较不同HDR图像色调映射算法结果的有效方法。从测试集中随机抽取30个编号并选取编号对应的LDR图像(由4种对比方法和本文方法生成),总共150幅图像。实验过程中,每组图像出现的顺序随机,组内图像出现的顺序亦随机。实验设置和评分标准参考
实验结束后采用SPSS软件对实验结果进行分析,软件版本号为20.0。分析结果如
表 5. 各变量因素对图像质量评分的ANOVA分析结果
Table 5. Results of ANOVA analysis for different factors on image quality score
|
3.4 消融实验
为了验证提出的自适应分组卷积模块在两个子网络中的有效性,设计了相应的消融实验。消融实验采用的子网络结构如
图 7. 消融实验的网络结构。(a)无AGCM模块;(b)仅全局提取网络包含AGCM模块;(c)仅微调网络包含AGCM模块
Fig. 7. Network structure of ablation experiment. (a) Without AGCM module; (b) only global extraction network contains AGCM module; (c) only fine tone network contains AGCM module
表 6. 消融实验结果对比
Table 6. Comparison of the results of ablation experiment
|
为了更好地探究网络中各个子网络的作用,对各个子网络也进行消融实验,实验结果如
图 8. 子网络消融实验。(a)仅包含全局提取网络;(b)仅包含局部调整网络;(c)仅包含微调网络;(d)不包含全局提取网络;(e)不包含局部调整网络;(f)不包含微调网络;(g)完整的网络
Fig. 8. Ablation experiment of subnets. (a) Only contain global extraction network; (b) only contain local adjustment network; (c) only contain fine tone network; (d) without global extraction network; (e) without local adjustment network; (f) without fine tone network; (g) whole network
为探究损失函数中各个子函数的系数对算法性能的影响,采用不同的系数组合进行实验。初始时将
图 9. α和β的参数实验结果。(a)参数组合对应的TMQI数值;(b)参数组合对应的FSITM数值;(c)参数组合对应的HDR-VDP2数值
Fig. 9. Parametric experimental results of α and β. (a) Value of TMQI corresponding to the parameter combination; (b) value of FSITM corresponding to the parameter combination; (c) value of HDR-VDP2 corresponding to the parameter combination
4 结论
提出了一种基于改进拉普拉斯金字塔的HDR图像色调映射算法。算法借助拉普拉斯金字塔将HDR图像分解为高频层和低频层,分别使用局部调整网络和全局提取网络进行处理,融合后得到感知效果优越的LDR图像。该算法针对单个子网络难以同时获取图像局部和全局特征的问题,设计了自适应分组卷积模块来提升网络的特征提取能力。此外,在数据集构建过程中引入主观感知实验,优化了构建的数据集。经过论述,所提算法得到的LDR图像色彩鲜明且自然,保留的图像细节也较为丰富,从客观上看,本文算法的TMQI、HDR-VDP2均有优势,从主观上看,本文方法具有更加优越的主观感知效果。未来将进一步优化网络结构,使其在参数量更小的情况下具备更好的性能。
[1] 汤璐, 卢荣胜, 史艳琼, 等. 基于YCbCr空间融合的高动态范围成像方法[J]. 激光与光电子学进展, 2022, 59(14): 1415029.
[2] 赵鹏, 余新, 杨亚涛. 基于光转向的高动态范围激光显示[J]. 激光与光电子学进展, 2022, 59(5): 0512002.
[3] Lee D H, Fan M, Kim S W, et al. High dynamic range image tone mapping based on asymmetric model of retinal adaptation[J]. Signal Processing: Image Communication, 2018, 68: 120-128.
[4] Khan I R, Rahardja S, Khan M M, et al. A tone-mapping technique based on histogram using a sensitivity model of the human visual system[J]. IEEE Transactions on Industrial Electronics, 2018, 65(4): 3469-3479.
[5] ReinhardE, StarkM, ShirleyP, et al. Photographic tone reproduction for digital images[C]∥Proceedings of the 29th annual conference on Computer graphics and interactive techniques, July 23-26, 2002, San Antonio, Texas. New York: ACM Press, 2002: 267-276.
[7] CaoX, LaiK, YanushkevichS N, et al. Adversarial and adaptive tone mapping operator for high dynamic range images[C]∥2020 IEEE Symposium Series on Computational Intelligence (SSCI), December 1-4, 2020, Canberra, ACT, Australia. New York: IEEE Press, 2021: 1814-1821.
[8] LiangZ T, XuJ, ZhangD, et al. A hybrid l1-l0 layer decomposition model for tone mapping[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA. New York: IEEE Press, 2018: 4758-4766.
[9] Jin C, Deng L J, Huang T Z, et al. Laplacian pyramid networks: a new approach for multispectral pansharpening[J]. Information Fusion, 2022, 78: 158-170.
[10] Di Gregorio F, Trajkovic J, Roperti C, et al. Tuning alpha rhythms to shape conscious visual perception[J]. Current Biology, 2022, 32(5): 988-998.e6.
[11] Wang Y, Karimi H A. Perceptual loss function for generating high-resolution climate data[J]. Applied Computing and Intelligence, 2022, 2(2): 152-172.
[12] Zhang Z M, Han C, He S F, et al. Deep binocular tone mapping[J]. The Visual Computer, 2019, 35(6): 997-1011.
[13] Marnerides D, Bashford-Rogers T, Hatchett J, et al. ExpandNet: a deep convolutional neural network for high dynamic range expansion from low dynamic range content[J]. Computer Graphics Forum, 2018, 37(2): 37-49.
[14] IoannouY, RobertsonD, CipollaR, et al. Deep roots: improving CNN efficiency with hierarchical filter groups[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE Press, 2017: 5977-5986.
[15] WangQ L, WuB G, ZhuP F, et al. ECA-net: efficient channel attention for deep convolutional neural networks[C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 13-19, 2020, Seattle, WA, USA. New York: IEEE Press, 2020: 11531-11539.
[16] HuL T, ChenH J, AllebachJ P. Joint multi-scale tone mapping and denoising for HDR image enhancement[C]∥2022 IEEE/CVF Winter Conference on Applications of Computer Vision Workshops (WACVW), January 4-8, 2022, Waikoloa, HI, USA. New York: IEEE Press, 2022: 729-738.
[18] Durand F, Dorsey J. Fast bilateral filtering for the display of high-dynamic-range images[J]. ACM Transactions on Graphics, 2002, 21(3): 257-266.
[19] Yang Z Y, Dai Q H, Zhang J S. Visual perception driven collage synthesis[J]. Computational Visual Media, 2022, 8(1): 79-91.
[20] Chen B, Zhu L, Kong C, et al. No-reference image quality assessment by hallucinating pristine features[J]. IEEE Transactions on Image Processing, 2022(31): 6139-6151.
[21] Lü M N, Gan H, Liu X, et al. Selection of optimal focusing evaluation function based on sparse microscopic images[J]. Journal of Physics: Conference Series, 2022, 33: 6139-6151.
[22] Yeganeh H, Wang Z. Objective quality assessment of tone-mapped images[J]. IEEE Transactions on Image Processing, 2013, 22(2): 657-667.
[23] Mittal A, Moorthy A K, Bovik A C. No-reference image quality assessment in the spatial domain[J]. IEEE Transactions on Image Processing, 2012, 21(12): 4695-4708.
[24] Mittal A, Soundararajan R, Bovik A C. Making a “completely blind” image quality analyzer[J]. IEEE Signal Processing Letters, 2013, 20(3): 209-212.
[25] FattalR, LischinskiD, WermanM. Gradient domain high dynamic range compression[C]∥Proceedings of the 29th annual conference on Computer graphics and interactive techniques, July 23-26, 2002, San Antonio, Texas. New York: ACM Press, 2002: 249-256.
[26] Ziaei Nafchi H, Shahkolaei A, Farrahi Moghaddam R, et al. FSITM: a feature similarity index for tone-mapped images[J]. IEEE Signal Processing Letters, 2015, 22(8): 1026-1029.
[27] Mantiuk R, Kim K J, Rempel A G, et al. HDR-VDP-2: a calibrated visual metric for visibility and quality predictions in all luminance conditions[J]. ACM Transactions on Graphics, 2011, 30(4): 1-14.
Article Outline
张博文, 夏振平, 张跃渊, 程成, 刘宇杰. 基于改进拉普拉斯金字塔的HDR图像色调映射算法[J]. 激光与光电子学进展, 2024, 61(4): 0437009. Bowen Zhang, Zhenping Xia, Yueyuan Zhang, Cheng Cheng, Yujie Liu. Tone Mapping Algorithm for High Dynamic Range Images Based on Improved Laplacian Pyramid[J]. Laser & Optoelectronics Progress, 2024, 61(4): 0437009.