基于自监督学习的光场空间域超分辨成像
1 引言
光场相机获取的光场数据存在空间分辨率与角度分辨率之间制约的限制,通过计算成像的方法利用光场数据在空间和角度域的约束信息构建数学模型和算法,可以将光场在空间域、角度域或空-角域联合进行超分辨成像[1-4]。本文针对光场的空间域超分辨率成像问题进行研究,利用深度学习中的生成模型实现光场超分辨重构。
现有关于光场超分辨成像的技术手段可分为3大类:基于几何投影的方法、基于优化的方法和基于深度学习的方法[5]。
基于几何投影的方法主要依据光场相机的成像原理,通过获取不同视角子孔径图像之间的视差(几何)信息对目标视图进行超分辨。Lim等[6]将二维子孔径图像在空间维度上的亚像素位移投影到凸集上来获取高分辨率图像。Nava等[7]利用重聚焦原理,将其他视图的像素投影到中心视图,得到当前场景的超分辨率全聚焦图像。
光场超分辨率重构的优化方法利用4D光场结构信息和对实际拍摄场景的先验假设来构建成像的物理模型,将问题转化为对目标泛函进行优化求解的数学问题。Wanner等[8-9]使用结构张量方法从极平面图像(EPIs)估计视差图,将基于深度的光场重构问题表述为基于全变差正则化的能量最小化问题,对估计的低分辨率视差图进行上采样,来实现对光场的空间域和角度域超分辨重构。Rossi等[10]利用不同光场视图信息并结合图正则化器来对光场的几何结构进行约束实现光场的空间超分辨重构。
基于深度学习的光场超分辨成像技术在近几年取得了令人瞩目的进展。Yoon等[11]提出基于卷积神经网络(CNN)的超分辨方法LFCNN,首次将深度卷积神经网络用于光场的空间域和角度域超分辨,采用有监督学习的方法获得高分辨率的空间和角度超分辨光场数据。Zhang等[12]提出一种基于残差结构的卷积神经网络(ResLF)用于光场空间域子孔径图像超分辨。Liang等[13]通过设计角度和空间Transformers,充分提取光场的有效信息,实现光场角度域和空间域超分辨重构。为了有效利用耦合在空间域和角度域中的视差信息,Wang等[14]设计了空间、角度、极平面等3种解耦卷积运算,并基于解耦机制设计了光场空间域超分辨重构神经网络模型DistgSSR。
上述基于深度学习的光场超分辨重构方法均为有监督学习的方法,模型的超分辨性能依赖于在大量的低分辨率和高分辨率光场数据对所构成的数据集上的训练结果。实际应用中,采集大量场景的高分辨率光场数据较困难,并且在光场相机成像参数和场景有限的条件下训练获取的深度学习模型在新场景和新成像参数下的泛化性能较弱。针对这些问题,大量关于单张图像超分辨的自监督学习模型被提出[15-18],其中,Lempitsky等[16]以神经网络结构本身作为图像表示学习的先验,不需要大规模训练数据集,仅以原始低分辨率图像作监督即可实现单张图像超分辨率成像。
受deep image prior(DIP)[16]启发,本文将自监督学习方法引入光场数据的空间域超分辨重构任务,在神经网络模型架构设计时引入多尺度结构,并由此定义多尺度损失函数,与全变差正则化和均方误差损失函数结合,设计出一种新的基于自监督学习的光场空间域超分辨方法,记为DIP-LFSR。所提方法基于自监督学习对光场空间域进行超分辨率成像,不依赖大规模的成对训练数据集,采用多尺度神经网络结构提取各子孔径图像中不同尺度的图像特征[19],构建多尺度损失函数,使模型在重构高分辨率的子孔径图像时能够利用耦合在子孔径图像中的视差信息,在多个添加噪声的数据集上数值结果和视觉效果均优于普通插值方法和有监督方法。
2 基于自监督学习的光场空间域超分辨成像
DIP-LFSR是一种生成模型,利用神经网络来表示从低维输入数据到高维的高分辨率图像之间的映射关系。这种基于神经网络的数据表示方式本身包含良好的结构先验,能有效捕获图像中的低频信息,神经网络的强大表示能力使得模型经过训练后能够有效表示图像中的高频信息[20]。DIP-LFSR对神经网络生成的高分辨率图像进行降采样获得与原始采集到的低分辨率图像同样维度的数据,并将其作为模型训练的监督信息,这种基于自监督学习的方法将超分辨图像重构问题转换化成了一个有条件的图像生成问题。
实现光场空间域超分辨重构的DIP-LFSR方法主要包含两部分:1)获取高分辨率光场生成模型的网络架构;2)自监督学习的损失函数。
2.1 超分辨模型框架
图 1. 基于自监督学习的光场空间域超分辨流程图
Fig. 1. Flow chart of light field spatial-domain super-resolution based on self-supervised learning
采用双平面法表示光场数据,对于采集到的低分辨率光场
式中:编码向量
为了利用采集到的低分辨光场数据
式中:
为了提高模型的稳定性和抗噪声干扰能力,在损失函数中引入正则化项,则光场超分辨率重构任务可表述为如下优化问题:
式中:
将
Hessian正则化是目前较好的高阶正则化方法,但是由于Hessian正则项的高度非线性和不可微性,图像去模糊和去噪过程耦合度高,求解算法的复杂度高[22-23]。本研究选择深度学习中常用的一种正则项——全变差(TV)正则化来对神经网络生成的高分辨率图像的分布进行约束。Rudin等[24]的研究表明:受噪声污染的图像的全变差比无噪声图像的全变差明显更大,最小化全变差正则化损失函数可以抑制图像超分辨重构带来的噪声,从而获得较为平滑的输出图像。由此构建的光场空间域超分辨重构模型不仅利用了神经网络强大的低频和高频信息表示能力,而且通过在损失函数中加入全变差正则化
对于一组光场数据
式中:
2.2 多尺度网络结构
在
编码模块
2.3 损失函数设计
采用最小均方误差(MSE)作为损失函数训练获得的图像容易出现边缘模糊或者过于平滑的问题,为了提升重构高分辨率光场数据的质量,对于损失函数进行改进。
为了利用神经网络中间层不同尺度特征图中的信息,将图像分割任务中的多尺度特征提取思想[29]用于定义光场空间域超分辨成像的多尺度损失函数,这种多尺度思想在图像去模糊的任务中表现了良好的性能[30]。以MSE损失函数为基础构建多尺度损失
根据在U-Net加入的多尺度结构中不同层输出的图像特征定义多尺度损失函数[29],具体为:将U-Net的解码器中每一层输出作为多尺度的超分辨重构图像的预测结果,都与已有的低分辨图像构建损失,由此定义模型损失函数。在没有引入多尺度损失之前,普通的DIP方法进行光场超分辨任务时构建的损失就是网络最终的输出
式中:
为了调整不同尺度空间中图像堆栈在损失函数中的贡献,对各层的损失函数
式中:
综合以上的MSE损失函数、全变差损失函数和多尺度损失函数,DIP-LFSR模型的训练采用如下损失函数:
式中:系数
3 数值实验
3.1 实验设定
3.1.1 数据集
数值实验使用合成和真实场景采集的光场数据集来评估DIP-LFSR模型在光场空间域超分辨重构任务上的效果,所采用的数据集包括:HCI(new)[31]、HCI(old)[32]、Stanford[33]、EPFL[34]、Synthetic[32]、INRIA_Lytro[35]。每个数据集均选取两个场景(scene)的光场数据用于测试。如果没有特殊说明,每个场景都选取9个视角
表 1. 不同测试数据集、场景及光场子孔径图像的尺寸
Table 1. Dimensions of different test data sets, scenes and light field sub-aperture images
|
3.1.2 模型训练设定与对比方法
DIP-LFSR的输入数据
在上述模型参数设定下进行对比实验,通过对比不同方法在不同参数设置下对光场图像空间域的超分辨结果,验证DIP-LFSR的有效性,对比方法如下:
1)插值方法Bicubic。传统的插值方法有邻近插值、双线性插值和双三次插值,其中,双三次插值的超分辨结果比其他两种插值方法保持更平滑的图像边缘,因此选用双三次插值方法Bicubic与所提方法进行对比。
2)DIP。将原始的自监督学习的方法DIP记为基准算法。
3)DIP-LFSR方法。DIP-LFSR进行光场图像超分辨时对所有视点图像同时超分辨,只需要进行一次超分辨就能得到整个光场图像的超分辨结果,所需要的时间更短,同时图像空间域和角度域信息相互耦合,因此可用信息更多。
4)DistgSSR[14]方法。Wang等[14]所提出的有监督学习的方法,需要使用大量成对的数据集进行训练。
5)DIP-SAISR方法。用最基本的方法对光场空间域进行超分辨重构,对每一张子孔径图像逐张用DIP超分辨,记为DIP-SAISR。
3.1.3 量化评价指标
选用图像量化评价指标峰值信噪比(PSNR)[39]、structural similarity(SSIM)[40]和LPIPS[41]来对超分辨率重构的光场质量进行评估。PSNR用来评价两组图像像素值差异,对于超分辨率重构光场数据x和真实光场数据y,PSNR的表达式为
式中:
SSIM用来衡量两幅图像的结构相似程度,定义为
式中:
LPIPS用来评价两幅图像的感知相似度。
3.2 实验结果
3.2.1 不同方法对比
本小节展示不同光场空间域超分辨重构方法在不同高斯噪声水平(标准差记为
3.2.1.1 评价指标定量结果
通过数值实验来对DIP-LFSR与有监督学习方法DistgSSR[14]和传统的插值方法进行对比。具体比较的方法有:Bicubic、DIP、DIP-LFSR和 DistgSSR。
表 2. 时,不同方法在不同数据集上对光场空间域分别进行2倍、4倍和8倍超分辨重构的平均结果
Table 2. When , the average results of different methods for 2 times, 4 times and 8 times super-resolution reconstruction of the light field space domain on different datasets
|
表 3. 以2倍超分辨为例,不同方法在每个数据集上超分辨的量化评价指标结果
Table 3. Taking 2 times super-resolution as an example, the quantitative evaluation index results of different methods super-resolution on each dataset
|
从
3.2.1.2 视觉展示
以origami场景为例,加入
图 3. 不同超分辨方法在含噪声( )的origami场景上对光场空间域进行2倍超分辨重构的视觉效果
Fig. 3. Visual effects of two times super-resolution reconstruction of light field spatial-domain in noisy origami scene ( ) using different super resolution methods
图 4. 不同超分辨方法在含噪声( )的books场景上对光场空间域进行2倍超分辨重构的视觉效果
Fig. 4. Visual effects of two times super-resolution reconstruction of light field spatial-domain in noisy books scene( ) using different super-resolution methods
3.2.2 噪声对超分辨重构的影响
对于选取的12个场景的光场数据集,通过对其分别添加
表 4. 在不同程度的噪声影响的情况下,不同方法在所选6种数据集上对光场空间域分别进行2倍和4倍超分辨重构的平均结果
Table 4. In the case of different degrees of noise influence, the average results of 2 and 4 times super-resolution reconstruction of the light field space domain by different methods on the selected six datasets
|
结合
图 5. stilllife场景的 子孔径图像及对比方法进行光场空间域超分辨重构结果的EPI展示,模拟噪声水平 。(a)光场子孔径图像;(b)真实EPI;(c)双三次插值的超分辨结果的EPI;(d)DIP-LFSR超分辨结果的EPI;(d)有监督方法DistgSSR超分辨结果的EPI
Fig. 5. The sub-aperture images of the stilllife scene and the EPI of the super-resolution results, the simulated noise level . (a) Light field sub-aperature images; (b) ground truth of EPI; (c) EPI of the Bicubic interpolated light field; (d) EPI of the DIP-LFSR; (d) EPI of the DistgSSR
图 6. Lego Knights场景的 子孔径图像及对比方法进行光场空间域超分辨重构结果的EPI展示,模拟噪声水平 。(a)光场子孔径图像;(b)真实EPI;(c)双三次插值的超分辨结果的EPI;(d)DIP-LFSR超分辨结果的EPI;(d)有监督方法DistgSSR超分辨结果的EPI
Fig. 6. The sub-aperture images of the Lego Knights scene and the EPI of the super-resolution results, the simulated noise level . (a) Light field sub-aperature images; (b) ground truth of EPI; (c) EPI of the Bicubic interpolated light field; (d) EPI of the DIP-LFSR; (d) EPI of the DistgSSR
3.2.3 DIP-SAISR和DIP-LFSR方法的对比
比较DIP-SAISR对光场子孔径图像逐张用DIP做超分辨重构和DIP-LFSR方法对光场的所有视点图像同时做超分辨的效果。以herbs场景和medieval为例,模拟加入
图 7. 在herbs场景上模拟 的噪声,用不同方法对其空间域进行2倍超分辨的结果对比
Fig. 7. The herbs scene with added noise , comparison of results of 2 times super-resolution in its spatial domain using different methods
图 8. 在medieval场景上模拟 的噪声,用不同方法对其空间域进行超分辨2倍的结果对比
Fig. 8. The medieval scene with added noise , comparison of results of 2 times super-resolution in its spatial domain using different methods
3.2.4 全变差正则化损失函数中参数 的影响
本组实验研究全变差正则化损失函数在选取不同参数
图 9. 光场超分辨质量(PSNR)随 取值的变化
Fig. 9. Variation of light field super-resolution quality (PSNR) with value
3.2.5 网络参数量的对比
表 5. 不同方法的不同网络参数量对比
Table 5. Comparison of different network parameters in different methods
|
3.2.6 网络子模块数对超分辨结果的影响
本组实验比较网络编码模块和解码模块的子模块数(number)分别设置为3、4、5、6时,对DIP和DIP-LFSR超分辨性能的影响。以HCI数据集为例,模拟噪声水平
表 6. 网络编码模块和解码模块的子模块数设置为3、4、5、6时的光场空间域2倍超分辨结果
Table 6. Results of 2 times light field spatial-domain super-resolution when the number of encoding and decoding modules is set to 3,4, 5, 6
|
3.2.7 不同权重的多尺度损失函数的影响
本组实验对比了设置不同权重得到的多尺度损失函数(分别记为
表 7. 多尺度损失函数设置不同权重对超分辨结果的影响
Table 7. Influence of multi-scale loss function with different weights on super-resolution results
|
3.2.8 不同损失函数对超分辨性能的影响
本组实验将
表 8. 不同混合损失函数对光场空间域进行2倍超分辨的结果
Table 8. 2 times light field spatial-domain super-resolution results on different hybrid loss functions
|
3.2.9 不同上采样方法对模型性能的影响
本组实验对比在网络中使用不同的上采样方法时对超分辨结果的影响。典型的上采样方法有双线性插值、PixelShuffle[42]和ConvTranspose2d[43]。由于用PixelShuffle方法进行特征图上采样会引入大量新的可学习参数,仅将双线性插值与ConvTranspose2d进行对比,说明不同上采样方法对模型性能的影响。以HCI数据集为例,模拟噪声水平设定为
表 9. 不同上采样方法对光场空间域进行2倍超分辨的结果
Table 9. 2 times light field spatial-domain super-resolution results on different upsampling methods
|
4 结论
DIP-LFSR将自监督学习方法用于光场的空间域超分辨任务中,超分辨过程只需要原始的低分辨率图像,通过在模型损失函数中加入全变差正则化损失和多尺度特征损失来隐式利用光场数据的子孔径图像蕴含的视差信息。实验结果表明,在有噪声影响的情况下,所提自监督学习模型在加噪声以后的多个公开光场数据集上进行空间域超分辨的重构结果在主观视觉效果和量化评价指标上优于传统的插值方法和有监督学习的方法。综上所述,所提自监督光场空间域超分辨重构方法对噪声有抑制作用,后续工作可以考虑用DIP模型对光场进行去噪,同时对光场角度域进行超分辨。
[1] 徐欣宜, 邓慧萍, 向森, 等. 基于特征交互融合与注意力的光场图像超分辨率[J]. 激光与光电子学进展, 2023, 60(14): 1410017.
[2] 葛鹏, 游耀堂. 基于稀疏表示的光场图像超分辨率重建[J]. 激光与光电子学进展, 2022, 59(2): 0210001.
[3] 吕天琪, 武迎春, 赵贤凌. 角度差异强化的光场图像超分网络[J]. 光电工程, 2023, 50(2): 0220185.
Lü T Q, Wu Y C, Zhao X L. Light field image super-resolution network based on angular difference enhancement[J]. Opto-Electronic Engineering, 2023, 50(2): 0220185.
[4] 许娇, 袁三男. 增强型多尺度残差网络的图像超分辨率重建算法[J]. 激光与光电子学进展, 2023, 60(4): 0411002.
[5] ChengZ, XiongZ W, ChenC, et al. Light field super-resolution: a benchmark[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), June 16-17, 2019, Long Beach, CA, USA. New York: IEEE Press, 2020: 1804-1813.
[6] LimJ, OkH, ParkB, et al. Improving the spatail resolution based on 4D light field data[C]∥2009 16th IEEE International Conference on Image Processing (ICIP), November 7-10, 2009, Cairo, Egypt. New York: IEEE Press, 2010: 1173-1176.
[7] NavaF P, LukeJ P. Simultaneous estimation of super-resolved depth and all-in-focus images from a plenoptic camera[C]∥2009 3DTV Conference: The True Vision - Capture, Transmission and Display of 3D Video, May 4-6, 2009, Potsdam, Germany. New York: IEEE Press, 2009.
[8] WannerS, GoldlueckeB. Spatial and angular variational super-resolution of 4D light fields[C]∥Proceedings of the 12th European conference on Computer Vision-Volume Part V, October 7-13, 2012, Florence, Italy. New York: ACM Press, 2012: 608-621.
[9] Wanner S, Goldluecke B. Variational light field analysis for disparity estimation and super-resolution[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(3): 606-619.
[10] RossiM, FrossardP. Graph-based light field super-resolution[C]∥2017 IEEE 19th International Workshop on Multimedia Signal Processing (MMSP), October 16-18, 2017, Luton, UK. New York: IEEE Press, 2017.
[11] YoonY, JeonH G, YooD, et al. Learning a deep convolutional network for light-field image super-resolution[C]∥2015 IEEE International Conference on Computer Vision Workshop (ICCVW), December 7-13, 2015, Santiago, Chile. New York: IEEE Press, 2016: 57-65.
[12] ZhangS, LinY F, ShengH. Residual networks for light field image super-resolution[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 15-20, 2019, Long Beach, CA, USA. New York: IEEE Press, 2020: 11038-11047.
[13] Liang Z Y, Wang Y Q, Wang L G, et al. Light field image super-resolution with transformers[J]. IEEE Signal Processing Letters, 2022, 29: 563-567.
[14] Wang Y Q, Wang L G, Wu G C, et al. Disentangling light fields for super-resolution and disparity estimation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(1): 425-443.
[16] LempitskyV, VedaldiA, UlyanovD. Deep image prior[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA. New York: IEEE Press, 2018: 9446-9454.
[17] LuoZ W, HuangH B, YuL, et al. Deep constrained least squares for blind image super-resolution[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 18-24, 2022, New Orleans, LA, USA. New York: IEEE Press, 2022: 17621-17631.
[18] 彭晏飞, 张曼婷, 张平甲, 等. 聚合残差注意力网络的单图像超分辨率重建[J]. 激光与光电子学进展, 2023, 60(10): 1010017.
[19] 吴洛冰, 谷玉海, 吴文昊, 等. 基于多尺度特征提取的遥感旋转目标检测[J]. 激光与光电子学进展, 2023, 60(12): 1228010.
[21] Zhang H M, Dong B. A review on deep learning in medical image reconstruction[J]. Journal of the Operations Research Society of China, 2020, 8(2): 311-340.
[22] 刘鹏飞, 肖亮. 基于Hessian核范数正则化的快速图像复原算法[J]. 电子学报, 2015, 43(10): 2001-2008.
Liu P F, Xiao L. A fast algorithm for image restoration based on Hessian nuclear norm regularization[J]. Acta Electronica Sinica, 2015, 43(10): 2001-2008.
[23] Lefkimmiatis S, Ward J P, Unser M. Hessian schatten-norm regularization for linear inverse problems[J]. IEEE Transactions on Image Processing, 2013, 22(5): 1873-1888.
[24] Rudin L I, Osher S, Fatemi E. Nonlinear total variation based noise removal algorithms[J]. Physica D: Nonlinear Phenomena, 1992, 60(1/2/3/4): 259-268.
[25] MahendranA, VedaldiA. Understanding deep image representations by inverting them[C]∥2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 7-12, 2015, Boston, MA, USA. New York: IEEE Press, 2015: 5188-5196.
[26] RonnebergerO, FischerP, BroxT. U-Net: convolutional networks for biomedical image segmentation[M]∥NavabN, HorneggerJ, WellsW M, et al. Medical image computing and computer-assisted intervention-MICCAI 2015. Lecture notes in computer science. Cham: Springer, 2015, 9351: 234-241.
[28] GlorotX, BordesA, BengioY. Deep sparse rectifier neural networks[C]∥Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics, April 11-13, 2011, Fort Lauderdale, USA. Cambridge: JMLR, 2011: 315-323.
[29] Zhao B N, Zhang X S, Li Z, et al. A multi-scale strategy for deep semantic segmentation with convolutional neural networks[J]. Neurocomputing, 2019, 365: 273-284.
[30] 虞志军, 王国栋, 张镡月. 基于增强多尺度特征网络的图像去模糊[J]. 激光与光电子学进展, 2022, 59(22): 2215007.
[31] HonauerK, JohannsenO, KondermannD, et al. A dataset and evaluation methodology for depth estimation on 4D light fields[M]∥LaiS H, LepetitV, NishinoK, et al. Computer vision-ACCV 2016. Lecture notes in computer science. Cham: Springer, 2017, 10113: 19-34.
[35] Le Pendu M, Jiang X R, Guillemot C. Light field inpainting propagation via low rank matrix completion[J]. IEEE Transactions on Image Processing, 2018, 27(4): 1981-1993.
[36] Duchon C E. Lanczos filtering in one and two dimensions[J]. Journal of Applied Meteorology, 1979, 18(8): 1016-1022.
[39] Huynh-Thu Q, Ghanbari M. Scope of validity of PSNR in image/video quality assessment[J]. Electronics Letters, 2008, 44(13): 800-801.
[40] Wang Z, Bovik A C, Sheikh H R, et al. Image quality assessment: from error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612.
[41] ZhangR, IsolaP, EfrosA A, et al. The unreasonable effectiveness of deep features as a perceptual metric[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA. New York: IEEE Press, 2018: 586-595.
[42] ShiW Z, CaballeroJ, HuszárF, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE Press, 2016: 1874-1883.
[43] Gao H Y, Yuan H, Wang Z Y, et al. Pixel transposed convolutional networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(5): 1218-1227.
Article Outline
梁丹, 张海苗, 邱钧. 基于自监督学习的光场空间域超分辨成像[J]. 激光与光电子学进展, 2024, 61(4): 0411007. Dan Liang, Haimiao Zhang, Jun Qiu. Self-Supervised Learning for Spatial-Domain Light-Field Super-Resolution Imaging[J]. Laser & Optoelectronics Progress, 2024, 61(4): 0411007.