激光与光电子学进展, 2024, 61 (4): 0411007, 网络出版: 2024-02-22  

基于自监督学习的光场空间域超分辨成像

Self-Supervised Learning for Spatial-Domain Light-Field Super-Resolution Imaging
作者单位
北京信息科技大学理学院,北京 100101
摘要
针对光场成像的空间域图像分辨率限制,提出一种基于自监督学习的空间域图像超分辨成像方法。利用深度学习中的自编码器,对全部光场子孔径图像同步进行空间域的超分辨重构。设计一种基于多尺度特征结构和全变差正则化的混合损失函数,约束模型输出图像与原始低分辨率图像的相似度。数值实验结果表明,所提方法对噪声具有抑制作用,在光场成像的不同数据集上的超分辨结果平均值超过基于有监督学习的光场空间域超分辨方法。
Abstract
This paper proposes a self-supervised learning-based method for the super-resolution imaging of spatial-domain resolution-limited light-field images. Using deep learning self-encoding, a super-resolution reconstruction of the spatial-domain is performed simultaneously for all light field sub-aperture images. A hybrid loss function based on multi-scale feature structure and total variation regularization is designed to constrain the similarity of the model output image to the original low-resolution image. Numerical experiments show that the newly proposed method has a suppressive effect on noise, and the resultant average super-resolutions for different light field imaging datasets exceed those of the supervised learning-based method for light field spatial domain images.

1 引言

光场相机获取的光场数据存在空间分辨率与角度分辨率之间制约的限制,通过计算成像的方法利用光场数据在空间和角度域的约束信息构建数学模型和算法,可以将光场在空间域、角度域或空-角域联合进行超分辨成像1-4。本文针对光场的空间域超分辨率成像问题进行研究,利用深度学习中的生成模型实现光场超分辨重构。

现有关于光场超分辨成像的技术手段可分为3大类:基于几何投影的方法、基于优化的方法和基于深度学习的方法5

基于几何投影的方法主要依据光场相机的成像原理,通过获取不同视角子孔径图像之间的视差(几何)信息对目标视图进行超分辨。Lim等6将二维子孔径图像在空间维度上的亚像素位移投影到凸集上来获取高分辨率图像。Nava等7利用重聚焦原理,将其他视图的像素投影到中心视图,得到当前场景的超分辨率全聚焦图像。

光场超分辨率重构的优化方法利用4D光场结构信息和对实际拍摄场景的先验假设来构建成像的物理模型,将问题转化为对目标泛函进行优化求解的数学问题。Wanner等8-9使用结构张量方法从极平面图像(EPIs)估计视差图,将基于深度的光场重构问题表述为基于全变差正则化的能量最小化问题,对估计的低分辨率视差图进行上采样,来实现对光场的空间域和角度域超分辨重构。Rossi等10利用不同光场视图信息并结合图正则化器来对光场的几何结构进行约束实现光场的空间超分辨重构。

基于深度学习的光场超分辨成像技术在近几年取得了令人瞩目的进展。Yoon等11提出基于卷积神经网络(CNN)的超分辨方法LFCNN,首次将深度卷积神经网络用于光场的空间域和角度域超分辨,采用有监督学习的方法获得高分辨率的空间和角度超分辨光场数据。Zhang等12提出一种基于残差结构的卷积神经网络(ResLF)用于光场空间域子孔径图像超分辨。Liang等13通过设计角度和空间Transformers,充分提取光场的有效信息,实现光场角度域和空间域超分辨重构。为了有效利用耦合在空间域和角度域中的视差信息,Wang等14设计了空间、角度、极平面等3种解耦卷积运算,并基于解耦机制设计了光场空间域超分辨重构神经网络模型DistgSSR。

上述基于深度学习的光场超分辨重构方法均为有监督学习的方法,模型的超分辨性能依赖于在大量的低分辨率和高分辨率光场数据对所构成的数据集上的训练结果。实际应用中,采集大量场景的高分辨率光场数据较困难,并且在光场相机成像参数和场景有限的条件下训练获取的深度学习模型在新场景和新成像参数下的泛化性能较弱。针对这些问题,大量关于单张图像超分辨的自监督学习模型被提出15-18,其中,Lempitsky等16以神经网络结构本身作为图像表示学习的先验,不需要大规模训练数据集,仅以原始低分辨率图像作监督即可实现单张图像超分辨率成像。

受deep image prior(DIP)16启发,本文将自监督学习方法引入光场数据的空间域超分辨重构任务,在神经网络模型架构设计时引入多尺度结构,并由此定义多尺度损失函数,与全变差正则化和均方误差损失函数结合,设计出一种新的基于自监督学习的光场空间域超分辨方法,记为DIP-LFSR。所提方法基于自监督学习对光场空间域进行超分辨率成像,不依赖大规模的成对训练数据集,采用多尺度神经网络结构提取各子孔径图像中不同尺度的图像特征19,构建多尺度损失函数,使模型在重构高分辨率的子孔径图像时能够利用耦合在子孔径图像中的视差信息,在多个添加噪声的数据集上数值结果和视觉效果均优于普通插值方法和有监督方法。

2 基于自监督学习的光场空间域超分辨成像

DIP-LFSR是一种生成模型,利用神经网络来表示从低维输入数据到高维的高分辨率图像之间的映射关系。这种基于神经网络的数据表示方式本身包含良好的结构先验,能有效捕获图像中的低频信息,神经网络的强大表示能力使得模型经过训练后能够有效表示图像中的高频信息20。DIP-LFSR对神经网络生成的高分辨率图像进行降采样获得与原始采集到的低分辨率图像同样维度的数据,并将其作为模型训练的监督信息,这种基于自监督学习的方法将超分辨图像重构问题转换化成了一个有条件的图像生成问题。

实现光场空间域超分辨重构的DIP-LFSR方法主要包含两部分:1)获取高分辨率光场生成模型的网络架构;2)自监督学习的损失函数。

2.1 超分辨模型框架

图1展示了基于自监督学习的光场空间域超分辨率重构的流程。网络的输入是一个随机的编码向量,网络的输出是高分辨率的光场子孔径图像数据堆栈(子孔径图像沿RGB通道维度堆叠),训练网络仅需要原始的低分辨率数据作为监督信息。该流程图展示了神经网络将随机编码数据映射到高分辨率光场数据的过程,然后用采集到的低空间分辨率的光场数据定义损失函数,由此监督模型的学习过程。图1体现了采用自监督学习方法实现光场空间域超分辨的整体思路。与其他监督学习相比,用自监督学习的方法对光场空间域进行超分辨重构不需要大规模的成对训练数据,如低空间分辨率光场-高空间分辨率光场数据,训练光场超分辨网络时只需要以原始的低分辨率光场数据堆栈作为监督数据即可实现光场的空间域超分辨。该流程的具体细节如下:

图 1. 基于自监督学习的光场空间域超分辨流程图

Fig. 1. Flow chart of light field spatial-domain super-resolution based on self-supervised learning

下载图片 查看所有图片

采用双平面法表示光场数据,对于采集到的低分辨率光场FLRR3×U×V×H×W,其角度域的数据维度为U×V,空间域各子孔径图像(彩色图像)的维度为3×H×W。为了对光场数据FLR的空间维度进行t倍超分辨重构,以随机编码向量zRC'×tH×tW作为编解码器神经网络Nθ()的输入,通过神经网络生成高分辨率的光场子孔径图像堆栈FHRR3×UV×tH×tW的过程如下:

FHR=Nθ(z)

式中:编码向量z中的元素从标准正态分布中采样获得,即zi,j,kN(0,1)i=1,,C,j=1,,tH,k=1,,tW;编解码器神经网络Nθ()的参数集合为θ

为了利用采集到的低分辨光场数据FLRR3×U×V×H×W对生成模型Nθ()的训练过程进行监督,将其在角度域中的UV个子孔径图像进行通道叠加,得到低分辨率的子孔径图像堆栈F˜LRR3UV×H×W。将神经网络Nθ()生成的高分辨率光场子孔径图像堆栈FHR在空间维度进行t倍下采样,得到模拟的低分辨率子孔径图像堆栈F˜LR',即

F˜LR'=Dt(FHR)

式中:Dt()表示对输入数据FHR在空间维度进行t倍下采样。则模型的损失函数为

E(FHR,F˜LR)=LMSE(FHR,F˜LR)=13UVDt(FHR)-F˜LR2

为了提高模型的稳定性和抗噪声干扰能力,在损失函数中引入正则化项,则光场超分辨率重构任务可表述为如下优化问题:

FHR*=arg minFHRE(FHR,F˜LR)+R(FHR)

式中:E(FHR,F˜LR)为数据保真项;R(FHR)为正则化项,在图像重构任务中常见的图像先验信息有图像的光滑性、稀疏表示、低秩表示21

式(3)中的目标函数作为自监督学习神经网络的损失函数,所得到的高分辨率的光场数据堆栈FHR经通道维度的重排后即为具有t倍空间域分辨率的光场数据,记为FHR*。当LMSE(FHR,F˜LR)趋于0时,由高空间分辨率的子孔径图像经下采样后得到的模拟低分辨率图像与采集到的低分辨率子孔径图像的拟合程度最高,此时带来的问题是:高分辨率光场拟合到了低分辨光场数据中的噪声。为了减轻这种过拟合现象,可以采取两种策略:1)设计适当的停机准则,即仅对神经网络模型训练有限步;2)在损失函数中引入正则项R(FHR)

Hessian正则化是目前较好的高阶正则化方法,但是由于Hessian正则项的高度非线性和不可微性,图像去模糊和去噪过程耦合度高,求解算法的复杂度高22-23。本研究选择深度学习中常用的一种正则项——全变差(TV)正则化来对神经网络生成的高分辨率图像的分布进行约束。Rudin等24的研究表明:受噪声污染的图像的全变差比无噪声图像的全变差明显更大,最小化全变差正则化损失函数可以抑制图像超分辨重构带来的噪声,从而获得较为平滑的输出图像。由此构建的光场空间域超分辨重构模型不仅利用了神经网络强大的低频和高频信息表示能力,而且通过在损失函数中加入全变差正则化LTV使图像在平滑区域的特征保持一定的光滑性。

对于一组光场数据f,全变差正则化损失函数为

LTV(f)=13UVu=1Uv=1V(xfuv2+yfuv2) β/2

式中:xfuv表示(u,v)视点的子孔径图像fuvx轴方向上的梯度;yfuv表示fuvy轴方向上的梯度。数值实验中关于上述xy方向离散形式梯度的计算采用前向欧拉差分格式。根据Mahendran等25的分析,当β>1时,可以去除图像中的伪影。本研究在数值实验部分比较不同取值的β对光场空间域超分辨重构质量的影响。

2.2 多尺度网络结构

图1中,用于生成高分辨率图像堆栈的生成网络Nθ()采用U-Net架构26作为骨干网络,对U-Net的架构进行改进使其适用于光场的空间域超分辨成像任务,其结构如图2所示。该网络主要包含3大模块:编码模块(di)、跳跃连接(skip connection)模块(si)和解码模块(ui)。编码模块和解码模块都为4个,编码模块的每一个子模块的结构为Conv 3×3BN ReLUConv 3×3BNReLU,其中,Conv3×3层使用尺寸为3×3的卷积核,BN为归一化层27,激活函数选用ReLU28。解码模块的结构为BN Conv3×3BNReLUConv1×1BNReLU,这里的Conv1×1包含4个尺寸为1×1的卷积核,最后一层为上采样操作。网络的5个跳跃连接模块结构为Conv1×1ReLUBN,网络的最后一层为解码模块的前7层再加上Conv1×1Sigmoid。

图 2. 基于多尺度损失的U-Net结构图

Fig. 2. U-Net structure diagram based on multi-scale loss

下载图片 查看所有图片

编码模块{di}(i=0,1,2,3)对输入的随机编码向量z顺次进行下采样,得到5个不同尺度的编码特征图层,各层编码数据通过跳跃连接模块{si}(i=0,1,,4)与解码模块{ui}(i=0,1,2,3)连接。编码模块最终生成的特征图作为跳跃连接模块的输入,将跳跃连接模块的输出与相同维度的编码模块生成的特征图进行通道融合,可以将编码层的信息融入解码层;解码模块对通道融合之后的输出逐级进行上采样;将解码模块的每一层单独输出获得6个不同尺度的图像特征序列,最后一层为最终的网络输出(output)。多尺度的结构如图2第1行整体模型中的虚线框所示,先将解码模块输出的第1个3UV通道数的特征图进行上采样,然后与浅层的特征图逐像素相加,继续重复以上操作可以得到5个不同尺度的输出光场数据堆栈。这些不同尺度的图像堆栈将会用于下一小节中的多尺度损失函数设计。

2.3 损失函数设计

采用最小均方误差(MSE)作为损失函数训练获得的图像容易出现边缘模糊或者过于平滑的问题,为了提升重构高分辨率光场数据的质量,对于损失函数进行改进。

为了利用神经网络中间层不同尺度特征图中的信息,将图像分割任务中的多尺度特征提取思想29用于定义光场空间域超分辨成像的多尺度损失函数,这种多尺度思想在图像去模糊的任务中表现了良好的性能30。以MSE损失函数为基础构建多尺度损失LMS,约束模型从子孔径图像中隐式地提取视差信息,从而提升重构图像质量。

根据在U-Net加入的多尺度结构中不同层输出的图像特征定义多尺度损失函数29,具体为:将U-Net的解码器中每一层输出作为多尺度的超分辨重构图像的预测结果,都与已有的低分辨图像构建损失,由此定义模型损失函数。在没有引入多尺度损失之前,普通的DIP方法进行光场超分辨任务时构建的损失就是网络最终的输出FHR经过下采样与F˜LR构建的损失LMSE(FHR,F˜LR)。引入多尺度损失以后,li(i=1,2,3,4,5)为网络中的每一层输出分别与处理之后的F˜LR构建的损失:

li=13UVMSEDmi(Fouti),Dni(F˜LR)

式中:Fouti为网络多尺度结构的第i层的输出;Dmi为对网络的每一层输出进行mi倍的下采样操作;Dni为对原始的低分辨率的空间域数据堆栈F˜LR进行ni倍的下采样操作。具体的下采样倍数由超分辨任务决定,将网络输出与原始低分辨率图像堆栈处理之后结合起来定义多尺度损失函数。

为了调整不同尺度空间中图像堆栈在损失函数中的贡献,对各层的损失函数li引入权重。由于各层的网络输出对于超分辨重构图像的影响不同,越靠近最终层的输出包含的信息越丰富,对结果的影响越大。在光场空间域超分辨任务中,采用如下定义的多尺度损失函数:

LMS=λi6-ili2

式中:λi为权重,通过对不同输出层的损失函数赋值不同权重来调整多尺度特征损失函数对超分辨率图像重构的影响。当λi=0(i=1,2)λi=13UV(i=3,4,5)时,多尺度损失函数充分利用不同尺度的信息,可以同时优化所有层的损失。

综合以上的MSE损失函数、全变差损失函数和多尺度损失函数,DIP-LFSR模型的训练采用如下损失函数:

L=LMSE+α1LMS+α2LTV

式中:系数α1α2>0。为了调整不同损失函数的权重:当α1=α2=0时,L退化为原始的MSE损失;当α1=1α2=0时,L退化为MSE损失加多尺度损失。由于全变差正则化损失函数会使得复原的图像过于光滑,重构图像中的纹理细节丢失,为此数值实验中,取α2=0.001。当α1=1α2=0.001时,L退化为MSE损失、多尺度损失和全变差正则化损失。

3 数值实验

3.1 实验设定

3.1.1 数据集

数值实验使用合成和真实场景采集的光场数据集来评估DIP-LFSR模型在光场空间域超分辨重构任务上的效果,所采用的数据集包括:HCI(new)31、HCI(old)32、Stanford33、EPFL34、Synthetic32、INRIA_Lytro35。每个数据集均选取两个场景(scene)的光场数据用于测试。如果没有特殊说明,每个场景都选取9个视角(U=3V=3)的子孔径图像。为了适应所采用的U-Net中下采样操作的次数,将每个场景的图像裁剪为尺寸为16的整数倍的图像(ground truth),并使用lanczos2方法36对高分辨率光场数据分别下采样2倍、4倍和8倍来获得模拟的低分辨率光场子孔径图像。表1展示了所选用的6个测试光场数据集的场景以及裁剪之后的不同场景图像的尺寸(size)。

表 1. 不同测试数据集、场景及光场子孔径图像的尺寸

Table 1. Dimensions of different test data sets, scenes and light field sub-aperture images

DatasetHCI(new)HCI(old)Stanford
Scene/sizeherbs origami512×512stilllife medieval512×512

lego truck

lego knights

512×512
DatasetEPFLINRIA_LytroSynthetic
Scene/sizebooks graffiti432×432

bee_1

building

432×432

fishi_camera

shrubbery_camera

512×512

查看所有表

3.1.2 模型训练设定与对比方法

DIP-LFSR的输入数据zRC'×tX×tY的通道数C'32,网络中间层的通道数C256,下采样层采用lanczos2方法,上采样层使用双线性插值(Bilinear)方法。神经网络的整体设计基于PyTorch框架、Python编程语言。硬件计算设备配置为RTX 3090(24 GB)的GPU。采用Adam优化器37,学习率的初始值设为0.0001,学习率调节器采用指数型下降的形式38

在上述模型参数设定下进行对比实验,通过对比不同方法在不同参数设置下对光场图像空间域的超分辨结果,验证DIP-LFSR的有效性,对比方法如下:

1)插值方法Bicubic。传统的插值方法有邻近插值、双线性插值和双三次插值,其中,双三次插值的超分辨结果比其他两种插值方法保持更平滑的图像边缘,因此选用双三次插值方法Bicubic与所提方法进行对比。

2)DIP。将原始的自监督学习的方法DIP记为基准算法。

3)DIP-LFSR方法。DIP-LFSR进行光场图像超分辨时对所有视点图像同时超分辨,只需要进行一次超分辨就能得到整个光场图像的超分辨结果,所需要的时间更短,同时图像空间域和角度域信息相互耦合,因此可用信息更多。

4)DistgSSR14方法。Wang等14所提出的有监督学习的方法,需要使用大量成对的数据集进行训练。

5)DIP-SAISR方法。用最基本的方法对光场空间域进行超分辨重构,对每一张子孔径图像逐张用DIP超分辨,记为DIP-SAISR。

3.1.3 量化评价指标

选用图像量化评价指标峰值信噪比(PSNR)39、structural similarity(SSIM)40和LPIPS41来对超分辨率重构的光场质量进行评估。PSNR用来评价两组图像像素值差异,对于超分辨率重构光场数据x和真实光场数据y,PSNR的表达式为

QPSNR(x,y)=10log10Imax2MSE(x,y)

式中:Imax为光场数据像素的最大值。

SSIM用来衡量两幅图像的结构相似程度,定义为

QSSIM(x,y)=(2μxμy+c1)(2σxy+c2)(μx2+μy2+c1)(σx2+σy2+c2)

式中:μxμy分别为xy的均值;σx2σy2分别为xy的方差;c1=(K1L)2c2=(K2L)2L为像素值的最大值,K1=0.01K2=0.03

LPIPS用来评价两幅图像的感知相似度。

3.2 实验结果

3.2.1 不同方法对比

本小节展示不同光场空间域超分辨重构方法在不同高斯噪声水平(标准差记为σ)的光场数据集上实现超分辨2倍、4倍和8倍的平均量化评价结果和视觉效果。

3.2.1.1 评价指标定量结果

通过数值实验来对DIP-LFSR与有监督学习方法DistgSSR14和传统的插值方法进行对比。具体比较的方法有:Bicubic、DIP、DIP-LFSR和 DistgSSR。表2展示了噪声水平为0.05时,不同方法在12个场景的光场数据集上进行2倍、4倍和8倍空间域超分辨重构的量化评价结果,包括PSNR、SSIM和LPIPS。表3以2倍光场空间域超分辨为例,分别展示每个数据集的评价指标。同一实验设定下的最佳结果加粗突出显示,次佳结果以斜体显示。

表 2. σ=0.05时,不同方法在不同数据集上对光场空间域分别进行2倍、4倍和8倍超分辨重构的平均结果

Table 2. When σ=0.05, the average results of different methods for 2 times, 4 times and 8 times super-resolution reconstruction of the light field space domain on different datasets

σStepsScaleMethodPSNRSSIMLPIPS
0.051500×2Bicubic25.63760.86980.2563
DIP27.32240.97970.0181
DIP-LFSR28.00670.98260.0134
DistgSSR24.83240.96640.0238
×4Bicubic23.46450.82040.4873
DIP24.83680.96430.0351
DIP-LFSR25.25080.96780.0293
DistgSSR23.12760.95050.0380
1000×8Bicubic21.40690.75720.5743
DIP22.82200.93170.0591
DIP-LFSR22.82360.93190.0586
DistgSSR21.26210.90500.0665

查看所有表

表 3. 以2倍超分辨为例,不同方法在每个数据集上超分辨的量化评价指标结果

Table 3. Taking 2 times super-resolution as an example, the quantitative evaluation index results of different methods super-resolution on each dataset

MethodParameterDataset
HCI(new)HCI(old)StanfordEPFLSyntheticINRIA_Lytro
BicubicPSNR25.969825.701226.719526.154924.098225.1822
SSIM0.89370.89750.79320.85890.93510.8402
LPIPS0.30160.31990.27070.25210.18120.2122
BaselinePSNR28.324527.432729.646128.201223.110227.2195
SSIM0.97930.97420.98300.98350.96880.9897
LPIPS0.02260.02740.01520.00630.02940.0075
DIP-LFSRPSNR28.718727.843430.565529.142124.119727.6507
SSIM0.98070.97610.98680.98760.97380.9907
LPIPS0.01620.01960.01100.00400.02340.0060
DistgSSRPSNR24.976024.754425.620325.189323.812824.6414
SSIM0.95900.94840.96090.97090.97730.9817
LPIPS0.04060.03240.03230.00090.01410.0136

查看所有表

表2可以看出:在低分辨率光场含有噪声的情况下,在2倍、4倍和8倍光场空间域超分辨任务上,DIP-LFSR方法的性能最好。表3结果表明:进行2倍超分辨时,在6个数据集上,DIP-LFSR的3种量化评价指标结果均高于其他方法,其中,有监督方法的性能最差,甚至没有超过插值方法。这是由于有监督学习的模型在无噪声的光场数据上进行训练时,不能较好泛化至含噪声的光场数据,如需获得良好的光场超分辨效果,需要将有监督学习方法在每个特定的超分辨倍数和噪声水平下重新训练。此外,从数值结果可以看出,引入多尺度损失函数和全变差损失函数使DIP的性能得到提升,受噪声的影响更小。表2结果表明,当用不同方法进行光场空间域2倍超分辨时,DIP-LFSR的PSNR比DIP高出约0.7 dB,比插值方法高出约2.4 dB,比有监督方法DistgSSR高约3.2 dB。当进行4倍超分辨时,DIP-LFSR的PSNR比DIP高出约0.4 dB,比插值方法高出约1.8 dB,比有监督方法DistgSSR高出约2.1 dB。当进行8倍超分辨时,DIP-LFSR的PSNR比DIP高出约0.001 dB,比插值方法高出约1.4 dB,比有监督方法DistgSSR高出1.6 dB。这些结果表明了所提自监督学习方法DIP-LFSR在抗噪声干扰和泛化性方面的优势。

3.2.1.2 视觉展示

以origami场景为例,加入σ=0.05的噪声,图3展示了不同超分辨方法对光场空间域进行2倍超分辨的视觉效果。图4为在books 场景上的视觉效果。从图3右图的局部放大图可以观察到,与真实值(ground truth)相比,双三次插值方法的效果最模糊,不能可靠地恢复缺失的细节且受噪声的影响比较大。DIP和DIP-LFSR比普通插值方法和有监督学习的方法都清晰而且噪点明显少于其他方法,相比于DIP,DIP-LFSR的纹理更加清晰,细节更加丰富,视觉上超过了DistgSSR的效果。因此,所提DIP-LFSR在视觉效果上优于对比方法。

图 3. 不同超分辨方法在含噪声(σ=0.05)的origami场景上对光场空间域进行2倍超分辨重构的视觉效果

Fig. 3. Visual effects of two times super-resolution reconstruction of light field spatial-domain in noisy origami scene (σ=0.05) using different super resolution methods

下载图片 查看所有图片

图 4. 不同超分辨方法在含噪声(σ=0.05)的books场景上对光场空间域进行2倍超分辨重构的视觉效果

Fig. 4. Visual effects of two times super-resolution reconstruction of light field spatial-domain in noisy books scene(σ=0.05) using different super-resolution methods

下载图片 查看所有图片

3.2.2 噪声对超分辨重构的影响

对于选取的12个场景的光场数据集,通过对其分别添加σ=0.1σ=0.2的噪声来模拟生成含噪声的光场。用不同的超分辨图像重构方法对光场在空间域实现2倍和4倍超分辨率重构,研究不同噪声大小对模型性能的影响。为了获得良好的光场空间域超分辨重构效果,DIP-LFSR模型在不同任务上选取不同停机步数(steps)。具体如表4所示。

表 4. 在不同程度的噪声影响的情况下,不同方法在所选6种数据集上对光场空间域分别进行2倍和4倍超分辨重构的平均结果

Table 4. In the case of different degrees of noise influence, the average results of 2 and 4 times super-resolution reconstruction of the light field space domain by different methods on the selected six datasets

σ/stepsScaleMethodPSNRSSIMLPIPS
0.1/500×2Bicubic21.20110.71550.4981
DIP25.31430.96740.0278
DIP-LFSR25.42020.96810.0270
DistgSSR19.84750.89910.0782
×4Bicubic20.19570.67360.6588
DIP23.2744094760.0486
DIP-LFSR23.62020.95300.0390
DistgSSR19.10300.88190.0920
0.2/200×2Bicubic16.18150.48950.7349
DIP21.84390.92390.0533
DIP-LFSR22.51790.93970.0396
DistgSSR14.64210.72650.1950
×4Bicubic15.77960.45810.7770
DIP20.37750.89220.0850
DIP-LFSR20.40590.89300.0845
DistgSSR14.41910.71240.2056

查看所有表

结合σ=0.05时的超分辨结果,表4结果表明:DIP-LFSR在σ=0.1σ=0.2不同程度的噪声水平下,对光场在空间域进行2倍和4倍超分辨率重构的数值结果量化评价指标都优于对比方法。当噪声水平增加时,DIP-LFSR性能下降最慢。以光场在空间域进行2倍超分辨为例,当σ由0.1增加为0.2时,Bicubic和有监督方法DistgSSR的PSNR下降约5 dB,DIP的PSNR下降约3.5 dB,而DIP-LFSR的PSNR只下降约3 dB,说明DIP-LFSR对噪声具有抑制作用。

图5图6展示不同方法对光场在空间域进行2倍超分辨率重构结果的角度结构一致性,图5以stilllife场景为例,图6以Lego Knights场景为例,模拟噪声水平为σ=0.1,选取9×9的子孔径图像进行2倍超分辨,并展示不同方法超分辨率重构结果的子孔径图像在v=5w=50处的EPI图像。有监督方法和普通的插值方法对带有噪声的光场数据进行超分辨的结果存在很多噪点,而DIP-LFSR的EPI图像更加光滑,线条更加清晰,表明DIP-LFSR方法在实现超分辨的同时能抑制低分辨率图像中的噪声。

图 5. stilllife场景的9×9子孔径图像及对比方法进行光场空间域超分辨重构结果的EPI展示,模拟噪声水平σ=0.1。(a)光场子孔径图像;(b)真实EPI;(c)双三次插值的超分辨结果的EPI;(d)DIP-LFSR超分辨结果的EPI;(d)有监督方法DistgSSR超分辨结果的EPI

Fig. 5. The sub-aperture images of the stilllife scene and the EPI of the super-resolution results, the simulated noise level σ=0.1. (a) Light field sub-aperature images; (b) ground truth of EPI; (c) EPI of the Bicubic interpolated light field; (d) EPI of the DIP-LFSR; (d) EPI of the DistgSSR

下载图片 查看所有图片

图 6. Lego Knights场景的9×9子孔径图像及对比方法进行光场空间域超分辨重构结果的EPI展示,模拟噪声水平σ=0.1。(a)光场子孔径图像;(b)真实EPI;(c)双三次插值的超分辨结果的EPI;(d)DIP-LFSR超分辨结果的EPI;(d)有监督方法DistgSSR超分辨结果的EPI

Fig. 6. The sub-aperture images of the Lego Knights scene and the EPI of the super-resolution results, the simulated noise level σ=0.1. (a) Light field sub-aperature images; (b) ground truth of EPI; (c) EPI of the Bicubic interpolated light field; (d) EPI of the DIP-LFSR; (d) EPI of the DistgSSR

下载图片 查看所有图片

3.2.3 DIP-SAISR和DIP-LFSR方法的对比

比较DIP-SAISR对光场子孔径图像逐张用DIP做超分辨重构和DIP-LFSR方法对光场的所有视点图像同时做超分辨的效果。以herbs场景和medieval为例,模拟加入σ=0.05的噪声,两种方法的网络参数通过网格搜索的方法调至最优。图7图8展示了真实高分辨图像、Bicubic插值方法、DIP-SAISR和DIP-LFSR 2倍超分辨的结果,选取光场(uv)=(1,1)位置的子孔径图像上的两个区域的局部放大图进行展示。

图 7. 在herbs场景上模拟σ=0.05的噪声,用不同方法对其空间域进行2倍超分辨的结果对比

Fig. 7. The herbs scene with added noise σ=0.05, comparison of results of 2 times super-resolution in its spatial domain using different methods

下载图片 查看所有图片

图 8. 在medieval场景上模拟σ=0.05的噪声,用不同方法对其空间域进行超分辨2倍的结果对比

Fig. 8. The medieval scene with added noise σ=0.05, comparison of results of 2 times super-resolution in its spatial domain using different methods

下载图片 查看所有图片

图7图8表明:对子孔径图像逐张进行超分辨的效果优于双三次插值方法,DIP-LFSR的效果优于DIP-SAISR。DIP-SAISR超分辨的结果存在很多噪点,用DIP-LFSR对光场子孔径图像同时超分辨的结果噪点明显减少,图像更加光滑,表明DIP-LFSR能够隐式利用到光场各子孔径图像中所蕴含的视差信息。

3.2.4 全变差正则化损失函数中参数β的影响

本组实验研究全变差正则化损失函数在选取不同参数β时对DIP-LFSR模型性能的影响。以herbs场景的光场数据为例,加入σ=0.2的噪声,DIP-LFSR模型进行2倍超分辨重构。参数β的取值范围为[4,16],模型训练步数steps设置为1000。图9展示了DIP-LFSR在不同β取值下的超分辨结果,其中,横坐标为β的取值,纵坐标为DIP-LFSR在herbs场景上的PSNR。

图 9. 光场超分辨质量(PSNR)随β取值的变化

Fig. 9. Variation of light field super-resolution quality (PSNR) with β value

下载图片 查看所有图片

图9表明:β增大时,PSNR取值随之变化,但在β为10时,超分辨结果的评价指标值是最高的,因此为了简化模型测试,数值实验在所有数据集上都取β=10

3.2.5 网络参数量的对比

表5表明,在DIP-LFSR多尺度网络结构中,中间通道数C设置为128时,DIP-LFSR模型的参数量远远低于有监督方法DistgSSR模型的参数量,当中间通道数C设置为256时,DIP-LFSR模型的参数量与DistgSSR 模型的参数量相当,此时DIP-LFSR对光场空间域进行超分辨率重构的优势能够表现出来,并且在有噪声的情况下超过有监督方法DistgSSR模型的性能,因此DIP-LFSR网络结构中的中间通道数设置为256。

表 5. 不同方法的不同网络参数量对比

Table 5. Comparison of different network parameters in different methods

MethodChannels#Parameters
DIP-LFSR1281922943
2562696832
DistgSSR2646912

查看所有表

3.2.6 网络子模块数对超分辨结果的影响

本组实验比较网络编码模块和解码模块的子模块数(number)分别设置为3、4、5、6时,对DIP和DIP-LFSR超分辨性能的影响。以HCI数据集为例,模拟噪声水平σ=0.05,进行光场空间域2倍超分辨。表6为不同方法超分辨的量化评价指标。

表 6. 网络编码模块和解码模块的子模块数设置为3、4、5、6时的光场空间域2倍超分辨结果

Table 6. Results of 2 times light field spatial-domain super-resolution when the number of encoding and decoding modules is set to 3,4, 5, 6

σStepsScaleMethodNumberPSNRSSIMLPIPS
0.051500×2DIP328.50700.97880.0157
428.72700.98080.0158
528.60430.97950.0176
628.38910.97860.0205
DIP-LFSR328.58340.97930.0160
428.77030.98100.0161
528.55620.97930.0181
628.29620.97800.0205

查看所有表

表6数据表明,用DIP和DIP-LFSR进行超分辨,网络子模块数设置为4时,不同量化评价指标最好,因此数值实验中统一将网络模块数设置为4。

3.2.7 不同权重的多尺度损失函数的影响

本组实验对比了设置不同权重得到的多尺度损失函数(分别记为L1L2L3L4L5)对超分辨结果的影响,设置L1的权重为λii+1L2的权重为λii-1,其中λi=0(i=1,2)λi=13UV(i=3,4,5)L3的权重为λii(λi=0.03)L4的权重为λii(λii=0.05)L5的权重为λii,其中,λi=0(i=1,2)λi=13UV(i=3,4,5)。以HCI数据集为例,模拟噪声水平σ=0.05,进行光场空间域2倍超分辨,表7展示出DIP-LFSR加入不同多尺度损失函数超分辨的量化评价指标的平均结果。

表 7. 多尺度损失函数设置不同权重对超分辨结果的影响

Table 7. Influence of multi-scale loss function with different weights on super-resolution results

σ/stepsMethodScalePSNRSSIMLPIPS
0.05/1500DIP-LFSR×2L128.72950.98020.0164
L228.74020.98030.0160
L328.73710.98010.0162
L428.75480.98030.0162
L528.77030.98100.0161

查看所有表

表7表明,权重设定为λi=0(i=1,2)λi=13UV(i=3,4,5)时的超分辨结果是最好的,因此本文实验部分统一采用该设定的权重选择规则。

3.2.8 不同损失函数对超分辨性能的影响

本组实验将LMSE损失函数分别与多尺度损失函数LMS和全变差正则化损失函数LTV结合构成新的混合损失函数的方法分别记为DIP+MS和DIP+TV,并与DIP以及采用LMSELMSLTV构成的混合损失函数的方法DIP-LFSR进行对比。以HCI数据集为例,模拟噪声水平设定为σ=0.05,进行光场空间域2倍超分辨。表8展示了高分辨率光场的量化评价指标。

表 8. 不同混合损失函数对光场空间域进行2倍超分辨的结果

Table 8. 2 times light field spatial-domain super-resolution results on different hybrid loss functions

σ/stepsMethodScalePSNRSSIMLPIPS
0.05/1500DIP×228.72700.98080.0158
DIP+TV28.72520.98150.0159
DIP+MS28.72770.98010.0163
DIP-LFSR28.77030.98100.0161

查看所有表

表8中的实验结果表明,DIP模型的MSE损失函数分别再加入全变差正则化损失以及多尺度损失之后的超分辨结果并没有明显提升DIP的效果。添加全变差正则化以及多尺度损失之后的DIP-LFSR,性能相比DIP得到提升。因此,实验中的DIP-LFSR采用加入全变差正则化和多尺度损失的混合损失函数。

3.2.9 不同上采样方法对模型性能的影响

本组实验对比在网络中使用不同的上采样方法时对超分辨结果的影响。典型的上采样方法有双线性插值、PixelShuffle42和ConvTranspose2d43。由于用PixelShuffle方法进行特征图上采样会引入大量新的可学习参数,仅将双线性插值与ConvTranspose2d进行对比,说明不同上采样方法对模型性能的影响。以HCI数据集为例,模拟噪声水平设定为σ=0.05,进行光场空间域2倍超分辨。表9展示出超分辨结果的量化评价指标。

表 9. 不同上采样方法对光场空间域进行2倍超分辨的结果

Table 9. 2 times light field spatial-domain super-resolution results on different upsampling methods

σStepsMethodScaleUnsamplePSNRSSIMLPIPS
0.051500DIP2Bilinear28.72700.98080.0158
ConvTranspose2d23.31550.93230.0785
500DIP-LFSRBilinear28.77030.98100.0161
ConvTranspose2d23.38620.93100.0780

查看所有表

表9中数据表明,上采样方法选取Bilinear时,模型的性能明显超过上采样方法选取ConvTranspose2d时的模型性能。出现该现象的原因是在采用ConvTranspose2d实现上采样时模型中引入部分新的可学习参数,且该运算与原始低分辨率图像的降采样过程不匹配。关于上采样运算更合适的实现方式的研究需要进一步探讨。

4 结论

DIP-LFSR将自监督学习方法用于光场的空间域超分辨任务中,超分辨过程只需要原始的低分辨率图像,通过在模型损失函数中加入全变差正则化损失和多尺度特征损失来隐式利用光场数据的子孔径图像蕴含的视差信息。实验结果表明,在有噪声影响的情况下,所提自监督学习模型在加噪声以后的多个公开光场数据集上进行空间域超分辨的重构结果在主观视觉效果和量化评价指标上优于传统的插值方法和有监督学习的方法。综上所述,所提自监督光场空间域超分辨重构方法对噪声有抑制作用,后续工作可以考虑用DIP模型对光场进行去噪,同时对光场角度域进行超分辨。

参考文献

[1] 徐欣宜, 邓慧萍, 向森, 等. 基于特征交互融合与注意力的光场图像超分辨率[J]. 激光与光电子学进展, 2023, 60(14): 1410017.

    Xu X Y, Deng H P, Xiang S, et al. Light field image super-resolution based on feature interaction fusion and attention mechanism[J]. Laser & Optoelectronics Progress, 2023, 60(14): 1410017.

[2] 葛鹏, 游耀堂. 基于稀疏表示的光场图像超分辨率重建[J]. 激光与光电子学进展, 2022, 59(2): 0210001.

    Ge P, You Y T. Super-resolution reconstruction of light field images via sparse representation[J]. Laser & Optoelectronics Progress, 2022, 59(2): 0210001.

[3] 吕天琪, 武迎春, 赵贤凌. 角度差异强化的光场图像超分网络[J]. 光电工程, 2023, 50(2): 0220185.

    Lü T Q, Wu Y C, Zhao X L. Light field image super-resolution network based on angular difference enhancement[J]. Opto-Electronic Engineering, 2023, 50(2): 0220185.

[4] 许娇, 袁三男. 增强型多尺度残差网络的图像超分辨率重建算法[J]. 激光与光电子学进展, 2023, 60(4): 0411002.

    Xu J, Yuan S N. Image super-resolution reconstruction algorithm based on enhanced multi-scale residual network[J]. Laser & Optoelectronics Progress, 2023, 60(4): 0411002.

[5] ChengZ, XiongZ W, ChenC, et al. Light field super-resolution: a benchmark[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), June 16-17, 2019, Long Beach, CA, USA. New York: IEEE Press, 2020: 1804-1813.

[6] LimJ, OkH, ParkB, et al. Improving the spatail resolution based on 4D light field data[C]∥2009 16th IEEE International Conference on Image Processing (ICIP), November 7-10, 2009, Cairo, Egypt. New York: IEEE Press, 2010: 1173-1176.

[7] NavaF P, LukeJ P. Simultaneous estimation of super-resolved depth and all-in-focus images from a plenoptic camera[C]∥2009 3DTV Conference: The True Vision - Capture, Transmission and Display of 3D Video, May 4-6, 2009, Potsdam, Germany. New York: IEEE Press, 2009.

[8] WannerS, GoldlueckeB. Spatial and angular variational super-resolution of 4D light fields[C]∥Proceedings of the 12th European conference on Computer Vision-Volume Part V, October 7-13, 2012, Florence, Italy. New York: ACM Press, 2012: 608-621.

[9] Wanner S, Goldluecke B. Variational light field analysis for disparity estimation and super-resolution[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(3): 606-619.

[10] RossiM, FrossardP. Graph-based light field super-resolution[C]∥2017 IEEE 19th International Workshop on Multimedia Signal Processing (MMSP), October 16-18, 2017, Luton, UK. New York: IEEE Press, 2017.

[11] YoonY, JeonH G, YooD, et al. Learning a deep convolutional network for light-field image super-resolution[C]∥2015 IEEE International Conference on Computer Vision Workshop (ICCVW), December 7-13, 2015, Santiago, Chile. New York: IEEE Press, 2016: 57-65.

[12] ZhangS, LinY F, ShengH. Residual networks for light field image super-resolution[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 15-20, 2019, Long Beach, CA, USA. New York: IEEE Press, 2020: 11038-11047.

[13] Liang Z Y, Wang Y Q, Wang L G, et al. Light field image super-resolution with transformers[J]. IEEE Signal Processing Letters, 2022, 29: 563-567.

[14] Wang Y Q, Wang L G, Wu G C, et al. Disentangling light fields for super-resolution and disparity estimation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(1): 425-443.

[15] LuoZ X, HuangY, LiS, et al. Learning the degradation distribution for blind image super-resolution[EB/OL]. (2022-03-09)[2023-02-06]. https://arxiv.org/abs/2203.04962.

[16] LempitskyV, VedaldiA, UlyanovD. Deep image prior[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA. New York: IEEE Press, 2018: 9446-9454.

[17] LuoZ W, HuangH B, YuL, et al. Deep constrained least squares for blind image super-resolution[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 18-24, 2022, New Orleans, LA, USA. New York: IEEE Press, 2022: 17621-17631.

[18] 彭晏飞, 张曼婷, 张平甲, 等. 聚合残差注意力网络的单图像超分辨率重建[J]. 激光与光电子学进展, 2023, 60(10): 1010017.

    Peng Y F, Zhang M T, Zhang P J, et al. Single-image super-resolution reconstruction aggregating residual attention network[J]. Laser & Optoelectronics Progress, 2023, 60(10): 1010017.

[19] 吴洛冰, 谷玉海, 吴文昊, 等. 基于多尺度特征提取的遥感旋转目标检测[J]. 激光与光电子学进展, 2023, 60(12): 1228010.

    Wu L B, Gu Y H, Wu W H, et al. Remote sensing rotating object detection based on multi-scale feature extraction[J]. Laser & Optoelectronics Progress, 2023, 60(12): 1228010.

[20] SitzmannV, MartelJ N P, BergmanA W, et al. Implicit neural representations with periodic activation functions[EB/OL]. (2020-06-17)[2023-02-03]. https://arxiv.org/abs/2006.09661.

[21] Zhang H M, Dong B. A review on deep learning in medical image reconstruction[J]. Journal of the Operations Research Society of China, 2020, 8(2): 311-340.

[22] 刘鹏飞, 肖亮. 基于Hessian核范数正则化的快速图像复原算法[J]. 电子学报, 2015, 43(10): 2001-2008.

    Liu P F, Xiao L. A fast algorithm for image restoration based on Hessian nuclear norm regularization[J]. Acta Electronica Sinica, 2015, 43(10): 2001-2008.

[23] Lefkimmiatis S, Ward J P, Unser M. Hessian schatten-norm regularization for linear inverse problems[J]. IEEE Transactions on Image Processing, 2013, 22(5): 1873-1888.

[24] Rudin L I, Osher S, Fatemi E. Nonlinear total variation based noise removal algorithms[J]. Physica D: Nonlinear Phenomena, 1992, 60(1/2/3/4): 259-268.

[25] MahendranA, VedaldiA. Understanding deep image representations by inverting them[C]∥2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 7-12, 2015, Boston, MA, USA. New York: IEEE Press, 2015: 5188-5196.

[26] RonnebergerO, FischerP, BroxT. U-Net: convolutional networks for biomedical image segmentation[M]∥NavabN, HorneggerJ, WellsW M, et al. Medical image computing and computer-assisted intervention-MICCAI 2015. Lecture notes in computer science. Cham: Springer, 2015, 9351: 234-241.

[27] IoffeS, SzegedyC. Batch normalization: accelerating deep network training by reducing internal covariate shift[EB/OL]. (2015-02-11)[2023-03-05]. https://arxiv.org/abs/1502.03167.

[28] GlorotX, BordesA, BengioY. Deep sparse rectifier neural networks[C]∥Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics, April 11-13, 2011, Fort Lauderdale, USA. Cambridge: JMLR, 2011: 315-323.

[29] Zhao B N, Zhang X S, Li Z, et al. A multi-scale strategy for deep semantic segmentation with convolutional neural networks[J]. Neurocomputing, 2019, 365: 273-284.

[30] 虞志军, 王国栋, 张镡月. 基于增强多尺度特征网络的图像去模糊[J]. 激光与光电子学进展, 2022, 59(22): 2215007.

    Yu Z J, Wang G D, Zhang X Y. Image deblurring based on enhanced multiscale feature network[J]. Laser & Optoelectronics Progress, 2022, 59(22): 2215007.

[31] HonauerK, JohannsenO, KondermannD, et al. A dataset and evaluation methodology for depth estimation on 4D light fields[M]∥LaiS H, LepetitV, NishinoK, et al. Computer vision-ACCV 2016. Lecture notes in computer science. Cham: Springer, 2017, 10113: 19-34.

[32] WannerS, MeisterS, GoldlückeB. Datasets and benchmarks for densely sampled 4D light fields[EB/OL]. [2023-02-03]. http://diglib.eg.org/handle/10.2312/PE.VMV.VMV13.225-226.

[33] RajA S, LowneyM, ShahR, et al. Stanford lytro light field archive[EB/OL]. [2023-03-02]. https://scholar.google.com/scholar_lookup?title=Stanford+Lytro+Light+Field+Archive&author=Raj,+A.S.&author=Lowney,+M.&author=Shah,+R.&author=Wetzstein,+G.&publication_year=2016.

[34] RerabekM, EbrahimiT. New light field image dataset[EB/OL]. [2023-03-02]. https://infoscience.epfl.ch/record/218363.

[35] Le Pendu M, Jiang X R, Guillemot C. Light field inpainting propagation via low rank matrix completion[J]. IEEE Transactions on Image Processing, 2018, 27(4): 1981-1993.

[36] Duchon C E. Lanczos filtering in one and two dimensions[J]. Journal of Applied Meteorology, 1979, 18(8): 1016-1022.

[37] KingmaD P, BaJ. Adam: a method for stochastic optimization[EB/OL]. (2014-12-22)[2023-02-03]. https://arxiv.org/abs/1412.6980.

[38] LiZ Y, AroraS. An exponential learning rate schedule for deep learning[EB/OL]. (2019-10-16)[2023-03-02]. https://arxiv.org/abs/1910.07454.

[39] Huynh-Thu Q, Ghanbari M. Scope of validity of PSNR in image/video quality assessment[J]. Electronics Letters, 2008, 44(13): 800-801.

[40] Wang Z, Bovik A C, Sheikh H R, et al. Image quality assessment: from error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612.

[41] ZhangR, IsolaP, EfrosA A, et al. The unreasonable effectiveness of deep features as a perceptual metric[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA. New York: IEEE Press, 2018: 586-595.

[42] ShiW Z, CaballeroJ, HuszárF, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE Press, 2016: 1874-1883.

[43] Gao H Y, Yuan H, Wang Z Y, et al. Pixel transposed convolutional networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(5): 1218-1227.

梁丹, 张海苗, 邱钧. 基于自监督学习的光场空间域超分辨成像[J]. 激光与光电子学进展, 2024, 61(4): 0411007. Dan Liang, Haimiao Zhang, Jun Qiu. Self-Supervised Learning for Spatial-Domain Light-Field Super-Resolution Imaging[J]. Laser & Optoelectronics Progress, 2024, 61(4): 0411007.

引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!