激光与光电子学进展, 2020, 57 (18): 181009, 网络出版: 2020-09-02   

基于多尺度与多重残差网络的图像超分辨率重建 下载: 897次

Super-Resolution Reconstruction of Images Based on Multi-Scale and Multi-Residual Network
作者单位
成都理工大学信息科学与技术学院(网络安全学院), 四川 成都 610051
摘要
近几年虽然基于神经网络的超分辨率重建技术发展迅速,但仍然存在不易找到合适尺寸的卷积核、网络层数过深导致收敛缓慢等缺点。为此,提出了一种能多尺度提取特征并包含多重残差的网络模型。低分辨率图像输入网络,通过多个多尺度残差模块,在每个模块进行多尺度特征提取、特征融合,构建残差输出到下一个模块,通过所有模块后再次构建残差,最终经过亚像素卷积输出高分辨率图像。实验结果表明,多重残差的引入使学习的收敛速度更快,多尺度能更好地提取图像特征,使图像在主观和客观度量上都优于其他主流算法。
Abstract
Recent years, although the super-resolution reconstruction technology based on neural network has developed rapidly, there are still some shortcomings, such as difficult to find the appropriate size of convolution kernel, and slow convergence speed caused by too deep network layers. In this paper, a model which can extract features at multiple scales and contains multi-residual structure is proposed. Low-resolution image is input to the network, through serial multi-scale residual blocks, extracted and concatenated features at multiple scales in each block, after residual structure the image outputs to the next block, after all blocks, builds residual again, and finally outputs high-resolution image through sub-pixel convolution. The experimental results show that the proposal of multi-residual structure makes faster convergence, and the multi-scale structure extracts image features better to make the image excel other mainstream algorithms in whether subjective or objective measurement.

1 引言

单幅图片超分辨率(SISR)技术是将一幅低分辨率(LR)图片通过算法重建出一幅高分辨率(HR)图片[1]的技术。该技术已在医学影像、卫星遥感、城市安防等领域广泛应用[2]

目前单幅图片超分辨率重建技术可分为基于插值[3]、基于重建[4]和基于学习[5]三种方法。基于插值的方法如临近插值、双线性插值、双立方插值等,虽然快速高效,但插值得到的图像容易出现边缘锯齿、纹理模糊等问题。基于重建的方法如迭代反投影法[6]、凸集投影法等[7],又有着丢失图像高频信息等缺点。

基于学习的方法有邻域嵌入法[8]、稀疏表示法[9]等,这类方法构建低分辨率到高分辨率图像的映射关系,取得了不错的效果。近年来随着计算机性能的进步,基于卷积神经网络(CNN)的超分辨率重建方法成为主流。2014年,Dong等[10]率先将CNN用到了超分辨率技术领域,所提出的超分辨率卷积神经网络(SRCNN),需要先将低分辨率图片用双三次插值进行放大,然后通过三个卷积层,将图像特征从低分辨率空间非线性映射到高分辨率空间,比传统方法有一定程度的提升。深度卷积网络实现了精确的图像超分辨率(VDSR)[11]网络将卷积层数提升到20层,同时引入残差网络(Resnet) [12]结构加速收敛并避免了梯度消失,将图像质量再次提高。2016年,Dong等[13]对SRCNN[10]进行改进,提出快速图像超分辨率重建网络FSRCNN,使用反卷积代替了预先所需的双三次插值,直接在低分辨率图像上提取特征,加速了图像的处理。Shi等[14]提出的高效亚像素卷积神经网络(ESPCN)用tanh代替了ReLU激活函数,最后使用亚像素卷积向上采样,得到高分辨率图像。Lai等[15-16]提出了基于拉普拉斯图像金字塔的深度残差超分辨率网络 (LapSRN),通过共享权重,将低分辨率图像每级2倍向上采样,逐级放大,可实现2的n次方倍超分辨率效果。

上述方法虽各有优点,但仍存在着一些不足:SRCNN[10]和VDSR[11]都需要先将低分辨率图像通过双三次插值进行放大,这不仅降低了网络的性能,还使图像丢失了一些细节。ESPCN[14]模型层数较少,无法提取图像的深层特征,同时没有对图像边界进行填充,容易丢失图像的高频信息。LapSRN[15-16]只能实现图像2的n次方倍超分辨率,且图像重建效果对比VDSR[11]没有明显优势。以上方法每层卷积核尺寸固定,无法多尺度地提取图像的特征,虽然有的方法引入了残差结构,但单次残差对收敛速度和图像重建效果的提升仍然有限。

针对以上问题,本文提出多尺度与多重残差超分辨率重建网络(IMRSR)。采用多尺度残差模块代替了主流网络常用的残差模块,模型能够自动选择合适尺寸的卷积核,多尺度提取图像特征信息,同时在多尺度残差模块中再次引入残差,构成多重残差,加速模型收敛,最后采用亚像素卷积对特征图进行像素重组,输出高分辨率图像,在客观和主观度量上都取得了不错的成绩。

2 本文算法

2.1 网络结构概述

本文网络如图1所示,分别由低层特征提取层、多尺度残差模块集和上采样层构成。低层特征提取层提取输入图像的低层特征,同时将其通道数转换成与多尺度残差模块集一致的通道数。多尺度残差模块集由多个模块串联而成,每个模块输入与输出通道数相同,末尾一个模块的输出与低分辨率图像构成残差,最终经过上采样层得到高分辨率图像。

本文所提模型直接从低分辨率图片提取特征,避免了通过插值导致图像高频信息丢失的情况,同时减少了运算量,提高了模型性能;多尺度残差模块使用不同尺寸的卷积核,不同大小的感受野能够从多尺度提取图像信息,解决了难以找到合适尺寸卷积核、感受野大小固定等问题,使网络在还原图像细节时能够利用周围更多的信息;对于随着网络加深导致的收敛缓慢,每个多尺度残差模块都包含一个残差结构,整个网络构成多重残差,加速模型收敛,同时也提高了重建高分辨率图像的视觉效果。

图 1. 多尺度与多重残差超分辨率重建网络结构

Fig. 1. Multi-scale and multi-residual super-resolution reconstruction network structure

下载图片 查看所有图片

2.2 多尺度残差模块

本文受Inception网络[17]与文献[ 18]启发,并在其基础上进行改进,提出多尺度残差模块,如图2所示。输入的特征图由5个部分并列提取特征,残差特征提取层提取出特征作为之后的残差结构。为了有效地降低运算成本,4个多尺度特征提取模块均先进行一个1×1的卷积操作,其中第一个模块直接将输入的通道数从64变为16;其余三个模块将特征降为32通道后,第二层再进行多尺度特征提取,输出16通道数的特征图,公式为

F1,i=f(W1,i*ILR+B1,i),i=1,2,3,4,(1)F2,i=f(W2,i*F1,i+B2,i),i=2,3,4,(2)

式中:F1,i表示第i个多尺度特征提取模块第1层提取的特征;W1,iB1,i为网络学习的权重和偏置,由于本文模型所有卷积层均未使用偏置,所以所有B均恒为0;*表示卷积操作;ILR为低分辨率图像或特征;F2,iW2,iB2,i分别为3个多尺度特征提取模块第二层的输出特征、权重和偏置;f为激活函数。选用ReLU函数,公式如下

ReLU(x)=max(0,x)(3)

4个模块输出6×4通道数的特征图进行特征融合,构成新的64通道特征图,与残差特征相加,经过激活函数后输出到下一层,公式为

Fout=f[FC(F1,1,F2,i)+f(WR*ILR+BR)],i=2,3,4,(4)

式中:FC为特征融合操作,将F2,i与第一个特征提取模块的输出F1,1进行特征融合;WRBR为残差特征提取层的权重和偏置;Fout为多尺度残差模块的最终输出。

图 2. 多尺度残差模块结构

Fig. 2. Multi-scale residual module structure

下载图片 查看所有图片

2.3 优化器与损失函数

本文采用Adam优化器[19]。随机梯度下降(SGD)优化器需要人为地挑选学习率,学习率过小容易导致收敛缓慢,学习率过大易使结果在最优点附近徘徊,达不到最优点。而Adam优化器根据计算梯度的一阶矩估计和二阶矩估计,可以自适应地为不同参数选择学习率,有效地提高网络模型的收敛速度,更快地达到最优点[20]

损失函数采用L1函数。均方误差(MSE)损失函数作为超分辨率重建技术的损失函数时,模型会使重建图像的边缘更加平滑,失去了一定的真实性;平均绝对误差(MAE)即L1函数,能使重建的图像细节更加丰富,边缘更加锐利,同时参数比L2函数更少[21-23]

L1损失函数主要用来计算输入图像和目标图像逐像素间差值的平均绝对值,其公式为

Lloss(x,y)=1ni=1nxi-yi,(5)

式中:x为输入图像;y为目标图像;i为两幅图像的第i个像素;对n个元素对应的差值的绝对值求和,得出来的结果除以n即为损失值。

3 实验与对比

3.1 实验环境

本次实验硬件为NVIDIA GeForce RTX 2060 GPU,软件环境为Windows 10操作系统、CUDA 10.1、Cudnn 7.5,使用PyTorch 1.3.0深度学习框架。

3.2 数据集和参数设置

为了横向对比,实验采用公开的291幅图片作为训练集进行训练。其中包含Yang等[24]91张以及伯克利细分数据集(BSD)[25]中的200张共计291张图片,将图片进行下采样缩放为原来的0.7和0.5,再通过翻转和分别旋转90°、180°、270°,生成共计6984张图片。再对这6984张图片按步幅54裁剪成大小为72×72的子图像作为HR图像,使用双三次插值向下采样得到LR图像,组成LR-HR训练数据对共115392对。

本次实验选用的Adam优化器参数设置采用默认设置,即矩估计指数衰减速率ρ1=0.9,ρ2=0.999,批尺寸为64,初始学习率为0.001,每15个训练周期将学习率设为之前的0.5,一共学习80个周期。

3.3 多尺度残差模块数量与多重残差结构对模型的影响

为了探究多尺度残差模块数量对模型的影响,使用平均峰值信噪比(PSNR)[26]作为指标进行对比,公式为

fPSNR=10×lg2n-12fMSE,(6)fMSE=1mni=0m-1i=0n-1IGT(i,j)-IHR(i,j)2,(7)

式中:n为图像的位数,取8;fMSE为均方误差;IGTIHR分别为原图(GT)和网络重建之后的高分辨率图像,大小均为m×n;ij表示图像第i行第j列个像素。

在Set5和Set14数据集上,使用4倍超分辨率,对比不同多尺度残差模块数对PSNR的影响,结果如表1所示,最佳值已用粗体标出。可以看出,当多尺度残差模块数为18时,PSNR值最高,因此本次实验设置多尺度残差模块的数量为18。

表 1. 不同多尺度残差模块数对PSNR的影响

Table 1. Effects of number of different multi-scale residual blocks on PSNR

Number of multi-scaleresidual blockPSNR /dB
Set5Set14
731.5128.18
1131.5228.14
15182231.4631.5931.4028.1628.1928.06

查看所有表

为了验证多重残差的有效性,本文将包含多重残差结构与去除多重残差结构的模型进行了对比,以4倍超分辨率在Set5中进行测试,记录每个训练周期的PSNR均值变化,如图3所示,图中虚线为使用了多重残差的PSNR数值变化曲线,实线为未使用多重残差的PSNR数值变化曲线。可以发现,未使用多重残差结构的模型出现了明显的波动,而使用了多重残差结构的模型收敛速度很快,第一个训练周期就能超过30 dB,最终效果也大幅领先。

图 3. 每个训练周期的PSNR均值变化

Fig. 3. Average PSNR variation for each training cycle

下载图片 查看所有图片

3.4 主观效果对比

将本文算法与主流算法进行对比,放大因子均为4,将图像用不同算法处理后,得出的结果如图4图5所示。为了对比细节,对图像进行了局部放大。可以看出,在图4中,BICUBIC、ESPCN算法重建的图像较为模糊,SRCNN算法重建的图像出现了一些噪点,VDSR算法重建的图像较为清晰,IMRSR算法则比VDSR算法重建的图像更为清晰,同时细节更加丰富,观感更加接近原图。图5中结果类似,IMRSR算法结果明显优于传统算法,对比ESPCN、SRCNN和VDSR算法的图像也更为清晰、锐利,画面更加纯净。

图 4. 四倍放大因子下不同算法处理后的butterfly图像的超分辨率结果主观对比。(a)原图;(b) BICUBIC算法;(c) ESPCN算法;(d) SRCNN算法;(e) VDSR算法;(f) IMRSR算法

Fig. 4. Subjective comparison of super-resolution results of butterfly images processed by different algorithms under four times magnification factor. (a) GT; (b) BICUBIC algorithm; (c) ESPCN algorithm; (d) SRCNN algorithm; (e) VDSR algorithm; (f) IMRSR algorithm

下载图片 查看所有图片

图 5. 四倍放大因子下不同算法处理后的PPT图像的超分辨率结果主观对比。(a)原图;(b) BICUBIC算法;(c) ESPCN算法;(d) SRCNN算法;(e) VDSR算法;(f) IMRSR算法

Fig. 5. Subjective comparison of super-resolution results of PPT images processed by different algorithms under four times magnification factor. (a) GT; (b) BICUBIC algorithm; (c) ESPCN algorithm; (d) SRCNN algorithm; (e) VDSR algorithm; (f) IMRSR algorithm

下载图片 查看所有图片

3.5 客观指标对比

除了采用PSNR,还引入结构相似性(SSIM)[27]作为客观指标,公式为[18]

fSSIM(IGT,IHR)=(2μIGTμIHR+c1)(2δIGTIHR+c2)(μIGT2μIHR2+c1)(δIGT2+δIHR2+c2),(9)

其中

c1=(k1L)2,c2=(k2L)2,(10)

式中:IGT为原图像;IHR为网络输出的HR图像; μIGTμIHR分别为IGTIHR的均值; δIGTIHRIGTIHR的协方差; δIGT2δIHR2分别为IGTIHR的方差;c1c2是用来维持稳定的常数;L为像素的动态范围;系数k1=0.01,k2=0.03。

本次实验除本文方法IMRSR使用L1损失函数外,SRCNN[10]、ESPCN[14]、VDSR[11]均采用MSE损失函数。由于实验所使用的方法和训练集为3.2节所述,并非和SRCNN[10]、ESPCN[14]、VDSR[11]论文一致,所以与原论文的结果略有不同。

不同算法在2、3、4倍放大系数下,在Set5、Set14、BSD100和Urban100测试集上,PNSR和SSIM的平均值如表2表3所示,其中最佳值已用粗体标出。表中Self-Ex为转换自样本。可以看出,本文算法的PSNR和SSIM对比其他算法均有明显提升。

表 2. 不同算法在不同测试集对图片进行不同超分辨率重建的PSNR平均值

Table 2. Average PSNR of different algorithms for different super-resolution reconstructions on different test setsunit: dB

DatasetScaleBICUBICSelf-ExSRCNNESPCNVDSRIMRSR
Set5×2×3×433.6430.3828.4236.4932.5830.3136.4532.3830.1936.5732.5530.3137.3033.4430.9837.7833.9131.59
Set14×2×3×430.0827.3825.8632.2229.1627.4032.3729.1527.3732.4729.2727.4832.9729.6927.8333.2629.8828.19
BSD100×2×3×429.5927.2025.9631.1828.2926.8431.2528.2426.8031.2928.3226.8531.7728.7027.1432.0028.8027.30
Urban100×2×3×426.8624.4423.1329.5426.4424.7929.0825.7924.2029.2125.9424.2830.4626.8724.9531.0027.0025.15

查看所有表

表 3. 不同算法在不同测试集对图片进行不同超分辨率重建的SSIM平均值

Table 3. Average SSIM of different algorithms for different super-resolution reconstructions on different test sets

DatasetScaleBICUBICSelf-ExSRCNNESPCNVDSRIMRSR
Set5×2×3×40.93620.87920.82230.95370.90930.86190.95740.91170.86390.95850.91500.86720.96250.92760.88750.96430.93120.8957
Set14×2×3×40.88070.79250.72100.90340.81960.75180.91410.83440.76650.91530.83690.76900.91990.84560.78170.92270.84880.7892
BSD100×2×3×40.85750.75840.68560.88550.78400.71060.89740.80280.72970.89790.80430.73080.90410.81340.74130.90730.81660.7469
Urban100×2×3×40.84960.75090.67390.89670.80880.71740.89630.80070.72490.89780.80540.72870.91700.83500.76140.92350.84030.7714

查看所有表

4 结论

针对不易选取合适尺寸卷积核、收敛速度慢、图像边缘模糊等问题,本文提出了一种基于多尺度与多重残差网络的超分辨率模型算法。所提网络模型直接在LR图像上提取特征,通过多个串联的多尺度残差模块,最后使用亚像素卷积向上采样,重建得到HR图像。实验结果表明,从主观效果和客观指标对比中都能看出,所提算法相对于其他主流算法,重建的图像质量更高,效果更好,画面更清晰,细节更丰富,边缘更锐利,纹理更真实。但本文算法模型参数量大小和精度仍有提升空间,因此在之后实验中可以优化网络大小,减少模型参数量,提升模型精度,进一步提升图像质量。

参考文献

[1] Chen H G, He X H, Teng Q Z, et al. Single image super resolution using local smoothness and nonlocal self-similarity priors[J]. Signal Processing: Image Communication, 2016, 43: 68-81.

[2] OktayO, Bai WJ, LeeM, et al.Multi-input cardiac image super-resolution using convolutional neural networks[M] ∥Lecture Notes in Computer Science. Cham: Springer International Publishing, 2016: 246- 254.

[3] Park S C, Park M K, Kang M G. Super-resolution image reconstruction: a technical overview[J]. IEEE Signal Processing Magazine, 2003, 20(3): 21-36.

[4] Schultz R R, Stevenson R L. Extraction of high-resolution frames from video sequences[J]. IEEE Transactions on Image Processing, 1996, 5(6): 996-1011.

[5] ChangH, Yeung DY, Xiong YM. Super-resolution through neighbor embedding[C]∥Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2004.

[6] Irani M, Peleg S. Improving resolution by image registration[J]. CVGIP: Graphical Models and Image Processing, 1991, 53(3): 231-239.

[7] Stark H, Oskoui P. High-resolution image recovery from image-plane arrays, using convex projections[J]. Journal of the Optical Society of America A, 1989, 6(11): 1715-1726.

[8] ChangH, Yeung DY, Xiong YM. Super-resolution through neighbor embedding[C]∥Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2004: 275- 282.

[9] Yang JC, WrightJ, HuangT, et al. Image super-resolution as sparse representation of raw image patches[C]∥2008 IEEE Conference on Computer Vision and Pattern Recognition, 2008: 1- 8.

[10] DongC, Loy CC, He KM, et al.Learning a deep convolutional network for image super-resolution[M] ∥Computer Vision-ECCV 2014. Cham: Springer International Publishing, 2014: 184- 199.

[11] KimJ, Lee JK, Lee KM. Accurate image super-resolution using very deep convolutional networks[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016: 1646- 1654.

[12] 袁昆鹏, 席志红. 基于深度跳跃级联的图像超分辨率重建[J]. 光学学报, 2019, 39(7): 0715003.

    Yuan K P, Xi Z H. Image super resolution based on depth jumping cascade[J]. Acta Optica Sinica, 2019, 39(7): 0715003.

[13] Dong C, Loy C C, Tang X O. Accelerating the super-resolution convolutional neural network[J]. Computer Vision, 2016: 391-407.

[14] Shi WZ, CaballeroJ, HuszárF, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]∥ 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016: 1874- 1883.

[15] Lai WS, Huang JB, AhujaN, et al. Deep laplacian pyramid networks for fast and accurate super-resolution[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017: 5835- 5843.

[16] Lai W S, Huang J B, Ahuja N, et al. Fast and accurate image super-resolution with deep Laplacian pyramid networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(11): 2599-2613.

[17] SchroffF, KalenichenkoD, PhilbinJ. FaceNet: a unified embedding for face recognition and clustering[C]∥2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015: 815- 823.

[18] 吴磊, 吕国强, 薛治天, 等. 基于多尺度递归网络的图像超分辨率重建[J]. 光学学报, 2019, 39(6): 0610001.

    Wu L, Lü G Q, Xue Z T, et al. Super-resolution reconstruction of images based on multi-scale recursive network[J]. Acta Optica Sinica, 2019, 39(6): 0610001.

[19] Kingma DP, Ba J. Adam: a method for stochastic optimization[EB/OL]. ( 2017-01-30)[2020-01-07]. https: ∥arxiv.org/abs/1412. 6980.

[20] 王昌书. 基于机器视觉的手机曲面玻璃典型缺陷检测研究[D]. 广州: 华南理工大学, 2019: 42- 43.

    Wang CS. Machine vision based typical defects inspection for curved glass of mobile phone[D]. Guangzhou: South China University of Technology, 2019: 42- 43.

[21] Zhao H, Gallo O, Frosio I, et al. Loss functions for image restoration with neural networks[J]. IEEE Transactions on Computational Imaging, 2017, 3(1): 47-57.

[22] 张雷, 胡博文, 张宁, 等. 图像超分辨率全局残差递归网络[J]. 计算机科学, 2019, 46(S1): 230-233.

    Zhang L, Hu B W, Zhang N, et al. Global residual recursive network for image super-resolution[J]. Computer Science, 2019, 46(S1): 230-233.

[23] 余景景. 基于正则化的生物发光断层成像重建算法研究[D]. 西安: 西安电子科技大学, 2011: 55- 56.

    Yu JJ. Regularization based reconstruction algorithms for bioluminescence tomography[D]. Xi'an:Xidian University, 2011: 55- 56.

[24] Yang J C, Wright J, Huang T S, et al. Image super-resolution via sparse representation[J]. IEEE Transactions on Image Processing, 2010, 19(11): 2861-2873.

[25] Martin D, Fowlkes C, Tal D, et al. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics[J]. Proceedings of International Conference on Computer Vision, 2002: 416-423.

[26] Wang Z, Bovik A C, Sheikh H R, et al. Image quality assessment: from error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612.

[27] Ye Y X, Shan J, Bruzzone L, et al. Robust registration of multimodal remote sensing images based on structural similarity[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(5): 2941-2958.

陈星宇, 张伟劲, 孙伟智, 任萍安, 欧鸥. 基于多尺度与多重残差网络的图像超分辨率重建[J]. 激光与光电子学进展, 2020, 57(18): 181009. Xingyu Chen, Weijin Zhang, Weizhi Sun, Ping'an Ren, Ou Ou. Super-Resolution Reconstruction of Images Based on Multi-Scale and Multi-Residual Network[J]. Laser & Optoelectronics Progress, 2020, 57(18): 181009.

本文已被 6 篇论文引用
被引统计数据来源于中国光学期刊网
引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!