基于多尺度与多重残差网络的图像超分辨率重建 下载: 897次
1 引言
单幅图片超分辨率(SISR)技术是将一幅低分辨率(LR)图片通过算法重建出一幅高分辨率(HR)图片[1]的技术。该技术已在医学影像、卫星遥感、城市安防等领域广泛应用[2]。
目前单幅图片超分辨率重建技术可分为基于插值[3]、基于重建[4]和基于学习[5]三种方法。基于插值的方法如临近插值、双线性插值、双立方插值等,虽然快速高效,但插值得到的图像容易出现边缘锯齿、纹理模糊等问题。基于重建的方法如迭代反投影法[6]、凸集投影法等[7],又有着丢失图像高频信息等缺点。
基于学习的方法有邻域嵌入法[8]、稀疏表示法[9]等,这类方法构建低分辨率到高分辨率图像的映射关系,取得了不错的效果。近年来随着计算机性能的进步,基于卷积神经网络(CNN)的超分辨率重建方法成为主流。2014年,Dong等[10]率先将CNN用到了超分辨率技术领域,所提出的超分辨率卷积神经网络(SRCNN),需要先将低分辨率图片用双三次插值进行放大,然后通过三个卷积层,将图像特征从低分辨率空间非线性映射到高分辨率空间,比传统方法有一定程度的提升。深度卷积网络实现了精确的图像超分辨率(VDSR)[11]网络将卷积层数提升到20层,同时引入残差网络(Resnet) [12]结构加速收敛并避免了梯度消失,将图像质量再次提高。2016年,Dong等[13]对SRCNN[10]进行改进,提出快速图像超分辨率重建网络FSRCNN,使用反卷积代替了预先所需的双三次插值,直接在低分辨率图像上提取特征,加速了图像的处理。Shi等[14]提出的高效亚像素卷积神经网络(ESPCN)用tanh代替了ReLU激活函数,最后使用亚像素卷积向上采样,得到高分辨率图像。Lai等[15-16]提出了基于拉普拉斯图像金字塔的深度残差超分辨率网络 (LapSRN),通过共享权重,将低分辨率图像每级2倍向上采样,逐级放大,可实现2的n次方倍超分辨率效果。
上述方法虽各有优点,但仍存在着一些不足:SRCNN[10]和VDSR[11]都需要先将低分辨率图像通过双三次插值进行放大,这不仅降低了网络的性能,还使图像丢失了一些细节。ESPCN[14]模型层数较少,无法提取图像的深层特征,同时没有对图像边界进行填充,容易丢失图像的高频信息。LapSRN[15-16]只能实现图像2的n次方倍超分辨率,且图像重建效果对比VDSR[11]没有明显优势。以上方法每层卷积核尺寸固定,无法多尺度地提取图像的特征,虽然有的方法引入了残差结构,但单次残差对收敛速度和图像重建效果的提升仍然有限。
针对以上问题,本文提出多尺度与多重残差超分辨率重建网络(IMRSR)。采用多尺度残差模块代替了主流网络常用的残差模块,模型能够自动选择合适尺寸的卷积核,多尺度提取图像特征信息,同时在多尺度残差模块中再次引入残差,构成多重残差,加速模型收敛,最后采用亚像素卷积对特征图进行像素重组,输出高分辨率图像,在客观和主观度量上都取得了不错的成绩。
2 本文算法
2.1 网络结构概述
本文网络如
本文所提模型直接从低分辨率图片提取特征,避免了通过插值导致图像高频信息丢失的情况,同时减少了运算量,提高了模型性能;多尺度残差模块使用不同尺寸的卷积核,不同大小的感受野能够从多尺度提取图像信息,解决了难以找到合适尺寸卷积核、感受野大小固定等问题,使网络在还原图像细节时能够利用周围更多的信息;对于随着网络加深导致的收敛缓慢,每个多尺度残差模块都包含一个残差结构,整个网络构成多重残差,加速模型收敛,同时也提高了重建高分辨率图像的视觉效果。
图 1. 多尺度与多重残差超分辨率重建网络结构
Fig. 1. Multi-scale and multi-residual super-resolution reconstruction network structure
2.2 多尺度残差模块
本文受Inception网络[17]与文献[
18]启发,并在其基础上进行改进,提出多尺度残差模块,如
式中:F1,i表示第i个多尺度特征提取模块第1层提取的特征;W1,i和B1,i为网络学习的权重和偏置,由于本文模型所有卷积层均未使用偏置,所以所有B均恒为0;*表示卷积操作;ILR为低分辨率图像或特征;F2,i、W2,i和B2,i分别为3个多尺度特征提取模块第二层的输出特征、权重和偏置;f为激活函数。选用ReLU函数,公式如下
4个模块输出6×4通道数的特征图进行特征融合,构成新的64通道特征图,与残差特征相加,经过激活函数后输出到下一层,公式为
式中:FC为特征融合操作,将F2,i与第一个特征提取模块的输出F1,1进行特征融合;WR和BR为残差特征提取层的权重和偏置;Fout为多尺度残差模块的最终输出。
2.3 优化器与损失函数
本文采用Adam优化器[19]。随机梯度下降(SGD)优化器需要人为地挑选学习率,学习率过小容易导致收敛缓慢,学习率过大易使结果在最优点附近徘徊,达不到最优点。而Adam优化器根据计算梯度的一阶矩估计和二阶矩估计,可以自适应地为不同参数选择学习率,有效地提高网络模型的收敛速度,更快地达到最优点[20]。
损失函数采用L1函数。均方误差(MSE)损失函数作为超分辨率重建技术的损失函数时,模型会使重建图像的边缘更加平滑,失去了一定的真实性;平均绝对误差(MAE)即L1函数,能使重建的图像细节更加丰富,边缘更加锐利,同时参数比L2函数更少[21-23]。
L1损失函数主要用来计算输入图像和目标图像逐像素间差值的平均绝对值,其公式为
式中:x为输入图像;y为目标图像;i为两幅图像的第i个像素;对n个元素对应的差值的绝对值求和,得出来的结果除以n即为损失值。
3 实验与对比
3.1 实验环境
本次实验硬件为NVIDIA GeForce RTX 2060 GPU,软件环境为Windows 10操作系统、CUDA 10.1、Cudnn 7.5,使用PyTorch 1.3.0深度学习框架。
3.2 数据集和参数设置
为了横向对比,实验采用公开的291幅图片作为训练集进行训练。其中包含Yang等[24]91张以及伯克利细分数据集(BSD)[25]中的200张共计291张图片,将图片进行下采样缩放为原来的0.7和0.5,再通过翻转和分别旋转90°、180°、270°,生成共计6984张图片。再对这6984张图片按步幅54裁剪成大小为72×72的子图像作为HR图像,使用双三次插值向下采样得到LR图像,组成LR-HR训练数据对共115392对。
本次实验选用的Adam优化器参数设置采用默认设置,即矩估计指数衰减速率ρ1=0.9,ρ2=0.999,批尺寸为64,初始学习率为0.001,每15个训练周期将学习率设为之前的0.5,一共学习80个周期。
3.3 多尺度残差模块数量与多重残差结构对模型的影响
为了探究多尺度残差模块数量对模型的影响,使用平均峰值信噪比(PSNR)[26]作为指标进行对比,公式为
式中:n为图像的位数,取8;fMSE为均方误差;IGT和IHR分别为原图(GT)和网络重建之后的高分辨率图像,大小均为m×n;i和j表示图像第i行第j列个像素。
在Set5和Set14数据集上,使用4倍超分辨率,对比不同多尺度残差模块数对PSNR的影响,结果如
表 1. 不同多尺度残差模块数对PSNR的影响
Table 1. Effects of number of different multi-scale residual blocks on PSNR
|
为了验证多重残差的有效性,本文将包含多重残差结构与去除多重残差结构的模型进行了对比,以4倍超分辨率在Set5中进行测试,记录每个训练周期的PSNR均值变化,如
3.4 主观效果对比
将本文算法与主流算法进行对比,放大因子均为4,将图像用不同算法处理后,得出的结果如
图 4. 四倍放大因子下不同算法处理后的butterfly图像的超分辨率结果主观对比。(a)原图;(b) BICUBIC算法;(c) ESPCN算法;(d) SRCNN算法;(e) VDSR算法;(f) IMRSR算法
Fig. 4. Subjective comparison of super-resolution results of butterfly images processed by different algorithms under four times magnification factor. (a) GT; (b) BICUBIC algorithm; (c) ESPCN algorithm; (d) SRCNN algorithm; (e) VDSR algorithm; (f) IMRSR algorithm
图 5. 四倍放大因子下不同算法处理后的PPT图像的超分辨率结果主观对比。(a)原图;(b) BICUBIC算法;(c) ESPCN算法;(d) SRCNN算法;(e) VDSR算法;(f) IMRSR算法
Fig. 5. Subjective comparison of super-resolution results of PPT images processed by different algorithms under four times magnification factor. (a) GT; (b) BICUBIC algorithm; (c) ESPCN algorithm; (d) SRCNN algorithm; (e) VDSR algorithm; (f) IMRSR algorithm
3.5 客观指标对比
除了采用PSNR,还引入结构相似性(SSIM)[27]作为客观指标,公式为[18]
其中
式中:IGT为原图像;IHR为网络输出的HR图像;
本次实验除本文方法IMRSR使用L1损失函数外,SRCNN[10]、ESPCN[14]、VDSR[11]均采用MSE损失函数。由于实验所使用的方法和训练集为3.2节所述,并非和SRCNN[10]、ESPCN[14]、VDSR[11]论文一致,所以与原论文的结果略有不同。
不同算法在2、3、4倍放大系数下,在Set5、Set14、BSD100和Urban100测试集上,PNSR和SSIM的平均值如
表 2. 不同算法在不同测试集对图片进行不同超分辨率重建的PSNR平均值
Table 2. Average PSNR of different algorithms for different super-resolution reconstructions on different test setsunit: dB
|
表 3. 不同算法在不同测试集对图片进行不同超分辨率重建的SSIM平均值
Table 3. Average SSIM of different algorithms for different super-resolution reconstructions on different test sets
|
4 结论
针对不易选取合适尺寸卷积核、收敛速度慢、图像边缘模糊等问题,本文提出了一种基于多尺度与多重残差网络的超分辨率模型算法。所提网络模型直接在LR图像上提取特征,通过多个串联的多尺度残差模块,最后使用亚像素卷积向上采样,重建得到HR图像。实验结果表明,从主观效果和客观指标对比中都能看出,所提算法相对于其他主流算法,重建的图像质量更高,效果更好,画面更清晰,细节更丰富,边缘更锐利,纹理更真实。但本文算法模型参数量大小和精度仍有提升空间,因此在之后实验中可以优化网络大小,减少模型参数量,提升模型精度,进一步提升图像质量。
[1] Chen H G, He X H, Teng Q Z, et al. Single image super resolution using local smoothness and nonlocal self-similarity priors[J]. Signal Processing: Image Communication, 2016, 43: 68-81.
[2] OktayO, Bai WJ, LeeM, et al.Multi-input cardiac image super-resolution using convolutional neural networks[M] ∥Lecture Notes in Computer Science. Cham: Springer International Publishing, 2016: 246- 254.
[3] Park S C, Park M K, Kang M G. Super-resolution image reconstruction: a technical overview[J]. IEEE Signal Processing Magazine, 2003, 20(3): 21-36.
[4] Schultz R R, Stevenson R L. Extraction of high-resolution frames from video sequences[J]. IEEE Transactions on Image Processing, 1996, 5(6): 996-1011.
[5] ChangH, Yeung DY, Xiong YM. Super-resolution through neighbor embedding[C]∥Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2004.
[6] Irani M, Peleg S. Improving resolution by image registration[J]. CVGIP: Graphical Models and Image Processing, 1991, 53(3): 231-239.
[7] Stark H, Oskoui P. High-resolution image recovery from image-plane arrays, using convex projections[J]. Journal of the Optical Society of America A, 1989, 6(11): 1715-1726.
[8] ChangH, Yeung DY, Xiong YM. Super-resolution through neighbor embedding[C]∥Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2004: 275- 282.
[9] Yang JC, WrightJ, HuangT, et al. Image super-resolution as sparse representation of raw image patches[C]∥2008 IEEE Conference on Computer Vision and Pattern Recognition, 2008: 1- 8.
[10] DongC, Loy CC, He KM, et al.Learning a deep convolutional network for image super-resolution[M] ∥Computer Vision-ECCV 2014. Cham: Springer International Publishing, 2014: 184- 199.
[11] KimJ, Lee JK, Lee KM. Accurate image super-resolution using very deep convolutional networks[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016: 1646- 1654.
[12] 袁昆鹏, 席志红. 基于深度跳跃级联的图像超分辨率重建[J]. 光学学报, 2019, 39(7): 0715003.
[13] Dong C, Loy C C, Tang X O. Accelerating the super-resolution convolutional neural network[J]. Computer Vision, 2016: 391-407.
[14] Shi WZ, CaballeroJ, HuszárF, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]∥ 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016: 1874- 1883.
[15] Lai WS, Huang JB, AhujaN, et al. Deep laplacian pyramid networks for fast and accurate super-resolution[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017: 5835- 5843.
[16] Lai W S, Huang J B, Ahuja N, et al. Fast and accurate image super-resolution with deep Laplacian pyramid networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(11): 2599-2613.
[17] SchroffF, KalenichenkoD, PhilbinJ. FaceNet: a unified embedding for face recognition and clustering[C]∥2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015: 815- 823.
[18] 吴磊, 吕国强, 薛治天, 等. 基于多尺度递归网络的图像超分辨率重建[J]. 光学学报, 2019, 39(6): 0610001.
[19] Kingma DP, Ba J. Adam: a method for stochastic optimization[EB/OL]. ( 2017-01-30)[2020-01-07]. https: ∥arxiv.org/abs/1412. 6980.
[20] 王昌书. 基于机器视觉的手机曲面玻璃典型缺陷检测研究[D]. 广州: 华南理工大学, 2019: 42- 43.
Wang CS. Machine vision based typical defects inspection for curved glass of mobile phone[D]. Guangzhou: South China University of Technology, 2019: 42- 43.
[21] Zhao H, Gallo O, Frosio I, et al. Loss functions for image restoration with neural networks[J]. IEEE Transactions on Computational Imaging, 2017, 3(1): 47-57.
[22] 张雷, 胡博文, 张宁, 等. 图像超分辨率全局残差递归网络[J]. 计算机科学, 2019, 46(S1): 230-233.
Zhang L, Hu B W, Zhang N, et al. Global residual recursive network for image super-resolution[J]. Computer Science, 2019, 46(S1): 230-233.
[23] 余景景. 基于正则化的生物发光断层成像重建算法研究[D]. 西安: 西安电子科技大学, 2011: 55- 56.
Yu JJ. Regularization based reconstruction algorithms for bioluminescence tomography[D]. Xi'an:Xidian University, 2011: 55- 56.
[24] Yang J C, Wright J, Huang T S, et al. Image super-resolution via sparse representation[J]. IEEE Transactions on Image Processing, 2010, 19(11): 2861-2873.
[25] Martin D, Fowlkes C, Tal D, et al. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics[J]. Proceedings of International Conference on Computer Vision, 2002: 416-423.
[26] Wang Z, Bovik A C, Sheikh H R, et al. Image quality assessment: from error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612.
[27] Ye Y X, Shan J, Bruzzone L, et al. Robust registration of multimodal remote sensing images based on structural similarity[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(5): 2941-2958.
Article Outline
陈星宇, 张伟劲, 孙伟智, 任萍安, 欧鸥. 基于多尺度与多重残差网络的图像超分辨率重建[J]. 激光与光电子学进展, 2020, 57(18): 181009. Xingyu Chen, Weijin Zhang, Weizhi Sun, Ping'an Ren, Ou Ou. Super-Resolution Reconstruction of Images Based on Multi-Scale and Multi-Residual Network[J]. Laser & Optoelectronics Progress, 2020, 57(18): 181009.