基于自注意力深度网络的图像超分辨率重建方法 下载: 936次
1 引言
图像超分辨率重建是指从一幅或多幅低分辨率图像中恢复出对应的包含更多纹理细节信息的高分辨率图像的过程。最初的图像超分辨率重建采用基于插值的方法,如最近邻插值、双线性插值、双三次插值等。插值方法思想简单、计算量小,可以有效提升图像的分辨率。但插值方法只是简单地实现像素点的增加,并不考虑图像内容,没有利用图像的先验信息。随后,Yang等[1]提出了一种基于稀疏编码的图像超分辨重建方法,该方法在超分辨领域获得了广泛关注,认为低分辨图像经过字典后的稀疏表示系数和对应的高分辨图像稀疏表示系数应当线性一致,以此来进行图像超分辨重建。该方法通过学习训练数据获得图像的先验知识,提升重建图像的效果,但计算开销较大,同时需要大量的训练样本。除此之外,还有学者提出了许多行之有效的重建方法,如Freeman等[2]基于样本学习理论提出一种基于马尔可夫随机场的重建方法,Chang等[3]提出一种基于邻域嵌入的重建算法,该算法将流行学习理论引入到超分辨领域中。
随着深度学习的兴起,基于深度神经网络的图像超分辨重建方法得到了越来越多研究者的关注
2014年,生成对抗网络(GAN)[9]的提出为图像生成领域注入了新的活力,通过GAN生成的图像更加符合人类视觉感官效果,学者们也开始将GAN应用到图像超分辨重建中[10-12]。GAN主要由生成器和判别器2部分组成,超分辨生成对抗网络(SRGAN)[10]是GAN应用在图像超分辨中的经典之作。传统图像超分辨方法通过逐像素方均误差损失来衡量重建图像的质量,而SRGAN则通过判别器对重建图像进行判别,生成器和判别器相互对抗优化,使重建图像细节更好。随后,Wang等[11]通过引入密集残差块、去除归一化层、采用相对平均判别器对SRGAN进行改进,提出一种增强型超分辨生成对抗网络(ESRGAN),从而得到了更加锐化、质量更好的图像。但同时GAN的优化函数是一个最大最小化问题,训练过程中容易出现梯度消失的问题,造成训练不稳定,另一方面,基于GAN的图像超分辨网络均比较复杂、难以训练、不易移植。
近年来,基于空间、通道注意力机制的超分辨重建受到许多学者的关注[13-17]。与此同时,与空间、通道注意力机制不同的是,视觉图像领域中的自注意力机制在建模全局依赖关系中表现出良好的性能。自注意力机制[28]可以建立当前关注的局部位置与图像中全部位置间的依赖关系,即获得图像中所有局部像素间的权重依赖特征图,从而获取图像的全局特征。受到自注意力机制的启发,针对超分辨率重建图像细节信息不足且缺乏层次的问题,本文提出一种基于自注意力机制的深度网络结构(SADeepNet)。首先在深度网络的映射过程中引入多个自注意力层来不断强化当前关注的局部区域位置和图像中所有其他位置间的依赖关系,使重建图像整体和各局部细节更加合理,增强图像层次;引入感知损失和像素方均误差损失两种损失函数来强化网络的细节保持能力。实验结果表明,所提方法能实现内容更准确、视觉效果更好的图像重建。
2 相关工作
2.1 SRCNN
SRCNN是一个基于CNN的超分辨重建算法,该算法通过构建一个三层的CNN来学习低分辨图像到高分辨图像间的映射关系。该算法先将待重建图像插值放大至目标尺寸大小;接着通过第一层卷积核大小为9×9的卷积层对低分辨图像特征块进行特征提取,通过第二层卷积层进行特征的非线性映射,将低分辨特征映射至高分辨特征;最后通过第三层卷积核大小为5×5的卷积层实现高分辨特征重组,得到重建图像。
2.2 FSRCNN
FSRCNN在SRCNN的基础上进行了改进。首先不必对待重建的低分辨图像进行插值放大,而是将其直接输入到网络中,使网络计算在较小的尺寸中进行,减少了计算量。其次,该方法采用了较小的卷积核来提取低分辨图像特征块,接着通过1×1卷积对特征图的维度进行压缩,并进行非线性映射,之后再通过1×1卷积将特征图扩展回原来的维度。最后,该方法通过反卷积操作来对图像进行上采样。这样不仅提升了网络的运行速度还增强了重建效果。
3 所提方法
3.1 网络结构
提出的SADeepNet的整体结构如
3.2 自注意力层
自注意力层结构如
接着对F(x)与转置后的G(x)进行矩阵乘法,再通过一个Softmax函数得到输入特征图x中两两像素间的权重依赖关系,以此来计算F(x)和G(x)间的相似度,获得注意力特征图M(x)。M(x)的计算过程可以表示为
式中:Mi',j'(x)为F(x)中第i'个元素和G(x)中第j'个元素间的相似度。随后对H(x)与注意力特征图M(x)进行矩阵乘法,其结果经v(x)=Wvx+bv映射后,与自注意力层输入x拼接,得到自注意力层的输出O(x)。其计算过程为
通过对自注意力层的分析可知,自注意力机制能捕获到图像中任意两个像素点间的依赖关系,因此可以在图像重建过程中引入全局特征,增强重建图像中局部区域的层次感,提升重建图像的质量,使得整个图像的视觉效果更好。
3.3 损失函数
所提方法所采用的损失函数表达式为
式中:L为总的损失函数;Lmse为图像的像素级损失函数;Lp为图像的感知损失; α、β分别为不同损失对应的权重大小。
1)图像像素级损失,即重建图像Y'和真实高分辨率图像Y对应像素点的方均差。图像的像素级损失Lmse可以表示为
式中:Y'i,j和Yi,j分别为重建图像和真实高分辨图像中(i,j)处的像素值;W、H分别为高分辨图像的宽度和高度。
2)感知损失:通过卷积网络分别对重建图像Y '和真实高分辨图像Y提取一组特征,要求这两组特征尽可能相似,同样采用方均误差来衡量对应特征的相似度。感知损失[8]能获得图像感知和语义上的差距,从而增强图像的纹理细节信息。采用VGG-19网络[29]作为提取图像特征的卷积网络,将全连接层之前的最后一个卷积层的输出作为特征,用φ5,4表示该输出特征。则感知损失Lp可以表示为
4 实验结果及分析
4.1 数据集介绍
从用于ImageNet竞赛的ILSVRC2012大型图像分类数据集中选取了3类数据作为本次实验数据,分别为飞机(Plane)、椅子(Chair)和蝴蝶(Butterfly),每个类别均有1300张图像,对每个类别都进行放大倍数为×2和×3的两组实验。对于×2实验,首先对1300张图像进行双三次插值得到128×128大小图像,选取其中的1000张图像作为训练图像,对剩余的300张图像再次插值到64×64大小作为低分辨测试图像。对于×3实验,首先对1300张图像进行双三次插值得到126×126大小图像,选取其中的1000张图像作为训练图像,对剩余的300张图像再次插值到42×42大小作为低分辨测试图像。
4.2 实验环境及参数配置
分别对3类数据集各进行×2和×3两种放大倍数处理共计6组实验。本实验在训练过程中的更新次数为300轮。训练时采用Adam优化器对网络的权重参数进行更新,更新过程中初始学习率设置为0.002,指数衰减率设置为β1=0.5,β2=0.9。对不同损失函数的权重进行多次尝试,得到最优的权重为α=10,β=1。
在训练过程中,会对1000张训练图像进行随机小块截取,截取的小块大小为65×65,每张图像截取16个小块,共有16000个小块,这些小块组成了训练集中的高分辨图像,对这些小块进行下采样得到训练集中的低分辨图像。网络中的第一个卷积层和最后一个卷积层均不进行填充补0处理,因此在训练过程中从输入到输出,图像尺寸会减小。在测试过程中,第一个卷积层和最后一个卷积层均进行填充补0处理,因此在测试过程中不会影响输出图像的大小。
采用的硬件平台处理器为Intel®Core i7-8700 CPU,主频为3.2GHz,内存大小为32GB,显卡型号为GeForce RTX 2080。软件平台为Ubuntu 18.04,所采用的编程语言为Python 3.6,在神经网络编程中采用目前比较流行的Pytorch库。
4.3 实验结果分析
对所提SADeepNet、Bicubic插值方法、SRCNN、FSRCNN的性能进行对比,主要从图像的视觉效果和客观评价指标两方面对实验结果进行分析。其中,采用的客观评价指标包括:峰值信噪比(PSNR)衡量参考图像与重建图像之间的像素相似性;结构相似性(SSIM)[30]从亮度、对比度及结构三个方面对重建图像进行评价。
图 3. 不同方法重建的飞机图像。(a)经放大显示的低分辨输入图像; (b)Bicubic; (c)SRCNN; (d)FSRCNN; (e)SADeepNet; (f)真实高分辨图像
Fig. 3. Plane images reconstructed by different methods. (a) Low-resolution input image with enlarged display; (b) Bicubic; (c) SRCNN; (d) FSRCNN; (e) SADeepNet; (f) high-resolution original image
图 4. 不同方法重建的椅子图像。(a)经放大显示的低分辨输入图像;(b)Bicubic; (c)SRCNN; (d)FSRCNN;(e)SADeepNet;(f)真实高分辨图像
Fig. 4. Chair images reconstructed by different methods. (a) Low-resolution input image with enlarged display; (b) Bicubic; (c) SRCNN; (d) FSRCNN; (e) SADeepNet; (f) high-resolution original image
图 5. 不同方法重建的蝴蝶图像。(a)经放大显示的低分辨输入图像;(b)Bicubic; (c)SRCNN; (d)FSRCNN; (e)SADeepNet;(f)真实高分辨图像
Fig. 5. Butterfly images reconstructed by different methods. (a) Low-resolution input image with enlarged display; (b) Bicubic; (c) SRCNN; (d) FSRCNN; (e) SADeepNet; (f) high-resolution original image
表 1. 不同方法的PSNR对比
Table 1. PSNR comparison of different methods unit: dB
|
表 2. 不同方法的SSIM对比
Table 2. SSIM comparison of different methods
|
5 结论
针对现有超分辨方法重建的图像缺乏细节信息和结构层次的问题,提出了一种基于自注意力机制的深度神经网络SADeepNet。该方法在非线性映射时强化局部位置与图像中所有位置间的依赖关系,以此在重建过程中引入图像的全局特征,增强图像层次。同时在训练时,联合使用基于VGG网络的感知损失和图像的像素级误差损失,强化网络对图像细节信息的重建能力。ImageNet数据集中飞机、椅子、蝴蝶3类数据集上的6组对比实验表明,相比于插值方法、SRCNN、FSRCNN,所提方法不仅在客观评价指标PSNR和SSIM上有所提高,且在图像视觉效果上也有较大提升。下一步,将结合深度网络特性继续对自注意力机制在网络中的应用进行研究,以提高深度网络的超分辨重建性能。
[2] Freeman W T, Jones T R, Pasztor E C. Example-based super-resolution[J]. IEEE Computer Graphics and Applications, 2002, 22(2): 56-65.
[3] ChangH, Yeung DY, Xiong YM. Super-resolution through neighbor embedding[C]∥Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, June 27 - July 2, 2004, Washington, DC, USA.New York: IEEE Press, 2004.
[4] DongC, Loy CC, He KM, et al. Learning a deep convolutional network for image super-resolution[M] ∥Fleet D, Pajdla T, Schiele B, et al. Computer vision-ECCV 2014. Lecture notes in computer science. Cham: Springer, 2014, 8692: 184- 199.
[5] Dong C, Loy C C, He K M, et al. Image super-resolution using deep convolutional networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(2): 295-307.
[6] DongC, Loy CC, Tang XO. Accelerating the super-resolution convolutional neural network[M] ∥Leibe B, Matas J, Sebe N, et al. Computer vision - ECCV 2016. Lecture notes in computer science. Cham: Springer, 2016, 9906: 391- 407.
[7] Shi WZ, CaballeroJ, HuszárF, et al.Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA.New York: IEEE Press, 2016: 1874- 1883.
[8] JohnsonJ, AlahiA, Li FF. Perceptual losses for real-time style transfer and super-resolution[M] ∥Leibe B, Matas J, Sebe N, et al. Computer vision - ECCV 2016. Lecture notes in computer science. Cham: Springer, 2016, 9906: 694- 711.
[9] Goodfellow IJ, Pouget-AbadieJ, MirzaM, et al. Generative adversarial nets[C]∥Proceedings of the 27th International Conference on Neural Information Processing Systems, December 8-13, 2014, Montreal, Quebec, Canada. New York: Curran Associates, 2014, 2: 2672- 2680.
[10] LedigC, TheisL, HuszárF, et al.Photo-realistic single image super-resolution using a generative adversarial network[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA.New York: IEEE Press, 2017: 105- 114.
[11] Wang XT, YuK, Wu SX, et al. ESRGAN: enhanced super-resolution generative adversarial networks[M] ∥Leal-Taixé L, Roth S. Computer vision-ECCV 2018 workshops. Lecture notes in computer science. Cham: Springer, 2019, 11133: 63- 79.
[12] 袁飘逸, 张亚萍. 双判别器生成对抗网络图像的超分辨率重建方法[J]. 激光与光电子学进展, 2019, 56(23): 231010.
[13] LuY, ZhouY, Jiang ZQ, et al.Channel attention and multi-level features fusion for single image super-resolution[C]∥2018 IEEE Visual Communications and Image Processing (VCIP), December 9-12, 2018, Taichung, Taiwan, China.New York: IEEE Press, 2018.
[14] LiuY, Wang YC, LiN, et al.An attention-based approach for single image super resolution[C]∥2018 24th International Conference on Pattern Recognition (ICPR), August 20-24, 2018, Beijing, China.New York: IEEE Press, 2018: 2777- 2784.
[15] Zhang YL, Li KP, LiK, et al. Image super-resolution using very deep residual channel attention networks[M] ∥Ferrari V, Hebert M, Sminchisescu C, et al. Computer vision - ECCV 2018. Lecture notes in computer science. Cham: Springer, 2018, 11211: 294- 310.
[16] 席志红, 袁昆鹏. 基于残差通道注意力和多级特征融合的图像超分辨率重建[J]. 激光与光电子学进展, 2020, 57(4): 041504.
[17] 刘可文, 马圆, 熊红霞, 等. 基于残差通道注意力网络的医学图像超分辨率重建方法[J]. 激光与光电子学进展, 2020, 57(2): 021014.
[18] ShocherA, CohenN, IraniM. Zero-shot super-resolution using deep internal learning[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA.New York: IEEE Press, 2018: 3118- 3126.
[19] BulatA, YangJ, TzimiropoulosG. To learn image super-resolution, use a GAN to learn how to do image degradation first[M] ∥Ferrari V, Hebert M, Sminchisescu C, et al. Computer vision - ECCV 2018. Lecture notes in computer science. Cham: Springer, 2018, 11210: 187- 202.
[20] YuanY, Liu SY, Zhang JW, et al.Unsupervised image super-resolution using cycle-in-cycle generative adversarial networks[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), June 18-22, 2018, Salt Lake City, UT, USA.New York: IEEE Press, 2018: 814- 823.
[21] HarisM, ShakhnarovichG, UkitaN. Deep back-projection networks for super-resolution[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA.New York: IEEE Press, 2018: 1664- 1673.
[22] Lai WS, Huang JB, AhujaN, et al. and accurate image super-resolution with deep laplacian pyramid networks[EB/OL]. ( 2018-08-09)[2020-05-29]. https:∥arxiv.org/abs/1710. 01992.
[23] 胡诗语, 王国栋, 赵毅, 等. 基于密集连接与激励模块的图像超分辨网络[J]. 激光与光电子学进展, 2019, 56(20): 201005.
[24] ChenY, TaiY, Liu XM, et al.FSRNet: end-to-end learning face super-resolution with facial priors[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA. New York: IEEE Press, 2018: 2492- 2501.
[25] KimJ, Lee JK, Lee KM. Deeply-recursive convolutional network for image super-resolution[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA.New York: IEEE Press, 2016: 1637- 1645.
[26] Li JC, Fang FM, Mei KF, et al. Multi-scale residual network for image super-resolution[M] ∥Ferrari V, Hebert M, Sminchisescu C, et al. Computer vision - ECCV 2018. Lecture notes in computer science. Cham: Springer, 2018, 11212: 527- 542.
[27] Zhang YL, Tian YP, KongY, et al.Residual dense network for image super-resolution[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA.New York: IEEE Press, 2018: 2472- 2481.
[28] Wang XL, GirshickR, GuptaA, et al.Non-local neural networks[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA.New York: IEEE Press, 2018: 7794- 7803.
[29] SimonyanK, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL]. ( 2015-04-10)[ 2020-05-29]. https:∥arxiv.org/abs/1409. 1556.
[30] Ye Y X, Shan J, Bruzzone L, et al. Robust registration of multimodal remote sensing images based on structural similarity[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(5): 2941-2958.
Article Outline
陈子涵, 吴浩博, 裴浩东, 陈榕, 胡佳新, 时亨通. 基于自注意力深度网络的图像超分辨率重建方法[J]. 激光与光电子学进展, 2021, 58(4): 0410013. Zihan Chen, Haobo Wu, Haodong Pei, Rong Chen, Jiaxin Hu, Hengtong Shi. Image Super-Resolution Reconstruction Method Based on Self-Attention Deep Network[J]. Laser & Optoelectronics Progress, 2021, 58(4): 0410013.