基于注意力引导的轻量级图像超分辨率网络
1 引言
单幅图像超分辨率(SISR)算法是一种将观测到的低分辨率(LR)图像重建为相应的高分辨率(HR)图像,使图像具有边缘细节和高频纹理细节的方法。随着SISR技术在医学成像[1]、卫星成像、安全与监控等诸多领域显示出巨大潜力和实际应用价值,越来越多的研究者开始关注与研究这一问题。
传统SISR算法,例如基于插值的方法,包括最邻近插值法、双线性插值法、双三次插值法等,通过填补图像放大后像素的空缺位置恢复图像内容,达到提高图像分辨率的效果。但是使用这种方法后会得到边缘过于平滑的模糊图像,这一点在图像高频信息较多的区域尤为明显。为了解决基于插值的方法的缺点,研究者提出了基于学习的方法,包括基于字典学习的方法[2]、基于局部线性回归的方法[3]和基于随机森林的方法[4]。通过学习从LR图像到HR图像的映射关系,基于学习的超分辨率方法取得了比插值法更优的结果,获得了丰富的图像高频信息,但是这些方法需要对训练样本施加更多的限制,并且对图像中的噪声极为敏感。
深度学习是当今发展最快的机器学习方法之一[5]。基于深度学习的卷积神经网络的出现为解决超分辨率问题提供了新思路,许多研究者运用卷积神经网络,得到了优于传统SISR算法的结果。Dong等[6]提出了基于卷积神经网络的图像超分辨率网络(SRCNN),此网络是基于深度学习的单幅图像超分辨率网络的开山之作。SRCNN首先使用双三次插值法将图像放大至目标尺寸,从中提取特征,然后用三层卷积神经网络拟合LR图像和HR图像之间的非线性映射,最后输出重建后的HR图像。尽管SRCNN结果优于传统图像超分辨率算法,但过少的网络层数限制其性能的进一步提升。因此,Dong等[7]对SRCNN进行改进,提出了快速SRCNN(FSRCNN),得到了优于SRCNN的结果。FSRCNN优势包含3点:一是在最后使用反卷积层放大尺寸,因此可以直接将原始的LR图像输入到网络中;二是使用更小的卷积核和更多的映射层,获取更丰富的特征信息;三是共享网络中的映射层,提升训练不同放大倍数模型时的效率。Lai等[8]提出了拉普拉斯金字塔超分辨率网络(LapSRN),其结构类似于金字塔,对输入的LR图像每级进行一次2倍上采样操作,在进行高倍上采样的同时也能得到中间倍和低倍上采样的结果,提升了网络的整体效率,并且LapSRN在8倍放大倍数时有较优秀的表现。
为了进一步提升图像超分辨率的性能,Kim等[9]提出了深度递归神经网络(DRCN),DRCN利用跳跃连接加深了结构,通过增加网络感受野大小提升了整体性能。Kim等[10]发现低分辨率图像和高分辨率图像具有相关性,通过学习它们之间的残差信息能有效解决超分辨率问题,基于此原理,提出了深层卷积超分辨率网络(VDSR)。此网络利用深度神经网络和残差学习解决单图像超分辨率问题,并且使用自适应梯度裁剪来加速模型的训练。Tai等[11]在DRCN的基础上利用参数共享原理设计了深度递归残差网络(DRRN),增加了由多个残差单元组成的局部残差递归块,通过在残差单元中共享参数,减少经过深层网络后图像细节的丢失,得到了视觉效果更优的超分辨率图像。
上述网络通过不断堆叠网络层数、增加网络参数量的方法实现了更好的超分辨率性能,然而过深的网络结构也限制了网络在实际应用中的潜力,存在计算设备要求过高、网络训练时间过长等问题,然而减少网络参数量和提高网络整体性能很难同时实现。为了解决这些问题,本文提出了一种基于注意力引导的轻量级图像超分辨率算法(LAGNet),在精简网络结构的同时获得了极具竞争力的超分辨率结果,并且在重建图像质量和网络参数数量之间取得了良好的平衡。LAGNet的峰值信噪比(PSNR)相较于其他优秀算法有显著提升,在参数量(Parameters)和乘法操作量和加法操作量(Multi-Adds)上也有良好表现。
本文主要工作如下:提出了一种基于注意力引导的轻量级图像超分辨率网络(LAGNet);设计并提出了注意力引导(AG)模块,该模块使用高效通道注意力(ECA)模块和空间分组增强(SGE)模块双支路并联结构,并利用注意力引导层动态调整两个支路的权重比例,将学习到的通道间关系和空间位置信息特征相结合,快速获得原始图像中的高频特征信息;在AG模块间使用全局级联连接,精简网络结构的同时加快信息流通速度,进一步减少网络参数量。
2 相关工作
2.1 轻量级超分辨率网络
自VDSR[10]将深度残差网络结构引入超分辨率问题后,堆叠网络层数和增加残差模块数量便成为这一领域的研究趋势。基于此策略提出的网络,如增强的深度残差网络(EDSR)[12]将残差模块数量增加到32个,深度残差注意力网络(RCAN)[13]将网络层数堆叠到400层,均获得了较好的超分辨率结果。随着超分辨率网络结构的冗杂和参数量的激增,构建轻量级超分辨率网络模型、提升图像超分辨率算法的实际应用价值成为一个亟待解决的问题。
Ahn等[14]提出了一种轻量级且高效的级联残差网络(CARN),通过在卷积组之间加入多个残差连接,减小网络计算的复杂度,但是实验结果表明,直接将残差连接应用到超分辨率算法中的效果还有待提高。Li等[15]提出的极小型图像超分辨率网络(s-LWSR)通过删除部分激活层压缩模块参数量,实现了极少的参数量,代价是超分辨率图像细节部分失真。Tian等[16]提出了一种轻量级图像超分辨网络(LESRCNN),该网络采用由1×1和3×3卷积组成的异构结构减少低频信息冗余,通过重建模块将低频特征转换为高频特征,进一步降低网络的参数量。Chu等[17]提出了神经网络搜索架构,并基于此架构提出了一种基于神经网络搜索架构的轻量级超分辨率网络(FALSR),利用神经网络搜索架构代替人工调整参数,实现参数量和模型复杂度之间的平衡。Tian等[18]提出了基于CNN的非对称图像超分辨率网络(ACNet),通过由3×1、1×3和3×3卷积组成的非对称卷积结构突显局部关键特征,减少信息冗余的同时加快训练速度。
2.2 注意力机制
注意力机制最开始应用于机器翻译领域,随后扩展到语义分割、目标检测[19]、图像分类[20]等领域。由于注意力机制在减少参数量和提高网络效率方面表现优秀,在计算机视觉领域也有大量的应用。压缩与激励网络(SENet)[21]中首次提出了通道注意力选择机制,通过选择通道并赋予通道不同权重提取特征图的关键信息。Wang等[22]在SENet的基础上提出了高效通道注意力网络(ECANet),设计了不降低维度的局部交叉通道交互策略,该策略使用通道维数函数,自适应地确定一维卷积核大小,并确定局域交叉通道相互作用的覆盖范围。Li等[23]提出了空间分组增强(SGE)网络,该网络对通道进行分组,为每个通道组生成不同的特征因子来调整通道组的重要性,从而使每个组可以有针对性地增强学习能力,并抑制可能出现的噪声。以上研究均表明,注意力机制在减少网络参数量、加快网络运行效率和提升网络准确率方面具有良好的效果。
3 图像重建算法框架
3.1 LAGNet重建算法结构
LAGNet结构如
随后浅层特征
式中:
最后分别将所得图像深层特征
3.2 注意力引导模块
AG模块主要目的是减少网络的参数量和计算时间,具体细节于
式中:
并非所有注意力机制都可以提高网络性能,网络中无效且冗余的参数依然会阻碍网络性能的进一步提升,因此提出注意力引导(atg)层[24]。atg层能够自动舍弃部分不重要的注意力特征,动态调整两个模块的权重占比,从而提高网络的表征能力和泛化能力。
atg层的结构如
式中:
将通过atg层得到的不同模块权重
3.2.1 高效通道注意力模块
压缩与激励(SE)模块中的两个全连接层参数量冗余,并且全连接层中的降维操作对通道注意力有负面影响。因此本文在AG模块中使用ECA模块,ECA模块在SE模块的基础上使用无降维操作的局部跨通道交互策略。该策略通过自适应生成一维卷积核大小,确定局部跨通道相互作用的覆盖范围,在减少大量无效参数量和计算量的同时,得到了更为出色的注意力特征提取结果。ECA模块结构如
图 3. AG模块的主要构成部分。(a)ECA模块结构;(b)SGE模块结构
Fig. 3. Main structure of AG module. (a) ECA module structure; (b) SGE module structure
首先对输入的
式中:
随后将自适应卷积应用于一维卷积中,通过Sigmoid函数得到每个通道的注意力权重
式中:
3.2.2 空间分组增强模块
SGE模块对通道进行分组,为每个通道组生成不同的特征因子来调整通道组的重要性,从而有针对性地学习空间位置信息特征,并抑制可能出现的噪声。特征因子仅由各组内部的全局和局部特征描述符之间的相似性引导,因此SGE模块几乎没有引入额外的参数量。SGE模块结构如
首先,根据通道维度数量,将特征图划分成G组。由于噪声和相似特征的存在,特征的分布并无明显规律。因此,利用全局信息进一步加强对关键区域的语义特征学习,公式为
其次,利用全局特征
为避免不同样本间系数偏置造成的影响,对注意力系数
式中:
最后,对函数注意力权重
3.3 损失函数
L2损失函数通常是图像超分辨率领域损失函数的首选,但L1损失函数相较于L2损失函数具有更好的收敛性,能提升训练网络的准确度,因此实验使用L1损失函数训练网络。L1损失函数计算LR图像和HR图像每个像素间插值的平均绝对值,公式为
4 实验结果与分析
4.1 实验环境
4.1.1 实验数据集
DIV2K数据集[25]由800张训练图像、100张验证图像和100张测试图像组成,实验使用其中的800张训练图像进行网络模型训练。为防止网络训练过程中出现过拟合情况,在图像预处理过程中对训练图像进行数据增强操作,对图像随机旋转90°、180°、270°后水平翻转,得到3200张图像的增强数据集。新数据集是基于DIV2K数据集产生的,可以缩小训练集和验证集之间的差距,提取更多有效信息。使用3个标准基准数据集Set5[26]、Set14[27]、BSD100[28]对网络进行测试,3个测试数据集中共有119张图像,包含不同场景下的人物、动植物、自然景观和人造物图像,种类繁多且部分图像细节模糊,重建难度较大。
4.1.2 实验平台与参数配置
硬件部分:处理器型号为8核16线程AMD 3700X,显卡型号为RTX 2070Super,电脑内存为16 GB。软件部分:系统为Ubuntu18.04,采用Python 3.6版本编译程序,深度学习框架使用PyTorch 0.4.0版本。
实验在训练过程中的更新轮次设置为2000,训练批次量设置为16,输入和输出通道均设置为64,所有自适应权重的初始值均设置为1。在每个训练批次中,提取大小为48×48的LR图像作为输入,同时将相应的HR图像作为测试。训练时采用Adam优化器对网络的权重参数进行更新,更新过程中指数衰减速率设置为
4.2 消融实验
4.2.1 实验评价指标
使用峰值信噪比(PSNR)和结构相似度(SSIM)两个指标对重建图像的亮度通道进行评估。PSNR为信号的最大功率与噪声功率之比,PSNR值越高,说明重建的图像失真度越低,公式为
式中:
式中:
4.2.2 注意力引导模块对网络的影响
为研究AG模块在不同数据集和不同放大倍数条件下的普遍有效性,在其他变量保持不变的前提下,分别在Set5测试集2倍放大倍数、Set14测试集3倍放大倍数、BSD100测试集4倍放大倍数进行实验。对去除AG模块结构的模型和原始LAGNet网络的PSNR最大值进行了对比,如
4.2.3 注意力引导模块数量对网络的影响
为研究AG模块数量对LAGNet的影响,分别设置AG模块数量(NAG)为8、12、16、20、24,进行实验,在Set5、Set14、BSD100数据集3倍放大倍数的情况下进行测试。
表 1. AG模块数量对网络的影响
Table 1. Influence of the number of AG modules on the network
|
4.2.4 注意力引导模块结构对网络的影响
为研究AG模块结构对LAGNet网络的影响,在控制变量的前提下,分别删去SGE和ECA模块,替换为常用SE模块,同时设置有无atg层的对照实验,证明atg层在减少参数量、提升网络整体性能方面的作用。在Set5、Set14、BSD100数据集放大倍数分别为2、3、4的情况下测试PSNR、SSIM和参数量,得到的结果如
表 2. AG模块结构对网络的影响
Table 2. Influence of AG module structure on the network
|
4.3 实验结果分析
4.3.1 客观指标分析
对所提LAGNet网络模型与目前效果优异的方法进行对比,其他方法包括Bicubic、SRCNN[6]、FSRCNN[7]、LapSRN[8]、DRCN[9]、VDSR[10]、DRRN[11]、CARN[14]、s-LWSR[15]、LESRCNN[16]、FALSR[17]、ACNet[18]。与上述的所有其他方法相比,LAGNet网络的PSNR和SSIM有明显优势,实验结果如
表 3. 不同方法在Set5、Set14和BSD100数据集上的测试结果
Table 3. Test results of different methods on Set5, Set14, and BSD100 datasets
|
对网络参数量和加法乘法操作量进行了整体评估,在Set5数据集4倍放大倍率的条件下,对所提LAGNet与SRCNN[6]、FSRCNN[7]、LapSRN[8]、DRCN[9]、VDSR[10]、DRRN[11]、CARN-M[14]、s-LWSR16[15]、LESRCNN[16]、ACNet[18]共10种网络进行对比,证明了LAGNet网络在参数量和加法乘法操作量之间取得了平衡,并得到良好的实验结果,如
图 5. 现有轻量级图像超分辨率算法在Set5数据集4×上的性能和参数量比较
Fig. 5. Performance and parameters comparison of existing lightweight image super-resolution methods on Set5 dataset with the magnification of 4×
4.3.2 主观指标分析
使用BSD100测试集图像中赛车背后文字进行视觉效果对比,在放大倍数为2的情况下,得到的结果如
图 6. 不同方法对BSD100数据集中放大系数为2的图像的重建效果对比
Fig. 6. Comparison of reconstruction effects of different methods on images with a magnification factor of 2 in the BSD100 dataset
使用Set5测试集图像中小孩的编织帽细节部分进行视觉效果对比,在放大倍数为4的情况下,得到的结果如
图 7. 不同方法对Set5数据集中放大系数为4的图像的重建效果对比
Fig. 7. Comparison of reconstruction effects of different methods on images with magnification factor of 4 in Set5 dataset
5 结论
针对图像超分辨率重建算法中网络结构冗余导致计算量过大、网络训练时间过长、计算设备要求过高等问题,提出了一种注意力引导的轻量级图像超分辨率算法。网络模型通过注意力引导机制减少了网络的参数量,通过使用随机初始化的自适应权重和全局级联连接高效利用浅层特征信息,精简网络结构的同时提高了网络整体性能。其中注意力引导模块的双支路并联结构将学习通道间的关系与空间位置信息特征相结合,快速获得原始图像的高频信息。实验结果表明,相较于其他轻量级网络算法,所提LAGNet重建算法在客观评价指标上能达到最优,在整体视觉效果上对纹理细节也有更好的表现能力。但在实际应用中往往追求更高的效率,能否在提高运行速度的同时提升模型性能仍需要研究,拟减小网络宽度进行实验,进一步精简网络结构,提升超分辨率重建算法的性能。
[1] 胡芬, 林洋, 侯梦迪, 等. 基于深度学习的细胞骨架图像超分辨重建[J]. 光学学报, 2020, 40(24): 2410001.
[2] Yang J C, Wright J, Huang T S, et al. Image super-resolution via sparse representation[J]. IEEE Transactions on Image Processing, 2010, 19(11): 2861-2873.
[3] TimofteR, de SmetV, van GoolL. A+: adjusted anchored neighborhood regression for fast super-resolution[M]∥Cremers D, Reid I, Saito H, et al. Computer vision-ACCV 2014. Lecture notes in computer science. Cham: Springer, 2015, 9006: 111-126.
[4] SchulterS, LeistnerC, BischofH. Fast and accurate image upscaling with super-resolution forests[C]∥2015 IEEE Conference on Computer Vision and Pattern Recognition, June 7-12, 2015, Boston, MA, USA. New York: IEEE Press, 2015: 3791-3799.
[5] 王一同, 周宏强, 闫景逍, 等. 基于深度学习算法的计算光学研究进展[J]. 中国激光, 2021, 48(19): 1918004.
[6] DongC, LoyC C, HeK M, et al. Learning a deep convolutional network for image super-resolution[M]∥Fleet D, Pajdla T, Schiele B, et al. Computer vision-ECCV 2014. Lecture notes in computer science. Cham: Springer, 2014, 8692: 184-199.
[7] DongC, LoyC C, TangX O. Accelerating the super-resolution convolutional neural network[M]∥Leibe B, Matas J, Sebe N, et al. Computer vision-ECCV 2016. Lecture notes in computer science. Cham: Springer, 2016, 9906: 391-407.
[8] LaiW S, HuangJ B, AhujaN, et al. Deep Laplacian pyramid networks for fast and accurate super-resolution[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE Press, 2017: 624-632.
[9] KimJ, LeeJ K, LeeK M. Deeply-recursive convolutional network for image super-resolution[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition, June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE Press, 2016: 1637-1645.
[10] KimJ, LeeJ K, LeeK M. Accurate image super-resolution using very deep convolutional networks[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition, June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE Press, 2016: 1646-1654.
[11] TaiY, YangJ, LiuX M. Image super-resolution via deep recursive residual network[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition, July 21-26, 2017, Honolulu, HI, USA. New York: IEEE Press, 2017: 2790-2798.
[12] LimB, SonS, KimH, et al. Enhanced deep residual networks for single image super-resolution[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops, July 21-26, 2017, Honolulu, HI, USA. New York: IEEE Press, 2017: 1132-1140.
[13] ZhangY L, LiK P, LiK, et al. Image super-resolution using very deep residual channel attention networks[M]∥Ferrari V, Hebert M, Sminchisescu C, et al. Computer vision-ECCV 2018. Lecture notes in computer science. Cham: Springer, 2018, 11211: 294-310.
[14] AhnN, KangB, SohnK A. Fast, accurate, and lightweight super-resolution with cascading residual network[M]∥ Ferrari V, Hebert M, Sminchisescu C, et al. Computer vision-ECCV 2018. Lecture notes in computer science. Cham: Springer, 2018, 11214: 256-272.
[15] Li B, Wang B, Liu J B, et al. S-LWSR: super lightweight super-resolution network[J]. IEEE Transactions on Image Processing, 2020, 29: 8368-8380.
[16] Tian C W, Zhuge R, Wu Z H, et al. Lightweight image super-resolution with enhanced CNN[J]. Knowledge-Based Systems, 2020, 205: 106235.
[17] ChuX X, ZhangB, MaH L, et al. Fast, accurate and lightweight super-resolution with neural architecture search[C]∥2020 25th International Conference on Pattern Recognition (ICPR), January 10-15, 2021, Milan, Italy. New York: IEEE Press, 2019: 59-64.
[18] Tian C W, Xu Y, Zuo W M, et al. Asymmetric CNN for image superresolution[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2022, 52(6): 3718-3730.
[19] 王勃凡, 赵海涛. 基于径向基激活函数的高光谱小目标检测[J]. 光学学报, 2021, 41(23): 2311001.
[20] 张祥东, 王腾军, 朱劭俊, 等. 基于扩张卷积注意力神经网络的高光谱图像分类[J]. 光学学报, 2021, 41(3): 0310001.
[21] Hu J, Shen L, Albanie S, et al. Squeeze-and-excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(8): 2011-2023.
[22] WangQ L, WuB G, ZhuP F, et al. ECA-net: efficient channel attention for deep convolutional neural networks[C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 13-19, 2020, Seattle, WA, USA. New York: IEEE Press, 2020: 11531-11539.
[25] TimofteR, AgustssonE, GoolL V, et al. NTIRE 2017 challenge on single image super-resolution: methods and results[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops, July 21-26, 2017, Honolulu, HI, USA. New York: IEEE Press, 2017: 1110-1121.
[26] BevilacquaM, RoumyA, GuillemotC, et al. Low-complexity single-image super-resolution based on nonnegative neighbor embedding[C]∥Proceedings of the British Machine Vision Conference 2012, September 3-7, 2012, Surrey, UK. London: British Machine Vision Association, 2012: 135.
[27] ZeydeR, EladM, ProtterM. On single image scale-up using sparse-representations[M]∥Boissonnat J D, Chenin P, Cohen A, et al. Curves and surfaces. Lecture notes in computer science. Heidelberg: Springer, 2012, 6920: 711-730.
[28] MartinD, FowlkesC, TalD, et al. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics[C]∥Proceedings Eighth IEEE International Conference on Computer Vision, July 7-14, 2001, Vancouver, BC, Canada. New York: IEEE Press, 2001: 416-423.
Article Outline
丁子轩, 张娟, 李想, 王新宇. 基于注意力引导的轻量级图像超分辨率网络[J]. 激光与光电子学进展, 2023, 60(14): 1410010. Zixuan Ding, Juan Zhang, Xiang Li, Xinyu Wang. Lightweight Attention-Guided Network for Image Super-Resolution[J]. Laser & Optoelectronics Progress, 2023, 60(14): 1410010.