基于Tikhonov正则化和细节重建的红外与可见光图像融合方法 下载: 1632次
1 引言
图像融合就是将包含同一场景的多张传感器图像结合起来,获得一幅鲁棒性更好、信息更加丰富的图像[1],实现对图像场景和目标更加准确的描述,以便于开展进一步的处理与研究。其中,红外与可见光图像融合是该领域的一项重要课题,通过红外成像传感器捕捉物体的热辐射信息,结合可见光图像的细节和纹理,就可以得到一幅场景更加完整,且更符合人类视觉感受的图像,在遥感[2]、医学[3]、**[4]等领域都有广泛应用。
传统的红外与可见光图像融合方法包括多尺度分解法[5]、稀疏表示法[6],以及基于显著性[7]的方法等,这些方法虽然可以有效地改进图像的融合效果,但复杂度较高,执行效率低。随着深度学习的兴起,通过深度网络提取图像深层次的信息,并利用GPU(Graphics Processing Unit)进行加速,可以重构出一幅信息丰富的图像,且算法的执行效率大大提高。Amin-Naji等[8]在全卷积神经网络(FCN)的基础上,提出了一种基于深度学习的图像融合方法,该方法用卷积层代替了网络中的全连接层,并删除了池化层,这样可以避免图像中的细节被消除,从而得到了一幅更准确且更清晰的决策图。Li等[9]针对深度网络只提取特征而不处理的问题,提出了一种基于深度特征和零相位成分分析(ZCA)的融合框架,将残差网络(ResNet)提取到的深度特征利用ZCA进行归一化后得到初始权值图,然后采取加权平均的策略得到了融合图像。此外,Li等[10]还将密集连接卷积网络(DenseNet)与融合策略相结合,针对图像融合的问题设计了一套编码、解码的机制,在编码过程中利用DenseNet从源图像中获取更多的有用特征,然后利用解码器对融合后的图像进行重构。Goodfellow等[11]利用生成的对抗网络(GAN)实现红外图像与可见光图像的融合,生成的网络保留了红外目标的亮度和可见光图像的梯度,判别网络迫使融合后的图像保留更多的细节,最终得到了一幅纹理清晰、信息丰富的图像[12]。上述融合方法结合深度网络提取图像深层次的特征,弥补了传统算法的一些不足,具有一定的创新性,但还存在以下问题:缺少训练的过程,直接利用已有的网络模型和预训练权重进行特征提取,特征的有效性不能保证;损失函数的设定与模型预期得到的融合效果不符,缺乏说服力。
本文提出了一种结合Tikhonov正则化与细节重建的图像融合方法,针对图像通过Tikhonov正则化分解后得到的基本层,训练了一个用于将基本层还原成清晰图像的GAN,然后通过引入图像梯度损失来增强网络重建高频信息的能力。本文的主要创新点如下:将Tikhonov正则化运用到图像分解中,滤除了边缘、轮廓等梯度较大的区域,并且很好地保留了图像的主要能量和灰度分布信息,为之后的细节重建做好了准备;自定义基本层特征,基于主成分分析(PCA)的融合规则对基本层进行融合。相比于固定权重的融合方法,本文中的融合规则充分结合了红外和可见光基本层图像的灰度特性,对不同场景的适应性更好。此外,不同于传统方法将各频带分别融合后再相加的思路,本文融合结果的细节层由基本层融合图像重建得到,重建网络实现了Tikhonov正则化分解的逆过程,增强了融合图像中低频与高频信息之间的相关性。实验结果表明,本文算法融合后的图像在主观和客观评价上均具有一定优势,视觉效果也更好。
2 基本原理
2.1 Tikhonov正则化
Tikhonov正则化依据最小二乘准则和平滑准则,将不适定问题转换为一个近似适定问题,该方法可以应用于图像去噪、梯度计算和图像复原[13]等问题上,具有良好的稳定性[14]。Tsibanov等[15]通过引入一阶导数,将该正则化方法应用于图像滤波,根据正则化函数最小化的结果,得到了分解后图像的基本层。正则化函数的表达式为
式中:u表示分解前的图像;ub表示图像的基本层,即滤波后的结果;ud=u-ub表示图像的细节层,包括图像的边缘、轮廓等信息;
2.2 生成对抗网络
生成对抗网络(GAN)由生成器G和判别器D两个模块组成。其中,生成器将输入图像或随机噪声映射成服从真实分布的图像,判别器将生成的图像与真实图样区分开来。GAN的本质是一个“二元极小极大博弈”的问题,通过在生成器和判别器之间进行持续性的对抗学习来提高两个模型的性能,从而生成更高质量的图像。生成对抗网络的目标函数定义为
式中:E表示函数的期望;Pdata(x)和Pnoise(z)分别为真实数据的分布与噪声分布。固定判别器的参数并引入JS散度,可以将生成器的损失函数定义为
当生成数据与真实数据的分布没有重叠时,JS散度的计算结果为0,在网络训练过程中会产生梯度消失的现象,无法达到纳什均衡。此外,GAN存在训练不稳定、模式易崩溃等缺陷[18],针对这类问题,一些改进模型也随之被提出来。本文参考最小二乘GAN(LSGAN)[19],将生成对抗网络的目标函数由交叉熵损失替换为最小二乘损失,通过拉近生成图像与决策边界的距离,引导图像逼近真实数据,以解决GAN训练不稳定以及生成质量不高等问题。
3 本文算法
针对红外图像与可见光图像的融合问题,本文参考现有的深度学习方法,设计了一个结合Tikhonov正则化与细节重建的图像融合方法。算法流程如
如
3.1 基本层融合规则
基本层反映了图像在大尺度上的变化,传统的PCA融合方法是基于基本层的强度的,而由于红外基本层的强度远大于可见光图像的基本层,因此计算出的融合权重会偏向于红外图像,这样就损失了可见光基本层的灰度信息,造成细节上的丢失。本文权衡了红外与可见光基本层的灰度分布特性,基于图像子块的能量和空间频率计算PCA融合权重,能量高的区域显著性较强,空间频率高的区域信息更加丰富。将基本层分割成m×n个子块,设子块的大小为w×h,则每一块的能量E与空间频率FS为
其中,
式中:f(i,j)为子块中位于(i,j)处的像素值;FR表示图像在行方向上的空间频率;FC表示列方向上的空间频率。将各图像子块的特征表示为(
记红外图像基本层的特征为li,可见光图像基本层的特征为lv,利用PCA降维的方法构建特征之间的关系。PCA通过分析变量之间的相关性找出变量中的主要成分,实现对原始信息的降维,将红外与可见光特征通过降维合并成单个向量,得到的合并权重即可作为基本层的融合权重,具体步骤如下。
1) 将li和lv作为矩阵A的列向量,计算A的协方差矩阵C:
2) 计算C的特征值λ1、λ2与特征向量φ1、φ2,找出其中最大的特征值对应的特征向量φ,记φ=
3) 归一化φ的值,得到新的图像融合的权重ω1和ω2:
4) 根据计算得到的权重对红外基本层与可见光基本层进行融合,得到基本层融合结果
3.2 细节重建
针对Tikhonov正则化方法分解后的基本层图像,本文设计了一种用于细节重建的生成对抗网络,网络的输入输出图像均映射至[-1,1]之内,模型的框架如
3.2.1 生成网络的结构
生成网络主要由密集卷积模块(Dense Block)[20]和全卷积模块(Fully Convolutional Block)组成,输入Tikhonov正则化方法分解后的基本层,得到的输出结果为重建后的图像,它恢复了分解损失的边缘和细节信息。生成网络的结构如
式中:Xn表示第n层的输出;Hn表示第n层网络的非线性变换,包括卷积、批归一化(BN,Batch Normalization)和带泄露整流函数(LeakyReLU)运算;[ ]表示拼接操作,通过对输出进行通道合并来实现特征复用,可在减轻梯度消失的同时减少网络参数,提升了运算效率,并且可以提取高质量的语义信息。本文并非直接利用全卷积模块对输入图像进行采样操作,而是通过密集卷积模块对输入进行了初步的编码,得到一张高维特征图,为之后的采样和进一步提取深层次的信息做准备。
全卷积模块通过卷积与池化形成高维特征,再经过反卷积还原得到高分辨率的低维特征图,将上采样和下采样过程中对应的特征进行合并,从而提取图像的高级语义特征和细节信息。特征合并采用跳跃连接(Skip Connections)[21]的方式,将上、下采样中对应尺寸和维度的特征图通过相加的方式实现特征的复用,便于恢复图像的细节信息,减轻梯度消失的问题。此外,针对计算量增加与存储资源占用的问题,在高维的层之间使用1*1的卷积核进行降维,产生一个瓶颈层(Bottleneck),不仅有效地减少了参数的数目,还在保持模型效果的同时加速了网络的收敛。全卷积模块的参数信息如
表 1. 全卷积模块的参数信息
Table 1. Parameter information of fully convolutional block
|
3.2.2 判别网络的结构
判别网络为6层卷积神经网络,其前5层为卷积层,使用带步幅的卷积(strided convolution)代替池化层实现下采样;最后1层为全连接层,使用Sigmoid激活函数进行二分类。当输入为Tikhonov正则化分解得到的细节层时,网络的输出为1;当输入为生成图像与基本层差分得到的伪细节图像时,输出为0。判别网络的结构如
3.2.3 网络训练
本文通过自定义的损失函数引导网络参数的学习,生成网络的损失LG共有两个部分,包括生成器和判别器的对抗损失V(G)和内容损失Lcontent。其中,对抗损失用于引导网络生成符合真实数据分布的结果,内容损失用于衡量重建后的图像与原图像的距离。损失函数的定义为
式中:c为正样本的标签值1;
本文使用LSGAN的最小二乘损失[19]衡量分类结果和标签的距离,引导与真实图像差异较大的生成图像向决策边界靠近,优化训练的结果,并且使训练过程更加稳定。判别网络的损失函数定义为
式中:a和b分别为正、负样本的标签值1和0;
本文先训练判别网络,再固定判别网络的权重训练生成网络,根据自定义的函数计算损失,并利用Adam算法优化梯度。网络训练流程如
4 分析与讨论
本文中网络的训练采用的是Laquerre等提供的RGB-NIR数据集[22],包括477张可见光图像和477张近红外图像,裁剪后得到13720张320×320的训练样本,测试集为TNO图像融合数据库,用于验证网络细节重建的能力并得到最终的融合结果。本文的实验环境为Intel(R)Core(TM)i7-8700 CPU @3.20 GHz主频/16.0 GB内存,使用GPU为NVIDIA GeForce GTX 1060,6 GB显存。Adam优化器的学习率设置为2×10-4,动量设置为0.9,网络迭代终止次数为20,计算基本层特征时子块的大小设置为16×16。
本文选取了图像金字塔、引导滤波等几种图像融合时常用的分解方法,并将其与Tikhonov正则化进行比较,用于说明Tikhonov正则化的分解效果在本文算法中的优势。另外选取了4种结合深度网络的图像融合方法——密集连接卷积网络(DenseNet)[10]、残差网络(ResNet)[9]、Visual Geometry Group(VGG)[16]和生成对抗网络(GAN)[12],以及3种现有的图像融合方法——四叉树分解(QD)[23]、视觉显著图(VSM)[7]和隐式低秩表示(LatLRR)[24],进行对比实验。
4.1 主观评价
使用7×7的高斯滤波算子对待融合图像进行模糊处理,采用不同的算法对平滑后的图像进行融合,得到了模糊图像的融合效果。由
图 6. 不同分解方法对Smoke场景的分解效果。(a)原图像;(b)双边滤波;(c)引导滤波;(d)高斯金字塔;(e)小波变换;(f) Tikhonov正则化,α=2;(g) Tikhonov正则化,α=4;(h) Tikhonov正则化,α=8
Fig. 6. Comparison of decomposition effects of different decomposition algorithms for “Smoke” scene. (a) Original image; (b) bilateral filtering; (c) guided filtering; (d) Gaussian pyramid; (e) wavelet transform; (f) Tikhonov regularization, α=2; (g) Tikhonov regularization, α=4 ; (h) Tikhonov regularization, α=8
图 7. 不同分解方法对Heather场景的分解效果。(a)原图像;(b)双边滤波;(c)引导滤波;(d)高斯金字塔;(e)小波变换;(f) Tikhonov正则化,α=2;(g) Tikhonov正则化,α=4;(h) Tikhonov正则化,α=8
Fig. 7. Comparison of decomposition effects of different decomposition algorithms for “Heather” scene. (a) Original image; (b) bilateral filtering; (c) guided filtering; (d) Gaussian pyramid; (e) wavelet transform; (f) Tikhonov regularization, α=2; (g) Tikhonov regularization, α=4 ; (h) Tikhonov regularization, α=8
图 8. 不同算法对Quad场景的融合效果。(a)可见光图像;(b)红外图像; (c) DenseNet; (d) LatLRR; (e) VGG; (f) ResNet; (g) VSM; (h) QD; (i) GAN; (j)本文算法
Fig. 8. Fusion effects of different algorithms in “Quad” scene. (a) Visible image; (b) infrared image; (c) DenseNet; (d) LatLRR; (e) VGG; (f) ResNet; (g) VSM; (h) QD; (i) GAN; (j) proposed algorithm
图 9. 不同算法对Smoke场景的融合效果。(a)可见光图像;(b)红外图像;(c) DenseNet;(d) LatLRR;(e) VGG;(f) ResNet;(g) VSM;(h) QD;(i) GAN;(j)本文算法
Fig. 9. Fusion effects of different algorithms in “Smoke” scene. (a)Visible image; (b) infrared image; (c) DenseNet; (d) LatLRR; (e) VGG;(f) ResNet; (g) VSM; (h) QD; (i) GAN; (j) proposed algorithm
图 10. 不同算法对Nato_camp场景的融合效果。(a)可见光图像;(b)红外图像;(c) DenseNet;(d) LatLRR;(e) VGG;(f)ResNet;(g)VSM;(h)QD;(i)GAN;(j)本文算法
Fig. 10. Fusion effects of different algorithms in “Nato_camp” scene. (a) Visible image; (b) infrared image; (c) DenseNet; (d) LatLRR; (e) VGG; (f) ResNet; (g) VSM; (h) QD; (i) GAN; (j) proposed algorithm
图 11. 不同算法对模糊场景Kaptein_1123的融合效果。(a)可见光图像;(b)红外图像;(c) DenseNet; (d) LatLRR; (e) VGG; (f) ResNet; (g) VSM; (h) QD; (i) GAN; (j)本文算法
Fig. 11. Fusion effects of different algorithms in blurred “Kaptein_1123” scene. (a) Visible image; (b) infrared image; (c) DenseNet; (d) LatLRR; (e) VGG; (f) ResNet; (g) VSM; (h) QD; (i) GAN; (j) proposed algorithm
图 12. 不同算法对模糊场景Heather的融合效果。(a)可见光图像;(b)红外图像; (c) DenseNet; (d) LatLRR; (e) VGG; (f) ResNet; (g) VSM; (h) QD; (i) GAN; (j)本文算法
Fig. 12. Fusion effects of different algorithms in blurred “Heather” scene. (a) Visible image; (b) infrared image; (c) DenseNet; (d) LatLRR; (e) VGG; (f) ResNet; (g) VSM; (h) QD; (i) GAN; (j) proposed algorithm
4.2 客观评价
选取了多个评价指标对最终的融合结果进行客观评价,主要包括图像熵(EN)、标准差(SD)、结构相似性(SSIM)、相关系数(CC)和空间频率(SF)。其中:图像熵用于衡量图像包含的信息量;标准差反映了图像像素值与均值的离散程度,较高的标准差表明融合图像的质量更好;结构相似性用于衡量融合图像相较于红外图像、可见光图像的失真和信息损失,主要包括协方差损失、亮度失真和对比度失真三个方面;相关系数表明融合结果与源图像的线性相关度;空间频率与3.1节中的定义一致。选取场景Bunker、Heather、Sandpath、Jeep的融合图像进行数据统计,得到不同算法的评价结果,如
表 2. 不同融合方法的客观评价结果
Table 2. Objective evaluation results of different fusion methods
|
对
图 13. 本文算法对其他场景的融合效果。(a) Steamer; (b) Bunker; (c) Street; (d) Jeep; (e) Soldier
Fig. 13. Fusion results of proposed algorithm in other scenes. (a) Steamer; (b) Bunker; (c) Street; (d) Jeep; (e) Soldier
5 结论
本文提出了一种基于Tikhonov正则化和细节重建的图像融合方法,首先采用Tikhonov正则化将红外图像与可见光图像进行分解,分解出基本层,计算基本层的特征后采用PCA融合得到低频融合图像;再针对基本层训练得到一个用于图像细节信息重建的网络,将融合后的低频图像输入网络后得到最终的融合结果。实验结果表明,本文提出的算法保留了源图像中的显著区域,而且重建后的图像中包含了丰富的高频信息,对不同清晰度的图像具有很好的鲁棒性,在视觉质量和运行效率上都具有一定的优势,但在细节重建过程中引入了一些噪声,如何解决这一问题并进一步提高融合质量是下一步研究的方向。
[1] 江泽涛, 吴辉, 周哓玲. 基于改进引导滤波和双通道脉冲发放皮层模型的红外与可见光图像融合算法[J]. 光学学报, 2018, 38(2): 0210002.
[2] Yu XC, Gao GY, Xu JD, et al. Remote sensing image fusion based on sparse representation[C]∥2014 IEEE Geoscience and Remote Sensing Symposium, July 13-18, 2014, Quebec City, QC, Canada. New York: IEEE, 2014: 2858- 2861.
[3] Zhao W D, Lu H C. Medical image fusion and denoising with alternating sequential filter and adaptive fractional order total variation[J]. IEEE Transactions on Instrumentation and Measurement, 2017, 66(9): 2283-2294.
[4] Li Y S, Tao C, Tan Y H, et al. Unsupervised multilayer feature learning for satellite image scene classification[J]. IEEE Geoscience and Remote Sensing Letters, 2016, 13(2): 157-161.
[5] Rang CZ, Jia YX, YangY, et al. Fusion of infrared and visible images based on multi-scale edge-preserving decomposition and sparse representation[C]∥2018 11th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI), October 13-15, 2018, Beijing, China. New York: IEEE, 2018: 18432125.
[6] Yang B, Li S T. Multifocus image fusion and restoration with sparse representation[J]. IEEE Transactions on Instrumentation and Measurement, 2010, 59(4): 884-892.
[7] Ma J L, Zhou Z Q, Wang B, et al. Infrared and visible image fusion based on visual saliency map and weighted least square optimization[J]. Infrared Physics & Technology, 2017, 82: 8-17.
[8] Amin-NajiM, AghagolzadehA, EzojiM. Fully convolutional networks for multi-focus image fusion[C]∥2018 9th International Symposium on Telecommunications (IST), December 17-19, 2018, Tehran, Iran. New York: IEEE, 2018: 553- 558.
[9] LiH, Wu XJ, Durrani T S.Infrared and visible image fusion with ResNet and zero-phase componentanalysis[J/OL]. ( 2018-12-18)[2019-06-15]. https:∥arxiv.gg363.site/abs/1806. 07119.
[10] Li H, Wu X J. DenseFuse: a fusion approach to infrared and visible images[J]. IEEE Transactions on Image Processing, 2019, 28(5): 2614-2623.
[11] Goodfellow IJ, Pouget-AbadieJ, MirzaM, et al. ( 2014-06-10)[2019-06-15]. https:∥arxiv.org/abs/1406. 2661.
[12] Ma J Y, Yu W, Liang P W, et al. FusionGAN: a generative adversarial network for infrared and visible image fusion[J]. Information Fusion, 2019, 48: 11-26.
[13] Bouhamidi A, Jbilou K. Sylvester Tikhonov-regularization methods in image restoration[J]. Journal of Computational and Applied Mathematics, 2007, 206(1): 86-98.
[14] 郑成林, 何顶顶, 费庆国. 基于灰度梯度正则化去噪的改进数字图像相关法[J]. 光学学报, 2018, 38(8): 0812002.
[15] TsibanovV, DenisovA, KrylovA. Edge detection method by Tikhonov regularization[C]∥Proceedings of 14 International Conference Graphicon’2004, September 6-10, 2004, Moscow, Russia. [S.l.: s.n.], 2004: 163- 165.
[16] LiH, Wu XJ, KittlerJ. Infrared and visible image fusion using a deep learning framework[C]∥2018 24th International Conference on Pattern Recognition (ICPR), August 20-24, 2018, Beijing, China. New York: IEEE, 2018: 2705- 2710.
[17] Zhong G, Xiang S, Zhou P, et al. Spatially adaptive tensor total variation-Tikhonov model for depth image super resolution[J]. IEEE Access, 2017, 5: 13857-13867.
[18] SalimansT, GoodfellowI, ZarembaW, et al. ( 2016-06-10)[2019-06-15]. https:∥arxiv.org/abs/1606. 03498.
[19] Mao XD, LiQ, Xie HR, et al. Least squares generative adversarial networks[C]∥2017 IEEE International Conference on Computer Vision (ICCV), October 22-29, 2017, Venice, Italy. New York: IEEE, 2017: 2813- 2821.
[20] HuangG, Liu Z, van der Maaten L, et al. Densely connected convolutional networks[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 2261- 2269.
[21] Mao XJ, Shen CH, Yang Y B. Image restoration using convolutional auto-encoders with symmetric skip connections[J/OL]. ( 2016-08-30)[2019-06-15]. https:∥arxiv.gg363.site/abs/1606. 08921.
[22] BrownM, SüsstrunkS. Multi-spectral SIFT for scene category recognition[C]∥CVPR 2011, June 20-25, 2011, Colorado Springs, CO, USA. New York: IEEE, 2011: 177- 184.
[23] Zhang Y, Zhang L J, Bai X Z, et al. Infrared and visual image fusion through infrared feature extraction and visual information preservation[J]. Infrared Physics & Technology, 2017, 83: 227-237.
[24] LiH, Wu X J.Infrared and visible image fusion using Latent Low-Rank Representation[J/OL]. ( 2018-04-24)[2019-06-15]. https:∥arxiv.gg363.site/abs/1804. 08992.
[25] Shreyamsha Kumar B K. Image fusion based on pixel significance using cross bilateral filter[J]. Signal, Image and Video Processing, 2015, 9(5): 1193-1204.
Article Outline
卢鑫, 杨林, 李敏, 张学武. 基于Tikhonov正则化和细节重建的红外与可见光图像融合方法[J]. 光学学报, 2020, 40(2): 0210001. Xin Lu, Lin Yang, Min Li, Xuewu Zhang. Infrared and Visible Image Fusion Method Based on Tikhonov Regularization and Detail Reconstruction[J]. Acta Optica Sinica, 2020, 40(2): 0210001.