一种基于ResNet152的红外与可见光图像融合算法 下载: 1388次
1 引言
图像融合是一种增强技术,目的是结合不同类型传感器捕捉到的信息生成内容更加丰富、细节更加清晰的图像,以便为后续处理和决策提供帮助。红外线和可见光的信号来自不同的模式,红外图像捕获的是热辐射信息,而可见光图像捕获的是光信息,它们的组合信息比使用各自单独的模式得到的信息更丰富[1]。可见光图像具有高空间分辨率和细腻的纹理信息,但易被弱光照、雾和其他恶劣天气条件所干扰;红外图像能够抵抗这些干扰,但分辨率较低,纹理较差[2]。因此,对红外与可见光图像进行融合可以实现信息互补[3]。目前,红外与可见光图像融合在遥感探测、**侦察、安全监控、医疗健康、工业生产等领域都有着重要的应用[4]。有关红外与可见光图像融合方法主要有:基于多尺度变换的方法、基于稀疏表示的方法、基于神经网络的方法。
多尺度变换方法在红外与可见光图像融合中应用广泛。Huang等[5]提出了一种基于曲线变换和视觉注意机制的红外可见光图像融合方法,其模型可以提高融合图像的信噪比,突出模糊目标。Zhu等[6]提出了一种改进的多尺度高帽变换模型的红外可见光图像融合方法,该模型能够突出红外图像的目标,更好地保留可见光图像中的细节部分。基于稀疏表示的图像融合方法是从大量的高质量图像中学习一个过完备的字典,该方法关键在于过完备字典和稀疏编码的构造。Yin等[7]提出了一种将小波变换与字典学习相结合的多尺度字典学习方法,该方法充分利用了多尺度表示和字典学习的优点。Kim等[8]提出了一种基于图像块聚类和主成分分析(PCA)的字典学习方法,该模型不仅可以消除学习字典的冗余,同时还保证了红外和可见光图像融合的质量,但存在字典学习耗时过长的缺点。
近年来,深度学习在图像融合中得到了广泛的应用,多数基于深度学习的图像融合将深度模型作为特征提取的手段,利用提取到的深度特征和待融合图像得到融合后图像。Prabhakar等[9]提出一种基于卷积神经网络的多曝光图像融合方法,该网络结构是一种权重共享的孪生网络,源图像输入编码器后得到两个特征映射序列,之后使用加法策略对其进行融合得到融合特征图,最后融合特征图由解码器的三层卷积层进行重构。Liu等[10]提出了一种基于卷积神经网络的图像融合方法,使用输入图像的图像块及其模糊处理来训练网络,使网络具有分类能力,网络输出为分类得分表,得分表经过平均重叠块、二值化和两个一致性检验策略得到决定映射,最后将决定映射作为源图权重来重建图像。尽管该方法获得了更好的性能,但仍存在两个主要缺点:1)该方法目前只适用于多聚焦图像融合,使用范围有限;2)仅利用神经网络最后一层的计算结果,很多有用的中间层信息并未得到充分利用。
本文基于ResNet152[11]深度学习网络,设计了一种简单高效的红外可见光图像融合方法。其基本过程是将红外与可见光图像通过均值滤波进行二尺度分解[12],得到包含大尺度特征的低频部分和包含纹理特征的高频部分。低频部分使用平均权重策略获得新的低频部分;使用ResNet152网络对高频部分做多层特征的提取,每个特征层经过L1正则化、卷积运算和双线性插值上采样得到权重层,使用最大选择策略对多个权重层进行运算得到最大权重层,最大权重层与高频部分相乘得到新的高频部分,最后用新的低频部分和高频部分重建图像。
2 相关工作
神经网络的网络层数对图像特征的提取至关重要,然而简单的增加网络层数很容易导致梯度消失和精度饱和后极速下降问题[11]。ResNet提出的带有短连接的残差块成功地解决了这个问题[11],并加快了训练速度。其中,残差块的结构如
3 融合算法
本文将源图像记作Ik,k∈{1,2}。
式中:Z为均值滤波器,大小为31×31。低频部分使用平均权重的方法进行融合得到Fb,高频部分经过ResNet152处理后得到最大权重层,并与源图高频部分运算得到高频融合图像Fd。最后,由融合后的低频部分Fb和高频部分Fd重建得到融合图像。
3.1 低频部分融合
本文使用平均权重策略对低频部分进行融合,公式如下
式中:
3.2 高频部分融合
对于高频部分
高频部分融合具体步骤如下。
1)提取特征。为均匀全面地获得ResNet152提取到的特征,分别选取ResNet152的conv1、conv2_1、conv3_1、conv4_1和conv5_1作为本文算法的特征提取层,定义Hi(·)为ResNet152网络的特征提取层,提取到的特征层为
2)L1正则化。
3)卷积运算。为了使高频部分融合图像纹理更加自然,本文使用卷积核A(步长为1)在
4)双线性插值上采样。
5)最大选择策略。
3.3 重建图像
获得了融合后的低频部分Fb和高频部分Fd后,再对图像进行重建得到最后的融合图像,
式中:Fb(x,y)表示融合后的低频部分在(x,y)处的值;Fd(x,y)表示融合后的高频部分在(x,y)处的值;F(x,y)表示最终融合图像在(x,y)处的像素值。
4 实验结果及分析
4.1 实验设定
本文实验中红外与可见光源图像来自公共数据集TNO,选择其中20组进行实验。本文选取5种常用的方法进行对比,分别是:交叉双边滤波融合法(CBF)[15]、联合稀疏表示模型(JSR)[16]、基于显著检测的联合稀疏表示模型(JSRSD)[17]、加权最小二乘优化方法(WLS)[18]、卷积稀疏表示模型(ConvSR)[19],以上5种算法参数取值与各文献保持一致。本文实验环境为Inter Core i5-4210U,内存12 GB,操作系统为 Win 8.1,编程软件为 Matlab2017b。
4.2 主观评价
对上述5种方法和本文方法的实验结果进行对比分析,选择其中5组图像进行说明,编号分别为a、b、c、d、e。如
4.3 客观评价
为了定量的比较本文方法和对比方法,选用
表 1. 图像融合的客观评价
Table 1. Image fusion objective evaluation
|
5种指标中实验结果最优的以粗体标注。从实验结果可以看出,本文方法在图a、b、c、d中5种指标均取得了较好的结果。在图e中只有ConvSR的EFMIw、Nabf优于本文算法,其他指标均不如本文算法。这说明相较于其他5种对比方法,本文方法得到的红外与可见光融合图像在很大程度上保留了源图像的纹理细节特征,且降低了融合图像中的伪影和噪声,使得融合图像看起来更加清晰、自然,这与主观评价是一致的。
5 结论
本文使用ResNet152作为特征提取的基础网络来融合红外线和可见光图像。首先,将图像分解成包含大尺度特征的低频部分和包含纹理信息的高频部分。低频部分使用平均权重进行融合。使用ResNet152网络对高频部分做特征提取,得到最大权重层,之后高频部分和最大权重层相乘得到融合后的高频部分。最后由融合后的低频部分和高频部分对图像进行重建。实验结果表明,本文方法不仅很好地保留了源图像的纹理特征,且很大程度上降低了融合图像的伪影和噪声,在主观评价和客观评价两个方面均取得了较好的融合效果,因此本文方法具有一定的实用价值与理论意义。
[1] 刘盛鹏, 方勇. 基于Contourlet变换和IPCNN的融合算法及其在可见光与红外线图像融合中的应用[J]. 红外与毫米波学报, 2007, 26(3): 217-221.
[2] 吴一全, 王志来. 基于目标提取与引导滤波增强的红外与可见光图像融合[J]. 光学学报, 2017, 37(8): 0810001.
[3] Ma J Y, Ma Y, Li C. Infrared and visible image fusion methods and applications: a survey[J]. Information Fusion, 2019, 45: 153-178.
[4] 许磊, 崔光茫, 郑晨浦, 等. 基于多尺度分解和显著性区域提取的可见光红外图像融合方法[J]. 激光与光电子学进展, 2017, 54(11): 111003.
[5] Huang Y D, Gao K, Gong C, et al. Infrared and visible image fusion with the target marked based on multi-resolution visual attention mechanisms[J]. Proceedings of SPIE, 2017, 10255: 102552V.
[6] Zhu P, Ma X Q, Huang Z H. Fusion of infrared-visible images using improved multi-scale top-hat transform and suitable fusion rules[J]. Infrared Physics & Technology, 2017, 81: 282-295.
[7] Yin H T. Sparse representation with learned multiscale dictionary for image fusion[J]. Neurocomputing, 2015, 148: 600-610.
[8] Kim M, Han D K, Ko H. Joint patch clustering-based dictionary learning for multimodal image fusion[J]. Information Fusion, 2016, 27: 198-214.
[9] Prabhakar KR, Sai SrikarV, Babu RV. DeepFuse: a deep unsupervised approach for exposure fusion with extreme exposure image pairs[C]//2017 IEEE International Conference on Computer Vision (ICCV), October 22-29, 2017, Venice, Italy. New York: IEEE, 2017: 4724- 4732.
[10] Liu Y, Chen X, Peng H, et al. Multi-focus image fusion with a deep convolutional neural network[J]. Information Fusion, 2017, 36: 191-207.
[11] He KM, Zhang XY, Ren SQ, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 770- 778.
[14] Liu S P, Tian G H, Xu Y. A novel scene classification model combining ResNet based transfer learning and data augmentation with a filter[J]. Neurocomputing, 2019, 338: 191-206.
[15] Kumar B K S. Image fusion based on pixel significance using cross bilateral filter[J]. Signal, Image and Video Processing, 2015, 9(5): 1193-1204.
[16] Zhang Q H, Fu Y L, Li H F, et al. Dictionary learning method for joint sparse representation-based image fusion[J]. Optical Engineering, 2013, 52(5): 057006.
[17] Liu C H, Qi Y, Ding W R. Infrared and visible image fusion method based on saliency detection in sparse domain[J]. Infrared Physics & Technology, 2017, 83: 94-102.
[18] Ma J L, Zhou Z Q, Wang B, et al. Infrared and visible image fusion based on visual saliency map and weighted least square optimization[J]. Infrared Physics & Technology, 2017, 82: 8-17.
[19] Liu Y, Chen X, Ward R K, et al. Image fusion with convolutional sparse representation[J]. IEEE Signal Processing Letters, 2016, 23(12): 1882-1886.
[20] HaghighatM, Razian MA. Fast-FMI: non-reference image fusion metric[C]∥2014 IEEE 8th International Conference on Application of Information and Communication Technologies (AICT), October 15-17, 2014, Astana, Kazakhstan. New York: IEEE, 2014: 14916890.
[21] Wang Z, Bovik A C. A universal image quality index[J]. IEEE Signal Processing Letters, 2002, 9(3): 81-84.
李恒, 张黎明, 蒋美容, 李玉龙. 一种基于ResNet152的红外与可见光图像融合算法[J]. 激光与光电子学进展, 2020, 57(8): 081013. Heng Li, Liming Zhang, Meirong Jiang, Yulong Li. An Infrared and Visible Image Fusion Algorithm Based on ResNet152[J]. Laser & Optoelectronics Progress, 2020, 57(8): 081013.