基于级联多尺度信息融合对抗网络的红外仿真 下载: 831次
1 引言
红外图像应用广泛,通过红外摄像机实地采集是最直接最简单的红外图像获取方式。然而红外设备较昂贵,且受环境、人员等限制,这种获取红外图像的方式成本较高。为了提供更为便捷、成本更低的红外图像,红外图像仿真的相关研究一直在进行中,目前红外图像的仿真获取可以分为两种方式。
第一种,基于三维建模的红外图像仿真。红外目标/场景仿真大多属于这种方式,其中红外目标仿真通常是对车辆、舰船等特定目标进行更精细的建模和计算;而红外场景仿真则是对场景中的多种景物如楼宇、植被等也进行建模和仿真,与前者区别在于建模的数量和精度不同。基于三维建模的红外仿真一般有三个步骤:1)对目标物进行三维模型构建;2)设置目标物的红外辐射特性,进行辐射的计算;3)模拟红外成像系统生成红外仿真图像。文献[ 1]采用这种算法实现了地面红外场景仿真,文献[ 2-3]则实现了船舰目标的红外图像仿真。这类方法的优点是不需要真实可见光或红外图像,通过软件直接建模产生场景或特定目标各种视角的红外图像;缺点是建模过程复杂,人力成本和时间成本消耗大,且因其只针对单一场景或单一目标,导致模型泛化性能差。针对以上缺点,文献[ 4]采用生成对抗网络,从目标类别标签和随机噪声中生成红外目标仿真图像,但其生成红外图像的可控性较低。
第二种,由可见光图像仿真生成对应红外图像。可见光图像资源丰富,且获取方式便捷、低成本。但红外成像系统和可见光成像系统都较复杂且受多变量影响,这种特性使得可见光图像和红外图像的映射关系很难用统一的公式来表示。现有的研究方法一般分为两个阶段:1)对可见光图像进行分割;2)建立不同物体可见光图像和红外的灰度映射关系,再由分割好的可见光图像仿真出红外图像。周强等[5]采用阈值法进行图像分割,结合地物目标的反射率建立灰度映射关系,从而得到仿真图像。李敏等[6]通过脉冲耦合神经元网络实现图像分割,人工标定材质后通过辐射计算得到仿真结果。这类方法也存在模型泛化能力差,仿真结果图精度较低等问题。
从可见光图像仿真生成对应红外图像,如果看作是从可见光图像域到红外图像域的映射,那么属于图像域转换任务的一种。近年来,深度学习方法在图像域转换任务中取得了较好的研究成果,常见如单目深度估计、图像风格转换等。文献[ 7]最早通过一个端到端的卷积神经网络(CNN)预测深度图,后来提出引入注意力机制、连续条件随机场等概念提升算法性能[8-10],以及通过优化网络结构优化结果[11-13],此外还有以多任务[14-17]的学习方式获取辅助信息等。
与图像深度估计任务不同,从可见光转换到红外不仅需要较好的客观评价结果,还需要较佳的视觉效果。受目标函数的约束,图像深度估计任务中的CNN方法虽然在客观评价指标获得了较好的结果,但是输出的图像相对比较模糊,丢失了许多纹理细节。而在深度学习领域中,从生成对抗网络(GAN)衍生出的条件生成对抗网络(CGAN)[18]在图像域转换任务[18-23]中表现优异,输出图像的视觉效果较好。
综上可知,由可见光图像仿真红外图像具有重要的研究价值和意义,使用深度学习的方法来实现从可见光到红外图像的仿真具有可行性。传统三维建模的红外仿真算法存在建模复杂、模型泛化能力差等缺点;从可见光图像仿真红外图像的方式,虽然具有时间和人力成本更低、转换效率更高的优点,但实现起来难度较大,并且这一领域里基于深度学习的算法研究较少,因此本文提出了一种生成对抗网络算法来解决这一难题。本文的主要贡献分为以下三个方面。
1) 提出了级联多尺度信息融合生成对抗网络(CMIF-GAN),实现了由可见光图像端到端地生成红外仿真图像;并通过实验证明了GAN较CNN更适用于从可见光到红外图像的转换任务。
2) 提出了辅助任务与级联结构相结合的网络框架。首先,CMIF-GAN采用“由粗到细”的两级网络串联,第一级网络使用大感受野[24]生成网络,重建出红外图像的结构信息,第二级采用小感受野生成网络,补充红外图像的细节信息。其次,在第一级网络中增加语义分割的辅助任务,以得到更准确的宏观结构信息;在第二级网络中增加红外到可见光灰度反转(GIV)图像的辅助任务,以补充红外图像的细节。最后,提出多尺度融合模块(MFM),应用于第二级生成网络,来融合不同感受野下的多尺度信息,提升整体网络性能。
3) 在公开数据集Multispectral Pedestrian Dataset (MPD)[25]上进行了详尽的实验,本文网络模型在多种客观评估指标上具有更好的实验结果。
2 级联多尺度信息融合对抗网络
为了实现由可见光图像仿真生成对应的红外图像,本文提出了一种级联的GAN结构,能够由可见光图像端到端地预测红外图像。网络结构如
2.1 第一级网络——重建结构
第一级网络以可见光的语义分割图像为参考,从可见光图像中重建出红外图像的基本结构信息。如
1) 生成网络G1、Gs
G1、Gs都采用U-Net[20]的网络结构,但为了节约计算资源,Gs减少了卷积的滤波器数。具体网络结构及参数设置如
表 1. G1、Gs网络结构参数配置表
Table 1. Detailed configuration about G1 and Gs
|
2) 判别网络D1第一级的判别网络D1采用文献[
20]的判别网络结构,具体网络结构及参数设置如
2.2 第二级网络——补充细节
第二级网络以GIV图像为辅助信息,在第一级网络输出红外图像的基础上,丰富红外仿真图像的细节信息。如
表 2. 判别网络结构参数配置表
Table 2. Detailed configuration about discriminator
|
在大部分光照良好的条件下,可见光图像的纹理细节信息要多于红外图像。相较于可见光图像,GIV图像的细节纹理信息和红外图像的细节纹理信息更接近。因此,本文将GIV图像作为辅助信息输入到G2中,为网络提供更多的图像纹理细节信息,并通过辅助任务网络Gg,来引导G2更加关注图像中的细节信息。
1) 生成网络G2
生成网络G2的具体结构如
MFM具体结构如
2) 轻量小感受野网络Gg
为了更好的引导G2学习细节纹理信息,得到细节纹理丰富的最终预测红外图像T2,Gg只需要关注T2的细节部分。因此,Gg的感受野应该较小。Gg的网络结构如
2.3 损失函数
本文的生成网络G1、Gs、G2、Gg和判别网络D1、D2以端到端的方式共同训练。判别网络和生成网络的梯度下降交替进行,即D1、D2的参数先固定,训练G1、Gs、G2、Gg;然后G1、Gs、G2、Gg的参数固定,训练D1、D2。整体的损失函数Ltotal采用最小-最大的训练策略,表达式为
式中:LGAN为对抗损失函数总和;Lpixel为像素级损失函数总和。LGAN包含第一级对抗损失
第一级判别网络D1用于区分合成图像对[Irgb,T1]和真实图像对[Irgb,Ttrue],损失函数采用交叉熵的组合形式,表示为
第一级判别网络D1用于区分合成图像对[Irgb,T2]和真实图像对[Irgb,Ttrue],表示为
像素级损失函数总和Lpixel包含第一级生成网络G1、Gs的L1损失函数LG1、LGs,第二级生成网络G2、Gg的L1损失函数LG2、LGg和对纹理更敏感的梯度损失函数Lg_G2,表达式为
式中:λ是超参数,代表各个损失函数的权重;G1、G2负责生成红外图像,是目标任务网络,权重最高;网络Gs、Gg负责辅助任务,权重较低;梯度损失函数用于增加网络对边缘的感知能力,权重最小。经过多次实验,本文最终将λ从1到5分别设置为100、5、200、10、0.5。L1损失函数代表平均绝对误差,表示为
式中:i是像素索引;N是一幅图像里所有像素总和的数目;
式中:
3 实验细节与评估指标
3.1 数据预处理
本文使用公开数据集MPD对所提出的网络模型进行训练和测试。MPD由Hwang等[25]提出并制作,内容为配准的可见光图像和对应红外图像的图像对,分辨率为640×512。其中,训练集和测试集分别含有50187和45141个图像对。训练集和测试集都包含校园、街道和城郊三个场景,每个场景又分别包含白天和夜晚的拍摄图像。本文选取了三个场景中白天的图像对作为网络的训练集,训练集大小为33399个图像对。相应地,本文在MPD测试集的白天图像对中随机抽取565个图像对作为网络的测试集。送入网络之前,本文通过双线性插值下采样将图像分辨率大小调整至256×256。
可见光的语义分割图像和灰度反转图像是本文网络的辅助信息。GIV图像通过将可见光图像由彩色图像转为灰度图像,再进行灰度值反转操作得到。将可见光图像输入到Refinenet[28]在Cityscapes上训练好的模型中,可以预测得出语义分割图像。Cityscapes是主要应用于语义分割的大型数据集,主要场景为室外街道,和MPD场景类似。
3.2 评估指标
在图像域转换任务以往的工作中,有一些公认的评估指标来评价网络预测图像和真实目标图像的相似度。本文采用平均相对误差(Rel)、对数平均误差(Log10)、均方根误差(RMS)以及准确率(δ <1.25i, i = 1, 2, 3)。各指标的计算表达式分别为
式中:i是像素索引;N是一幅红外图中像素总和的数目;yi和
3.3 实验设置细节
本文使用Pytorch框架,在内存为16 GB,GPU为NVIDIA Titan XP的计算机上进行实验。网络采用均值为0、标准差为0.2的高斯分布进行权重初始化,使用Adam作为优化器,设置动量为0.5。设置初始学习率为0.0001,batch size为4。完整训练过程需要大约16 h,训练集数据一共迭代了20次。
4 实验结果与分析
4.1 与先进算法的对比
本节与图像域转换的先进算法进行了对比实验,客观参数指标如
1) 与CNN先进算法的对比
从实验结果看,客观指标上CNN算法优于GAN,主观感受上GAN算法优于CNN。
表 3. 算法的客观指标对比
Table 3. Comparison of objective indicators of algorithms
|
但从
图 5. 不同算法生成的红外仿真图。(a)汽车;(b)自行车骑手;(c)楼房;(d)远距离车辆
Fig. 5. Infrared simulation images generated by different algorithms. (a) Car; (b) bicycle rider; (c) building; (d) long-distance vehicle
2)与GAN先进算法的对比
客观指标上看,本文CMIF-GAN优于其他两种GAN算法,6个指标中5个最优;主观效果上,本文的仿真图像中场景与物体的重构更准确,细节也更丰富,与实际红外图像更接近。
综上,虽然GAN算法较CNN算法在客观指标上略落后,但其图像的边缘更清晰、结构更准确、细节更丰富,更适用于本文任务。在三种GAN算法中,本文算法的客观指标与主观感受最优。
4.2 两级网络结构的对比
本文CMIF-GAN包含两级生成对抗网络,第一级重建红外仿真图像的结构信息,第二级丰富细节信息。为了验证两级网络结构的必要性,本节对比了一级网络和两级网络的差异,实验结果如
表 4. 一级网络与CMIF-GAN的对比实验
Table 4. Comparison of first level network and CMIF-GAN
|
两种结构的仿真图像如
4.3 辅助任务实验对比
本文算法中增加了辅助任务以提升网络性能,本节对辅助任务的作用进行对比。第一级网络的辅助任务为语义分割图像,第二级网络的辅助任务为可见光的灰度反转图像。具体消融实验结果如
从
虽然结构二中语义分割的辅助任务使得网络能够学习到更正确的结构信息,但是客观指标计算过程中并不能为结构信息增加权重。结构三中的GIV图像的辅助任务,使网络能够获得更多图像细节信息,即使结构上有些差异,但依然能保证指标更优。这也是客观指标的一种局限性。
表 5. 辅助任务实验对比
Table 5. Comparison of auxiliary tasks experiments
|
4.4 MFM模块实验分析
本节对G2网络中提出的MFM模块的作用进行实验分析。为了提升网络精度,MFM模块通过不同膨胀率的空洞卷积获取多感受野的信息,并通过相加和拼接操作融合多感受野的信息。MFM模块的对比实验如
从
表 6. MFM模块实验对比
Table 6. Comparison of MFM module experiments
|
5 结论
为从可见光图像转换到对应的红外仿真图像,本文提出了包含两级对抗网络的级联多尺度信息融合生成对抗网络,并采用语义分割图像和GIV图像作为辅助任务的输入信息。在MPD数据集的实验结果表明,相较于其他先进算法,该网络模型在图像域转换任务的多种客观评估指标上均得到较好结果。
[1] Mu C P, Peng M S, Dong Q X, et al. Infrared image simulation of ground maneuver target and scene based on OGRE[J]. Applied Mechanics and Materials, 2015, 3752(716): 932-935.
[2] 马艳, 田宇. 红外仿真中舰船辐射模型建模方法[J]. 战术导弹技术, 2013( 3): 67- 70, 75.
MaY, TianY. Modeling method of warship radiation model for infrared simulation[J]. Tactical Missile Technology, 2013( 3): 67- 70,75.
[3] 杨敏, 李敏, 易亚星, 等. 基于OGRE的海面舰船目标红外仿真方法[J]. 激光与红外, 2017, 47(1): 53-57.
Yang M, Li M, Yi Y X, et al. Infrared simulation of ship target on the sea based on OGRE[J]. Laser & Infrared, 2017, 47(1): 53-57.
[4] 谢江荣, 李范鸣, 卫红, 等. 基于生成对抗式神经网络的红外目标仿真方法[J]. 光学学报, 2019, 39(3): 0311002.
[5] 周强, 白廷柱, 刘明奇, 等. 基于可见光图像的近红外场景仿真[J]. 红外技术, 2015, 37(1): 11-15.
[6] 李敏, 徐中外, 解鸿文, 等. 基于可见光图像的红外图像生成方法及其细节调制[J]. 红外技术, 2018, 40(1): 34-38.
[7] EigenD, PuhrschC, FergusR. Depth map prediction from a single image using a multi-scale deep network[C]∥International Conference on Neural Information Processing Systems, 2014: 2366- 2374.
[8] WangP, Shen XH, LinZ, et al.Towards unified depth and semantic prediction from a single image[C]∥2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 7-12 June 2015, Boston, MA, USA.New York: IEEE Press, 2015: 2800- 2809.
[9] XuD, RicciE, Wanli OY, et al.Multi-scale continuous CRFs as sequential deep networks for monocular depth estimation[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 21-26 July 2017, Honolulu, HI, USA.New York: IEEE Press, 2017: 161- 169.
[10] XuD, WangW, TangH, et al.Structured attention guided convolutional neural fields for monocular depth estimation[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. 18-23 June 2018, Salt Lake City, UT, USA.New York: IEEE Press, 2018: 3917- 3925.
[11] LainaI, RupprechtC, BelagiannisV, et al.Deeper depth prediction with fully convolutional residual networks[C]∥2016 Fourth International Conference on 3D Vision (3DV). 25-28 Oct. 2016, Stanford, CA, USA.New York: IEEE Press, 2016: 239- 248.
[12] 贾瑞明, 刘立强, 刘圣杰, 等. 基于编解码卷积神经网络的单张图像深度估计[J]. 图学学报, 2019, 40(4): 718-724.
Jia R M, Liu L Q, Liu S J, et al. Single image depth estimation based on encoder-decoder convolution neural network[J]. Journal of Graphics, 2019, 40(4): 718-724.
[13] 贾瑞明, 李阳, 李彤, 等. 多层级特征融合结构的单目图像深度估计网络[J/OL]. 计算机工程[2020-04-01]. https: ∥doi.org/10.19678/j.issn.1000-3428. 0056477.
Jia RM, LiY, LiT, et al. 1000-3428. 0056477.
[14] Qi XJ, Liao RJ, Liu ZZ, et al.GeoNet: geometric neural network for joint depth and surface normal estimation[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. 18-23 June 2018, Salt Lake City, UT, USA. New York: IEEE Press, 2018: 283- 291.
[15] Yin ZC, Shi JP. GeoNet: unsupervised learning of dense depth, optical flow and camera pose[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. 18-23 June 2018, Salt Lake City, UT, USA. New York: IEEE Press, 2018: 1983- 1992.
[16] RanjanA, JampaniV, BallesL, et al.Competitive collaboration: joint unsupervised learning of depth, camera motion, optical flow and motion segmentation[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 15-20 June 2019, Long Beach, CA, USA. New York: IEEE Press, 2019: 12232- 12241.
[17] Jiao J B, Cao Y, Song Y B, et al. Look deeper into depth: monocular depth estimation with semantic booster and attention-driven loss[J]. Computer Vision-ECCV, 2018, 2018: 53-69.
[18] MirzaM, Osindero S. Conditional generative adversarial nets[EB/OL]. ( 2014-11-06)[2020-04-01]. https: ∥arxiv.org/abs/1411. 1784.
[19] 胡麟苗, 张湧. 基于生成对抗网络的短波红外-可见光人脸图像翻译[J]. 光学学报, 2020, 40(5): 0510001.
[20] IsolaP, Zhu JY, Zhou TH, et al.Image-to-image translation with conditional adversarial networks[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 21-26 July 2017, Honolulu, HI, USA.New York: IEEE Press, 2017: 5967- 5976.
[21] MaS, Fu JL, Chen CW, et al.DA-GAN: instance-level image translation by deep attention generative adversarial networks[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. 18-23 June 2018, Salt Lake City, UT, USA. New York: IEEE Press, 2018: 5657- 5666.
[22] Mejjati YA, RichardtC, TompkinJ, et al. ( 2018-11-08)[2020-04-01]. https: ∥arxiv.org/abs/1806. 02311.
[23] TangH, XuD, SebeN, et al.Multi-channel attention selection GAN with cascaded semantic guidance for cross-view image translation[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 15-20 June 2019, Long Beach, CA, USA.New York: IEEE Press, 2019: 2412- 2421.
[24] Luo WJ, Li YJ, UrtasunR, et al.( 2017-01-25)[2020-04-01]. https: ∥arxiv.org/abs/1701. 04128.
[25] HwangS, ParkJ, KimN, et al.Multispectral pedestrian detection: Benchmark dataset and baseline[C]∥2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 7-12 June 2015, Boston, MA, USA. New York: IEEE Press, 2015: 1037- 1045.
[26] IoffeS, Szegedy C. Batch normalization: accelerating deep network training by reducing internal covariate shift[EB/OL].( 2015-03-02)[2020-04-01]. https: ∥arxiv.org/abs/1502. 03167.
[27] 贾瑞明, 邱桢芝, 崔家礼, 等. 盲去模糊的多尺度编解码深度卷积网络[J]. 计算机应用, 2019, 39(9): 2552-2557.
Jia R M, Qiu Z Z, Cui J L, et al. Deep multi-scale encoder-decoder convolutional network for blind deblurring[J]. Journal of Computer Applications, 2019, 39(9): 2552-2557.
[28] Lin GS, MilanA, Shen CH, et al.RefineNet: multi-path refinement networks for high-resolution semantic segmentation[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 21-26 July 2017, Honolulu, HI, USA. New York: IEEE Press, 2017: 5168- 5177.
Article Outline
贾瑞明, 李彤, 刘圣杰, 崔家礼, 袁飞. 基于级联多尺度信息融合对抗网络的红外仿真[J]. 光学学报, 2020, 40(18): 1810001. Ruiming Jia, Tong Li, Shengjie Liu, Jiali Cui, Fei Yuan. Infrared Simulation Based on Cascade Multi-Scale Information Fusion Adversarial Network[J]. Acta Optica Sinica, 2020, 40(18): 1810001.