光学学报, 2020, 40 (18): 1810001, 网络出版: 2020-08-27   

基于级联多尺度信息融合对抗网络的红外仿真 下载: 831次

Infrared Simulation Based on Cascade Multi-Scale Information Fusion Adversarial Network
作者单位
1 北方工业大学信息学院, 北京 100144
2 中国科学院自动化研究所数字内容技术与服务研究中心, 北京 100190
摘要
提出了一种应用于红外图像仿真的级联多尺度信息融合生成对抗网络,能由可见光图像估计对应的红外图像。针对可见光与红外图像特征之间的关联与区别,该网络采用级联的对抗网络结构:第一级对抗网络以语义分割图像为辅助任务,使用大感受野的卷积网络结构,重建红外图像的结构信息;第二级对抗网络以可见光的灰度反转图像为辅助任务,采用小感受野的网络结构,补充红外仿真图像的细节纹理信息,并使用多尺度融合模块整合多感受野信息以提升算法精度。在先进算法的通用数据集上进行实验,结果表明,级联多尺度信息融合对抗网络能够实现可见光到红外图像的转换,可得到结构与纹理都较正确的红外仿真图像,在多种客观指标与主观感受上均优于其他类似算法。
Abstract
In this paper, we propose a cascade multi-scale information fusion generative adversarial network (CMIF-GAN) for infrared image simulation, which can estimate the infrared map from a visible image. Inspired by the connections and differences between visible and infrared features, CMIF-GAN adopts a cascaded structure composed of two levels of adversarial networks. With a large overall receptive field, the first-level adversarial network focuses on reconstructing structural information of the infrared image, and adds a semantic segmentation image task as auxiliary information. To enrich detailed texture information of the infrared image, the second-level adversarial network uses the grayscale inverted visible (GIV) images as auxiliary information and adopts a small overall receptive field network. Otherwise, the second-level adversarial network can integrate the multiple receptive information by a multi-scale fusion module (MFM) to improve algorithm accuracy. Experiments on public dataset demonstrate that CMIF-GAN can efficiently translate visible images to corresponding infrared images, and outperform previous methods in objective metrics and subjective vision.

1 引言

红外图像应用广泛,通过红外摄像机实地采集是最直接最简单的红外图像获取方式。然而红外设备较昂贵,且受环境、人员等限制,这种获取红外图像的方式成本较高。为了提供更为便捷、成本更低的红外图像,红外图像仿真的相关研究一直在进行中,目前红外图像的仿真获取可以分为两种方式。

第一种,基于三维建模的红外图像仿真。红外目标/场景仿真大多属于这种方式,其中红外目标仿真通常是对车辆、舰船等特定目标进行更精细的建模和计算;而红外场景仿真则是对场景中的多种景物如楼宇、植被等也进行建模和仿真,与前者区别在于建模的数量和精度不同。基于三维建模的红外仿真一般有三个步骤:1)对目标物进行三维模型构建;2)设置目标物的红外辐射特性,进行辐射的计算;3)模拟红外成像系统生成红外仿真图像。文献[ 1]采用这种算法实现了地面红外场景仿真,文献[ 2-3]则实现了船舰目标的红外图像仿真。这类方法的优点是不需要真实可见光或红外图像,通过软件直接建模产生场景或特定目标各种视角的红外图像;缺点是建模过程复杂,人力成本和时间成本消耗大,且因其只针对单一场景或单一目标,导致模型泛化性能差。针对以上缺点,文献[ 4]采用生成对抗网络,从目标类别标签和随机噪声中生成红外目标仿真图像,但其生成红外图像的可控性较低。

第二种,由可见光图像仿真生成对应红外图像。可见光图像资源丰富,且获取方式便捷、低成本。但红外成像系统和可见光成像系统都较复杂且受多变量影响,这种特性使得可见光图像和红外图像的映射关系很难用统一的公式来表示。现有的研究方法一般分为两个阶段:1)对可见光图像进行分割;2)建立不同物体可见光图像和红外的灰度映射关系,再由分割好的可见光图像仿真出红外图像。周强等[5]采用阈值法进行图像分割,结合地物目标的反射率建立灰度映射关系,从而得到仿真图像。李敏等[6]通过脉冲耦合神经元网络实现图像分割,人工标定材质后通过辐射计算得到仿真结果。这类方法也存在模型泛化能力差,仿真结果图精度较低等问题。

从可见光图像仿真生成对应红外图像,如果看作是从可见光图像域到红外图像域的映射,那么属于图像域转换任务的一种。近年来,深度学习方法在图像域转换任务中取得了较好的研究成果,常见如单目深度估计、图像风格转换等。文献[ 7]最早通过一个端到端的卷积神经网络(CNN)预测深度图,后来提出引入注意力机制、连续条件随机场等概念提升算法性能[8-10],以及通过优化网络结构优化结果[11-13],此外还有以多任务[14-17]的学习方式获取辅助信息等。

与图像深度估计任务不同,从可见光转换到红外不仅需要较好的客观评价结果,还需要较佳的视觉效果。受目标函数的约束,图像深度估计任务中的CNN方法虽然在客观评价指标获得了较好的结果,但是输出的图像相对比较模糊,丢失了许多纹理细节。而在深度学习领域中,从生成对抗网络(GAN)衍生出的条件生成对抗网络(CGAN)[18]在图像域转换任务[18-23]中表现优异,输出图像的视觉效果较好。

综上可知,由可见光图像仿真红外图像具有重要的研究价值和意义,使用深度学习的方法来实现从可见光到红外图像的仿真具有可行性。传统三维建模的红外仿真算法存在建模复杂、模型泛化能力差等缺点;从可见光图像仿真红外图像的方式,虽然具有时间和人力成本更低、转换效率更高的优点,但实现起来难度较大,并且这一领域里基于深度学习的算法研究较少,因此本文提出了一种生成对抗网络算法来解决这一难题。本文的主要贡献分为以下三个方面。

1) 提出了级联多尺度信息融合生成对抗网络(CMIF-GAN),实现了由可见光图像端到端地生成红外仿真图像;并通过实验证明了GAN较CNN更适用于从可见光到红外图像的转换任务。

2) 提出了辅助任务与级联结构相结合的网络框架。首先,CMIF-GAN采用“由粗到细”的两级网络串联,第一级网络使用大感受野[24]生成网络,重建出红外图像的结构信息,第二级采用小感受野生成网络,补充红外图像的细节信息。其次,在第一级网络中增加语义分割的辅助任务,以得到更准确的宏观结构信息;在第二级网络中增加红外到可见光灰度反转(GIV)图像的辅助任务,以补充红外图像的细节。最后,提出多尺度融合模块(MFM),应用于第二级生成网络,来融合不同感受野下的多尺度信息,提升整体网络性能。

3) 在公开数据集Multispectral Pedestrian Dataset (MPD)[25]上进行了详尽的实验,本文网络模型在多种客观评估指标上具有更好的实验结果。

2 级联多尺度信息融合对抗网络

为了实现由可见光图像仿真生成对应的红外图像,本文提出了一种级联的GAN结构,能够由可见光图像端到端地预测红外图像。网络结构如图1所示,整体网络结构由两级生成对抗网络串联组成,蓝色部分为第一级,红色部分为第二级。网络输入为可见光图像,辅助信息为语义分割图像和GIV图像。

图 1. 级联多尺度信息融合对抗网络

Fig. 1. Proposed network of CMIF-GAN

下载图片 查看所有图片

2.1 第一级网络——重建结构

第一级网络以可见光的语义分割图像为参考,从可见光图像中重建出红外图像的基本结构信息。如图1所示,第一级网络由一个生成对抗网络和一个辅助任务网络组成,包含两个生成网络G1Gs和一个判别网络D1。可见光图像Irgb输入G1中,得到第一级的红外仿真图像T1,通过D1判别T1和目标红外图像Ttrue的真伪。再将T1作为Gs的输入,用来预测语义分割图像。

1) 生成网络G1Gs

G1Gs都采用U-Net[20]的网络结构,但为了节约计算资源,Gs减少了卷积的滤波器数。具体网络结构及参数设置如表1所示,第一列为网络编码端的网络层和卷积的滤器数,第二列代表经过这一网络层后的输出特征图通道数,三、四列代表解码端。编码端网络层输出跳连拼接到相同行的解码端网络层输出中。网络中所有卷积和反卷积的卷积核都为4×4,步长都为2。G1Gs网络层数较深,整体的感受野较大,能够获取图像的整体结构信息。同时,语义分割图像能够体现图像的结构信息,Gs根据T1预测语义分割图像对G1网络的学习起到了一定引导和限制,使G1更关注结构信息。

表 1. G1Gs网络结构参数配置表

Table 1. Detailed configuration about G1 and Gs

Encoder (G1/Gs filters)Number of channels G1/GsDecoder (G1/Gsfilters)Number of channels G1/Gs
dconv16 (3/3)3/3
conv1 (64/4)64/4dconv15 (64/4)128/8
conv2 (128/8)128/8dconv14 (128/8)256/16
conv3 (256/16)256/16dconv13 (256/16)512/32
conv4 (512/32)512/32dconv12 (512/32)1024/64
conv5 (512/32)512/32dconv11 (512/32)1024/64
conv6 (512/32)512/32dconv10 (512/32)1024/64
conv7 (512/32)512/32dconv9 (512/32)1024/64
conv8 (512/32)512/32

查看所有表

2) 判别网络D1第一级的判别网络D1采用文献[ 20]的判别网络结构,具体网络结构及参数设置如表2所示。其中第四列的Y代表卷积层后有批量归一化(BN)[26]层,N代表无。表中L代表激活函数泄漏整流线性单元(LReLU),S代表Sigmoid激活函数。

2.2 第二级网络——补充细节

第二级网络以GIV图像为辅助信息,在第一级网络输出红外图像的基础上,丰富红外仿真图像的细节信息。如图1所示,第二级网络也由一个对抗网络和一个辅助任务网络组成,与第一级类似。其中,生成网络G2的输入由三个数据拼接组成,包括G1输出的红外图像T1G1最后一层的特征图、GIV图像Ig。而网络Gg是一个辅助任务,通过G2输出的红外图像T2,预测GIV图像Ig'。判别网络D2用来判别T2Ttrue的真伪,结构和D1相同,并且在训练时D1D2不共享参数。

表 2. 判别网络结构参数配置表

Table 2. Detailed configuration about discriminator

NetworkInput/outputchannelsStrideBNActivationfunction
conv16/642NL
conv2641282YL
conv3128/2562YL
conv4256/5122YL
conv5512/5121YL
conv6512/11NS

查看所有表

在大部分光照良好的条件下,可见光图像的纹理细节信息要多于红外图像。相较于可见光图像,GIV图像的细节纹理信息和红外图像的细节纹理信息更接近。因此,本文将GIV图像作为辅助信息输入到G2中,为网络提供更多的图像纹理细节信息,并通过辅助任务网络Gg,来引导G2更加关注图像中的细节信息。

图 2. G2网络结构

Fig. 2. Proposed network of G2

下载图片 查看所有图片

1) 生成网络G2

生成网络G2的具体结构如图2所示。G2的输入是由三种数据拼接而成,因此首先使用多尺度融合模块(MFM)将数据整合,得到通道数为32的特征图;然后再使用三个快速多尺度残差块(FMRB)[27]将整合数据的纹理细节信息传递到输出端。FMRB是图像去模糊任务中的模块,具有局部多尺度结构,由两路多重3×3卷积拼接组成,能够获得多尺度感受野信息。其在图像去模糊任务中能够较好地学习到细节纹理信息。此外,为了实现不同模块之间的知识共享,G2在每个FMRB模块之间加入跳跃连接。

MFM具体结构如图3所示。为了获取多感受野的信息,网络输入首先经过四个卷积核大小为3×3的空洞卷积,膨胀率分别为1、2、3、4;然后将不同膨胀率的空洞卷积输出进行相加,从而融合不同感受野的信息,这一步也能够减轻空洞卷积带来的网格效果;接下来将相加后的结果拼接在一起;最后,输入经过一个1×1标准卷积与拼接结果相加得到最终输出。

图 3. 多尺度融合模块

Fig. 3. Multi-scale fusion module

下载图片 查看所有图片

图 4. Gg网络结构

Fig. 4. Proposed network of Gg

下载图片 查看所有图片

2) 轻量小感受野网络Gg

为了更好的引导G2学习细节纹理信息,得到细节纹理丰富的最终预测红外图像T2,Gg只需要关注T2的细节部分。因此,Gg的感受野应该较小。Gg的网络结构如图4所示,上半部分是Gg的整体网络结构,包含四个模块,中间数字代表通道数;下半部分代表每个模块的具体网络结构,包含三个级联卷积,数字为卷积核大小,卷积步长都为1,每个卷积后都有一层LReLu。这种网络结构使得Gg的整体网络感受野大小仅为3×3,且参数量较小。

2.3 损失函数

本文的生成网络G1GsG2Gg和判别网络D1D2以端到端的方式共同训练。判别网络和生成网络的梯度下降交替进行,即D1D2的参数先固定,训练G1GsG2Gg;然后G1GsG2Gg的参数固定,训练D1D2。整体的损失函数Ltotal采用最小-最大的训练策略,表达式为

minG1,Gs,G2,GgmaxD1,D2Ltotal=LGAN+Lpixel,(1)

式中:LGAN为对抗损失函数总和;Lpixel为像素级损失函数总和。LGAN包含第一级对抗损失 LGAN1和第二级对抗损失LGAN2,表达式为

LGAN=LGAN1+10×LGAN2(2)

第一级判别网络D1用于区分合成图像对[Irgb,T1]和真实图像对[Irgb,Ttrue],损失函数采用交叉熵的组合形式,表示为

LGAN1=EIrgb,Ttrue[lnD(Irgb,Ttrue)]+EIrgb,T1ln[1-D(Irgb,T1)](3)

第一级判别网络D1用于区分合成图像对[Irgb,T2]和真实图像对[Irgb,Ttrue],表示为

LGAN2=EIrgb,Ttrue[lnD(Irgb,Ttrue)]+EIrgb,T2ln[1-D(Irgb,T2)](4)

像素级损失函数总和Lpixel包含第一级生成网络G1GsL1损失函数LG1LGs,第二级生成网络G2GgL1损失函数LG2LGg和对纹理更敏感的梯度损失函数Lg_G2,表达式为

Lpixel=λ1LG1+λ2LGs+λ3LG2+λ4LGg+λ5Lg_G2,(5)

式中:λ是超参数,代表各个损失函数的权重;G1G2负责生成红外图像,是目标任务网络,权重最高;网络GsGg负责辅助任务,权重较低;梯度损失函数用于增加网络对边缘的感知能力,权重最小。经过多次实验,本文最终将λ从1到5分别设置为100、5、200、10、0.5。L1损失函数代表平均绝对误差,表示为

L1=1Ni=1Nyi-yi*,(6)

式中:i是像素索引;N是一幅图像里所有像素总和的数目; yiyi*分别代表像素i处的真实灰度值和网络预测的灰度值。梯度损失函数Lg表达式为

Lg=12Ni=12Nhyi-hy^i+vyi-vy^i,(7)

式中: hy^ihyi分别代表目标红外图像Ttrue像素i处水平方向的梯度值和红外仿真图像像素i处水平方向的梯度值; vyivy^i代表垂直方向。

3 实验细节与评估指标

3.1 数据预处理

本文使用公开数据集MPD对所提出的网络模型进行训练和测试。MPD由Hwang等[25]提出并制作,内容为配准的可见光图像和对应红外图像的图像对,分辨率为640×512。其中,训练集和测试集分别含有50187和45141个图像对。训练集和测试集都包含校园、街道和城郊三个场景,每个场景又分别包含白天和夜晚的拍摄图像。本文选取了三个场景中白天的图像对作为网络的训练集,训练集大小为33399个图像对。相应地,本文在MPD测试集的白天图像对中随机抽取565个图像对作为网络的测试集。送入网络之前,本文通过双线性插值下采样将图像分辨率大小调整至256×256。

可见光的语义分割图像和灰度反转图像是本文网络的辅助信息。GIV图像通过将可见光图像由彩色图像转为灰度图像,再进行灰度值反转操作得到。将可见光图像输入到Refinenet[28]在Cityscapes上训练好的模型中,可以预测得出语义分割图像。Cityscapes是主要应用于语义分割的大型数据集,主要场景为室外街道,和MPD场景类似。

3.2 评估指标

在图像域转换任务以往的工作中,有一些公认的评估指标来评价网络预测图像和真实目标图像的相似度。本文采用平均相对误差(Rel)、对数平均误差(Log10)、均方根误差(RMS)以及准确率(δ <1.25i, i = 1, 2, 3)。各指标的计算表达式分别为

Rrel=1Ni=1Nyi-yi*/yi*,(8)Rlog10=1Ni=1Nlgyi-lgyi*,(9)Rrms=1Ni=1Nyi-yi*2,(10)δ=maxyiyi*,yi*yi<Tth,(11)

式中:i是像素索引;N是一幅红外图中像素总和的数目;yiyi*分别代表像素i处的目标图像灰度值和预测图像灰度值。此外,本文也采用峰值信噪比(PSNR)和结构相似性(SSIM),作为图像去模糊、超分辨等的评估指标,能够较好地反映两幅图像的相似度。

3.3 实验设置细节

本文使用Pytorch框架,在内存为16 GB,GPU为NVIDIA Titan XP的计算机上进行实验。网络采用均值为0、标准差为0.2的高斯分布进行权重初始化,使用Adam作为优化器,设置动量为0.5。设置初始学习率为0.0001,batch size为4。完整训练过程需要大约16 h,训练集数据一共迭代了20次。

4 实验结果与分析

4.1 与先进算法的对比

本节与图像域转换的先进算法进行了对比实验,客观参数指标如表3所示。前两种网络是CNN,由可见光直接生成红外仿真图像;后三种网络为GAN,即生成对抗网络结构。先进算法生成的红外仿真图像如图5所示,其中第一行是可见光图像,最后一行是目标红外图像。

1) 与CNN先进算法的对比

从实验结果看,客观指标上CNN算法优于GAN,主观感受上GAN算法优于CNN。表3中前两个网络,FCRN[11]、FLEDNet[12]是实现单目深度估计的端到端CNN网络,均不需要辅助信息。在6个评价参数中,FLEDNet[12]有4个最优,本文CMIF-GAN有2个最优,落后于前者。

表 3. 算法的客观指标对比

Table 3. Comparison of objective indicators of algorithms

MethodThe lower, the betterThe higher, the better
RelAvg log10RMSδ<1.25PSNRSSIM
FCRN[11]0.2860.1441.0600.40921.2040.962
FLED-Net[12]0.2380.1000.8530.60222.9210.987
Pix2pix[20]0.2480.1070.9060.57122.4310.985
Selection-GAN[23]0.2840.1120.9580.55421.9760.982
Proposed0.2570.1020.8760.61222.6570.989

查看所有表

但从图5的仿真图像对比中可以看出,FLEDNet[12]的红外仿真结果虽然在客观指标上优于本文CMIF-GAN结果,但普遍存在图像模糊、纹理丢失的现象。例如图5(a)中框选的汽车非常模糊,车牌保险杠的形状无法分别;图5(b)中骑车人退化成一团光晕;图5(c)中楼宇规则的窗户形状也退化的无法分辨。同时也可以发现,GAN算法的视觉效果优于CNN算法,图像中的边界结构基本正确,并且建筑物、车辆、人物的细节较丰富,更符合人眼视觉感受。

图 5. 不同算法生成的红外仿真图。(a)汽车;(b)自行车骑手;(c)楼房;(d)远距离车辆

Fig. 5. Infrared simulation images generated by different algorithms. (a) Car; (b) bicycle rider; (c) building; (d) long-distance vehicle

下载图片 查看所有图片

2)与GAN先进算法的对比

客观指标上看,本文CMIF-GAN优于其他两种GAN算法,6个指标中5个最优;主观效果上,本文的仿真图像中场景与物体的重构更准确,细节也更丰富,与实际红外图像更接近。表3中,Pix2pix[20]、SelectionGAN[23]都是端到端地实现图像域转换的GAN。Pix2pix[20]是较早提出的一个生成对抗网络,用于图像风格转换任务;2019年CVPR提出的SelectionGAN[23]包含两个阶段的生成对抗网络,用于不同视角下的图像转换,本文在其级联的架构上进行了改进。

表3结果表明,CMIF-GAN在大部分指标上都达到了最佳性能:在误差RMS上优于SelectionGAN[23]8.6%;在准确率δ<1.25上提高了10.5%。主观感受上,如图5所示:图5(a)中框选的汽车部分,Pix2pix[20]图像最差,车体模糊,SelectionGAN[23]图像基本能看清车尾结构,本文方法结果最清晰,能看清楚车牌轮廓、车尾灯;图5(b)中框选的自行车骑手,Pix2pix[20]结果无法显示车与人的轮廓,SelectionGAN[23]图像中能看清部分的轮廓,而本文方法结果基本能显示出完整人体轮廓,与目标图像最为接近;从图5(c)中的楼房和图5(d)中远距离拍摄的车辆能够看出,本文算法的结果与目标红外图像相似度更高,结构纹理更清晰、更丰富、更准确。

综上,虽然GAN算法较CNN算法在客观指标上略落后,但其图像的边缘更清晰、结构更准确、细节更丰富,更适用于本文任务。在三种GAN算法中,本文算法的客观指标与主观感受最优。

4.2 两级网络结构的对比

本文CMIF-GAN包含两级生成对抗网络,第一级重建红外仿真图像的结构信息,第二级丰富细节信息。为了验证两级网络结构的必要性,本节对比了一级网络和两级网络的差异,实验结果如表4所示。在误差RMS上一级网络比两级网络增大了4.8%;在准确率δ<1.25上,一级网络比两级网络低3.8%。

表 4. 一级网络与CMIF-GAN的对比实验

Table 4. Comparison of first level network and CMIF-GAN

MethodThe lower, the betterThe higher, the better
RelAvg log10RMSδ<1.25PSNRSSIM
First level0.2650.1070.9180.58922.3100.987
Proposed0.2570.1020.8760.61222.6570.989

查看所有表

两种结构的仿真图像如图6所示,可以看出,一级网络结果比较粗糙,而两级网络结果细节更准确,与目标图像更相似。例如第一幅图像中框选的道路指示牌,一级网络结果中丢失了部分结构,两级网络的轮廓更加完整;第二幅图像中的框选的部分,包括路标杆、树枝,比较两个结果可以看出,两级网络结果的细节纹理信息相对更准确。综上,说明本文“由粗到细”的级联结构是有效的,即第一级网络重建结构信息,第二级网络补充细节纹理信息。

图 6. 一级网络与CMIF-GAN结果对比图

Fig. 6. Results comparison of first level network and CMIF-GAN

下载图片 查看所有图片

4.3 辅助任务实验对比

本文算法中增加了辅助任务以提升网络性能,本节对辅助任务的作用进行对比。第一级网络的辅助任务为语义分割图像,第二级网络的辅助任务为可见光的灰度反转图像。具体消融实验结果如表5所示。结构一,同时去掉语义分割和GIV图像这两个辅助任务,即去除GsGg网络;结构二,仅去除GIV图像,即无Gg网络;结构三,仅去除语义分割图像,即无Gs网络;第四行代表完整CMIF-GAN。

表5中可以看出,包含语义分割和GIV图像辅助任务的完整CMIF-GAN获得最佳实验结果,在准确率δ<1.25上分别高于结构一、结构二、结构三的4.4%、3.0%、2.3%。结构一无任何辅助任务,指标上性能最差。结构三在各项客观指标上均优于结构二网络,说明GIV辅助任务相对语义分割来说,提升作用更大一些。

虽然结构二中语义分割的辅助任务使得网络能够学习到更正确的结构信息,但是客观指标计算过程中并不能为结构信息增加权重。结构三中的GIV图像的辅助任务,使网络能够获得更多图像细节信息,即使结构上有些差异,但依然能保证指标更优。这也是客观指标的一种局限性。

表 5. 辅助任务实验对比

Table 5. Comparison of auxiliary tasks experiments

SetupThe lower, the betterThe higher, the better
RelAvg log10RMSδ<1.25PSNRSSIM
-Gs,Gr0.2680.1070.9120.58622.3210.988
-Gg0.2760.1060.9250.59422.2800.986
-Gs0.2640.1050.9010.59822.5100.987
Proposed0.2570.1020.8760.61222.6570.989

查看所有表

4.4 MFM模块实验分析

本节对G2网络中提出的MFM模块的作用进行实验分析。为了提升网络精度,MFM模块通过不同膨胀率的空洞卷积获取多感受野的信息,并通过相加和拼接操作融合多感受野的信息。MFM模块的对比实验如表6所示:第一行代表CMIF-GAN去掉MFM模块的实验结果;第二行代表有MFM模块,即完整CMIF-GAN。

表6中可以看出,有MFM模块的网络在各个指标上的表现都更好,在误差Rel和RMS上分别低于无MFM模块网络4.1%和3.3%,可以验证MFM模块有助于提升网络精度,能够较好地学习到有用信息。

表 6. MFM模块实验对比

Table 6. Comparison of MFM module experiments

SetupThe lower, the betterThe higher, the better
RelAvg log10RMSδ<1.25PSNRSSIM
-MFM0.2680.1050.9050.60022.4650.987
Proposed0.2570.1020.8760.61222.6570.989

查看所有表

5 结论

为从可见光图像转换到对应的红外仿真图像,本文提出了包含两级对抗网络的级联多尺度信息融合生成对抗网络,并采用语义分割图像和GIV图像作为辅助任务的输入信息。在MPD数据集的实验结果表明,相较于其他先进算法,该网络模型在图像域转换任务的多种客观评估指标上均得到较好结果。

参考文献

[1] Mu C P, Peng M S, Dong Q X, et al. Infrared image simulation of ground maneuver target and scene based on OGRE[J]. Applied Mechanics and Materials, 2015, 3752(716): 932-935.

[2] 马艳, 田宇. 红外仿真中舰船辐射模型建模方法[J]. 战术导弹技术, 2013( 3): 67- 70, 75.

    MaY, TianY. Modeling method of warship radiation model for infrared simulation[J]. Tactical Missile Technology, 2013( 3): 67- 70,75.

[3] 杨敏, 李敏, 易亚星, 等. 基于OGRE的海面舰船目标红外仿真方法[J]. 激光与红外, 2017, 47(1): 53-57.

    Yang M, Li M, Yi Y X, et al. Infrared simulation of ship target on the sea based on OGRE[J]. Laser & Infrared, 2017, 47(1): 53-57.

[4] 谢江荣, 李范鸣, 卫红, 等. 基于生成对抗式神经网络的红外目标仿真方法[J]. 光学学报, 2019, 39(3): 0311002.

    Xie J R, Li F M, Wei H, et al. Infrared target simulation method based on generative adversarial neural networks[J]. Acta Optica Sinica, 2019, 39(3): 0311002.

[5] 周强, 白廷柱, 刘明奇, 等. 基于可见光图像的近红外场景仿真[J]. 红外技术, 2015, 37(1): 11-15.

    Zhou Q, Bai T Z, Liu M Q, et al. Near infrared scene simulation based on visual image[J]. Infrared Technology, 2015, 37(1): 11-15.

[6] 李敏, 徐中外, 解鸿文, 等. 基于可见光图像的红外图像生成方法及其细节调制[J]. 红外技术, 2018, 40(1): 34-38.

    Li M, Xu Z W, Xie H W, et al. Infrared image generation method and detail modulation based on visible light images[J]. Infrared Technology, 2018, 40(1): 34-38.

[7] EigenD, PuhrschC, FergusR. Depth map prediction from a single image using a multi-scale deep network[C]∥International Conference on Neural Information Processing Systems, 2014: 2366- 2374.

[8] WangP, Shen XH, LinZ, et al.Towards unified depth and semantic prediction from a single image[C]∥2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 7-12 June 2015, Boston, MA, USA.New York: IEEE Press, 2015: 2800- 2809.

[9] XuD, RicciE, Wanli OY, et al.Multi-scale continuous CRFs as sequential deep networks for monocular depth estimation[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 21-26 July 2017, Honolulu, HI, USA.New York: IEEE Press, 2017: 161- 169.

[10] XuD, WangW, TangH, et al.Structured attention guided convolutional neural fields for monocular depth estimation[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. 18-23 June 2018, Salt Lake City, UT, USA.New York: IEEE Press, 2018: 3917- 3925.

[11] LainaI, RupprechtC, BelagiannisV, et al.Deeper depth prediction with fully convolutional residual networks[C]∥2016 Fourth International Conference on 3D Vision (3DV). 25-28 Oct. 2016, Stanford, CA, USA.New York: IEEE Press, 2016: 239- 248.

[12] 贾瑞明, 刘立强, 刘圣杰, 等. 基于编解码卷积神经网络的单张图像深度估计[J]. 图学学报, 2019, 40(4): 718-724.

    Jia R M, Liu L Q, Liu S J, et al. Single image depth estimation based on encoder-decoder convolution neural network[J]. Journal of Graphics, 2019, 40(4): 718-724.

[13] 贾瑞明, 李阳, 李彤, 等. 多层级特征融合结构的单目图像深度估计网络[J/OL]. 计算机工程[2020-04-01]. https: ∥doi.org/10.19678/j.issn.1000-3428. 0056477.

    Jia RM, LiY, LiT, et al. 1000-3428. 0056477.

[14] Qi XJ, Liao RJ, Liu ZZ, et al.GeoNet: geometric neural network for joint depth and surface normal estimation[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. 18-23 June 2018, Salt Lake City, UT, USA. New York: IEEE Press, 2018: 283- 291.

[15] Yin ZC, Shi JP. GeoNet: unsupervised learning of dense depth, optical flow and camera pose[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. 18-23 June 2018, Salt Lake City, UT, USA. New York: IEEE Press, 2018: 1983- 1992.

[16] RanjanA, JampaniV, BallesL, et al.Competitive collaboration: joint unsupervised learning of depth, camera motion, optical flow and motion segmentation[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 15-20 June 2019, Long Beach, CA, USA. New York: IEEE Press, 2019: 12232- 12241.

[17] Jiao J B, Cao Y, Song Y B, et al. Look deeper into depth: monocular depth estimation with semantic booster and attention-driven loss[J]. Computer Vision-ECCV, 2018, 2018: 53-69.

[18] MirzaM, Osindero S. Conditional generative adversarial nets[EB/OL]. ( 2014-11-06)[2020-04-01]. https: ∥arxiv.org/abs/1411. 1784.

[19] 胡麟苗, 张湧. 基于生成对抗网络的短波红外-可见光人脸图像翻译[J]. 光学学报, 2020, 40(5): 0510001.

    Hu L M, Zhang Y. Facial image translation in short-wavelength infrared and visible light based on generative adversarial network[J]. Acta Optica Sinica, 2020, 40(5): 0510001.

[20] IsolaP, Zhu JY, Zhou TH, et al.Image-to-image translation with conditional adversarial networks[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 21-26 July 2017, Honolulu, HI, USA.New York: IEEE Press, 2017: 5967- 5976.

[21] MaS, Fu JL, Chen CW, et al.DA-GAN: instance-level image translation by deep attention generative adversarial networks[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. 18-23 June 2018, Salt Lake City, UT, USA. New York: IEEE Press, 2018: 5657- 5666.

[22] Mejjati YA, RichardtC, TompkinJ, et al. ( 2018-11-08)[2020-04-01]. https: ∥arxiv.org/abs/1806. 02311.

[23] TangH, XuD, SebeN, et al.Multi-channel attention selection GAN with cascaded semantic guidance for cross-view image translation[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 15-20 June 2019, Long Beach, CA, USA.New York: IEEE Press, 2019: 2412- 2421.

[24] Luo WJ, Li YJ, UrtasunR, et al.( 2017-01-25)[2020-04-01]. https: ∥arxiv.org/abs/1701. 04128.

[25] HwangS, ParkJ, KimN, et al.Multispectral pedestrian detection: Benchmark dataset and baseline[C]∥2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 7-12 June 2015, Boston, MA, USA. New York: IEEE Press, 2015: 1037- 1045.

[26] IoffeS, Szegedy C. Batch normalization: accelerating deep network training by reducing internal covariate shift[EB/OL].( 2015-03-02)[2020-04-01]. https: ∥arxiv.org/abs/1502. 03167.

[27] 贾瑞明, 邱桢芝, 崔家礼, 等. 盲去模糊的多尺度编解码深度卷积网络[J]. 计算机应用, 2019, 39(9): 2552-2557.

    Jia R M, Qiu Z Z, Cui J L, et al. Deep multi-scale encoder-decoder convolutional network for blind deblurring[J]. Journal of Computer Applications, 2019, 39(9): 2552-2557.

[28] Lin GS, MilanA, Shen CH, et al.RefineNet: multi-path refinement networks for high-resolution semantic segmentation[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 21-26 July 2017, Honolulu, HI, USA. New York: IEEE Press, 2017: 5168- 5177.

贾瑞明, 李彤, 刘圣杰, 崔家礼, 袁飞. 基于级联多尺度信息融合对抗网络的红外仿真[J]. 光学学报, 2020, 40(18): 1810001. Ruiming Jia, Tong Li, Shengjie Liu, Jiali Cui, Fei Yuan. Infrared Simulation Based on Cascade Multi-Scale Information Fusion Adversarial Network[J]. Acta Optica Sinica, 2020, 40(18): 1810001.

本文已被 1 篇论文引用
被引统计数据来源于中国光学期刊网
引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!