激光与光电子学进展, 2021, 58 (8): 0810022, 网络出版: 2021-04-12   

少样本条件下基于生成对抗网络的遥感图像数据增强 下载: 850次

Data Augmentation for Remote Sensing Image Based on Generative Adversarial Networks Under Condition of Few Samples
作者单位
国防科技大学电子对抗学院脉冲功率激光技术国家重点实验室, 安徽 合肥 230009
摘要
针对小样本条件下遥感图像目标的检测精度受到卷积神经网络过拟合影响的问题,提出一种基于生成对抗网络的数据增强方法,利用判别模型为生成模型同时提供图像的局部决策与全局决策,以提高生成模型生成图像的质量,并将生成的目标与训练集图像进行融合得到新的样本,且新生成的样本不需人工标注。实验结果表明,在原始数据中加入生成数据后,检测识别精度有所提高,且本文方法与基于图像仿射变换的数据增强方法的叠加使用进一步提高了数据增强的效果。
Abstract
To solve the problem that the detection accuracy of remote sensing image targets is affected by convolution neural network overfitting under the condition of small samples, a data augmentation method based on generative adversarial networks is proposed. The discrimination model is used to provide local and global decisions for the generation model to improve the quality of the image generated by the generative model. The new samples are obtained by fusing the generated target and the training set image, and the new samples do not need to be labeled manually. Experimental results show that: the accuracy of detection and recognition is improved after adding the generated data to the original data; this method can be superimposed with the data augmentation method based on image affine transformation to further improve the effect of data augmentation.

1 引言

随着遥感技术的迅猛发展,遥感图像目标检测识别在各领域的应用极为广泛,其中卷积神经网络常作为一种重要的研究方法。卷积神经网络优异的性能、强大的特征提取能力是建立在丰富的数据集基础之上的,数据量不足时会导致过拟合,进而影响算法性能。然而,在现实世界中,受数据记录条件的限制,大量有标签的遥感图像数据的获得通常是不现实的,人们往往仅得到少量带标签的数据样本。实际应用中出现了因某些领域的数据集中样本数量过少而限制现有检测识别算法性能的情况。

针对如何在少样本条件下减小过拟合的影响,当前常用的数据增强方法主要有图像仿射变换、信息删除、图像融合、生成模型[1-7]等方法。图像仿射变换方法主要指对图像进行平移、尺度变换、对比度变换、噪声扰动等方法,文献[ 8]中将图像仿射变换中的各项操作进行离散优化以应用于图像分类问题。信息删除主要指删除图像中的一部分内容,其中较为典型的信息删除方法包括剪切(Cutout)、网格掩码(Gridmask)[9-10]等。图像融合的方法主要指将两张或多张图片融合为一张图片的方法,其中较为典型的方法有混合(Mixup)、自动混合(Augmix)[11-12]等。利用生成模型的方法生成数据,常用的生成模型主要包括变分自编码器(VAE)、生成对抗网络(GAN)[13-14]等,这类方法比一般的图像预处理方法更为复杂,但其生成的样本也更加多样。

本文对基于样式的生成对抗网络(StyleGAN2)[15]进行改进并将其应用于少样本条件下的遥感图像数据增强中,在经过数据增强后的数据集上利用yolov3目标检测算法[16]进行检测,检测精度有所提高。本文主要的工作包括3个方面:1)提出了一种基于生成对抗网络的遥感图像数据增强流程;2)为提高图像生成质量,综合图像局部信息与全局信息,对网络判别模型进行改进,将其修改为U形网络(Unet)[17],并对网络损失函数进行修改;3)利用检测模型的检测精度作为评价指标,评价了利用改进后的StyleGAN2网络进行数据增强的效果,并将其与图像仿射变换方法进行了比较。

2 生成对抗网络

GAN的基本结构框架图如图1所示。生成对抗网络中设定了一个生成模型G和一个判别模型D,其中生成模型负责生成接近真实数据的生成数据,而判别模型试图区分真实数据与生成模型创造出的伪数据。生成模型G(其输出为G)以噪声信号noise作为输入变量,将其映射到生成模型的数据空间,从而得到生成模型的概率分布。判别模型D(其输出为D)的输入为真实数据(real data)和来自生成模型G的生成数据(fake data),通过输出一个标量来反映输入来自真实数据而不是生成数据的概率。

图 1. GAN的基本结构框架图

Fig. 1. Basic structural frame of GAN

下载图片 查看所有图片

GAN中通过训练D使其最大化,判断真实数据和生成数据的概率,同时训练G使其最小化ln 1-DG(z),它的优化函数为

minGmaxDV(D,G)=Ex[lnD(x)]+Ezln1-DG(z),(1)

式中:V(D,G)表示目标函数;ExEz分别表示真实数据x和噪声数据z的数学期望;G(z)表示生成模型的输出;D(x)、DG(z)分别表示判别模型对应真实数据与生成模型生成的伪数据的输出。

判别模型D的梯度为

D=θD1mi=1m{lnD(x(i))+ln1-DG(z(i))},(2)

生成模型G的梯度为

G=θG1mi=1m{1-ln1-DG(z(i))},(3)

式中: θDθG分别表示对判别模型、生成模型求梯度;m表示批样本数量;ij表示样本序号;xz分别表示真实数据与噪声。

最终二者达到纳什均衡,判别器输出为0.5,即判别模型D无法判断输入是来自真实数据还是来自生成数据。

随着近些年来研究人员对生成对抗网络的不断改进,其生成图像的质量也不断提高,如文献[ 18]中提出了深度卷积生成对抗网络(DCGAN),该网络使用了跨距卷积的方法,并将卷积神经网络与生成对抗网络结合起来。文献[ 19]中提出了基于Wasserstein生成对抗网络(WGAN)的模型,该模型使用Wasserstein距离来代替Jensen-Shannon(JS)散度评估实际样本与生成样本之间的距离,相较于原始GAN进一步提高了训练的稳定性。文献[ 20]中提出了基于样式的生成对抗网络StyleGAN,使用潜变量并经过空间映射得到中间变量,将该过程作为style控制生成模型的生成过程,StyleGAN2针对StyleGAN生成图片中出现的伪影进行了改进,主要是将实例正则化的过程改进为调制-解调的过程。

3 遥感图像数据增强流程与算法

3.1 遥感图像数据增强流程

与图像仿射变换、信息删除、图像融合等数据增强方法不同,本文通过训练生成对抗网络生成不同于原始图像的异构图像,并将生成图像与背景进行融合,得到新样本。具体流程为:1)从原始图像中截取目标,用于训练生成对抗网络;2)利用生成对抗网络生成目标样本;3)将生成目标与背景图片进行融合,得到融合后的生成样本。遥感图像数据增强流程图如图2所示。

图 2. 遥感图像数据增强流程图

Fig. 2. Data augmentation process of remote sensing image

下载图片 查看所有图片

3.2 基于StyleGAN2模型的改进

这里在StyleGAN2的基础上对生成对抗网络进行改进,重点对判别模型的结构进行了改进,将其调整为U-Net结构,使它能够同时输出属于真实类或伪类图像的全局和局部决策。其中以原StyleGAN2的判别模型作为编码器模块执行全局决策,解码器模块类似生成模型,输出每像素类决策,并向生成模型提供空间相干反馈。这种体系结构的改变使得判别模型的能力得到增强,它鼓励生成模型生成细节更为丰富的图像,也使得生成模型更难以欺骗判别模型,从而提高生成样本的质量。判别模型结构如图3所示,图中列出了判别模型中的三层结构,且省略了卷积模块中的跳跃连接。

图 3. 判别模型结构图

Fig. 3. Structural diagram of discrimination model

下载图片 查看所有图片

图3中Conv表示卷积核为3×3的卷积,Conv-down表示步长为2的卷积(用于降采样),Conv-up表示上采样后卷积,dense表示全连接层,pool表示平均池化层。U-net的编码器部分从dense层输出全局决策,解码器部分从pool层输出局部决策。

此外,为增加模型的泛化能力,参考文献[ 21]中的方法在生成模型与判别模型中同时使用了cutout等正则化方法。

损失函数中原StyleGAN2网络的判别模型、生成模型的损失函数分别为

LD=-Ex[lnD(x)]-Ezln1-DG(z),(4)LG=-Ez{lnD[G(z)]},(5)

式中:LDLG分别表示判别模型与生成模型的损失函数。改进后的判别模型损失函数为

LD=LDenc+LDdec,(6)

式中: LDencLDdec分别表示判别模型中编码器部分的损失函数与解码器部分的损失函数,可分别表示为

LDenc=-ExlnDencT(x)-Ezln1-DencTG(z),(7)LDdec=-Ex[lnDdecT(x)-Ezln1-DdecTG(z),(8)

式中:DencDdec分别表示判别模型的编码器部分与解码器部分;T表示cutout正则化方法;ij分别表示判别模型解码部分Ddec输出矩阵的行、列数。改进后的生成模型损失函数为

LG=-Ez{lnDencTG(z)+lnDdecTG(z)}(9)

3.3 生成目标图像融合

生成目标图像融合部分采用生成目标替换原边界框的方式,生成了与原始图像具有相同标签的异构图像,该融合过程主要分为纹理匹配与边界融合两步。其中纹理匹配是基于局部二值模式(LBP)[22]对生成图像与背景图像进行特征匹配,首先使用旋转不变LBP算子分别提取生成样本与背景图片的特征,之后计算二者的统计直方图特征,以生成样本与背景图片的统计直方图特征均方误差作为评价指标,筛选与背景图片最为匹配的生成样本。生成样本与背景图片间的匹配损失的计算公式为

ploss=(lb-lg)2,(10)

式中:lblg分别表示背景图片与生成样本的统计直方图特征。为保证生成图像的多样性,筛选过程中首先选择出最小的10张生成样本,再从10张生成样本中随机选择1张进行边界融合。

边界融合部分借鉴文献[ 23]中的边界渐进式融合的思想,设边界融合r个像素,融合时的权重w

w=1-ir,i=1,2,,r,(11)

式中:i为边界融合的像素数,融合后图片边界处的像素为

g'(x,y)=w·b(x,y)+(1-w)·g(x,y),(12)

式中:g'(x,y)表示边界在(x,y)处融合后的像素;b(x,y)表示背景图片在(x,y)处的像素;g(x,y)表示生成图片在(x,y)处的像素。

4 实验与分析

4.1 数据集制作

本文选取DIOR数据集[24]与RSOD数据集[25]作为研究对象。 DIOR数据集共包含23463张遥感图像,其中训练集与验证集共11725张图像,测试集共11738张图像,图片分辨率为800 pixel×800 pixel,共20个类别。为研究数据增强算法在小样本数据集下对目标检测算法的影响,本文减少了训练集的数量,从训练集与验证集中随机抽取了7035张图像作为训练集,测试集保持不变。RSOD数据集共包含976张遥感图像,图片分辨率为512 pixel×512 pixel至1961 pixel×923 pixel不等,图像共4个类别,本文按照0.7,0.1,0.2的比例划分了训练集、验证集与测试集。

4.2 实验结果和分析

本文分别选取了DIOR数据集中目标数量相对较少的11类目标与RSOD数据集中目标数量相对较少的2类目标进行逐类数据增强,表1、2分别为利用改进后的StyleGAN2与原StyleGAN2生成目标的Frechet Inception距离(FID值)在两个数据集上的对比结果,实验结果为同等实验环境配置下模型的FID最小值。

表 1. DIOR数据集上生成目标的FID值对比

Table 1. Comparison of FID values of generated target on DIOR datasets

CategoryAirportBasketball courtBridgeChimneyOverpassStadium
StyleGAN273.8070.38102.69125.3783.9856.17
Ours67.3552.7095.9678.5155.3853.25
CategoryDamExpressway-service-areaGolf fieldGround track fieldTrain station
StyleGAN2123.0462.4267.0345.20113.78
Ours103.0054.2257.9839.8793.00

查看所有表

表 2. RSOD数据集上生成目标的FID值对比

Table 2. Comparison of FID values of generated target on RSOD datasets

CategoryOverpassPlayground
StyleGAN288.52127.86
Ours110.42168.30

查看所有表

生成新的目标后,利用旋转不变LBP算子对生成目标与背景图片进行纹理匹配,筛选出与背景图片纹理最为接近的生成样本,并将其与背景图片融合后得到新的生成样本,生成的样本示例如图4所示。

图 4. 生成样本效果图示例。(a)(b)烟囱;(c)(d)篮球场;(e)(f)体育场

Fig. 4. Examples of generated samples. (a)(b) Chimney; (c)(d) basketball court; (e)(f) stadium

下载图片 查看所有图片

在小样本数据集上分别使用基于图像仿射变换 (包括平移变换与颜色变换)的方法以及本文所提方法进行数据增强,并通过在原数据集上增加不同数量的增强数据进行对比,选择yolov3作为评价指标评价识别模型的检测精度,实验结果如表3、4所示。

表 3. DIOR数据集上添加不同比例增强数据时的检测精度对比

Table 3. Comparison of detection accuracy for adding different percent of enhancement data on DIOR dataset%

MethodPercent of added data /Accuracy (mAP)
Affine transformation0/46.06100/47.69200/48.45300/47.74400/49.14
Ours0/46.065/48.1410/46.9715/45.6020/46.17
Combined method0/46.06105/48.09205/49.48305/47.96405/49.51

查看所有表

表 4. RSOD数据集上添加不同比例增强数据时的检测精度对比

Table 4. Comparison of detection accuracy for adding different percent of enhancement data on RSOD dataset%

MethodPercent of added data /Accuracy (mAP)
Affine transformation0/70.78100/74.22200/79.28300/76.76400/77.84
Ours0/70.785/75.3710/74.8315/76.5220/77.25
Combined method0/70.78120/79.34220/80.13320/77.77420/78.35

查看所有表

从实验结果可以看出,基于图像仿射变换的方法在DIOR数据集与RSOD数据集上的检测精度分别为46.06%与70.78%,最高精度分别为49.14%与79.28%,使用本文方法进行数据增强后得到的最高精度分别为48.14%与77.25%,略低于基于图像仿射变换的方法。但两种方法结合在一起时在DIOR数据集与RSOD数据集上取得的最高精度分别为49.51%与80.13%,可见本文方法能对基于图像仿射变换的数据增强方法起到叠加的作用。

5 结论

深度神经网络在小样本数据集下容易出现过拟合的问题,针对少样本条件下的遥感图像数据,提出一种基于生成对抗网络的数据增强方法,通过实验验证了所提方法的有效性,该方法适用于遥感图像数据增强,且有助于提高检测识别模型的精度。

参考文献

[1] Bjerrum EJ. SMILES enumeration as data augmentation for neural network modeling of molecules[EB/OL]. (2017-05-17)[2020-07-30]. https:∥www.researchgate.net/publication/315495821_SMILES_Enumeration_as_Data_Augmentation_for_Neural_Network_Modeling_of_Molecules.

[2] Zhong Z, Zheng L, Kang G L, et al. Random erasing data augmentation[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 13001-13008.

[3] Lemley J, Bazrafkan S, Corcoran P, et al. Smart augmentation learning an optimal data augmentation strategy[J]. IEEE Access, 2017, 5: 5858-5869.

[4] DinhL, KruegerD, BengioY, et al. NICE: non-linear independent components estimation[EB/OL]. (2014-10-30)[2015-04-10]. http://arxiv.org/abs/1410.8516?context=cs.LG.html.

[5] 张祥东, 王腾军, 杨耘, 等. 基于多尺度残差网络的小样本高光谱图像分类[J]. 激光与光电子学进展, 2020, 57(16): 162801.

    Zhang X D, Wang T J, Yang Y, et al. Classification of small-sized sample hyperspectral images based on multi-scale residual network[J]. Laser & Optoelectronics Progress, 2020, 57(16): 162801.

[6] 晋玮佩, 郭继昌, 祁清, 等. 基于条件生成对抗网络的水下图像增强[J]. 激光与光电子学进展, 2020, 57(14): 141002.

    Jin W P, Guo J C, Qi Q, et al. Underwater image enhancement based on conditional generative adversarial network[J]. Laser & Optoelectronics Progress, 2020, 57(14): 141002.

[7] 贺琪, 李瑶, 宋巍, 等. 小样本的多模态遥感影像高层特征融合分类[J]. 激光与光电子学进展, 2019, 56(11): 111001.

    He Q, Li Y, Song W, et al. Multimodal remote sensing image classification with small sample size based on high-level feature fusion[J]. Laser & Optoelectronics Progress, 2019, 56(11): 111001.

[8] Cubuk ED, ZophB, ManéD, et al.AutoAugment: learning augmentation strategies from data[C] //2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 15-20, 2019, Long Beach, CA, USA. New York: IEEE Press, 2019: 113- 123.

[9] TerranceD, Graham WT. Improved regularization of convolutional neural networks with cutout[EB/OL]. (2017-08-15)[2017-11-29]. http:// arxiv.org/abs/1708.04552?context=cs.LG.html.

[10] ChenP, LiuS, ZhaoH, et al. GridMask data augmentation[EB/OL]. (2020-01-13)[2020-01-14]. http:// arxiv.org/abs/2001.04086?context=cs.LG.html.

[11] ZhangH, CisseM, Dauphin YN, et al. Mixup: beyond empirical risk minimization[EB/OL]. (2017-10-25)[2018-04-27]. http:∥arxiv.org/abs/1710.09412?context=cs.LG.html.

[12] HendrycksD, MuN, Cubuk ED, et al. AugMix: a simple data processing method to improve robustness and uncertainty[EB/OL]. (2019-11-05)[2020-02-17]http:// arxiv.org/abs/1912.02781?context=cs. LG.html

[13] Kingma DP, WellingM. Auto-encoding variational Bayes[EB/OL]. (2013-11-20)[2014-05-01]. http://arxiv.org/abs/1312.6114?context=cs. LG.html.

[14] GoodfellowI, PougetJ, MirzaM, et al. Generative adversarial nets[C] //Proceedings of the 27th International Conference on Neural Information Processing Systems, December 8-13, 2014, Montreal, Quebec, Canada. New York: ACM, 2014: 2672- 2680.

[15] KarrasT, LaineS, AittalaM, et al. Analyzing and improving the image quality of StyleGAN[EB/OL]. (2019-11-03)[2020-03-23]. http:// arxiv.org/abs/1912.04958?context=cs.LG.html.

[16] RedmonJ, FarhadiA. YOLOv3: an incremental improvement[EB/OL]. (2018-04-08) [2020-03-23]. http:// arxiv.org/abs/1804.02767?context=cs.LG.html.

[17] RonnebergerO, FischerP, BroxT, et al. U-net: convolutional networks for biomedical image segmentation[EB/OL]. (2015-05-18)[2020-03-23]. https:∥arxiv.org/abs/1505.04597.

[18] RadfordA, MetzL, ChintalaS, et al. Unsupervised representation learning with deep convoluti-onal generative adversarial networks[EB/OL]. (2015-11-19)[2016-01-07]. http://arxiv.org/abs/1511.06434?context=cs.LG.htm.

[19] ArjovskyM, ChintalaS, BottouL. Wasserstein gan[EB/OL]. (2017-01-26)[ 2017-11-06]. http:∥arxiv.org/abs/1701.07875?context=cs.LG.html.

[20] KarrasT, LaineS, AilaT, et al. A style-based generator architecture for generative adversarial networks[EB/OL]. (2018-11-12)[2019-03-29]. http:// arxiv.org/abs/1812.04948?context=cs.LG.html.

[21] ZhaoS, LiuZ, LinJ, et al. Differentiable augmentation for data-efficient gan training[EB/OL]. (2020-06-18)[2020-03-23]. http://arxiv.org/abs2006.10738?context=cs.LG.html.

[22] Ojala T, Pietikainen M, Maenpaa T, et al. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2002, 24(7): 971-987.

[23] LiK, WanG, ChengG, et al. Object detection in optical remote sensing images: a survey and a new benchmark[EB/OL]. (2019-08-31)[2019-09-22]. http://arxiv.org/abs/1909.00133?context=cs.LG.html.

[24] Liu YY, Zhang JM, Wang KP, et al. Fast underwater target recognition method based on unbalanced datasets[EB/OL]. (2019-07-19) [2019-07-30]. http://kns.cnki.net/kcms/ detail/11.2127.TP.20190719.1443.018.html.

[25] Long Y, Gong Y P, Xiao Z F, et al. Accurate object localization in remote sensing images based on convolutional neural networks[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(5): 2486-2498.

姜雨辰, 朱斌. 少样本条件下基于生成对抗网络的遥感图像数据增强[J]. 激光与光电子学进展, 2021, 58(8): 0810022. Yuchen Jiang, Bin Zhu. Data Augmentation for Remote Sensing Image Based on Generative Adversarial Networks Under Condition of Few Samples[J]. Laser & Optoelectronics Progress, 2021, 58(8): 0810022.

本文已被 1 篇论文引用
被引统计数据来源于中国光学期刊网
引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!