激光与光电子学进展, 2020, 57 (18): 181504, 网络出版: 2020-09-02   

基于残差结构的对抗式网络图像生成方法 下载: 1080次

Image Generation Method for Adversarial Network Based on Residual Structure
颜贝 1,2,*张礼 1,2张建林 1,2徐智勇 1,2
作者单位
1 中国科学院光电技术研究所, 四川 成都 610209
2 中国科学院大学, 北京 100049
摘要
生成对抗网络(GAN)是解决图像数据获取困难的有效方法,但GAN在训练时难以稳定,生成的图像质量较差。基于此,提出了一种基于残差结构的改进深度卷积GAN图像生成方法。采用残差结构加深网络并结合图像标签信息,以获取真实图像样本的深层次特征,在判别器模型中引入谱约束,提高网络的训练稳定性,从而实现图像数据的有效生成。实验表明,所提方法在生成图像的视觉效果和客观评价上具有更优异的表现。
Abstract
Generative adversarial networks (GANs) effectively solve the difficulty of obtaining image data, but are disadvantaged by unstable training and poor quality of the generated images. To resolve these problems, this paper proposes an image generation method for an improved deep convolution GAN based on residual structures. The proposed method uses the residual structure to deepen the network and combines the image-label information to obtain the deep-level features of real image samples. It also introduces spectral constraints into the discriminator model, thereby improving the training stability of the network and the effective generation of the image data. The experimental results show that the proposed method has better performance in the visual effect and objective evaluation of the generated images.

1 引言

在人工智能领域中,大规模的标注图像数据是研究深度学习的前提[1],但受限于环境、人力及物力等因素,对图像数据的获取很困难[2-4]。2014年,Goodfellow等[5]提出的生成对抗网络(GAN)具有能生成新图像样本的能力,该网络的出现对图像数据的获取起到了极大的促进作用,但GAN在训练时难以收敛,模型易崩溃,从而导致生成的图像样本的质量不高,或者无法生成图像[6-10]。2015年,Radford等[11]在GAN中引入卷积神经网络(CNN),从而提出了深度卷积生成对抗网络(DCGAN),并在生成器模型、判别器模型中加入批归一化(BN)层[12],这在一定程度上缓解了GAN的训练不稳定性,但生成的图像质量仍然有待提升。

本文在DCGAN的基础上进行改进,提出了一种基于残差结构的对抗式网络图像数据生成方法。该方法结合残差结构能加深网络深度、获取图像深层语义信息,将其应用在生成器与判别器模型中,通过连接层对训练图像和标签信息进行拼接,从而实现了同步训练,增强了网络对真实图像特征的获取能力;同时,为了增强GAN训练的稳定性,将判别器模型中的BN层替换成谱约束(SN)层,将判别器模型的梯度限制在固定范围内,从而避免了训练过程中生成器与判别器模型更新不均衡导致模型崩溃的问题。实验在SVHN、Cifar-10及CelebA数据集上进行,结果表明,相比于改进前的DCGAN,所提方法训练网络时更加稳定,且生成的图像具有较好的视觉效果及更高的初始分数(IS),生成的图像质量得到了提升。

2 生成对抗网络原理

GAN的思想起源于博弈论,即网络中生成器模型与判别器模型之间的极大极小博弈。其中生成器模型是将输入的服从某一分布的噪声伪装成服从真实图像样本分布的新样本;判别器模型类似于二分类器,用于判断输入图像样本是来自真实图像样本还是生成图像样本,若判定为“真实”,则给出高概率分布,如“1”,反之,则给出低概率分布“0”[13-15]。GAN的目标函数表示为

minGmaxDV(D,G)=Ex~Pdata(x)[logD(x)]+Ez~Pz(z){log{1-D[G(z)]}},(1)

式中:D为判别器模型,G为生成器模型;z为输入的随机噪声;x为真实样本数据;Pdata(x)为真实样本数据集;Pz(z)为生成器模型生成的样本数据。

图1为GAN的具体流程图。判别器模型的训练目的是使logD(x)越大越好,最大限度地判别数据是真实样本数据还是生成样本数据。生成器模型通过学习真实图像样本的数据分布,将噪声Pz(z)伪装成真实图像,生成器模型的训练目的是使log{1-D[G(z)]}越小越好,即生成的图像能够以假乱真。

图 1. GAN流程

Fig. 1. Flow chart of GAN

下载图片 查看所有图片

3 基于残差结构的生成对抗网络

针对DCGAN训练不稳定、图像质量不高的问题,提出一种基于残差结构的GAN,该网络根据深度神经网络对图像特征的提取能力,将训练图像与图像标签信息同时输入到网络中,通过引入残差结构增强生成器、判别器对真实图像深层特征的提取能力。GAN不稳定的主要原因是生成器与判别器在训练过程中梯度下降不对称,即判别器模型的判别能力优于生成器模型,因此将判别器模型中的BN层替换为谱约束层,以防止判别器收敛过快,使生成器得到充分训练。

残差单元(RBU)是深度残差网络的基本组成部分[16-19],包含BN层、修正线性单元激活函数(ReLU)、卷积层、恒等映射,其结构如图2所示。F(x)是两个卷积层的变换函数,之后对F(x)与x求和得到该残差单元的输入H(x)。浅层网络获取图像特征时会有局限性,想要提升网络对图像高度抽象信息特征的提取能力,则需要加深网络深度。网络层数越多,网络提取到不同级别的深层特征也更丰富,但传统的加深网络会带来优化梯度消失、爆炸的问题。因此,残差结构采用跳层连接的方式,将原本的特征学习转换为残差学习,在增加网络深度的同时,增强了信息流在网络中的流动,从而保证梯度的稳定。随着网络层数的加深,残差结构利用恒等映射来保证每次变换后的图像本质信息、特征不会丢失,这打破了传统的单向连接方式,避免网络退化,也使得信息的前后向传播更加流畅。

图 2. RBU结构

Fig. 2. Structure of RBU

下载图片 查看所有图片

3.1 生成器模型(G-Net)

生成器模型用于捕捉真实样本的分布,使输入的噪声能够通过微步反卷积的方式伪装成真实样本。在DCGAN上进行改进,将生成器模型中反卷积层替换成卷积核大小为3×3、步长为1的残差结构,并在每个残差单元中增加上采样层,以实现每层图像的放大。每个线性卷积层上都使用BN,激活函数使用ReLU,结构如图3所示。

图 3. 生成器的RBU

Fig. 3. RBU of generator

下载图片 查看所有图片

图 4. 生成器模型

Fig. 4. Generator model

下载图片 查看所有图片

图4为输出图像大小为32×32的生成器模型的具体结构。所提方法的生成器的输入层为服从正态分布的噪声z和标签信息y,对标签信息y进行4×4卷积操作后与噪声z一同拼接到残差结构中,使生成器在学习真实图像特征时携带标签信息。再通过5个残差单元逐步加深网络,进一步增强生成器对真实图像深层特征的提取能力。最后一层采用3×3卷积核转换通道,采用Tanh激活函数输出尺寸为32×32×3的图像。

3.2 判别器模型(D-Net)

判别器模型用于获取输入图像来自真实样本的概率,判别器模型的优劣同样影响到生成图像的质量,若判别器不能正确分辨图像的真实性,则可能导致网络无法生成图像或生成图像单一。如图5所示,判别器中,残差单元的归一化采用谱约束方式[20]。该方式不依赖于批处理数量,能保证各层之间的独立性,并能将每层网络的梯度限制在小于等于1内,这减缓了判别器的收敛速度,从而提升了网络训练的稳定性。在判别器的残差单元中加入下采样层以缩小每层特征图像大小。激活函数为带泄露线性整流函数(Leaky ReLU),其能降低每层神经网络权重的稀疏性,在每层神经网络权重的梯度小于0时,仍能激活神经元,利于网络的反向传播。

图 5. 判别器的RBU

Fig. 5. RBU of discriminator

下载图片 查看所有图片

图 6. 判别器模型

Fig. 6. Discriminator model

下载图片 查看所有图片

图6是判别器模型的具体结构,其输入是大小为32×32×3的图像,后续通过残差结构提取输入图像特征和改变图像通道数。在第2~4层残差结构中,在通道数逐渐增加时采用下采样方式缩小图像大小,并在图像大小为4×4×512时通过连接层加入标签信息,再利用残差单元将图像大小变成4×4×1024并将其输入到全连接层中,并通过Sigmoid激活函数获得“0~1”的图像真实性判别结果。

4 实验与分析

4.1 实验环境及数据集

为了验证所提方法对图像样本生成的有效性,实验采用64位Ubuntu 14.04LTS操作系统、Intel Core i7-4790CPU 3.60 GHz x 8核心处理器、GeForce GTX 1080/Pcle/SSE2图形处理器及Pytorch深度学习框架。实验数据集选用小规模数据集SVHN、Cifar-10、CelebA。其中,SVHN数据集是由大小为32×32的100000张真实场景中的街道门牌0~9数字图片构成,73257张为训练集;Cifar-10数据集由60000张大小为32×32的彩色自然图像构成,其中50000张为训练集,总共分为汽车、马、船、狗等10个类别;CelebA数据集由202599张人脸图片构成,实验中将其标准化到64×64的大小并从中随机抽取60000张作为训练集。

4.2 图像生成

实验中生成器模型、判别器模型的初始权重服从N(0,0.02)的高斯分布,优化方法采用Adam,学习率为0.0002,Beta为0.99,损失函数为BCEloss。SVHN、Cifar-10数据集的批处理数量设为128,CelebA数据集的批处理数量设为64。采用各个数据集的训练集对模型进行训练,先固定生成器模型,更新判别器模型参数,再固定判别器模型,更新生成器模型参数,依次循环,相互迭代。

图7、8分别是SVHN、Cifar-10数据集在不同迭代次数(100,200,500,800,1000次)下,DCGAN与所提方法的生成图片视觉效果。可以看出,在相同迭代次数下,所提方法在视觉效果、色彩表达上明显优于DCGAN,且DCGAN生成的图像存在大量失败情况,所提方法则较少。在SVHN数据集上,所提方法在迭代100次时就能清晰地生成数字;且在生成的数字边缘,DCGAN生成的数字有明显的噪声与毛刺,而所提方法生成的数字边缘清晰、毛刺较少。在Cifar-10数据集上,所提方法的颜色信息更为丰富,相比DCGAN,所提方法生成的图像更为丰富,背景与物体之间易分辨;当迭代次数达到500时,DCGAN已无法生成图像,而所提方法依然能够稳定地生成图像。

图 7. SVHN数据集在不同迭代次数下的生成图像

Fig. 7. Generated images of SVHN dataset under different epochs

下载图片 查看所有图片

图 8. Cifar-10数据集在不同迭代次数下的生成图像

Fig. 8. Generated images of Cifar-10 dataset under different epochs

下载图片 查看所有图片

图9是CelebA数据集在不同迭代次数下的生成图像,可以看出:所提方法在不同迭代次数下所生成的人脸图像在视觉效果上均优于DCGAN;当迭代次数大于500时,DCGAN开始出现重复样本且生成图像的视觉效果开始下降;迭代次数在1000时,DCGAN重复生成更加明显,人脸无法清晰分辨,而所提方法所生成的图像随着迭代次数增加,视觉效果逐步提升并能够维持稳定,在迭代1000次时仍能生成清晰的人脸图像。

图 9. CelebA数据集在不同迭代次数下的生成图像

Fig. 9. Generated images of CelebA dataset under different epochs

下载图片 查看所有图片

图10是各个数据集在迭代200次时的生成结果图。其中,第1列与第2列为SVHN数据集中“4”与“6”的生成图像,可以看出,所提方法所生成的数字成像清晰、边缘干净、颜色也更为鲜亮。第3列与第4列为Cifar-10数据集中“汽车”与“马”的生成图像,可以看出:相比DCGAN,所提方法所生成的汽车颜色更丰富、对汽车的辨识度也更高;DCGAN无法生成“马”的图像,所提方法则能够抓住“马”的特征,生成的图像中草坪与马也能够区分开。第5列为CelebA数据集上的男性、女性人脸生成图像,DCGAN虽能生成男、女人脸,但在人脸的表情、五官、头发及背景的区分度上远不如所提方法。结果表明,所提方法既能正确生成图像,又能将图像中的细节特征清晰地表达出来,最终生成的图像自然度也较高、质量较好。

4.3 客观评价

为了更好地评估所提方法与DCGAN的图像质量,采用Salimans等[21]提出的评价生成图像语义的初始分数,该指标从单一图像质量和图像丰富性上进行衡量。如果网络生成的图像具有较好的质量与多样性,那么带有具体标签信息的图像则具有较低的熵,输出图像边缘分布则具有较高的熵,因此,IS越高,意味着生成图像的质量越高。对网络模型所生成的图像进行IS比较,结果如表1所示,与DCGAN相比,所提方法得到了更高的IS。

图 10. 各个数据集在迭代200次的生成图像

Fig. 10. Generated images of each dataset after 200 epochs

下载图片 查看所有图片

表 1. 不同数据集的IS

Table 1. IS of different datasets

DatasetMethod100 epochs200 epochs500 epochs800 epochs1000 epochs
SVHNDCGAN2.78±0.072.74±0.052.70±0.062.42±0.042.41±0.06
Proposed method3.57±0.163.94±0.183.92±0.183.95±0.233.90±0.22
Cifar-10DCGAN4.90±0.214.85±0.194.26±0.194.24±0.194.55±0.66
Proposed method5.88±0.206.09±0.246.15±0.256.10±0.186.18±0.30
CelebADCGAN2.61±0.072.52±0.022.48±0.062.76±0.062.16±0.05
Proposed method3.32±0.043.12±0.093.24±0.073.27±0.123.23±0.08

查看所有表

表1可以看出:所提方法的IS一直大于DCGAN;迭代到500次时,DCGAN的IS出现了下降的情况,而所提方法的IS仍有上升趋势;迭代到1000次时,相比于DCGAN,所提方法的IS在SVHN数据集上提升了1.49,在Cifar-10数据集上提升了1.63,在CelebA数据集上提升了1.07。结果表明,所提方法具有更高的生成质量。

图11~13为DCGAN与所提方法在不同迭代次数下的IS变化曲线,可以看出:所提方法所生成图像的IS始终高于DCGAN,迭代到300次时,DCGAN的IS出现下降的情况,后续的IS波动明显,甚至出现了回落现象;所提方法的IS在各数据集上前期都呈上升趋势,迭代到400次时IS趋于平稳,这进一步说明了所提方法的稳定性,生成图像的质量更高。

图 11. SVHN数据集上的IS变化

Fig. 11. IS change on SVHN dataset

下载图片 查看所有图片

图 12. Cifar-10数据集上的IS变化

Fig. 12. IS change on Cifar-10 dataset

下载图片 查看所有图片

图 13. CelebA数据集上的IS变化

Fig. 13. IS change on CelebA dataset

下载图片 查看所有图片

5 结论

提出一种基于残差结构的生成对抗网络图像生成方法。该方法在模型中引入残差结构以加深网络深度,提高网络对真实图像数据的深层特征提取能力,并通过谱约束限制判别器模型的梯度范围,提升了网络的稳定性。在各个数据集上的图像生成实验表明,所提方法在生成图像的视觉效果、客观评价(IS)上均高于DCGAN,网络也更为稳定,具有更优的图像生成能力。

参考文献

[1] LeCun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.

[2] Salamon J, Bello J P. Deep convolutional neural networks and data augmentation for environmental sound classification[J]. IEEE Signal Processing Letters, 2017, 24(3): 279-283.

[3] Wang K F, Zuo W M, Tan Y, et al. Generative adversarial networks: from generating data to creating intelligence[J]. Acta Automatica Sinica, 2018, 44(5): 769-774.

[4] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.

[5] Goodfellow IJ, Pouget-AbadieJ, MirzaM, et al. Generative adversarial nets[C]∥Proceedings of the 27th International Conference on Neural Information Processing Systems, December 8-13, 2014, Montreal, Quebec. New York: Curran Associates, 2014, 2: 2672- 2680.

[6] 李航. 统计学习方法[M]. 北京: 清华大学出版社, 2012: 13- 15.

    LiH. Statistical learning method[M]. Beijing: Tsinghua University Press, 2012: 13- 15.

[7] Zhu JY, ParkT, IsolaP, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]∥2017 IEEE International Conference on Computer Vision (ICCV), October 22-29, 2017, Venice. New York: IEEE, 2017: 2223- 2232.

[8] ChenX, DuanY, HouthooftR, et al. InfoGAN: interpretable representation learning by information maximizing generative adversarial nets[C]∥Proceedings of the 30th International Conference on Neural Information Processing Systems, December 5-10, 2016, Barcelona, Spain. New York: Curran Associates, 2016: 2180- 2188.

[9] Srivastava N, Hinton G, Krizhevsky A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014, 15: 1929-1958.

[10] GulrajaniI, AhmedF, ArjovskyM, et al. ( 2017-12-25)[2020-01-01]. https:∥arxiv.org/abs/1704. 00028.

[11] RadfordA, MetzL, Chintala S. Unsupervised representation learning with deep convolutional generative adversarial networks[EB/OL]. ( 2016-01-07)[2020-01-01]. https:∥arxiv.org/abs/1511. 06434.

[12] GirshickR. Fast R-CNN[C]∥2015 IEEE International Conference on Computer Vision (ICCV), December 7-13, 2015, Santiago, Chile. New York: IEEE, 2015: 1440- 1448.

[13] ArjovskyM, ChintalaS, BottouL. Wasserstein generative adversarial networks[C]∥Proceedings of the 34th International Conference on Machine Learning, August 6-11, 2017, Sydney, NSW, Australia. New York: Curran Associates, 2017, 70: 214- 223.

[14] 王坤峰, 苟超, 段艳杰, 等. 生成式对抗网络GAN的研究进展与展望[J]. 自动化学报, 2017, 43(3): 321-332.

    Wang K F, Gou C, Duan Y J, et al. Generative adversarial networks: the state of the art and beyond[J]. Acta Automatica Sinica, 2017, 43(3): 321-332.

[15] LongJ, ShelhamerE, DarrellT. Fully convolutional networks for semantic segmentation[C]∥2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 7-12, 2015, Boston, MA, USA. New York: IEEE, 2015: 3431- 3440.

[16] MiyatoT, KataokaT, KoyamaM, et al. ( 2018-02-16)[2020-01-01]. https:∥arxiv.org/abs/1802. 05957.

[17] He KM, Zhang XY, Ren SQ, et al. Deep residual learning for image recognition[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 770- 778.

[18] CheT, Li YR, Jacob AP, et al. ( 2017-03-02)[2020-01-01]. https:∥arxiv.org/abs/1612. 02136.

[19] He KM, Zhang XY, Ren SQ, et al. Delving deep into rectifiers: surpassing human-level performance on ImageNet classification[C]∥2015 IEEE International Conference on Computer Vision (ICCV), December 7-13, 2015, Santiago, Chile. New York: IEEE, 2015: 1026- 1034.

[20] YoshidaY, Miyato T. Spectral norm regularization for improving the generalizability of deep learning[EB/OL]. ( 2017-05-31)[2020-01-01]. https:∥arxiv.org/abs/1705. 10941.

[21] SalimansT, GoodfellowI, ZarembaW, et al. ( 2016-01-10)[2020-01-01]. https:∥arxiv.org/abs/1606.03498v1.

颜贝, 张礼, 张建林, 徐智勇. 基于残差结构的对抗式网络图像生成方法[J]. 激光与光电子学进展, 2020, 57(18): 181504. Bei Yan, Li Zhang, Jianlin Zhang, Zhiyong Xu. Image Generation Method for Adversarial Network Based on Residual Structure[J]. Laser & Optoelectronics Progress, 2020, 57(18): 181504.

本文已被 1 篇论文引用
被引统计数据来源于中国光学期刊网
引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!