融合反馈机制的姿态引导人物图像生成 下载: 767次
1 引言
姿态引导人物图像生成研究模型在电影编辑、面部剪辑和基于合成图像的图像检索等应用场景中具有很大的潜在应用价值,该模型能够将一个人从某个给定姿态转换到另一个预期姿态,已成为近年来的研究热点。图像生成的解决方案大多基于变分自编码器(VAE)[1]和对抗神经网络(GAN)[2],VAE通过概率模型将两个对数似然估计最大化以达到目标,原始GAN试图通过生成器将高斯噪声投影到真实图像中,利用鉴别器区分生成数据和真实数据,并通过对抗损失不断优化生成器和鉴别器。针对图像生成任务,近年来的研究成果已有一定进展。
Pumarola等[3]提出了任意姿态下无监督人物形象合成方法,通过给定的输入图像和由2D关键点表示的期望姿势,利用端到端的训练方式使得训练得到的模型在新的姿势下合成同一个人物图像。Huang等[4]提出了一种内省变分自动编码器(IntroVAE)模型,该模型是以内省的方式训练VAE,利用其估计生成图像与真实图像间的差异,利用这种估计得到的差异评估生成模型并不断对其进行改善,实现合成清晰的人脸图像和室内场景图像。Wiles等[5]使用面部或模态(如音频)控制给定面部姿势,利用X2Face神经网络模型对视频中面部进行编辑,以实现添加面部装饰或生成高清晰度的面部图像。Isola等[6]提出了用于图像到图像转换的框架,将给定图像改用其他通道表示为另一幅图像,并且该框架的主要假设条件为低级信息与输出图像间存在空间对应关系,从而使单视图输入图像生成多视图图像。Zhu等[7]使用CycleGAN循环一致性来实现域之间不成对的图像到图像的转换,并在外观变换方面取得了瞩目成果,但由于图像本身包含丰富复杂多变的背景信息,在几何变换方面几乎没有成功。Karras等[8]提出了一个使用StyleGAN生成图像的方法,首先通过基本特征来创建低分辨率图像,之后逐级添加细节特征进一步生成更高分辨率的图像,实现了从粗糙的特征(姿势、面部形状)到精细的细节(头发颜色)的独立控制,最终获取非常逼真的图像。张淑芳等[9]提出了一种基于Retinex增强的单幅低动态范围(LDR)图像生成高动态范围(HDR)图像的方法,通过将单幅LDR图像映射成多幅不同曝光的图像,再结合图像的对比度和饱和度等4个测量因子计算各幅图像的权重,最后利用金字塔分解来融合生成HDR图像。
虽近期图像生成的工作取得了一系列进展,但将一个人从一个姿势转换到另一个姿势仍是一项具有挑战性的任务,上述图像生成工作存在三个方面的不足:第一,没有充分利用图像的特征信息对生成图像进行约束;第二,采用的端到端网络训练架构难以同时兼顾生成正确的姿势和细腻的外观;第三,生成的人物图像不可避免地会出现糊化和纹理缺失等问题。
为了改善上述人物图像生成过程中遇到的问题,本文在Ma等[10]姿态引导图像生成研究工作的基础上加入图像特征信息融合反馈机制,对提取生成图像的特征信息进行对抗训练,并反馈作用于姿势集成和图像细化两阶段生成器中以提升生成图像的质量,两阶段的训练过程和图像特征信息约束能够提高生成姿势的准确性和逼真程度。使用VGG19(Visual Geometry Group 19)网络提取的特征化信息构造特征信息损失函数,将构造的特征信息损失函数反馈作用于两阶段的生成器中,优化两阶段生成器的权重参数,提高生成图像的质量。受到Bao等[11]使用CVAE-GAN模型图像生成方法的影响,本文在深度卷积对抗神经网络(DCGAN)[12]中引入VAE[13],并结合人体姿态估计[14-15]技术来生成逼真的人物图像,DCGAN中引入VAE使得生成器具有DCGAN和VAE的双重特性。与此同时,增加生成器中卷积残差块的数量,从而保留图像更多的像素特征信息,并在训练过程中使用随着训练步长而不断改变的学习率。
2 模型网络结构与训练
设计的姿态引导人物图像生成模型的总体架构如
2.1 姿态集成阶段
将条件图像和目标图像成对送入G1阶段的生成器中,控制目标姿势获得目标图像的粗略生成结果,粗略目标图像在这个过程中获得了目标姿势的全局结构。与所给的条件图像相比,G1阶段生成的人物图像的姿态在某种程度上已发生改变,但生成的人物图像在姿态方面已相当接近于目标图像,只是外观还不够清晰细腻,需进一步填充颜色和纹理等细节。为了使G1阶段生成的图像具有更好的全局外观结构,将G1阶段生成的粗略目标图像和期待的目标图像成对送入VGG19神经网络的瓶颈层中,用来提取抽象的深层特征信息,再将通过网络提取特征化信息后的粗略目标图像和期待的目标图像分开,利用分开后的粗略目标图像和期待的目标图像以逐像素比较的方式构造特征信息损失函数,即
将其通过优化器以进行对抗训练并将反馈作用于G1阶段的生成器,通过特征信息损失函数的反馈作用来指导G1阶段中网络的权重参数更新,使得该阶段生成的图像获得更好的全局结构。式中:x为目标图像;pr(x)为x的样本概率分布;y1为条件图像y与px的图像对;px为x的姿态图;pg(y1)为y1的条件样本概率分布;G1(y1)为G1阶段生成器生成的粗略图像的全局结构;MAE为平均绝对误差;E为分布函数期望值。
实验训练过程中,使用VGG19神经网络各层的权重参数在大型图像分类数据集ImageNet[16]上训练好模型,优化模型的各层神经网络中保存的权重参数,因此在G1阶段图像生成过程中,使用迁移学习[17]的训练方法,即先冻结VGG19神经网络模型中各层的权重参数,不使其参与优化器的反向传播更新梯度参数,在训练一定迭代次数后再使其在优化器中参与反向传播更新梯度参数,在确保训练速度和节约计算资源的同时可捕获准确的人物图像全局结构。
2.2 图像细化阶段
为了进一步细化G1阶段生成的粗略人物图像全局结构,将G1阶段生成的人物图像和条件人物图像拼接成图像对作为G2阶段生成器的输入并计算外观差异,再将差异图像和G1阶段生成的粗略人物图像放在引入VAE的DCGAN中进行对抗训练,加入VAE后的DCGAN可很好地学习图像良好的潜在空间结构和图像数据特定轴方向有意义的表示,弥补DCGAN中的一些劣势,该过程能更好地填充颜色和纹理等外观细节,生成器结构如
将其放入优化器中更新梯度参数并反馈作用于G2阶段的生成器中,从而指导生成器神经网络中的权重参数更新,使得该阶段主要关注生成人物图像的外观细腻、逼真程度。式中:y2为y与G1(y1)的图像对;pg(y2)为y2的样本条件概率分布;G2(y2)为生成的最终目标图像。
实验训练过程中,继续借鉴迁移学习的训练方法,前期仍需先冻结VGG19神经网络模型中各层的权重参数,不使其参与G2阶段前期训练的权重参数梯度更新,G2阶段的网络训练一定次数后再将加载的VGG19神经网络的权重参数放入G2阶段的优化器中,参与权重参数梯度更新以优化权重参数。
2.3 VGG19提取特征信息阶段
使用VGG19神经网络提取特征信息的网络结构如
图 3. VGG19提取人物图像特征信息的网络结构。(a)提取特征化信息的流程;(b)提取特征化信息的结果
Fig. 3. VGG19 network structure for extracting character image information. (a) Process of extracting characteristic information; (b) extract results of characterization information
2.4 掩模和各阶段损失
若条件图像和目标图像有不同的背景信息,则背景信息会影响最终人物图像的逼真程度,从而模型难以生成期待的目标图像。因此为了减少因背景变化对生成图像的影响,使用了L1损失函数构建的姿势掩模损失[10]函数,表达式为
式中:Px为目标图像的姿势;MB为目标图像的姿势掩模,MB对于前景设置为1,背景设置为0;G1(y,Px)为第一阶段生成的图像;☉为逐像素相乘。因此,G1训练阶段生成器的最终损失函数可表示为
式中:LG1为G1训练阶段生成器的损失函数;λ1为G1阶段Lpm所占权重系数;λ2为G1阶段XCLG1所占权重系数。G2训练阶段生成器的最终损失函数可表示为
式中:LG2, adv为G2训练阶段生成器的对抗训练损失;λ3为G2阶段Lpm所占权重系数;λ4为G2阶段XCLG2所占权重系数。当λ3和λ4值很小时,对抗性损失在训练过程中占主导地位,当λ3和λ4值很大时,Lpm和XCLG2损失占主导地位。
2.5 鉴别器
鉴别器用于区分目标图像和G2阶段的生成图像。为了解决G2阶段被误导直接输出条件图像而不是细化G1阶段的粗略图像,将G2阶段的生成图像和条件图像组成图像对输入鉴别器中,同时将目标图像和条件图像也组成图像对输入鉴别器中。最终生成的目标图像和条件图像组成的图像对与真实目标图像和条件图像组成的图像对在鉴别器中对抗竞争的过程,如
式中:D(y,x)为鉴别器对真实目标图像输出为真的概率;D[y,G2(y2)]为鉴别器对生成图像输出为真的概率;Lbce为二元交叉熵函数;y2为y与G1阶段生成的粗略人物图像G1(y1)的图像对。相关学者的研究工作[6,19]表明,将对抗性损失与最小化闵可夫斯基距离(Lp)的损失混合可使生成过程正常化。
引入VAE机制的DCGAN在对抗训练过程中,将G1阶段生成器的结果和条件图像作为G2阶段的输入,旨在细化图像以混淆鉴别器D,鉴别器将生成图像和条件图像对分类为假,将目标图像和条件图像对分类为真,从而优化生成器和鉴别器。
3 实验结果及分析
工作实验环境为:Ubuntu 18.04 64位,基于1.4.1版本的TensorFlow深度学习框架,编程语言为Python 2.7.16,显卡为2080Ti,处理器为Xeon 3104,内存为16 GB。训练过程中使用Adma优化器函数中的两个参数β1、β2分别为0.75、0.999,训练的初始学习率预设为2exp(-5),每2000步衰减一次,卷积残差块设置为9。在DeepFashion数据集[20]上训练的总迭代次数设置为120 k,在Market-1501数据集[21]上训练的总迭代次数设置为80 k,模型生成效果如
图 4. DeepFashion[20]和Market-1501[21]数据集生成的图像效果。(a)在DeepFashion数据集上从给定姿势生成人物图像;(b)在Market-1501数据集上从给定姿势生成人物图像;(c)在DeepFashion数据集上从给定一系列姿势生成一系列人物图像
Fig. 4. Image effect generated by DeepFashion[20] and Market-1501[21] dataset. (a) Generate a person image from a given pose on DeepFashion dataset; (b) generate a person image from a given pose on Market-1501 dataset; (c) generate a series of person images from a given series of poses on DeepFashion
3.1 数据集
实验训练与评估是在DeepFashion[20]和Market-1501[21]两个数据集上进行,数据集都包含大量不同姿态的人物图像,其中DeepFashion数据集几乎无背景信息,Market-1501数据集包含不同的背景信息。
DeepFashion数据集包含52712个店内衣服图像,并由模特以两种不同的姿势或比例穿着衣服共形成200000对人物图像,所有图像的尺寸均为256 pixel×256 pixel的无背景高分辨率图像。训练过程中,使用146680个图像对,且每个图像对(即条件图像和目标图像)均由同一人但姿势不同的两个图像组成;在测试集中随机选取11200对图像进行测试。
为了进一步验证利用VGG19模型提取图像特征信息进行对抗训练有利于提高生成图像的质量,在具有挑战性的数据集Market-1501上进行实验,该数据集是从6个不相交的监视摄像机捕获1501个人的32668张图像,且数据集中的人物在姿态、光照、视点和背景等方面各不相同,这在一定程度上增加人物图像生成工作的难度,为了减少背景影响提高生成图像的质量,在该数据集上进行实验时使用掩模损失以减弱背景对生成图像质量的影响。训练过程中,使用439420个图像对且每个图像对(即条件图像和目标图像)均由同一人但姿势不同的两个图像组成;在测试集中随机选取11200对图像进行测试。
3.2 定性结果分析
为了验证在两个阶段训练过程中加入特征约束的神经网络确实对生成的人物图像质量有影响,分别给出G1和G2两阶段改进前后的定性结果,先是对G1阶段原始网络结构(G1-L1)与改进后网络结构(G1-L1-VGG19)进行比较,结果如
图 5. DeepFashion和Market-1501数据集上的测试结果。(a)条件图像;(b)目标姿势;(c)目标图像;(d) G1-L1-VGG19;(e) G1-L1;(f) G1-G2-D;(g) G1-G2- VGG19-D
Fig. 5. Test results on DeepFashion and Market-1501 datasets. (a) Condition images; (b) target pose; (c) target images; (d) G1-L1-VGG19; (e) G1-L1; (f) G1-G2-D; (g) G1-G2-VGG19-D
从G2阶段训练过程可以看到,加入特征提取后使用鉴别器的网络结构(G1-G2-VGG19-D)产生的人物图像相比加入鉴别器的原始网络结构(G1-G2-D)在清晰度和外观细节方面已有明显提升,如
3.3 定量结果分析
为了进一步评估加入特征约束后网络测试结果的可靠性,利用结构相似度(SSIM)[22]和起始得分(IS)[23]评价生成人物图像质量,结果如
从
从
表 1. 不同模型在不同数据集上的SSIM和IS比较
Table 1. Comparison of SSIM and IS of different models on different datasets
|
为了验证模型的可行性,给出与其他图像生成模型的定量比较,结果如
表 2. 与其他图像生成模型在不同数据集上的SSIM和IS比较
Table 2. Comparison of SSIM and IS with other image generation models on different datasets
|
从实时性的角度分析,在DeepFashion数据集上可生成4 sheets·s-1图像,在Market-1501数据集上可生成30 sheets·s-1图像。之所以有这样差异,这是因为在DeepFashion数据集训练的模型上生成的图像像素是256 pixel×256 pixel,在Market-1501数据集训练的模型上生成的图像像素是128 pixel×64 pixel,前者生成的图像像素是后者的8倍,通过数据分析可知前者生成图像的速度是后者的7.5倍。通过这些数据可得到:图像的生成速度不仅与模型有关还与生成的图像像素有关。
表 3. 模型的计算复杂度
Table 3. Computational complexity of model
|
3.4 验证采集的图像
为了验证在两个数据集上训练模型的实际可用性,对从网络渠道采集的一些人物图像进行验证,利用在DeepFashion数据集上训练的模型对从网络采集的3组人物图像进行验证,如
3.5 实验结果
所提研究方法与Ma等[10,26]和Esser等[27]不同之处在于,利用融合VGG19[28]模型提取的特征信息反馈机制和DCGAN进行对抗训练能够更高效地生成比较真实的人物图像。与传统图像生成技术[29]不同,所提研究方法不需要提取图像纹理特征,也不需要深入分析纹理特征函数。与近年来只使用VAE和DCGAN[30]的研究方法不同之处在于,所提研究方法在DCGAN的生成器部分加入VAE,这是由于VAE非常适用于学习良好结构的潜在空间,其中特定方向表示图像数据中有意义的变换轴,GAN生成的图像可能非常逼真,但其潜在空间可能没有良好结构,也没有足够的连续性。加入VAE后的DCGAN基本上解决仅使用VAE生成图像的劣势,在一定程度上改善VAE生成图像糊化的问题,同时也提高了DCGAN的稳定性,能够生成比较逼真、并包含较清晰纹理特征信息的人物图像。所提研究方法使用人体姿态估计技术提取人体姿态,使得给定输入图像和指定姿势就能生成给定姿势的人物图像,并在两阶段的训练过程中使用卷积神经网络提取特征信息,利用DCGAN进行对抗训练。由于人物图像具有天然的空间结构信息,卷积神经网络中的卷积层就很好地利用这种空间结构信息并进行更抽象的高阶特征提取,与Ma等[10]提出基于U-Net[31-33]架构变体PG2网络相比,在Ma等[10]所提网络的基础上增加VGG19神经网络特征感知层,并将提取的特征化信息反馈作用于两阶段图像生成过程,达到优化两阶段生成器的目的,提高生成图像数据的鲁棒性,从而使得生成的图像更逼真细腻,符合人类视觉感知特性。
图 6. 在DeepFashion数据集训练模型上验证的结果。(a)条件图像;(b)目标图像;(c)合成图像
Fig. 6. Validation results on DeepFashion dataset training model. (a) Condition images; (b) target images; (c) synthesize images
图 7. 在Market-1501数据集训练模型上验证的结果。 (a)条件图像;(b)目标图像;(c)合成图像
Fig. 7. Validation results on Market-1501 dataset training model. (a) Condition images; (b) target images; (c) synthesize images
4 结论
提出了一种融合特征反馈机制的姿态引导图像生成研究方案,采用人体姿势作为条件输入,利用生成对抗网络构建图像生成模型。训练过程分为姿势集成和图像细化两个处理阶段,并在G1和G2两阶段训练过程中增加特征信息反馈调节机制,对生成模型的两个处理阶段进行约束,最终在DeepFashion和Market-1501两个数据集上进行验证。实验结果表明:所提模型使生成的人物图像质量在清晰度和外观细节方面取得一定程度的提升,可解决Ma等[10]在图像生成过程中存在的图像糊化和纹理缺失等问题。
[1] Davidson TR, FalorsiL, Cao ND, et al. ( 2018-09-26)[2019-10-15]. https:∥arxiv.org/abs/1804. 00891.
[2] Goodfellow IJ, Pouget-AbadieJ, MirzaM, et al.Generative adversarial nets[C]∥Proceedings of the 27th International Conference on Neural Information Processing Systems, December 8-13, 2014, Montreal, Quebec, Canada.New York: MIT Press, 2014: 2672- 2680.
[3] PumarolaA, AgudoA, SanfeliuA, et al. Unsupervised person image synthesis in arbitrary poses[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA. New York: IEEE, 2018: 8620- 8628.
[4] HuangH, LiZ, HeR, et al. ( 2018-10-27)[2019-10-15]. https:∥arxiv.org/abs/1807. 06358.
[5] WilesO, Koepke AS, ZissermanA. X2Face: a network for controlling face generation using images, audio, and pose codes[M] ∥Ferrari V, Hebert M, Sminchisescu C, et al. Computer vision-ECCV 2018. Lecture notes in computer science. Cham: Springer, 2018, 11217: 690- 706.
[6] IsolaP, Zhu JY, Zhou TH, et al. Image-to-image translation with conditional adversarial networks[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 5967- 5976.
[7] Zhu JY, ParkT, IsolaP, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]∥2017 IEEE International Conference on Computer Vision (ICCV), October 22-29, 2017, Venice, Italy. New York: IEEE, 2017: 2242- 2251.
[9] 张淑芳, 刘孟娅, 韩泽欣, 等. 基于Retinex增强的单幅LDR图像生成HDR图像方法[J]. 计算机辅助设计与图形学学报, 2018, 30(6): 1015-1022.
Zhang S F, Liu M Y, Han Z X, et al. Generation method of high dynamic range image from a single low dynamic range image based on retinex enhancement[J]. Journal of Computer-Aided Design & Computer Graphics, 2018, 30(6): 1015-1022.
[10] Ma LQ, JiaX, Sun QR, et al. ( 2018-01-28)[2019-10-15]. https:∥arxiv.org/abs/1705. 09368.
[11] Bao JM, ChenD, WenF, et al. CVAE-GAN: fine-grained image generation through asymmetric training[C]∥2017 IEEE International Conference on Computer Vision (ICCV), October 22-29, 2017, Venice, Italy. New York: IEEE, 2017: 2764- 2773.
[12] YuY, Gong ZQ, ZhongP, et al. Unsupervised representation learning with deep convolutional neural network for remote sensing images[M] ∥Zhao Y, Kong X, Taubman D. Image and graphics. Lecture notes in computer science. Cham: Springer, 2017, 10667: 97- 108.
[13] Kiasari M A, Moirangthem D S, Lee M. Coupled generative adversarial stacked auto-encoder: CoGASA[J]. Neural Networks, 2018, 100: 1-9.
[14] 梁令羽, 张天天, 何为. 多尺度卷积神经网络的头部姿态估计[J]. 激光与光电子学进展, 2019, 56(13): 131003.
[15] CaoZ, SimonT, WeiS, et al. Realtime multi-person 2D pose estimation using part affinity fields[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 1302- 1310.
[16] DengJ, DongW, SocherR, et al. ImageNet: a large-scale hierarchical image database[C]∥2009 IEEE Conference on Computer Vision and Pattern Recognition, June 20-25, 2009, Miami, FL, USA. New York: IEEE, 2009: 248- 255.
[17] 张浩, 桑庆兵. 基于迁移学习的无参考视频质量评价[J]. 激光与光电子学进展, 2018, 55(9): 091101.
[18] KrizhevskyA, SutskeverI, Hinton GE. ImageNet classification with deep convolutional neural networks[C]∥Proceedings of the 25th International Conference on Neural Information Processing Systems, December 3-6, 2012, Lake Tahoe, Nevada, United States. New York: Curran Associates Inc, 2012: 1097- 1105.
[19] MathieuM, CouprieC, LeCun Y. Deep multi-scale video prediction beyond mean square error[EB/OL]. ( 2016-02-26)[2019-10-15]. https:∥arxiv.org/abs/1511. 05440.
[20] Liu ZW, LuoP, QiuS, et al. DeepFashion: powering robust clothes recognition and retrieval with rich annotations[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 1096- 1104.
[21] ZhengL, Shen LY, TianL, et al. Scalable person re-identification: a benchmark[C]∥2015 IEEE International Conference on Computer Vision (ICCV), December 7-13, 2015, Santiago, Chile. New York: IEEE, 2015: 1116- 1124.
[22] Yao J C, Liu G Z. Improved SSIM IQA of contrast distortion based on the contrast sensitivity characteristics of HVS[J]. Iet Image Processing, 2018, 12(6): 872-879.
[23] SalimansT, Goodfellow IJ, ZarembaW, et al. ( 2016-06-10)[2019-10-15]. https:∥arxiv.org/abs/1606. 03498.
[24] Shi WZ, CaballeroJ, HuszárF, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 1874- 1883.
[25] JohnsonJ, AlahiA, Li FF. Perceptual losses for real-time style transfer and super-resolution[M] ∥Leibe B, Matas J, Sebe N, et al. Computer vision-ECCV 2016. Lecture notes in computer science. Cham: Springer, 2016, 9906: 694- 711.
[26] Ma LQ, Sun QR, GeorgoulisS, et al. Disentangled person image generation[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA. New York: IEEE, 2018: 99- 108.
[27] EsserP, SutterE. A variational U-Net for conditional appearance and shape generation[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA. New York: IEEE, 2018: 8857- 8866.
[28] SimonyanK, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL]. ( 2015-04-10)[2019-10-15]. https:∥arxiv.org/abs/1409. 1556.
[29] 吴金亮, 黄海斌, 刘利刚. 保持纹理细节的无缝图像合成[J]. 浙江大学学报(工学版), 2013, 47(6): 951-956.
Wu J L, Huang H B, Liu L G. Texture details preserving seamless image composition[J]. Journal of Zhejiang University (Engineering Science), 2013, 47(6): 951-956.
[30] 唐贤伦, 杜一铭, 刘雨微, 等. 基于条件深度卷积生成对抗网络的图像识别方法[J]. 自动化学报, 2018, 44(5): 855-864.
Tang X L, Du Y M, Liu Y W, et al. Image recognition with conditional deep convolutional generative adversarial networks[J]. Acta Automatica Sinica, 2018, 44(5): 855-864.
[31] RonnebergerO, FischerP, BroxT. U-net: convolutional networks for biomedical image segmentation[M] ∥Navab N, Hornegger J, Wells W, et al. Medical image computing and computer-assisted intervention-MICCAI 2015. Lecture notes in computer science. Cham: Springer, 2015, 9351: 234- 241.
[32] 任欣磊, 王阳萍, 杨景玉, 等. 基于改进U-Net的遥感影像建筑物提取[J]. 激光与光电子学进展, 2019, 56(22): 222801.
[33] 张芳, 吴玥, 肖志涛, 等. 基于U-Net卷积神经网络的纳米颗粒分割[J]. 激光与光电子学进展, 2019, 56(6): 061005.
Article Outline
黄友文, 赵朋, 游亚东. 融合反馈机制的姿态引导人物图像生成[J]. 激光与光电子学进展, 2020, 57(14): 141011. Youwen Huang, Peng Zhao, Yadong You. Pose-Guided Human Image Synthesis Based on Fusion Feature Feedback Mechanism[J]. Laser & Optoelectronics Progress, 2020, 57(14): 141011.