激光与光电子学进展, 2020, 57 (14): 141011, 网络出版: 2020-07-28   

融合反馈机制的姿态引导人物图像生成 下载: 767次

Pose-Guided Human Image Synthesis Based on Fusion Feature Feedback Mechanism
作者单位
江西理工大学信息工程学院, 江西 赣州 341000
摘要
针对目前人物图像生成模型普遍存在糊化和纹理缺失等问题,提出一种融合特征反馈机制的姿态引导人物图像生成模型,该模型采用生成式对抗神经网络进行训练,在姿势集成和图像细化阶段生成模型的基础上提出一种特征信息反馈机制,使得生成模型的每个阶段都会受到特征比对调节。受到迁移学习的启发,将在ImageNet数据集上预训练的权重作为模型特征层的初始权重,并在训练过程中进行相应微调,旨在增强图像生成模型的稳健性和鲁棒性,提高生成图像的质量。实验结果表明,所提模型能够获取较为真实细腻,符合人类视觉感知的人物图像。
Abstract
To address the limitations of character image generation models, such as ambiguity and lack of texture, this study proposes a pose-guided character image generation model incorporating a fusion feature feedback mechanism. Generative adversarial neural networks are used for training the proposed model. Further, the proposed model is generated during the postural integration and image refinement stages. A fusion feature information feedback mechanism is proposed based on the model to ensure that each stage of the generated model will be subjected to feature comparison adjustment. Inspired by transfer learning, the pre-trained weights of the ImageNet dataset are used as the initial weights of the model feature layer. Moreover, to enhance the robustness of the image generation model and improve the quality of the generated images, corresponding fine-tuning is performed during the training process. Experimental results reveal that the proposed model can obtain more realistic and delicate images of humans that are consistent with human visual perception.

1 引言

姿态引导人物图像生成研究模型在电影编辑、面部剪辑和基于合成图像的图像检索等应用场景中具有很大的潜在应用价值,该模型能够将一个人从某个给定姿态转换到另一个预期姿态,已成为近年来的研究热点。图像生成的解决方案大多基于变分自编码器(VAE)[1]和对抗神经网络(GAN)[2],VAE通过概率模型将两个对数似然估计最大化以达到目标,原始GAN试图通过生成器将高斯噪声投影到真实图像中,利用鉴别器区分生成数据和真实数据,并通过对抗损失不断优化生成器和鉴别器。针对图像生成任务,近年来的研究成果已有一定进展。

Pumarola等[3]提出了任意姿态下无监督人物形象合成方法,通过给定的输入图像和由2D关键点表示的期望姿势,利用端到端的训练方式使得训练得到的模型在新的姿势下合成同一个人物图像。Huang等[4]提出了一种内省变分自动编码器(IntroVAE)模型,该模型是以内省的方式训练VAE,利用其估计生成图像与真实图像间的差异,利用这种估计得到的差异评估生成模型并不断对其进行改善,实现合成清晰的人脸图像和室内场景图像。Wiles等[5]使用面部或模态(如音频)控制给定面部姿势,利用X2Face神经网络模型对视频中面部进行编辑,以实现添加面部装饰或生成高清晰度的面部图像。Isola等[6]提出了用于图像到图像转换的框架,将给定图像改用其他通道表示为另一幅图像,并且该框架的主要假设条件为低级信息与输出图像间存在空间对应关系,从而使单视图输入图像生成多视图图像。Zhu等[7]使用CycleGAN循环一致性来实现域之间不成对的图像到图像的转换,并在外观变换方面取得了瞩目成果,但由于图像本身包含丰富复杂多变的背景信息,在几何变换方面几乎没有成功。Karras等[8]提出了一个使用StyleGAN生成图像的方法,首先通过基本特征来创建低分辨率图像,之后逐级添加细节特征进一步生成更高分辨率的图像,实现了从粗糙的特征(姿势、面部形状)到精细的细节(头发颜色)的独立控制,最终获取非常逼真的图像。张淑芳等[9]提出了一种基于Retinex增强的单幅低动态范围(LDR)图像生成高动态范围(HDR)图像的方法,通过将单幅LDR图像映射成多幅不同曝光的图像,再结合图像的对比度和饱和度等4个测量因子计算各幅图像的权重,最后利用金字塔分解来融合生成HDR图像。

虽近期图像生成的工作取得了一系列进展,但将一个人从一个姿势转换到另一个姿势仍是一项具有挑战性的任务,上述图像生成工作存在三个方面的不足:第一,没有充分利用图像的特征信息对生成图像进行约束;第二,采用的端到端网络训练架构难以同时兼顾生成正确的姿势和细腻的外观;第三,生成的人物图像不可避免地会出现糊化和纹理缺失等问题。

为了改善上述人物图像生成过程中遇到的问题,本文在Ma等[10]姿态引导图像生成研究工作的基础上加入图像特征信息融合反馈机制,对提取生成图像的特征信息进行对抗训练,并反馈作用于姿势集成和图像细化两阶段生成器中以提升生成图像的质量,两阶段的训练过程和图像特征信息约束能够提高生成姿势的准确性和逼真程度。使用VGG19(Visual Geometry Group 19)网络提取的特征化信息构造特征信息损失函数,将构造的特征信息损失函数反馈作用于两阶段的生成器中,优化两阶段生成器的权重参数,提高生成图像的质量。受到Bao等[11]使用CVAE-GAN模型图像生成方法的影响,本文在深度卷积对抗神经网络(DCGAN)[12]中引入VAE[13],并结合人体姿态估计[14-15]技术来生成逼真的人物图像,DCGAN中引入VAE使得生成器具有DCGAN和VAE的双重特性。与此同时,增加生成器中卷积残差块的数量,从而保留图像更多的像素特征信息,并在训练过程中使用随着训练步长而不断改变的学习率。

2 模型网络结构与训练

设计的姿态引导人物图像生成模型的总体架构如图1所示,模型的训练过程包含两个阶段。第一个训练阶段(G1阶段)专注于姿态集成,利用条件图像和目标姿态通过G1阶段的生成器捕获人物图像全局结构,并在该阶段引入特征反馈网络。为了获取较准确的姿态,借鉴Ma等[10]提出的获取人体姿态的想法,利用先进的姿态估计器[15]获取近似的人体姿势,而不是使用昂贵的人体姿势标注数据集。使用姿势估计器生成18个关键点的热图,将人体姿态热点图作为条件图像映射到目标图像中的人体位置。第二个训练阶段(G2阶段)侧重于对G1阶段生成的人物图像全局结构和G2阶段计算的差异图进行对抗训练。为了使得生成的图像更清晰,在该阶段加入特征约束网络,再将生成图像和条件图像对、目标图像和条件图像对送入鉴别器中,鉴别器将生成图像和条件图像对分类为假,将目标图像和条件图像对分类为真。

图 1. 模型的总体架构

Fig. 1. Overall architecture of model

下载图片 查看所有图片

图 2. 引入VAE的DCGAN生成器结构

Fig. 2. DCGAN generator structure including VAE

下载图片 查看所有图片

2.1 姿态集成阶段

将条件图像和目标图像成对送入G1阶段的生成器中,控制目标姿势获得目标图像的粗略生成结果,粗略目标图像在这个过程中获得了目标姿势的全局结构。与所给的条件图像相比,G1阶段生成的人物图像的姿态在某种程度上已发生改变,但生成的人物图像在姿态方面已相当接近于目标图像,只是外观还不够清晰细腻,需进一步填充颜色和纹理等细节。为了使G1阶段生成的图像具有更好的全局外观结构,将G1阶段生成的粗略目标图像和期待的目标图像成对送入VGG19神经网络的瓶颈层中,用来提取抽象的深层特征信息,再将通过网络提取特征化信息后的粗略目标图像和期待的目标图像分开,利用分开后的粗略目标图像和期待的目标图像以逐像素比较的方式构造特征信息损失函数,即

XCLG1=Ex~pr(x),y1~pg(y1)[x-G1(y1)MAE],(1)

将其通过优化器以进行对抗训练并将反馈作用于G1阶段的生成器,通过特征信息损失函数的反馈作用来指导G1阶段中网络的权重参数更新,使得该阶段生成的图像获得更好的全局结构。式中:x为目标图像;pr(x)为x的样本概率分布;y1为条件图像ypx的图像对;pxx的姿态图;pg(y1)为y1的条件样本概率分布;G1(y1)为G1阶段生成器生成的粗略图像的全局结构;MAE为平均绝对误差;E为分布函数期望值。

实验训练过程中,使用VGG19神经网络各层的权重参数在大型图像分类数据集ImageNet[16]上训练好模型,优化模型的各层神经网络中保存的权重参数,因此在G1阶段图像生成过程中,使用迁移学习[17]的训练方法,即先冻结VGG19神经网络模型中各层的权重参数,不使其参与优化器的反向传播更新梯度参数,在训练一定迭代次数后再使其在优化器中参与反向传播更新梯度参数,在确保训练速度和节约计算资源的同时可捕获准确的人物图像全局结构。

2.2 图像细化阶段

为了进一步细化G1阶段生成的粗略人物图像全局结构,将G1阶段生成的人物图像和条件人物图像拼接成图像对作为G2阶段生成器的输入并计算外观差异,再将差异图像和G1阶段生成的粗略人物图像放在引入VAE的DCGAN中进行对抗训练,加入VAE后的DCGAN可很好地学习图像良好的潜在空间结构和图像数据特定轴方向有意义的表示,弥补DCGAN中的一些劣势,该过程能更好地填充颜色和纹理等外观细节,生成器结构如图2所示,其中⊗表示上一过程的输出要连接到此处,与该过程连接作为下一过程的输入。为了使G2阶段中的生成器更好地计算差异,填充更细腻颜色和纹理等外观细节,在G2阶段中给生成器添加一个反馈调节网络结构,将G2阶段中生成器的生成结果和目标图像分别通过VGG19神经网络的浅层卷积层以提取低维特征信息,采用逐像素点比较的方式构造特征信息损失函数,即

XCLG2=Ex~pr(x),y2~pg(y2)[x-G2(y2)MAE],(2)

将其放入优化器中更新梯度参数并反馈作用于G2阶段的生成器中,从而指导生成器神经网络中的权重参数更新,使得该阶段主要关注生成人物图像的外观细腻、逼真程度。式中:y2yG1(y1)的图像对;pg(y2)为y2的样本条件概率分布;G2(y2)为生成的最终目标图像。

实验训练过程中,继续借鉴迁移学习的训练方法,前期仍需先冻结VGG19神经网络模型中各层的权重参数,不使其参与G2阶段前期训练的权重参数梯度更新,G2阶段的网络训练一定次数后再将加载的VGG19神经网络的权重参数放入G2阶段的优化器中,参与权重参数梯度更新以优化权重参数。

2.3 VGG19提取特征信息阶段

使用VGG19神经网络提取特征信息的网络结构如图3所示。输入的人物图像先经过3层步长为2的卷积层,其中3层卷积层的卷积通道维度分别为[64,128,256],人物图像的纹理和结构等基本浅层结构信息特征在通过VGG19网络后被提取,并在该过程中模型的感受野被放大了8倍,最后通过卷积通道维度为512的3层步长为1的卷积层。该阶段在提取特征的基础上进一步提取目标的深层典型特征信息,保留更多的原始图像和生成图像的更多细节信息,在深度学习中为了使网络结构尽量减少像素精度的损失,往往会通过比较大的卷积核来提取特征,例如AlexNet[18]等。因卷积核尺寸越大,越能够总结空间结构信息,然而这也带来一定缺点,会增加参数数量和计算量,因此在VGG19神经网络中卷积核的大小均采用3×3,这是因为使用几个3×3的卷积核能够与使用一个大的卷积核获得同样大小的感受野,同时还能够大量减少参数量,这也充分利用了VGG19的良好特性,对提取的人物图像特征信息进行对抗训练以获得更好的全局外观结构,从而改善生成人物图像的逼真程度。

图 3. VGG19提取人物图像特征信息的网络结构。(a)提取特征化信息的流程;(b)提取特征化信息的结果

Fig. 3. VGG19 network structure for extracting character image information. (a) Process of extracting characteristic information; (b) extract results of characterization information

下载图片 查看所有图片

2.4 掩模和各阶段损失

若条件图像和目标图像有不同的背景信息,则背景信息会影响最终人物图像的逼真程度,从而模型难以生成期待的目标图像。因此为了减少因背景变化对生成图像的影响,使用了L1损失函数构建的姿势掩模损失[10]函数,表达式为

Lpm=[G1(y,Px)-x](1+MB)1,(3)

式中:Px为目标图像的姿势;MB为目标图像的姿势掩模,MB对于前景设置为1,背景设置为0;G1(y,Px)为第一阶段生成的图像;☉为逐像素相乘。因此,G1训练阶段生成器的最终损失函数可表示为

LG*1=LG1+λ1Lpm+λ2XCLG1,(4)

式中:LG1为G1训练阶段生成器的损失函数;λ1为G1阶段Lpm所占权重系数;λ2为G1阶段XCLG1所占权重系数。G2训练阶段生成器的最终损失函数可表示为

LG2=LG2,adv+λ3Lpm+λ4XCLG2,(5)

式中:LG2, adv为G2训练阶段生成器的对抗训练损失;λ3为G2阶段Lpm所占权重系数;λ4为G2阶段XCLG2所占权重系数。当λ3λ4值很小时,对抗性损失在训练过程中占主导地位,当λ3λ4值很大时,LpmXCLG2损失占主导地位。

2.5 鉴别器

鉴别器用于区分目标图像和G2阶段的生成图像。为了解决G2阶段被误导直接输出条件图像而不是细化G1阶段的粗略图像,将G2阶段的生成图像和条件图像组成图像对输入鉴别器中,同时将目标图像和条件图像也组成图像对输入鉴别器中。最终生成的目标图像和条件图像组成的图像对与真实目标图像和条件图像组成的图像对在鉴别器中对抗竞争的过程,如图1所示,成对的输入促使鉴别器D更好地学习G2阶段生成图像与目标图像间的差异,因此该阶段鉴别器的损失函数可表示为

LD,adv=Lbce[D(y,x),1]+Lbce{D[y,G2(y2)],0},(6)

式中:D(y,x)为鉴别器对真实目标图像输出为真的概率;D[y,G2(y2)]为鉴别器对生成图像输出为真的概率;Lbce为二元交叉熵函数;y2y与G1阶段生成的粗略人物图像G1(y1)的图像对。相关学者的研究工作[6,19]表明,将对抗性损失与最小化闵可夫斯基距离(Lp)的损失混合可使生成过程正常化。

引入VAE机制的DCGAN在对抗训练过程中,将G1阶段生成器的结果和条件图像作为G2阶段的输入,旨在细化图像以混淆鉴别器D,鉴别器将生成图像和条件图像对分类为假,将目标图像和条件图像对分类为真,从而优化生成器和鉴别器。

3 实验结果及分析

工作实验环境为:Ubuntu 18.04 64位,基于1.4.1版本的TensorFlow深度学习框架,编程语言为Python 2.7.16,显卡为2080Ti,处理器为Xeon 3104,内存为16 GB。训练过程中使用Adma优化器函数中的两个参数β1β2分别为0.75、0.999,训练的初始学习率预设为2exp(-5),每2000步衰减一次,卷积残差块设置为9。在DeepFashion数据集[20]上训练的总迭代次数设置为120 k,在Market-1501数据集[21]上训练的总迭代次数设置为80 k,模型生成效果如图4所示。

图 4. DeepFashion[20]和Market-1501[21]数据集生成的图像效果。(a)在DeepFashion数据集上从给定姿势生成人物图像;(b)在Market-1501数据集上从给定姿势生成人物图像;(c)在DeepFashion数据集上从给定一系列姿势生成一系列人物图像

Fig. 4. Image effect generated by DeepFashion[20] and Market-1501[21] dataset. (a) Generate a person image from a given pose on DeepFashion dataset; (b) generate a person image from a given pose on Market-1501 dataset; (c) generate a series of person images from a given series of poses on DeepFashion

下载图片 查看所有图片

3.1 数据集

实验训练与评估是在DeepFashion[20]和Market-1501[21]两个数据集上进行,数据集都包含大量不同姿态的人物图像,其中DeepFashion数据集几乎无背景信息,Market-1501数据集包含不同的背景信息。

DeepFashion数据集包含52712个店内衣服图像,并由模特以两种不同的姿势或比例穿着衣服共形成200000对人物图像,所有图像的尺寸均为256 pixel×256 pixel的无背景高分辨率图像。训练过程中,使用146680个图像对,且每个图像对(即条件图像和目标图像)均由同一人但姿势不同的两个图像组成;在测试集中随机选取11200对图像进行测试。

为了进一步验证利用VGG19模型提取图像特征信息进行对抗训练有利于提高生成图像的质量,在具有挑战性的数据集Market-1501上进行实验,该数据集是从6个不相交的监视摄像机捕获1501个人的32668张图像,且数据集中的人物在姿态、光照、视点和背景等方面各不相同,这在一定程度上增加人物图像生成工作的难度,为了减少背景影响提高生成图像的质量,在该数据集上进行实验时使用掩模损失以减弱背景对生成图像质量的影响。训练过程中,使用439420个图像对且每个图像对(即条件图像和目标图像)均由同一人但姿势不同的两个图像组成;在测试集中随机选取11200对图像进行测试。

3.2 定性结果分析

为了验证在两个阶段训练过程中加入特征约束的神经网络确实对生成的人物图像质量有影响,分别给出G1和G2两阶段改进前后的定性结果,先是对G1阶段原始网络结构(G1-L1)与改进后网络结构(G1-L1-VGG19)进行比较,结果如图5所示。从图5可以看到,G1-L1在G1阶段就能够产生比较细腻的人物外观,但图像略显模糊,加入特征约束后的网络在G1阶段只能产生清晰人物图像的全局结构细节[图5(d) image1~image3],缺少必要的人物外观细节,如色泽和纹理等细节;虽原始网络结构在G1阶段就能产生相当清晰的人物外观细节,但存在细节过度现象,如图5(e) image1中人物的左边裙子下端过度延伸,加入特征约束的网络结构产生的人物全局外观结构清晰;图5(d) image1~image 3中生成的人物外观结构比较尖锐,是因为image1~image3的人物图像是在无背景信息的DeepFashion数据集上进行训练,并在该数据集上训练时使用的特征约束神经网络的损失权重系数较大,目的是为了获得准确的全局外观结构;图5 image4~image6中生成的人物外观结构较柔和,包含相当细腻的外观信息,并与原始网络结构相比,改进后的网络结构图像的模糊现象也降低很多,原因在于图5 image4~image6中的图像是在背景信息比较丰富的Market-1501数据集进行训练,所以在训练时减少特征约束函数所占权重比例,也是为了降低卷积网络过度关注背景信息,从而影响生成的人物全局外观结构。这些方法的使用为G2阶段进一步细化人物图像、填充颜色和纹理等外观细节奠定良好基础。

图 5. DeepFashion和Market-1501数据集上的测试结果。(a)条件图像;(b)目标姿势;(c)目标图像;(d) G1-L1-VGG19;(e) G1-L1;(f) G1-G2-D;(g) G1-G2- VGG19-D

Fig. 5. Test results on DeepFashion and Market-1501 datasets. (a) Condition images; (b) target pose; (c) target images; (d) G1-L1-VGG19; (e) G1-L1; (f) G1-G2-D; (g) G1-G2-VGG19-D

下载图片 查看所有图片

从G2阶段训练过程可以看到,加入特征提取后使用鉴别器的网络结构(G1-G2-VGG19-D)产生的人物图像相比加入鉴别器的原始网络结构(G1-G2-D)在清晰度和外观细节方面已有明显提升,如图5(f)和5(g) image1~image6所示,这表明加入特征约束获取的信息特征通过G2阶段的对抗训练确实对提升生成图像质量有益。在DeepFashion和Market-1501两个数据集上的生成结果可以看到,无论是在背景信息简单的DeepFashion数据集上还是在背景信息相对复杂丰富的Market-1501数据集上,加入特征约束神经网络后生成的人物图像的模糊现象相比原始网络结构生成的人物图像显著降低,并在生成图像的某些细节方面也有一定程度改善,如图5(f)和图5(g) image5中人物所穿短袖的下摆和短裤的下端边缘等细节;从包含特征约束网络结构生成的人物图像的姿态可以看到,与原始网络结构相比,加入特征约束神经网络后生成的人物图像更明朗、更贴近目标图像的姿态。

3.3 定量结果分析

为了进一步评估加入特征约束后网络测试结果的可靠性,利用结构相似度(SSIM)[22]和起始得分(IS)[23]评价生成人物图像质量,结果如表1所示。其中SSIM用于衡量数字图像和视频主观感受的一种方式,并且SSIM算法在设计上考虑人眼的视觉特性,比传统方式更符合人眼的视觉感知;IS是评价生成模型的一种方式,但IS自身的不稳定性导致评价结果会有摇摆性[24-25],IS值越大,生成的图像不一定清晰真实,并且SSIM和IS也会受到复杂多变背景的影响。为了在一定程度上减少背景信息对生成图像评价方式的影响,可更专注于测量生成人物图像的综合质量,则采用MASK-SSIM和MASK-IS的方法,就是将掩模(MASK)添加到生成图像和目标图像上再计算SSIM和IS,然而考虑到IS自身的不稳定性,主要采用SSIM作为衡量指标,IS作为辅助评价指标。

表1可以看到,在DeepFashion数据集上,G1训练阶段加入特征约束网络结构的SSIM值和IS值比原始网络结构略低,G2训练阶段加入特征约束网络结构的SSIM值高于原始网络结构,但IS值比原始网络结构略低,然而加入特征约束网络结构生成的人物图像却比原始网络结构要清晰,更符合人类的视觉感知。从结果来看,SSIM值对生成图像质量的影响高于IS值。在Market-1501数据集上,单从SSIM值和IS值方面来看也基本符合在DeepFashion数据集上的规律。

表1可以看到,在Market-1501数据集上引入MASK后含有特征约束函数的MASK-SSIM值与原始网络结果接近或略高,MASK-IS值接近或高于原始网络结果,这两个测量指标在一定程度上也表明生成图像清晰,这与图5结果吻合,定量指标也表明了所提算法确实可提升生成图像的质量。

表 1. 不同模型在不同数据集上的SSIM和IS比较

Table 1. Comparison of SSIM and IS of different models on different datasets

ModelDeepFashionMarket-1501
SSIMISSSIMISMASK-SSIMMASK-IS
G1-L10.7352.4270.3043.0060.8092.455
G1-L1-VGG190.6382.1980.2562.2580.8003.249
G1-G2-D0.7623.0900.2533.4600.7923.435
G1-G2-VGG19-D0.7952.7990.2622.9110.7963.520

查看所有表

为了验证模型的可行性,给出与其他图像生成模型的定量比较,结果如表2所示。从表2可以看到,在DeepFashion数据集上,所提模型生成的人物图像虽在不稳定的IS值方面比文献[ 10,26]和文献[ 27]的模型略低,但在较为稳定的主要评价标准SSIM值方面比文献[ 10,26]和文献[ 27]更好;在Market-1501数据集上,由于该数据集包含比较复杂的背景,所以在该数据集上主要使用MASK-SSIM和MASK-IS值作为评价准则。从表2可以看到,采用的人物图像生成模型获得的MASK-SSIM和MASK-IS值比文献[ 10,26]和文献[ 27]提出的方法更高。从上述数据分析可以看到,所提模型在生成人物图像方面具有一定优势。

表 2. 与其他图像生成模型在不同数据集上的SSIM和IS比较

Table 2. Comparison of SSIM and IS with other image generation models on different datasets

ModelDeepFashionMarket-1501
SSIMISSSIMISMASK-SSIMMASK-IS
Ref. [10]0.7623.0900.2533.4600.7923.435
Ref. [26]0.6143.2280.0993.4830.6143.491
Ref. [27]0.7863.0870.3533.2140.7873.249
Ours0.7952.7990.2622.9110.7963.520

查看所有表

表3为人物图像生成模型的计算复杂度,在DeepFashion和Market-1501两个数据集上,模型的计算复杂度不同,因为这两个数据集的图像像素不同,DeepFashion数据集上的图像分辨率为256 pixel×256 pixel,Market-1501数据集上的图像分辨率为128 pixel×64 pixel,所以在设计模型时使用不同的卷积核和卷积通道分别处理两个数据集上的图像,这导致在DeepFashion数据集上训练时模型参数总量较多,训练周期较长,在Market-1501数据集上训练时模型参数总量相对较少,训练周期相对较短。

从实时性的角度分析,在DeepFashion数据集上可生成4 sheets·s-1图像,在Market-1501数据集上可生成30 sheets·s-1图像。之所以有这样差异,这是因为在DeepFashion数据集训练的模型上生成的图像像素是256 pixel×256 pixel,在Market-1501数据集训练的模型上生成的图像像素是128 pixel×64 pixel,前者生成的图像像素是后者的8倍,通过数据分析可知前者生成图像的速度是后者的7.5倍。通过这些数据可得到:图像的生成速度不仅与模型有关还与生成的图像像素有关。

表 3. 模型的计算复杂度

Table 3. Computational complexity of model

DatasetDeepFashionMarket-1501
Total parameters8.2×1073.6×107
Train time per epoch/min28.923.44
Real-data/(sheets·s-1)430

查看所有表

3.4 验证采集的图像

为了验证在两个数据集上训练模型的实际可用性,对从网络渠道采集的一些人物图像进行验证,利用在DeepFashion数据集上训练的模型对从网络采集的3组人物图像进行验证,如图6所示,利用在Market-1501数据上训练的模型对从网络采集的5组具有较复杂背景信息的人物图像进行验证,如图7所示。从图6图7可以看到,在两个数据集上训练的模型具有实际可用性。

3.5 实验结果

所提研究方法与Ma等[10,26]和Esser等[27]不同之处在于,利用融合VGG19[28]模型提取的特征信息反馈机制和DCGAN进行对抗训练能够更高效地生成比较真实的人物图像。与传统图像生成技术[29]不同,所提研究方法不需要提取图像纹理特征,也不需要深入分析纹理特征函数。与近年来只使用VAE和DCGAN[30]的研究方法不同之处在于,所提研究方法在DCGAN的生成器部分加入VAE,这是由于VAE非常适用于学习良好结构的潜在空间,其中特定方向表示图像数据中有意义的变换轴,GAN生成的图像可能非常逼真,但其潜在空间可能没有良好结构,也没有足够的连续性。加入VAE后的DCGAN基本上解决仅使用VAE生成图像的劣势,在一定程度上改善VAE生成图像糊化的问题,同时也提高了DCGAN的稳定性,能够生成比较逼真、并包含较清晰纹理特征信息的人物图像。所提研究方法使用人体姿态估计技术提取人体姿态,使得给定输入图像和指定姿势就能生成给定姿势的人物图像,并在两阶段的训练过程中使用卷积神经网络提取特征信息,利用DCGAN进行对抗训练。由于人物图像具有天然的空间结构信息,卷积神经网络中的卷积层就很好地利用这种空间结构信息并进行更抽象的高阶特征提取,与Ma等[10]提出基于U-Net[31-33]架构变体PG2网络相比,在Ma等[10]所提网络的基础上增加VGG19神经网络特征感知层,并将提取的特征化信息反馈作用于两阶段图像生成过程,达到优化两阶段生成器的目的,提高生成图像数据的鲁棒性,从而使得生成的图像更逼真细腻,符合人类视觉感知特性。

图 6. 在DeepFashion数据集训练模型上验证的结果。(a)条件图像;(b)目标图像;(c)合成图像

Fig. 6. Validation results on DeepFashion dataset training model. (a) Condition images; (b) target images; (c) synthesize images

下载图片 查看所有图片

图 7. 在Market-1501数据集训练模型上验证的结果。 (a)条件图像;(b)目标图像;(c)合成图像

Fig. 7. Validation results on Market-1501 dataset training model. (a) Condition images; (b) target images; (c) synthesize images

下载图片 查看所有图片

4 结论

提出了一种融合特征反馈机制的姿态引导图像生成研究方案,采用人体姿势作为条件输入,利用生成对抗网络构建图像生成模型。训练过程分为姿势集成和图像细化两个处理阶段,并在G1和G2两阶段训练过程中增加特征信息反馈调节机制,对生成模型的两个处理阶段进行约束,最终在DeepFashion和Market-1501两个数据集上进行验证。实验结果表明:所提模型使生成的人物图像质量在清晰度和外观细节方面取得一定程度的提升,可解决Ma等[10]在图像生成过程中存在的图像糊化和纹理缺失等问题。

参考文献

[1] Davidson TR, FalorsiL, Cao ND, et al. ( 2018-09-26)[2019-10-15]. https:∥arxiv.org/abs/1804. 00891.

[2] Goodfellow IJ, Pouget-AbadieJ, MirzaM, et al.Generative adversarial nets[C]∥Proceedings of the 27th International Conference on Neural Information Processing Systems, December 8-13, 2014, Montreal, Quebec, Canada.New York: MIT Press, 2014: 2672- 2680.

[3] PumarolaA, AgudoA, SanfeliuA, et al. Unsupervised person image synthesis in arbitrary poses[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA. New York: IEEE, 2018: 8620- 8628.

[4] HuangH, LiZ, HeR, et al. ( 2018-10-27)[2019-10-15]. https:∥arxiv.org/abs/1807. 06358.

[5] WilesO, Koepke AS, ZissermanA. X2Face: a network for controlling face generation using images, audio, and pose codes[M] ∥Ferrari V, Hebert M, Sminchisescu C, et al. Computer vision-ECCV 2018. Lecture notes in computer science. Cham: Springer, 2018, 11217: 690- 706.

[6] IsolaP, Zhu JY, Zhou TH, et al. Image-to-image translation with conditional adversarial networks[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 5967- 5976.

[7] Zhu JY, ParkT, IsolaP, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]∥2017 IEEE International Conference on Computer Vision (ICCV), October 22-29, 2017, Venice, Italy. New York: IEEE, 2017: 2242- 2251.

[8] KarrasT, LaineS, Aila T. A style-based generator architecture for generative adversarial networks[EB/OL]. ( 2019-03-29)[2019-10-15]. org/abs/1812. 04948. https://arxiv.

[9] 张淑芳, 刘孟娅, 韩泽欣, 等. 基于Retinex增强的单幅LDR图像生成HDR图像方法[J]. 计算机辅助设计与图形学学报, 2018, 30(6): 1015-1022.

    Zhang S F, Liu M Y, Han Z X, et al. Generation method of high dynamic range image from a single low dynamic range image based on retinex enhancement[J]. Journal of Computer-Aided Design & Computer Graphics, 2018, 30(6): 1015-1022.

[10] Ma LQ, JiaX, Sun QR, et al. ( 2018-01-28)[2019-10-15]. https:∥arxiv.org/abs/1705. 09368.

[11] Bao JM, ChenD, WenF, et al. CVAE-GAN: fine-grained image generation through asymmetric training[C]∥2017 IEEE International Conference on Computer Vision (ICCV), October 22-29, 2017, Venice, Italy. New York: IEEE, 2017: 2764- 2773.

[12] YuY, Gong ZQ, ZhongP, et al. Unsupervised representation learning with deep convolutional neural network for remote sensing images[M] ∥Zhao Y, Kong X, Taubman D. Image and graphics. Lecture notes in computer science. Cham: Springer, 2017, 10667: 97- 108.

[13] Kiasari M A, Moirangthem D S, Lee M. Coupled generative adversarial stacked auto-encoder: CoGASA[J]. Neural Networks, 2018, 100: 1-9.

[14] 梁令羽, 张天天, 何为. 多尺度卷积神经网络的头部姿态估计[J]. 激光与光电子学进展, 2019, 56(13): 131003.

    Liang L Y, Zhang T T, He W. Head pose estimation based on multi-scale convolutional neural network[J]. Laser & Optoelectronics Progress, 2019, 56(13): 131003.

[15] CaoZ, SimonT, WeiS, et al. Realtime multi-person 2D pose estimation using part affinity fields[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 1302- 1310.

[16] DengJ, DongW, SocherR, et al. ImageNet: a large-scale hierarchical image database[C]∥2009 IEEE Conference on Computer Vision and Pattern Recognition, June 20-25, 2009, Miami, FL, USA. New York: IEEE, 2009: 248- 255.

[17] 张浩, 桑庆兵. 基于迁移学习的无参考视频质量评价[J]. 激光与光电子学进展, 2018, 55(9): 091101.

    Zhang H, Sang Q B. No reference video quality assessment based on transfer learning[J]. Laser & Optoelectronics Progress, 2018, 55(9): 091101.

[18] KrizhevskyA, SutskeverI, Hinton GE. ImageNet classification with deep convolutional neural networks[C]∥Proceedings of the 25th International Conference on Neural Information Processing Systems, December 3-6, 2012, Lake Tahoe, Nevada, United States. New York: Curran Associates Inc, 2012: 1097- 1105.

[19] MathieuM, CouprieC, LeCun Y. Deep multi-scale video prediction beyond mean square error[EB/OL]. ( 2016-02-26)[2019-10-15]. https:∥arxiv.org/abs/1511. 05440.

[20] Liu ZW, LuoP, QiuS, et al. DeepFashion: powering robust clothes recognition and retrieval with rich annotations[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 1096- 1104.

[21] ZhengL, Shen LY, TianL, et al. Scalable person re-identification: a benchmark[C]∥2015 IEEE International Conference on Computer Vision (ICCV), December 7-13, 2015, Santiago, Chile. New York: IEEE, 2015: 1116- 1124.

[22] Yao J C, Liu G Z. Improved SSIM IQA of contrast distortion based on the contrast sensitivity characteristics of HVS[J]. Iet Image Processing, 2018, 12(6): 872-879.

[23] SalimansT, Goodfellow IJ, ZarembaW, et al. ( 2016-06-10)[2019-10-15]. https:∥arxiv.org/abs/1606. 03498.

[24] Shi WZ, CaballeroJ, HuszárF, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 1874- 1883.

[25] JohnsonJ, AlahiA, Li FF. Perceptual losses for real-time style transfer and super-resolution[M] ∥Leibe B, Matas J, Sebe N, et al. Computer vision-ECCV 2016. Lecture notes in computer science. Cham: Springer, 2016, 9906: 694- 711.

[26] Ma LQ, Sun QR, GeorgoulisS, et al. Disentangled person image generation[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA. New York: IEEE, 2018: 99- 108.

[27] EsserP, SutterE. A variational U-Net for conditional appearance and shape generation[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA. New York: IEEE, 2018: 8857- 8866.

[28] SimonyanK, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL]. ( 2015-04-10)[2019-10-15]. https:∥arxiv.org/abs/1409. 1556.

[29] 吴金亮, 黄海斌, 刘利刚. 保持纹理细节的无缝图像合成[J]. 浙江大学学报(工学版), 2013, 47(6): 951-956.

    Wu J L, Huang H B, Liu L G. Texture details preserving seamless image composition[J]. Journal of Zhejiang University (Engineering Science), 2013, 47(6): 951-956.

[30] 唐贤伦, 杜一铭, 刘雨微, 等. 基于条件深度卷积生成对抗网络的图像识别方法[J]. 自动化学报, 2018, 44(5): 855-864.

    Tang X L, Du Y M, Liu Y W, et al. Image recognition with conditional deep convolutional generative adversarial networks[J]. Acta Automatica Sinica, 2018, 44(5): 855-864.

[31] RonnebergerO, FischerP, BroxT. U-net: convolutional networks for biomedical image segmentation[M] ∥Navab N, Hornegger J, Wells W, et al. Medical image computing and computer-assisted intervention-MICCAI 2015. Lecture notes in computer science. Cham: Springer, 2015, 9351: 234- 241.

[32] 任欣磊, 王阳萍, 杨景玉, 等. 基于改进U-Net的遥感影像建筑物提取[J]. 激光与光电子学进展, 2019, 56(22): 222801.

    Ren X L, Wang Y P, Yang J Y, et al. Building detection from remote sensing images based on improved U-Net[J]. Laser & Optoelectronics Progress, 2019, 56(22): 222801.

[33] 张芳, 吴玥, 肖志涛, 等. 基于U-Net卷积神经网络的纳米颗粒分割[J]. 激光与光电子学进展, 2019, 56(6): 061005.

    Zhang F, Wu Y, Xiao Z T, et al. Nanoparticle segmentation based on U-Net convolutional neural network[J]. Laser & Optoelectronics Progress, 2019, 56(6): 061005.

黄友文, 赵朋, 游亚东. 融合反馈机制的姿态引导人物图像生成[J]. 激光与光电子学进展, 2020, 57(14): 141011. Youwen Huang, Peng Zhao, Yadong You. Pose-Guided Human Image Synthesis Based on Fusion Feature Feedback Mechanism[J]. Laser & Optoelectronics Progress, 2020, 57(14): 141011.

本文已被 2 篇论文引用
被引统计数据来源于中国光学期刊网
引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!