基于人脸结构信息引导的人脸图像修复网络

针对人脸图像修复的深度学习网络存在修复后的人脸图像面部语义信息不合理和面部轮廓不协调的问题，提出了一种基于人脸结构信息引导的人脸图像修复网络。首先，采用编码器-解码器网络技术构建人脸结构草图生成网络，并在结构草图生成网络的生成器中加入跳跃连接和引入带膨胀卷积的残差块以生成待修复区域的结构草图。其次，在构建人脸修复网络时，在修复网络生成器中引入注意力机制，让修复网络在修复过程中更多关注待修复区域，并以生成的人脸结构草图为引导从而实现人脸图像面部语义结构和纹理信息的生动修复。最后，在结构草图生成网络的损失函数中引入特征匹配损失进行模型训练，从而约束生成器生成与真实结构草图更相似的结果；在修复网络的损失函数中联合感知损失和风格损失进行模型训练，从而更好地重建待修复区域的人脸图像面部轮廓结构和颜色纹理，使修复后的图像更接近真实图像。对比实验结果表明，在人脸图像数据集中，本文所设计的网络模型的修复性能有较高的提升。

Abstract

Aiming at the problems of unreasonable facial semantic information and inconsistency of facial contours in the restored face image in the deep learning network for face image inpainting, a face image inpainting network guided by face structure information is proposed. Firstly, the encoder-decoder network technology is used to build a face structure sketch generation network, and skip connections and residual blocks with dilated convolution are added to the generator of the structure sketch generation network to generate the structure sketch of the region to be repaired. Secondly, when a face inpainting network is builted, an attention mechanism is introduced into the inpainting network generator, so that the inpainting network pays more attention to the area to be repaired during the inpainting process, and uses the generated face structure sketch as a guide to realize the face image vivid inpainting of facial semantic structure and texture information. Finally, the feature matching loss is introduced into the loss function of the structure sketch generation network for the model training, so as to constrain the generator to generate results more similar to the real structure sketch. In the loss function of the repair network, the perceptual loss and style loss are combined for the model training, therefore, the facial contour structure and color texture of the face image in the area to be repaired can be better reconstructed, so that the repaired image is closer to the real image. The comparative experimental results show that in the face image dataset, the repair performance of the network model designed in this paper has a high improvement.

1　引言

图像修复是计算机视觉领域研究中一项重要内容，其目的是利用图像修复算法对图像中破损或遮挡的区域进行重建，并填入符合图像语义和视觉常识的数据，生成直观感觉真实存在的图像^［1］。

传统的图像修复主要分为基于扩散的方法^［2］和基于样本块的方法^［3］。基于扩散的方法主要使用修复区域已知的边缘信息，然后向内部待修复区域扩散。这种以迭代扩散的方式在待修复区域进行传导往往只能修复遮挡或破损区域较小的图像，当遮挡或破损区域太大时，其修复结果模糊且语义不连贯。基于样本块的图像修复方法则是从待修复的图像中寻找与缺失区域附近相似的图像块来合成需要修复的区域。这种以搜索方式来填充修复区域图像的方法对于结构单一的图像效果明显，但对于语义结构丰富或者结构纹理复杂的图像，其修复结果十分模糊，并且破坏了原有图像的结构完整性。

近年来，随着深度学习在计算机视觉领域的发展，图像修复领域取得了突破性的进展。图像修复深度学习网络能够通过大量的样本学习生成新的图像信息，特别是随着生成对抗网络^［4］（Generative adversarial networks，GAN）的出现，图像修复性能得到进一步提升。Pathak等人^［5］提出了CE（Context Encoders）算法，首次在图像修复中运用了生成对抗网络来生成新的图像。Iizuka等人^［6］在CE的基础上提出了GLCLC（Globally and locally consistent image completion）算法，通过使用全局判别器和局部判别器进行网络模型的训练，最终能够修复较大区域的缺失图像，不足的是生成的图像往往是用背景进行填充，导致修复结果在很多时候结构纹理不连贯。Yu等人^［7］提出了CA（Generative Image Inpainting With Contextual Attention）算法，通过引入注意力机制，由粗到细分两阶段进行修复，图像修复性能得到了提升。Nazeri等人^［8］提出了EC（EdgeConnect：Generative Image Inpainting with Adversarial Edge Learning）算法，首先生成缺失区域边缘图，然后将边缘图作为人脸修复指导信息送入修复网络中进行修复，获得了比较好的修复结果，但网络在面临大面积缺失情况下存在修复后边缘轮廓不协调的问题。Yang等人^［9］提出了LaFIn（LaFIn：Generative Landmark Guided Face Inpainting）算法，首先预测人脸关键点，然后将预测的关键点作为后阶段修复网络的条件指导信息进行人脸修复。Xiong等人^［10］提出先预测前景轮廓，再将预测的前景轮廓信息作为条件指导信息进行下阶段修复，缺点是轮廓内部区域修复效果不好。Yang等人^［11］提出了多任务学习框架来整合图像结构知识来辅助图像修复，通过将纹理和梯度等信息作为先验指导信息，提升了图像修复纹理细节。Wang等人^［12］提出通过语义分割引导图像的修复，提升了图像修复性能，但生成的人脸图像纹理细节上不够清晰。Guo等人^［13］提出将图像修复分成纹理合成和结构重建两个子任务，构建了一种新的用于图像修复的双流网络CTSDG（Conditional Texture and Structure Dual Generation），进一步提升了图像修复的性能。

综上所述，目前人脸图像修复的深度学习网络模型仍然存在一些不足，本文受文献［8］的启发，提出了一种基于人脸结构信息引导的人脸图像修复网络，其主要工作如下：

（1）针对修复后的人脸图像面部语义信息不合理和面部轮廓不协调的问题，提出了通过人脸结构信息引导的人脸图像修复网络。

（2）针对本文提出的人脸结构草图生成网络，为了更好地生成待修复区域下的人脸结构草图，在网络生成器中引入了跳跃连接和带膨胀卷积的残差块。为了使成器生成与真实结构草图更相似的结果，在损失函数中引入特征匹配损失，使模型生成的结构草图更加丰富合理。

（3）针对本文提出的人脸修复网络，为了使修复网络在修复时更多地关注缺失区域，在人脸修复网络中引入了注意力机制，并在损失函数中联合感知损失和风格损失，以此更好地重建待修复区域的人脸图像面部轮廓结构和颜色纹理。

2　相关研究

2.1　U-Net网络

U-Net 是由Ronneberger等人提出的一种编码器-解码器网络结构^［14］，最早主要应用在图像分割领域，后来逐渐被用在图像修复中。其主要思想是输入带有噪声的图像数据，经过下采样编码得到比原始图像小很多的特征图，然后经过一系列上采样解码，在理想状态下经过多次模型参数训练可以去除噪声，还原出真实的原图像。U-Net网络提出了采用跳跃连接的方式将下采样过程中的信息连接到上采样过程中，使得最后输出结果能够充分利用浅层与深层特征，在图像修复中能够更好地还原出缺失区域，U-Net网络结构如图1所示。

图 1. U-Net网络结构图

Fig. 1. U-Net network structure diagram

下载图片查看所有图片

2.2　生成对抗网络

生成对抗网络（GAN）是由Goodfellow等人^［4］于2014年提出的，其设计灵感来自于博弈论中的博弈思想，并在深度神经网络中用生成器和判别器来模拟这种思想。图2为GAN网络结构图，其生成器通过捕捉真实样本数据分布生成新的图像；判别器可认为是一个二分类器，用来判断生成的新图像是否真实，如对真实样本图像的判别结果为真则用1表示，而对生成的图像判别结果为假则用0表示。然后将判别结果分别反馈给生成器和判别器，生成器将根据判别结果进行梯度优化学习，生成更加真实的图像来迷惑判别器；判别器同样根据判别结果进行性能提升，以此更加准确地辨别出真实图像和生成的图像，通过循环进行上述步骤，直到判别器很难分辨出生成器生成的图像。整个博弈过程从0开始，直到判别器的判别结果为0.5时，两者达到平衡。

图 2. GAN网络结构图

Fig. 2. Diagram of GAN network structure

下载图片查看所有图片

GAN的数学表达式定义为：

\underset{θ_{g}}{m i n} \underset{θ_{d}}{m i n} [E_{x ~ P_{d a t a}} l o g D_{θ_{d}} (x) + E_{z ~ P z} l o g (1 - D_{θ_{d}} (G_{θ_{g}} (z)))]

，（1）

其判别器训练的表达式为：

\underset{θ_{d}}{m a x} [E_{x ~ P_{d a t a}} l o g D_{θ_{d}} (x) + E_{z ~ P z} l o g (1 - D_{θ_{d}} (G_{θ_{g}} (z)))]

，（2）

其生成器训练的表达式为：

\underset{θ_{g}}{m i n} E_{z ~ P z} l o g (1 - D_{θ_{d}} (G_{θ_{g}} (z)))

，（3）

其中： $x$ 和 $z$ 分别表示真实样本数据和随机噪声向量， $x$ 是通过真实数据分布 $P_{d a t a}$ 随机采样生成， $z$ 是通过指定的先验噪声分布 $P_{z}$ 采样生成； $θ_{g}$ 和 $θ_{d}$ 分别表示生成器的梯度值和判别器的梯度值。

3　基于人脸结构信息引导的人脸图像修复网络

本文提出了一种基于人脸结构信息引导的人脸图像修复网络，该网络由人脸结构草图生成网络和人脸修复网络两部分组成。人脸结构草图生成网络通过学习人脸结构先验知识产生待修复区域的人脸结构草图，人脸修复网络以人脸结构草图生成网络生成的结构草图作为条件指导信息进行人脸图像修复。

3.1　人脸结构草图生成网络

人脸结构草图生成网络主要用于生成待修复区域的结构草图，其输入为遮挡人脸图像的灰度图、遮挡人脸图像的结构草图以及掩码，输出为网络生成的人脸结构草图。本文设计的人脸结构草图生成网络整体框架如图3所示，其上半部分为人脸结构草图生成网络的生成器，下半部分为人脸结构草图生成网络的判别器。采用生成人脸结构草图再进行人脸修复的思想类似于在绘制肖像画时，往往最先构建的是人脸草图，然后再在草图上进行色彩和细节填充。这种修复方式能够更好地还原人脸图像的缺失区域并使修复后的人脸图像细节纹理清晰。

图 3. 人脸结构草图生成网络框架图

Fig. 3. Face structure sketch generation network frame diagram

下载图片查看所有图片

结构草图生成网络的生成器基于编码器-解码器结构，主要由3个下采样卷积层、7个带膨胀卷积的残差块、3个上采样卷积层以及从下采样层跳跃连接到上采样层后的特征融合层组成。为了强化结构草图生成网络生成器对待修复区域人脸结构信息的生成能力，在结构草图生成网络生成器的下采样层与上采样层之间加入跳跃连接进行特征融合，这样不仅能够将下采样过程中采集的各个阶段特征信息在上采样过程中进行再次利用，同时也能更好地传递网络浅层到深层的梯度信息，提高网络的训练速度。

其次，在下采样层后引入带膨胀卷积（Dilated Convolution）的残差块^［15］用于增加卷积神经元的感受野。膨胀卷积的引入可以使卷积神经元捕捉更大范围的特征信息，从而使生成器在特征传递过程中采集更多人脸的结构先验信息，进而使生成的人脸结构草图更符合人脸拓扑结构。而采用残差块作为生成器的中间层不仅能够避免GAN网络在训练过程中梯度消失的问题，同时也可以将下采样后的信息更多地传递到后面的上采样过程中，提升网络的训练速度和人脸结构草图的生成质量。

最后，在下采样与上采样过程中的每个卷积层与激活层之间都加入实例归一化（IN）层。IN层不仅可以使网络训练更加稳定，还可以加快训练过程中网络模型的收敛速度。

3.2　人脸修复网络

人脸修复网络主要用于生成人脸待修复区域的彩色图像，其输入为遮挡的人脸彩色图像以及人脸结构草图生成网络生成的人脸结构草图，输出为修复好的人脸彩色图像。本文设计的人脸修复网络的整体框架如图4所示，其上半部分为人脸修复网络的生成器，下半部分为人脸修复网络的判别器。

图 4. 人脸修复网络的框架图

Fig. 4. Frame diagram of face inpainting network

下载图片查看所有图片

人脸修复网络的生成器同样基于编码器-解码器结构，主要由3层下采样层、7个带膨胀卷积的残差块、1个长短期注意力层^［16］和3个上采样层以及从下采样层跳跃连接到上采样层后的特征融合层组成。为了能够更有效地利用人脸结构草图生成网络生成的结构草图信息，人脸修复网络在生成器中间阶段除了添加带膨胀卷积的残差块还引入了注意力机制。其中，在人脸修复网络中引入带膨胀卷积残差块的目的与其在结构草图生成网络的作用相似，而在人脸修复网络生成器中加入长短期注意力层（Self-attention Module），除了可以使人脸修复网络在修复过程中更多地关注人脸待修复区域，同时也能有效连接时间特征图，这样能够尽可能地保证修复后的面部轮廓更加协调，同时提升修复区域的面部纹理细节。

在人脸结构草图生成网络和人脸修复网络中，判别器均采用马尔可夫判别器^［17］（Patch-GAN），它主要由4个卷积层和1个全连接层组成。与其他判别器网络设计不一样的是马尔可夫判别器先输出1个N‍×N‍的矩阵，然后通过计算N‍‍×N‍矩阵的均值作为最终的判别输出，这与传统判别器的输出只有1个真假矢量有着本质的区别。马尔可夫判别器输出矩阵中的每个位置能够代表生成图像1个感受野，而每个感受野对应着生成图像中的一部分区域。因此采用马尔可夫判别器能更准确地分辨出生成器生成的图像与真实图像之间的差别，从而更好地调节网络梯度。

其次，为了保证判别器尽可能地关注整个图像结构性并评估生成的图像与真实图像是否一致，本文设计的人脸结构草图生成网络和人脸修复网络只采用了全局判别器作为整个网络的判别器。这是因为局部判别器在鉴别生成的图像与真实图像之间的差别时往往只会关注网络修复后的区域，这样虽然满足了修复区域的一致性，但忽略了图像整体结构的全局性，而人脸拓扑结构和纹理信息往往需要满足整体结构，因此全局判别器可以更好地保证区域结构与整体结构的一致性，从而使生成器生成更加真实生动的人脸图像。

最后，为了防止结构草图生成网络和人脸修复网络在训练过程中发生梯度爆炸，使训练过程能够稳定进行，在判别器中引入了谱归一化^［18］（Spectral Normalization，SN），以此来提高GAN网络的训练质量。

3.3　损失函数

3.3.1　人脸结构草图生成网络损失函数

设 $I_{g t}$ 表示真实的人脸图像， $I_{s k e t c h}$ 表示对应的结构草图， $I_{g r a y}$ 表示对应的灰度图， $M$ 为待修复掩膜，1表示缺失区域，0表示已知区域。则已知图像的灰度图可以表示为 ${\hat{I}}_{g r a y} = I_{g r a y} ⊙ (1 - M)$ ，已知图像的结构草图可以表示为 ${\hat{I}}_{s k e t c h} = I_{s k e t c h} ⊙ (1 - M)$ ，因此结构草图生成网络的生成器 $G_{s k e t c h}$ 预测的人脸结构草图可以表示为：

I_{p r e d, s k e t c h} = G_{s k e t c h} ({\hat{I}}_{g a r y}, {\hat{I}}_{s k e t c h}, M)

. （4）

在 $G_{s k e t c h}$ 预测得到人脸结构草图 $I_{p r e d, s k e t c h}$ 后，将 $I_{p r e d, s k e t c h}$ 与真实结构草图 $I_{s k e t c h}$ 一起输入到结构草图生成网络的判别器 $D_{s k e t c h}$ 中，判别生成器 $G_{s k e t c h}$ 生成的人脸结构草图的真实性。在结构草图生成网络中，为了更好地生成待修复区域的人脸结构草图，结构草图生成网络在生成对抗损失 $ℒ_{a d v, s k e t c h}$ 的基础上引入特征匹配损失 $ℒ_{F M, s k e t c h}$ 进行模型的训练。定义整个结构草图生成网络的训练目标为：

\begin{matrix} \underset{G_{s k e t c h}}{m i n} \underset{D_{s k e t c h}}{m a x} ℒ_{G_{s k e t c h}} = \underset{G_{s k e t c h}}{m i n} (λ_{a d v, s k e t c h} \underset{D_{s k e t c h}}{m a x} (ℒ_{a d v, s k e t c h}) + \\ λ_{F M, s k e t c h} ℒ_{F M, s k e t c h}), \end{matrix}

（5）

式中， $λ_{a d v, s k e t c h}$ 和 $λ_{F M, s k e t c h}$ 是正则化参数。其对抗损失 $ℒ_{a d v, s k e t c h}$ 定义如式（6）所示：

\begin{matrix} ℒ_{a d v, s k e t c h} = Ε_{(I_{s k e t c h}, I_{g r a y})} [l o g D_{s k e t c h} (I_{s k e t c h}, I_{g r a y})] + \\ Ε_{I_{g r a y}} l o g [1 - D_{s k e t c h} (I_{p r e d, s k e t c h}, I_{g r a y})] . \end{matrix}

（6）

特征匹配损失 $ℒ_{F M, s k e t c h}$ 通过比较判别器 $D_{s k e t c h}$ 中间层的激活映射来约束生成器 $G_{s k e t c h}$ 产生与真实人脸结构草图更相似的结果，从而稳定训练过程。特征匹配损失 $ℒ_{F M, s k e t c h}$ 定义如式（7）所示：

\begin{matrix} ℒ_{F M, s k e t c h} = Ε (\sum_{i = 1}^{L} \frac{1}{N_{i}} ‖D_{s k e t c h}^{(i)} (I_{s k e t c h}) - \\ {D_{s k e t c h}^{(i)} (I_{p r e d, s k e t c h})‖}_{1}) \end{matrix}

，（7）

其中： $L$ 表示判别器 $D_{s k e t c h}$ 卷积层的总层数， $N_{i}$ 为每层元素的数目， $D_{s k e t c h}^{(i)}$ 表示判别器 $D_{s k e t c h}$ 第 $i$ 层的激活函数输出。

3.3.2　人脸修复网络损失函数

从上述定义可知，已知区域彩色人脸图像可表示为 ${\hat{I}}_{g t} = I_{g t} ⊙ (1 - M)$ ，由式（4）可知人脸结构生成网络生成的人脸结构草图为 $I_{p r e d, s k e t c h}$ ，因此输入到人脸修复网络生成器 $G_{f a c e}$ 的结构草图可以表示为 $I_{c o m p, s k e t c h} = I_{s k e t c h} ⊙ (1 - M) + I_{p r e d, s k e t c h} ⊙ M$ ，所以人脸修复网络 $G_{f a c e}$ 的输出可以表示为：

I_{p r e d, f a c e} = G_{f a c e} ({\hat{I}}_{g t}, I_{c o m p, s k e t c h})

. （8）

为了保证人脸修复结果的面部语义信息合理性以及更好地重建待修复区域的人脸图像面部轮廓结构和颜色纹理，人脸修复网络引入了 $ℒ_{1}$ 损失、生成对抗损失 $ℒ_{a d v, f a c e}$ ，并联合感知损失^［19］ $ℒ_{p e r c, f a c e}$ 和风格损失^［20］ $ℒ_{s t y l e, f a c e}$ 对式（8）进行训练，其中 $ℒ_{1}$ 损失定义为：

ℒ_{1} = \frac{1}{N} \sum_{i = 1}^{N} {‖I_{g t} - I_{p r e d, f a c e}‖}_{1}

，（9）

式中 $N$ 为归一化后掩膜像素点的数目。

生成对抗损失 $ℒ_{a d v, f a c e}$ 定义为：

\begin{matrix} ℒ_{a d v, f a c e} = E_{(I_{g t,} I_{c o m p, s k e t c h})} [l o g D_{f a c e} (I_{g t}, I_{c o m p, s k e t c h})] + \\ E_{I_{c o m p, s k e t c h}} l o g [1 - D_{f a c e} (I_{p r e d, f a c e}, I_{c o m p, s k e t c h})] \end{matrix}

. （10）

感知损失 $ℒ_{p e r c, f a c e}$ 用来约束人脸修复网络重构结果 $I_{p r e d, f a c e}$ 与原图 $I_{g t}$ 在语义结构上保持一致，其定义如式（11）所示：

ℒ_{p e r c, f a c e} = E [\sum_{i} \frac{1}{N_{i}} {‖ϕ_{i} (Ι_{g t}) - ϕ_{i} (I_{p r e d, f a c e})‖}_{1}]

，（11）

式中 $ϕ_{i}$ 为预训练模型VGG-19^［21］第 $i$ 层激活输出映射。

风格损失的定义与感知损失有相似之处，都需要利用预训练好的VGG-19网络将输入的图像映射到高维度特征空间，以此来提取图像的高水平的语义结构特征信息。不同于感知损失，风格损失首先需要利用卷积激活输出特征构建一个Gram矩阵并计算其在通道维度上的相关性，然后在通道维度相关矩阵上计算其欧式距离，最后对图像的纹理风格进行建模。 $ℒ_{s t y l e, f a c e}$ 定义如式（12）所示：

ℒ_{s t y l e, f a c e} = \sum_{i = 1}^{N} ‖ϕ_{i} (I_{g t})^{T} ϕ_{i} (I_{g t}) - {ϕ_{i} (I_{p r e d, f a c e})^{T} ϕ_{i} (I_{p r e d, f a c e})‖}_{2}

，（12）

式中， $ϕ_{i}$ 定义与感知损失中的定义一样， $T$ 表示矩阵转置。

最终，可以得到人脸修复网络的总损失为：

\begin{matrix} ℒ_{f a c e} = λ_{ℒ_{1}} ℒ_{1} + λ_{a d v, f a c e} ℒ_{a d v, f a c e} + \\ λ_{p e r c, f a c e} ℒ_{p e r c, f a c e} + λ_{s t y l e, f a c e} ℒ_{s t y l e, f a c e} \end{matrix}

，（13）

式中 $λ_{ℒ_{1}}$ 、 $λ_{a d v, f a c e}$ 、 $λ_{p e r c, f a c e}$ 、 $λ_{s t y l e, f a c e}$ 为正则化参数。

4　实验结果与分析

4.1　实验环境和数据集

本文实验环境为Windows 10 64位专业版服务器，其处理器为 Intel（R）Xeon（R）CPU E5-2695 v4 @ 2.10 GHz、内存（RAM）为256 GB、GPU（NVIDA TITAN Xp）共4块，显卡内存为12 GB。软件环境为Pycharm2020、Pytorch1.7、Python3.6、CUDA 10.2等。

实验选用CelebA-HQ数据集^［22］中30 000张高清人脸图像对人脸结构草图生成网络和人脸修复网络进行训练和测试，其中26 000张用于训练集，3 000张用于验证集，1 000张用于测试集。训练集、验证集、测试集无任何交集。实验过程中使用的掩码由Liu等人^［23］的不规则掩码数据集提供，将数据集中的26 000张用于训练集，3 000张用于验证集，1 000张用于测试集，输入图片大小均为256×256。训练时先分开训练人脸结构草图生成网络和人脸修复网络，然后将人脸结构草图生成网络和人脸修复网络进行联合训练。在训练过程中，采用指数衰减率为 $β_{1} = 0$ ， $β_{2} = 0.9$ 的Adma优化器进行优化，分开训练时学习率设置为10^-4，联合训练时学习率设置为10^-6，图片的批处理大小（Batch size）设置为8，保存模型需要等待的迭代次数设置为1 000次。其人脸结构草图生成网络中使用的结构草图采用与文献［24］相似的方法，由高斯模糊和图像除法运算得到，其中高斯核大小设置为（15，15）。在人脸结构草图生成网络中，参考文献［8］的参数设置，损失函数正则化参数设置为 $ℒ_{a d v, s k e t c h}$ =1， $ℒ_{F M, s k e t c h}$ =10；在人脸修复网络中，损失函数正则化参数设置为 $λ_{ℒ_{1}}$ =1， $λ_{a d v, f a c e}$ = $λ_{p e r c, f a c e}$ =0.1， $λ_{s t y l e, f a c e}$ =250。

4.2　实验结果定性分析

为了更好地对本文设计的网络模型修复性能进行验证，采用定性分析（主观评价）和定量分析（客观评价）两种方法进行测试。图5所示为本文模型测试结果，从上到下测试图像的随机掩膜的覆盖占比分别为10%~20%，20%~30%，30%~40%，40%~50%，50%~60%以及中心掩膜。

图 5. 本文模型修复测试结果。（a）原图像；（b）真实面部结构草图；（c）遮挡面部图像；（d）遮挡面部结构草图；（e）生成的结构草图；（f）修复的人脸图像。

Fig. 5. Model repair test results in this paper.（a）Original image；（b）Sketch of real facial structure；（c）Occlusion of the face image；（d）Occlusion sketches of facial structures；（e）Generated structural sketch；（f）Repaired face image.

下载图片查看所有图片

从图5测试结果可看出，人脸结构草图生成网络生成的结构草图（图5（e））不仅能够保持人脸拓扑结构，而且也能准确地恢复出掩膜遮挡下人脸图像的面部语义信息，其修复后的面部结构纹理信息非常丰富，同时能够保持已知面部区域与待修复面部区域的边界处的结构一致性，肉眼很难分辨出修复痕迹，最终能还原出真实清晰的人脸面部结构草图，这验证了本文所设计的人脸结构草图生成网络修复性能的有效性。其次，从图5测试结果可以看出，在人脸结构草图生成网络预测的人脸结构草图信息指导下，人脸修复网络能够很好地还原出被遮挡图像的面部彩色图像（图5（f）），其合成的纹理信息不仅能够与周围已知区域保持一致，而且修复后面部轮廓协调，颜色分布均匀，边界信息连贯以及修复结果真实清晰，这验证了本文所设计的人脸修复网络有效性。

为了更好地展示本文所设计的网络模型的优越性，选取与本文网络模型设计相似的几种深度学习图像修复网络进行定性对比分析实验，其对比方法主要包括文献［8］EC算法、文献［9］LaFIn算法、文献［13］CTSDG算法和本文算法。为了展示在不同掩码下的修复情况，分别采用随机掩膜和中心掩膜进行比较分析。

随机掩膜修复实验的结果如图6所示。可以直观地看出，在随机掩膜遮挡下，EC算法修复结果存在部分面部结构扭曲，且部分修复区域较为模糊，如第三列第一行与第三列第二行的修复结果；LaFIn和CTSDG算法相比于EC算法，其修复结果更加真实，面部轮廓更加合理，但部分区域的修复仍存在瑕疵，如LaFIn算法第四列第二行的修复结果和CTSDG算法第五列第一行修复结果；与上述3种算法相比，本文所提算法修复的人脸图像与原图像面部结构更为相似，面部轮廓更加协调，表情更为丰富，其修复后的图像清晰度也更好。

图 6. 随机掩膜修复实验结果定性比较。（a）原图像；（b）遮挡图像；（c）EC算法；（d）LaFIn算法；（e）CTSDG算法；（f）本文算法。

Fig. 6. Qualitative comparison of experimental results of random mask repair.（a）Original image；（b）Occluded image；（c）EC algorithm；（d）LaFIn algorithm；（e）CTSDG algorithm；（f）Our algorithm.

下载图片查看所有图片

中心掩膜修复实验的结果如图7所示。可以直观地看出，在中心掩膜遮挡下，由于缺少了大部分先验信息的参考，修复网络根据自身学习到的人脸图像几何分布进行合理的预测。EC算法虽能够生成面部主要结构，但在嘴巴等部位存在明显的修复痕迹，部分结构存在扭曲，如第三列第一行眼睛部位修复结果与第三列第二行嘴巴修复结果；LaFIn算法相比于EC算法，其面部轮廓更加协调，但也存在部分修复瑕疵的情况，如第四列第四行嘴巴修复结果，且恢复出的部分结构也不完善，如第四列最后一行的修复结果；CTSDG算法相比于LaFIn算法，修复细节更丰富，但部分区域未恢复出应有的结构且存在明显修复痕迹，如第五列第五行；本文算法与其他几种算法相比，除了修复后能够保持主要的面部结构轮廓，其纹理细节也更加生动。

图 7. 中心掩膜修复实验结果定性比较。（a）原图像；（b）遮挡图像；（c）EC算法；（d）LaFIn算法；（e）CTSDG算法；（f）本文算法。

Fig. 7. Qualitative comparison of experimental results of center mask repair.（a）Original image；（b）Occluded image；（c）EC algorithm；（d）LaFIn algorithm；（e）CTSDG algorithm；（f）Our algorithm.

下载图片查看所有图片

修复细节实验的结果如图8所示。可以看出，无论是面部整体轮廓还是面部重要的五官部位（嘴巴，鼻子，眼睛，耳朵），本文算法修复细节结果均比其他几种对比算法更好。这主要得益于人脸修复网络在结构草图的指导下，能够更好地恢复出遮挡下的面部轮廓结构和纹理细节，同时在人脸修复网络中引入注意力机制使其在修复过程中更多地关注待修复区域。

图 8. 定性实验修复细节展示。（a）原图像；（b）EC算法；（c）LaFIn算法（d）CTSDG算法；（e）本文算法。

Fig. 8. Qualitative experimental repair details .（a）Original image；（b）EC algorithm；（c）LaFIn algorithm；（d）CTSDG algorithm；（e）Our algorithm.

下载图片查看所有图片

4.3　实验结果定量分析

除了定性对比实验，本文还采用以下3种客观指标进行定量分析评价，其评价指标采用峰值信噪比（Peak Signal to Noice Ratio，PSNR）、结构相似性^［25］（Structural Similarity Index，SSIM）以及弗雷特距离^［26］（Frecher inception distance，FID），其中PSNR和SSIM的值越高表示修复效果越好，FID的值越低表示修复效果越好^［27］。

为了更好地突出本文所提方法的有效性，对不同比例下的掩膜修复情况分别进行了定量比较分析，其结果如表1所示。从表1可以看出，本文方法在所有指标上都优于其他方法。其中，本文方法测试结果的PSNR比EC算法提高了2.49，比Lafin算法提高了0.76，比CTSDG算法提高了0.62；SSIM比EC算法提高了4.9%，比LaFIn算法提高了2%，比CTSDG算法提高了1.6%；FID比EC算法降低了3.4，比LaFIn算法降低了0.6，比CTSDG算法降低了0.3（以上对比值均由平均值计算得出）。

表 1. 不同掩膜下修复实验定量比较结果

Table 1. Quantitative comparison results of repair experiments under different masks

评估指标	掩膜类别	EC	LaFIn	CTSDG	本文方法
PSNR	10%~20%	27.32	29.78	29.94	30.76
	20%~30%	26.72	27.46	27.48	28.09
	30%~40%	23.10	25.77	26.31	26.53
	40%~50%	21.07	23.49	23.78	24.07
	50%~60%	18.74	19.43	20.12	20.46
	中心掩膜	21.53	22.89	22.03	23.51
SSIM	10%~20%	0.926	0.964	0.976	0.978
	20%~30%	0.893	0.921	0.931	0.939
	30%~40%	0.841	0.874	0.881	0.895
	40%~50%	0.801	0.852	0.858	0.873
	50%~60%	0.738	0.758	0.769	0.772
	中心掩膜	0.817	0.862	0.839	0.896
FID	10%~20%	3.68	3.23	3.17	3.04
	20%~30%	4.97	4.65	4.51	4.10
	30%~40%	9.49	7.74	7.46	7.13
	40%~50%	14.98	9.68	9.52	9.01
	50%~60%	22.43	17.72	17.08	16.84
	中心掩膜	13.29	9.04	8.76	8.21

查看所有表

4.4　消融实验

为了更好地验证本算法所提出的人脸结构草图引导人脸修复和引人注意力机制的有效性，与基准算法进行了消融实验对比。图9展示了人脸结构草图与注意力机制对整个人脸图像修复效果的影响。

图 9. 消融修复实验定性分析。（a）原图像；（b）遮挡图像；（c）基准算法；（d）草图结构引导；（e）草图结构引导+注意力机制。

Fig. 9. Qualitative analysis of ablation repair experiment.（a）Original image；（b）Occluded image；（c）Benchmark algorithm；（d）Sketch structure guidance；（e）Sketch structure guidance+attention mechanism.

下载图片查看所有图片

从图9可以看出，在基准算法的基础上引入人脸结构草图进行人脸修复引导后，其修复质量显著提高，特别是待修复图像的整体结构和纹理细节相比于基准算法提升很多，如第三列与第四列之间对比。在修复网络中引入注意力机制后，其修复效果在修复细节上又有提升，特别是在眼睛、耳朵等细节部位，修复网络能够很好地还原出缺失的部分，整体相似度与原图像更加接近，如第五列与第四列之间对比。

为了更好地展示消融实验部分不同模块的作用，对以上进行展示的图像进行了定量比较分析，其结果如表2所示，其中Sketch表示人脸结构草图引导的人脸修复，SA表示注意力机制。从表2可以看出，相比于基准算法，人脸结构草图引导的人脸修复网络的PSNR和SSIM均显著提高，FID显著下降。在引入注意力机制后，图像修复性能在面部细节处得到进一步提升。

表 2. 消融修复实验定量比较结果

Table 2. Quantitative comparison of results of ablation repair experiments

评估指标	测评对象	基准	Sketch	Sketch+SA
PSNR	第①行	23.02	25.12	25.44
	第②行	23.89	26.03	26.76
	第③行	25.18	26.94	27.32
	第④行	24.31	24.92	25.69
	第⑤行	23.93	25.42	26.11
	第⑥行	22.97	27.32	27.71
SSIM	第①行	0.869	0.899	0.904
	第②行	0.905	0.925	0.939
	第③行	0.876	0.895	0.915
	第④行	0.835	0.849	0.855
	第⑤行	0.859	0.883	0.897
	第⑥行	0.874	0.880	0.896
FID	第①行	25.3	17.21	8.92
	第②行	39.5	21.35	15.24
	第③行	42.71	19.21	12.65
	第④行	41.74	23.56	17.66
	第⑤行	37.9	21.34	15.9
	第⑥行	38.7	23.63	14.35

查看所有表

5　结论

本文提出了一种基于人脸结构信息引导的人脸图像修复网络。首先，设计了人脸结构草图生成网络用于生成待修复区域的人脸结构草图，并利用生成的人脸结构草图对人脸修复网络进行引导。为了强化结构草图生成网络对缺失区域人脸图像未知结构信息的生成能力，在网络中加入跳跃连接和引入带膨胀卷积的残差块，在损失函数中引入了特征匹配损失，以生成与真实人脸结构草图更相似的结果。其次，在人脸修复网络中加入了注意力机制使修复网络在修复过程中更多关注待修复区域，并联合感知损失和风格损失进行模型训练，从而更好地重建待修复区域的面部轮廓结构和颜色纹理。最后，与几种经典网络进行了定性和定量对比实验，其结果验证了本文设计网络的有效性。此外，本文虽然能够修复正常遮挡区域下的人脸图像，但在人脸存在大幅度倾斜以及低清晰度的图像修复上还存在缺陷，这也是接下来需要重点解决的问题。

参考文献

[1] 赵露露, 沈玲, 洪日昌. 图像修复研究进展综述[J]. 计算机科学, 2021, 48(3): 14-26.

ZHAO L L, SHEN L, HONG R C. Survey on image inpainting research progress[J]. Computer Science, 2021, 48(3): 14-26.

[2] YAMAUCHIH, HABERJ, SEIDELH P. Image restoration using multiresolution texture synthesis and image inpainting[C]// Proceedings Computer Graphics International 2003. Tokyo: IEEE, 2003: 120-125.

[3] BARNES C, SHECHTMAN E, FINKELSTEIN A, et al. PatchMatch: a randomized correspondence algorithm for structural image editing[J]. ACM Transactions on Graphics, 2009, 28(3): 24.

[4] GOODFELLOWI J, POUGET-ABADIEJ, MIRZAM, et al. Generative adversarial nets[C]// Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal: MIT Press, 2014: 2672-2680.

[5] PATHAKD, KRÄHENBÜHLP, DONAHUEJ, et al. Context encoders: feature learning by inpainting[C]// Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 2536-2544. 10.1109/cvpr.2016.278

[6] IIZUKA S, SIMO-SERRA E, ISHIKAWA H. Globally and locally consistent image completion[J]. ACM Transactions on Graphics, 2017, 36(4): 107.

[7] YUJ H, LINZ, YANGJ M, et al. Generative image inpainting with contextual attention[C]// Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 5505-5514. 10.1109/cvpr.2018.00577

[8] NAZERIK, NGE, JOSEPHT, et al. EdgeConnect: generative image inpainting with adversarial edge learning[J/OL]. arXiv, 2019: 1901. 00212. 10.1109/iccvw.2019.00408

[9] YANGY, GUOX J, MAJ Y, et al. LaFIn: generative landmark guided face inpainting[J/OL]. arXiv, 2019: 1911. 11394. 10.1007/978-3-030-60633-6_2

[10] XIONGW, YUJ H, LINZ, et al. Foreground-aware image inpainting[C]// Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 5840-5848. 10.1109/cvpr.2019.00599

[11] YANGJ, QIZ Q, SHIY. Learning to incorporate structure knowledge for image inpainting[C]// Proceedings of the 34th AAAI Conference on Artificial Intelligence. New York: AAAI Press, 2020: 12605-12612. 10.1609/aaai.v34i07.6951

[12] LIAOL, XIAOJ, WANGZ, et al. Guidance and evaluation: semantic-aware image inpainting for mixed scenes[C]// Proceedings of the 16th European Conference on Computer Vision. Glasgow: Springer, 2020: 683-700. 10.1007/978-3-030-58583-9_41

[13] GUOX F, YANGH Y, HUANGD. Image inpainting via conditional texture and structure dual generation[C]// Proceedings of 2021 IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 14134-14143. 10.1109/iccv48922.2021.01387

[14] RONNEBERGERO, FISCHERP, BROXT. U-Net: convolutional networks for biomedical image segmentation[C]// Proceedings of the 18th International Conference on Medical Image Computing and Computer-assisted Intervention. Munich: Springer, 2015: 234-241. 10.1007/978-3-319-24574-4_28

[15] YUF, KOLTUNV. Multi-scale context aggregation by dilated convolutions[C]// Proceedings of the 4th International Conference on Learning Representations. San Juan: IEEE, 2016. 10.1109/cvpr.2017.75

[16] ZHENGC X, CHAMT J, CAIJ F. Pluralistic image completion[C]// Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 1438-1447. 10.1109/cvpr.2019.00153

[17] ISOLAP, ZHUJ Y, ZHOUT H, et al. Image-to-image translation with conditional adversarial networks[C]// Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 1125-1134. 10.1109/cvpr.2017.632

[18] MIYATOT, KATAOKAT, KOYAMAM, et al. Spectral normalization for generative adversarial networks[C]// Proceedings of the 6th International Conference on Learning Representations. Vancouver: OpenReview. net, 2018.

[19] JOHNSONJ, ALAHIA, FEI-FEIL. Perceptual losses for real-time style transfer and super-resolution[C]// Proceedings of the 14th European Conference on Computer Vision. Amsterdam: Springer, 2016: 694-711. 10.1007/978-3-319-46475-6_43

[20] GATYSL A, ECKERA S, BETHGEM. A neural algorithm of artistic style[J/OL]. arXiv, 2015: 1508. 06576. 10.1167/16.12.326

[21] SIMONYANK, ZISSERMANA. Very deep convolutional networks for large-scale image recognition[C]// Proceedings of the 3rd International Conference on Learning Representations. San Diego, 2015.

[22] KARRAST, AILAT, LAINES, et al. Progressive growing of GANs for improved quality, stability, and variation[C]// Proceedings of the 6th International Conference on Learning Representations. Vancouver: OpenReview.net, 2018.

[23] LIUG L, REDAF A, SHIHK J, et al. Image inpainting for irregular holes using partial convolutions[C]// Proceedings of the 15th European Conference on Computer Vision. Munich: Springer, 2018: 85-100. 10.1007/978-3-030-01252-6_6

[24] GUO J T, LIU Y. Image completion using structure and texture GAN network[J]. Neurocomputing, 2019, 360: 75-84.

[25] WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: from error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612.

[26] DOWSON D C, LANDAU B V. The Fréchet distance between multivariate normal distributions[J]. Journal of Multivariate Analysis, 1982, 12(3): 450-455.

[27] 罗仕胜, 陈明举, 陈柳, 等. 基于面部特征点的人脸图像修复网络[J]. 中国科技论文, 2021, 16(7): 729-734,742.

LUO S S, CHEN M J, CHEN L, et al. Face image inpainting network based on generative facial landmark[J]. China Sciencepaper, 2021, 16(7): 729-734, 742.

3　基于人脸结构信息引导的人脸图像修复网络

石浩德, 陈明举, 侯劲, 李兰. 基于人脸结构信息引导的人脸图像修复网络[J]. 液晶与显示, 2023, 38(2): 245. Hao-de SHI, Ming-ju CHEN, Jin HOU, Lan LI. Face image repair network based on face structure guidance[J]. Chinese Journal of Liquid Crystals and Displays, 2023, 38(2): 245.