双判别器生成对抗网络图像的超分辨率重建方法

袁飘逸; 张亚萍

doi:doi:10.3788/LOP56.231010

激光与光电子学进展, 2019, 56 (23): 231010, 网络出版: 2019-11-27

双判别器生成对抗网络图像的超分辨率重建方法下载： 1331次

Image Super-Resolution Reconstruction Method Using Dual Discriminator Based on Generative Adversarial Networks

论文大纲

袁飘逸 ^**张亚萍 ^*

作者单位

云南师范大学信息学院, 云南昆明 650500

AI 词云图 AI一句话精读 AI短摘要

注：本部分内容由 AI 自动生成，请您知悉。

摘要

提出一种可用于改进图像超分辨率重建质量的双判别器超分辨率重建网络(DDSRRN)。该网络在生成式对抗网络(GAN)的基础上增加一个判别器,将Kullback-Leibler(KL)和反向KL散度组合成一个统一的目标函数来训练两个判别器,利用这两种散度的互补统计特性,能在多模式下分散预估计密度,从而避免重建过程中网络模型的崩溃问题,提高模型训练的稳定性。针对模型损失函数的设计部分,首先使用Charbonnier损失函数来构建内容损失,利用网络中间层的特征信息来设计感知损失和风格损失,最后为缩减图像重建时间,在网络结构中引入反卷积来完成图像重建操作。实验结果表明本文方法在主观视觉上具有丰富的细节,获得了更好的主观视觉评价和客观量化评价,网络泛化能力好。

Abstract

In this study, we propose a dual discriminator super-resolution reconstruction network (DDSRRN) that can improve the super-resolution reconstruction quality of images. By adding a discriminator based on generative adversarial networks, the DDSRRN combines the Kullback-Leibler (KL) divergence and reverse KL divergence into a unified objective function for training two discriminators. Thus, the complementary statistical properties obtained from these divergences can be exploited to effectively diversify the pre-estimated density under multiple modes. Additionally, model collapse is effectively avoided during the reconstruction process, and the model training stability is improved. The model loss function can be designed based on the Charbonnier loss function to estimate the content loss. Furthermore, the intermediate features of the network are used to design the perceptual loss and style loss. Finally, a deconvolution layer is designed to reconstruct the super-resolution images, thereby reducing the image reconstruction time. The proposed method is experimentally demonstrated to provide abundant details. Thus, the proposed method exhibits good generalization ability and obtains improved subjective visual evaluation and objective quantitative evaluation.

1 引言

高分辨率(HR)图像中的像素密度高,包含有图像信号的高频成分,能够提供更多关于目标场景的细节信息^[1]。在实际生活中,受数字成像设备和硬件存储容量等因素的限制,获取到的图像分辨率往往比较低,无法满足人们的消费需求,特别是高端科技研发领域的需求,例如监测、遥感、**、医学和视频娱乐等数字成像应用领域。单幅图像超分辨率重建(SISR)是一种利用信号,从一幅低分辨率(LR)的观测图像中获取HR图像的技术^[2],这样的技术可以摆脱硬件的条件限制,从而具有广阔的发展前景。

传统图像超分辨率重建主要有两类,即基于插值的方法和基于重建的方法。基于插值的方法一般操作方便、计算量小,但在放大倍数较大时,性能不能满足人们的需求。基于重建的方法在实际应用中,获得具有强相关性的多张LR图像比较难,当受场景限制,提供的信息较少时,生成高质量的HR图像变得难上加难。

近年来,随着人工智能的迅速发展,基于卷积神经网络(CNN)和生成对抗网络(GAN)的图像超分辨率方法,由于其重建性能远远超过传统算法,因而成为当前优先选择的主流方法。Dong等^[3]首次将深度学习应用到图像超分辨率重建中,利用CNN提出一种端到端的单幅图像超分辨率的深度学习方法(SRCNN),该方法通过训练一个包括三个卷积层的网络完成图像的超分辨率重建。Kim等^[4]研究分析SRCNN^[3]后,构建了具有更深层次网络的重建模型,该算法采用VGG^[5]网络架构,构建了拥有20层的深度卷积网络,在训练过程中使用极高的学习率提升了网络收敛速度。Shi等^[6]提出比较高效的、实时的基于CNN的图像超分辨率方法,该方法的核心概念是亚像素卷积层,使用亚像素卷积层将图像从LR图像放大到HR图像。Lim等^[7]提出一种增强深度超分辨率网络(EDSRN),该网络在残差块中去除不必要的批归一化(BN)层,并且扩展该模型的大小,使得该模型取得了显著的性能。Lai等^[8]提出LapSRN,该网络是SISR问题的最新框架之一,该模型采用逐步上采样的方式重建超分辨率图像,并使用Charbonnier损失函数代替L2损失函数。

CNN模型在传统的SISR上取得了非常好的效果,可以获得较高的峰值信噪比(R_PSN),但仍存在一些尚未解决的问题^[9]:该种模型大都以均方误差(MSE)为最小化的目标函数,这样虽然可以取得较高的R_PSN,但重建得到的图像过于平滑,缺失高分辨率图像的高频细节^[10];随着网络的层数越来越多,网络也越来越深,训练越来越困难,收敛越来越慢,导致网络出现梯度消失、不稳定等情形。

受到生成式对抗网络^[11](GAN)的启发,Ledig等^[12]将GAN引入到图像超分辨率重建中,提出基于生成对抗网络的图像超分辨率重建网络(SRGAN),该网络进一步提升了超分辨率图像的视觉效果。Wang等^[13]研究SRGAN的三个关键组成部分,即网络架构、对抗性损失和感知损失,提出了增强型超分辨率生成对抗网络(ESRGAN)。在该网络结构中,作者移除了生成器结构G中的BN层,认为当训练和测试数据集的统计数据差异很大时,BN层往往会引入不适的伪影,限制了模型的泛化能力,另外去除BN层还能减少计算复杂度和内存使用量。

虽然当前GAN模型在图像处理上取得了较大的成就,能生成以假乱真的样本,但是GAN在无限建模能力的目标背后隐藏了一系列的问题。GAN在生成过程中过于自由不可控,网络训练过程模型的收敛和稳定性难以保证,故容易发生模式崩塌,进而出现无法继续训练的情况。因此,本文在SRGAN的基础上,提出一个双判别器超分辨率重建网络(DDSRRN),通过增加另一个判别器,将Kullback-Leibler(KL)散度和反向KL散度组合成一个统一的目标函数,利用这两种散度的互补统计特性来捕获多模式中的估计密度多样化,从而有效地避免模式崩溃,进而提高训练的稳定性。

2 双判别器超分辨率重建网络

DDSRRN的双判别器思想来源于D2GAN^[14],它由两个判别器D₁和D₂,以及一个生成器G组成,两个判别器仍然与一个生成器一起进行极大极小的博弈。首先,生成器网络产生的数据欺骗两个判别器。训练网络时,给定数据样本空间x,如果x在真实数据集的数据分布p_data中,则D₁(x)判别结果输出高分,而D₂(x)获得低分;相反地,如果x在生成器生成的数据分布p_G中,则D₂(x)判别输出高分,D₁(x)获得低分。与GAN不同的是,双判别器网络得分的表现形式为正实数而不是[0,1]中的概率。采用DDSRRN这种结构设计,两个判别器与生成器之间可以进行交流,进行知识的共享,提高网络整体的学习能力,从而产生高质量的图像。DDSRRN模型结构如图1和图2所示。判别器的损失函数L_D1和L_D2分别为

\begin{matrix} \begin{matrix} L_{D 1} = α \times E_{x ~ pdata} [\ln D_{1} (x)] + E_{x ~ pG} \{- D_{1} [G (x)]}, (1) \\ L_{D 2} = E_{x ~ pdata} [- D_{2} (x)] + β \times E_{x ~ pG} {\ln D_{2} [G (x)]}, (2) \end{matrix} \end{matrix}

图 1. DDSRRN的生成器模型结构

Fig. 1. Generator model structure of DDSRRN

下载图片查看所有图片

图 2. DDSRRN的判别器模型结构

Fig. 2. Discriminator model structure of DDSRRN

下载图片查看所有图片

式中:α和β表示为稳定双判别器网络模型的学习引入的超参数;E_x_~_p_data和E_x_~_p_G分别表示x在真实数据域中的期望和在生成数据域中的期望;x表示数据样本空间;x~p_data表示输入的x服从真实数据集的数据分布p_data;x~p_G表示输入的x服从生成器生成的数据分布p_G;p_G表示生成器生成的数据分布;p_data表示真实数据集的数据分布。DDSRRN可以通过交替更新G、D₁和D₂来训练。

2.1 网络模型

如图1所示,改进的生成器网络的参数设置和网络结构与SRGAN略有不同。具体来说,网络G分为特征提取、残差函数的非线性映射和图像重建3个部分。其中Conv表示常规卷积,ReLU表示修正线性单元激活函数,elementwise表示未经过卷积的数据和经过卷积之后的数据相加,deConv2d表示反卷积,tanh表示双曲正切激活函数,SR表示超分辨率图像,HR表示高分辨率图像。

1) 特征提取

首先输入低分辨率图像,然后进入2层卷积网络进行特征提取操作,为了扩大特征提取的感知范围,第一层卷积层使用64个5×5大小的卷积核。第一层卷积层提取特征的操作为

\begin{matrix} F_{- 1} = H_{FE 1} (I_{LR}) = \max (0, W * I_{LR} + B), (3) \end{matrix}

式中:H_FE1(·)表示特征提取操作;F_-1表示第一层卷积网络提取特征的输出,用于提取进一步的浅层特征;I_LR表示网络输入的低分辨率图像;*表示卷积操作;W表示一组滤波器,其大小为c×n×f×f,c表示所处理图像的颜色通道数,本文取c=3,n表示卷积层滤波器的数量,f×f表示该卷积层的卷积核大小;B表示偏置向量,维度为n维;max(0,x)表示卷积层提取特征后使用ReLU。

第二层卷积层使用64个3×3大小的卷积核,第二层使用较小的卷积核,能够为网络提供更深的感受野,能够更好地提取到图像的细节信息,至此对LR图像完成二维卷积操作,提取图像的特征信息。第二层卷积层提取特征的操作为

\begin{matrix} F_{0} = H_{FE 2} (F_{- 1}), (4) \end{matrix}

式中:H_FE2表示第二层特征提取卷积层;F₀表示第二层卷积网络提取特征的输出,用于残差块的输入。

2) 残差函数的非线性映射

He等^[15]提出的残差网络ResNet,能有效地避免网络随着深度的增加而产生的权重衰减、梯度衰减、梯度消失等问题,因此该网络能在低级以及高级计算机视觉任务中表现出优异的网络性能。在本文方法中,采用ResNet中的残差学习思想以及跳跃连接,构成残差块结构。

在生成器G中,采用16个相同布局的残差块,每个残差块包含三个卷积层,每层由64个3×3大小的卷积核构成,并使用ReLU作为激活函数。残差块函数定义为

\begin{matrix} F_{b} = H_{RB, b} (F_{b - 1}, W) + F_{0}, (5) \end{matrix}

式中:F_b表示第b个残差块的输出结果;H_RB,_b(F_b_-1,W)表示待学习的残差映射;F₀表示经前两个卷积层输出的特征图像。

3) 图像重建

最后通过训练两个反卷积层来输出HR图像。反卷积操作的输出则为输入的S倍,当S等于放大因子时,通过反卷积层操作可直接输出所需尺寸的SR图像,这降低了网络计算的复杂度。图像重建过程为

\begin{matrix} I_{SR} = F_{SR} [F_{b}], (6) \end{matrix}

式中:I_SR表示网络输出的SR图像;F_SR[·]表示反卷积操作。

如图2所示,判别器网络模型首先输入待判别的图像数据,经过6层的卷积网络层提取图像特征,其中Conv(n,f,s)表示n个f×f大小的卷积核,s表示卷积核的步幅大小。例如,在判别器的第一层卷积层中,使用64个5×5大小的卷积核,其通过步幅因子大小为2执行卷积。为增大局部感受野,判别器前三层卷积网络采用5×5尺寸大小的卷积核,后三层卷积网络采用3×3尺寸大小的卷积核,卷积层之后接leaky ReLU激活函数;然后采用扁平化层(flatten)将图像数据的维度压平,即把三维图像的输入一维化;最后经过全连接层(dense)后经非线性作用函数(sigmoid)输出判别结果为HR图像或者SR图像。

2.2 模型训练

在经典的生成对抗网络中,会存在梯度不稳定、生成器生成样本的多样性与准确性不足的模式崩溃的问题;在近似最优判别器的情况下,会导致生成器的损失值梯度消失。针对这些问题,本文对其进行相应的优化处理。

模式崩溃的根本原因是最小化生成器损失函数等价于最小化一个不合理的距离衡量,本质上是使用了JS和KL散度来衡量p_G与p_data的差异。由JS的不连续性导致模式崩溃。当二者的样本分布无任何重叠部分或者重叠部分可以忽略时,JS散度无法将p_G样本分布“拉向”p_data样本分布。为了让p_G与p_data的样本分布有重叠部分,本文将KL散度和反向KL散度组合成一个统一的目标函数,利用这些偏差的互补统计特性来有效地捕获多模式中的估计密度多样化,通过优化生成器可以减少数据分布与生成器产生的数据分布之间的KL和反向KL差异。对于梯度消失问题,采用对生成器预训练的方式,确保生成器能够获得有效的梯度。

为进一步提高GAN对数据特征的学习能力,提高生成对抗网络生成图像的真实感,本文引入更为多样化的损失函数,取代了在传统的GAN中判别器对生成器生成图像的简单判断。

由于本文双判别器网络模型去掉了BN层,为避免损失函数过大,在判别器损失函数中引用WGAN-GP^[16]的梯度惩罚。梯度惩罚函数为

\begin{matrix} \begin{matrix} L_{gp 1} = \frac{1}{T} \overset{T}{\sum_{t = 1}} λ_{gp} {\{\sqrt[]{\overset{R}{\sum_{r = 1}} \{\nabla D_{1} [A {(x, y)]}}_{r}^{2}} - 1\}}_{t}^{2}, (7) \\ L_{gp 2} = \frac{1}{T} \overset{T}{\sum_{t = 1}} λ_{gp} {\{\sqrt[]{\overset{R}{\sum_{r = 1}} \{\nabla D_{2} [A {(x, y)]}}_{r}^{2}} - 1\}}_{t}^{2}, (8) \end{matrix} \end{matrix}

式中:A(x,y)=y+U(y[0],1)×[G(x)-y],U(·)表示均匀分布,也就是y均匀分布的结果乘上生成器生成的结果与原高分辨率图像y之差,A(x,y)表示高分辨率图像y和生成器生成的超分辨率图像G(x)的随机插值以后的结果;λ_gp表示梯度惩罚系数; $\begin{matrix} \sqrt[]{\overset{R}{\sum_{r = 1}} {\nabla D [A {(x, y)]}}_{r}^{2}} \end{matrix}$ 表示计算梯度的各个维度上元素的总和;ÑD₁[A(x,y)]、ÑD₂[A(x,y)]分别表示判别器D₁与判别器D₂在A(x,y)上的梯度;r表示梯度中某一维度的第r个元素;R表示梯度中某一维度总元素个数;t表示结果集中的第t个元素;T表示结果集中的总元素个数。

为得到SR重建模型,需对建立好的DDSRRN进行训练。为得到生成器和判别器的客观损失函数,需要分别设计DDSRRN的内容损失、对抗损失、感知损失及风格损失。

2.2.1 内容损失

设计内容损失的目的是确保生成器构建图像的低频部分的正确性。早期的网络主要采用L2损失函数,Wang等^[17]认为L2 损失函数具有很好的优化特性,能直接优化R_PSN值。但是,Zhao等^[18]对SR目标函数的性能影响进行了定量和定性的广泛调查。L2损失比L1损失能更好地恢复图像高频边缘信息,但是它在普通区域会留下斑点伪影;而另一方面,L1损失能以更清晰的边缘恢复为代价函数祛除斑点伪影,但是重建时间长。和L1、L2损失函数对比,本文使用的Charbonnier损失函数所需的训练时间更少,且重建图像的R_PSN值较高。Charbonnier损失可表示为

\begin{matrix} L_{con} (x, y) = λ_{c} E_{x, y ~ pdata (x, y)} {ρ [y - G (x)]}, (9) \end{matrix}

式中:x表示经过插值下采样的LR图像;y是真实高分辨率图像;λ_c为超参数; ρ[y-G(x)]= $\begin{matrix} \sqrt[]{[y - G {(x)]}^{2} + ε^{2}} \end{matrix}$ 是Charbonnier损失函数的惩罚函数^[19],ε为常数项,在本文中ε的取值为ε=10^-8;G(x)表示生成器生成的SR图像;L_con(x,y)表示图像重建时的内容损失;p_data(x,y)表示真实样本集{x,y}的数据分布;E_x_,_y_~_p_data(_x_,_y₎表示x,y在数据分布p_data(x,y)下的数学期望。

2.2.2 对抗损失

对抗损失就是生成器生成的图像与真实图像之间的一种差距。该值越大表明生成图像的效果越不好,需要生成器通过判别器返回来的参数来进行自身优化,生成更为逼真的图像,为此需提出一种让生成器欺骗两个判别器来生成真实图像的解决方案。在DDSRRN对抗训练阶段,先固定生成器G的权重参数,再去训练判别器D;D训练好以后,再固定D的参数,去优化G,目的就是让G生成的数据使D给出高分;依次交替执行,待最终的G参数没有太大变化以后,结束训练。在DDSRRN对抗训练过程中,判别器D₁和D₂都会接受G所生成的数据,然后给出一个分值,生成器G的目的就是让D₁和D₂都给高分,起初G只会盲目的生成图像,并不知道怎么做才能生成好的数据,而D₁看到该数据以后并不会告诉G怎么做,而是给出一个好与不好的结果。相反地,D₂不仅要告诉G该数据是好是坏,还告诉G怎么做才能生成更好的数据,减小G生成数据与真实数据的差距。

因此,判别器D₁会加大真实样本数据的权重,降低假样本数据的权重,判别器D₂在估计D₁的权重参数的基础上去优化生成器G的权重参数,使之更具逼真性。因为判别器D₁注重真实样本权重的参数调节,而判别器D₂是在D₁权重参数的基础上去优化调节生成器G的权重参数,目的是让其变化范围越来越小,故对判别器D₂采用取对数的方法来降低数值取值范围,让网络达到很好的收敛。因此DDSRRN的对抗损失L_adv表示为

\begin{matrix} L_{adv} (G, D_{1}, D_{2}) = E_{x ~ pG} \{- D_{1} [G (x)] + β \times \ln D_{2} [G (x)]} 。 (10) \end{matrix}

2.2.3 感知损失

常用的基于VGG网络的感知损失并不能充分捕捉SISR任务中所需图像的高频细节,并且使用VGG网络将会带来大量的网络模型计算复杂度。因此本文引用SRPGAN^[20]中的感知损失,通过重用由判别器和生成器提取出的网络中间层的特征来减少感知损失的计算量。具体过程如下:获取生成器生成的数据经过两个判别器的每一层卷积层之后的结果与真实数据经过两个判别器的每一卷积之层后的结果作为中间层来计算,然后通过对生成器网络和判别器网络提取的中间层用L1损失函数计算网络的感知损失。

\begin{matrix} \begin{matrix} L_{per 1} = \overset{N}{\sum_{i = 1}} E_{x, y ~ pda t a (x, y)} \{‖ ϕ_{1 i} (y) - ϕ_{i} [G (x)] ‖\}, (11) \\ L_{per 2} = \overset{N}{\sum_{i = 1}} E_{x, y ~ pdata (x, y)} \{‖ ϕ_{2 i} (y) - ϕ_{i} [G (x)] ‖\}, (12) \end{matrix} \end{matrix}

式中:N表示网络的中间层数;ϕ₁_i(·)和ϕ₂_i(·)分别表示判别器D₁和判别器D₂的第i个经激活函数后的卷积层在判别器网络和生成器网络中计算的中间层的特征映射;y表示真实HR图像;G(x)表示由生成器网络重建的SR图像;L_per1和L_per2分别表示由判别器D₁、判别器D₂和生成器网络提取的中间层用L1 损失函数计算网络的感知损失。

2.2.4 风格损失

为了将分辨率提高4倍,生成器网络残差块后面接两个反卷积层,反卷积对上一个卷积层提取的特征进行上采样和聚合操作,因为反卷积上采样是直接通过学习LR图像和HR图像之间的端到端映射,因此可以大大缩减网络重建图像的时间。但是采用反卷积容易使生成器生成的图像出现棋盘效应和鱼鳞效应,即当反卷积核移动的步长小于边长时,会出现反卷积核与输入数据作用区域上的重叠,产生不同幅度的“棋盘”伪影。具体效应如图3所示。

图 3. 反卷积上采样结构的可视化棋盘伪影图像

Fig. 3. Visualized checkerboard artifact images of deconvolution upsampling structure

下载图片查看所有图片

为祛除或消减这类效应,引用Liu等^[21]的Style损失函数,该函数计算风格损失时涉及的内容较多,但为遵循相同的原则,需要为网络提供基本输入图像和生成图像的原始中间输出。在对风格损失使用L1损失函数之前,需要得到判别器网络与生成器网络这两个网络卷积层后的中间层输出的特征映射图的gram矩阵,而非基本输入图像和生成图像的原始中间输出。对于一张c×h×w的图像,c表示卷积核的通道数,h×w表示卷积核通过学习后输出的h×w大小的feature map,gram矩阵的值代表feature map的互相关程度。然后对生成器网络和判别器网络提取的中间层的gram矩阵值用L1损失函数计算网络的风格损失,具体表达式为

\begin{matrix} \begin{matrix} L_{style 1} = \overset{N}{\sum_{i = 1}} E_{x, y ~ pdata (x, y)} ‖ k_{i} {[Ψ_{1 i} (y)]}^{T} Ψ_{1 i} (y) - Ψ_{i} {[G (x)]}^{T} Ψ_{i} [G (x)] ‖_{1}, (13) \\ L_{style 2} = \overset{N}{\sum_{i = 1}} E_{x, y ~ pdata (x, y)} ‖ k_{i} {[Ψ_{2 i} (y)]}^{T} Ψ_{2 i} (y) - Ψ_{i} {[G (x)]}^{T} Ψ_{i} [G (x)] ‖_{1}, (14) \end{matrix} \end{matrix}

式中:N表示网络的中间层数;k_i= $\begin{matrix} \frac{1}{w_{i} h_{i} c_{i}} \end{matrix}$ 表示网络第i个所选中间层的归一化因子;Ψ_i(·)表示第i个经激活函数后的卷积层在判别器网络和生成器网络中提取的中间层特征映射的gram矩阵值;y表示真实HR图像,G(x)表示由生成器网络重建的SR图像;L_style1和L_style2分别表示经判别器D₁和判别器D₂的风格损失。

最后使用另一种优化方法来优化生成器网络G和判别器网络D₁和D₂。结合各个损失函数及其训练参数,便可训练整个网络,具体定义为

\begin{matrix} \begin{matrix} L_{d ⁃ total} = - (L_{D 1} + L_{D 2}) + (L_{gp 1} + L_{gp 2}) + α_{pd} (L_{per 1} + L_{per 2}), (15) \\ L_{g ⁃ total} = L_{con} + L_{adv} + α_{pg} (L_{per 1} + L_{per 2}) + λ_{s} (L_{style 1} + L_{style 2}), (16) \end{matrix} \end{matrix}

式中:L_d-total和L_g-total分别表示训练判别器的总损失函数和训练生成器的总损失函数;α_pd、α_pg和λ_s分别表示权衡训练判别器网络中的感知损失的超参数、权衡训练生成器网络中的感知损失的超参数和权衡风格损失的超参数。

3 实验结果与分析

实验数据集:文中使用的训练数据集为DIV2K数据集^[22],其包含800张训练图像,100张验证图像和100张测试图像。由于测试数据集资料尚未发布,因此将DIV2K的验证数据集和基准数据集中的Set5^[23]、Set14^[24]、BSD100^[25]作为测试数据集。训练网络时,将HR图像双三次下采样4倍以创建用于训练的输入LR图像。

网络训练:生成器网络使用AdamOptimizer优化器,β₁是AdamOptimizer优化器中的一个参数,表示一阶矩阵估计的指数衰减因子。判别器使用Stochastic Gradient Descent Optimizer优化器,学习率初始值设为10^-4,随着训练的进行,学习率会不断下降。其中网络训练过程中涉及到的超参数分别取值为α=1.0,β=1.0,α_pg=100,α_pd=10,λ_s=50,ε=10^-8,λ_gp=10,λ_c=10。

实验运行环境的硬件设备参数为AMD Ryzen 7 1700 3.0 GHz 8核处理器,16 GB内存, NVIDIA GTX 1060(6 G)显卡;涉及的相关软件版本为Anaconda3-5.2.0-Windows-x86_64,cuda_9.0.176_win10,Spyder(Python3.5)。

质量评价:选用峰值信噪比R_PSN和结构相似度(S_SIM)对实验结果进行评价。R_PSN通过比较两幅图像对应像素点的灰度值差异来评估图像的好坏,R_PSN值越高,说明失真越小;S_SIM则从亮度、对比度和结构这三个方面来评估两幅图像的相似性,S_SIM越逼近1,说明处理后的图像结构与原图结构近似,即生成的结果图更好。他们的具体表达式分别为

\begin{matrix} R_{PSN} (X, Y) = 10 \lg \frac{255^{2} \times w \times h \times c}{\overset{w}{\sum_{m = 1}} \overset{h}{\sum_{n = 1}} \overset{c}{\sum_{z = 1}} [X (m, n) - Y {(m, n)]}^{2}}, (17) \end{matrix}

式中:X表示原始HR图像;Y表示生成器重建SR图像;c表示图像的通道数;w与h分别表示图像的宽度和高度;m表示图像宽度上第m个像素;n表示图像高度上第n个像素;z表示3原色通道中第z个通道。

\begin{matrix} S_{SI M} (X, Y) = \frac{(2 μ_{X} μ_{Y} + C_{1}) (2 σ_{XY} + C_{2})}{(μ_{X}^{2} + μ_{Y}^{2} + C_{1}) (σ_{X}^{2} + σ_{Y}^{2} + C_{2})}, (18) \end{matrix}

式中:μ_X表示X的平均值,μ_Y表示Y的平均值; $\begin{matrix} σ_{X}^{2} \end{matrix}$ 表示X的方差, $\begin{matrix} σ_{Y}^{2} \end{matrix}$ 表示Y的方差,σ_XY表示X与Y的协方差;C₁= $\begin{matrix} (K_{1} {L)}^{2} \end{matrix}$ 、C₂= $\begin{matrix} (K_{2} {L)}^{2} \end{matrix}$ 两个变量用来维持稳定,L表示图像像素的动态范围,K₁=0.01与K₂=0.03表示默认值。

实验结果: 在DIV2K验证集和基准数据集中的Set5、Set14、BSD100四个数据集上对本文网络DDSRRN进行测试,选取Bicubic、SRCNN^[3]、ESPCN^[6]、RDN^[26]、EDSR^[7]和SRGAN^[12]这6种算法进行对比。为保证测试的公平性,针对SRCNN使用Caffe框架进行实验;针对SRGAN、ESPCN和本文DDSRRN模型,实验使用Tensorflow框架;针对RDN和EDSR模型,实验使用Pytorch框架。R_PSN和S_SIM实验统计数据对比结果如表1所示,DDSRRN与SRGAN模型在DIV2K数据集上的R_PSN与S_SIM表现的直观趋势对比如图4所示。最后,从测试集中选取部分结果图像的细节放大效果图像对比,如图5~7所示,能够从视觉效果上直观地评估各种SISR方法重建图像的质量。与SRGAN模型方法相比,可以看出DDSRRN重建的图像细节更丰富,更接近于真实图像。

图 4. DDSRRN与SRGAN模型在DIV2K验证集上的R_PSN与S_SIM表现对比。(a) R_PSN值;(b) S_SIM值

Fig. 4. Comparison of S_PSN and S_SIM between DDSRRN and SRGAN models on DIV2K validation set. (a) S_PSN;(b) S_SIM

下载图片查看所有图片

从图4可以看出,DDSRRN模型的R_PSN与S_SIM值有明显提高,表明采用DDSRRN模型生成的图像比SRGAN模型生成的图像更具真实感。

从表1可以看出,在4×放大重建尺度因子下,DDSRRN的R_PSN值和S_SIM值明显高于Bicubic、SRCNN和SRGAN。但DDSRRN在Set5,Set14,BSD100的数据集上部分RPSN值和SSIM值低于EDSR和RDN方法,而在DIV2K数据集上,DDSRRN能取得良好的视觉效果和评价指标。

从DIV2K数据集中选择“0846”建筑物图像,从Set5数据集中选择“Baby”图像和“Butterfly”图像来展示各种方法的可视化效果对比。从结果来看,DDSRRN构建的图像在感知质量上具有显著的增益。为更好地可视化DDSRRN的有效性,可选择图像中具有丰富细节的区域来进行放大可视化。从细节处可以看出ESPCN重建的图像显示出大量的色彩失真;而对于EDSR和RDN,虽然重建的图像结构清晰,但它们与HR图像相比,出现过于模糊和平滑现象;在SRCNN重建的图像中出现振铃现象和模糊,边缘结构不清晰;SRGAN重建的图像出现“棋盘伪影”现象,虽然其感知质量达到了人类的视觉效果,但其边缘细节处理不够。从图5~7中可以看出,本文DDSRRN比其他方法能更好地重建出具有良好感知质量且令人满意的图像。

表 1. 各模型在基准数据集和DIV2K验证集上的平均性能比较

Table 1. Average performance of each model on baseline dataset and DIV2K validation set

Dataset	Amplificationfactor	Bicubic		SRGAN		ESPCN		SRCNN		EDSR		RDN		DDSRRN
Dataset	Amplificationfactor	R_PSN	S_SIM	R_PSN	S_SIM	R_PSN	S_SIM	R_PSN	S_SIM	R_PSN	S_SIM	R_PSN	S_SIM	R_PSN	S_SIM
Set5Set14BSD100DIV2K	4444	28.43 0.79826.01 0.70425.97 0.67026.66 0.749		29.07 0.67128.02 0.64527.17 0.60128.64 0.623		30.07 0.80928.65 0.71427.45 0.70627.78 0.795		28.97 0.80527.49 0.75026.90 0.71027.78 0.775		32.62 0.89728.80 0.78727.71 0.74229.38 0.903		32.61 0.89928.81 0.78627.78 0.74329.97 0.806		29.94 0.81428.97 0.75128.05 0.71330.04 0.799

查看所有表

图 5. DIV2K数据集中“0846”建筑物4×重建对比图

Fig. 5. Comparison of ”0846” building reconstruction with magnification of 4 in DIV2K dataset

下载图片查看所有图片

图 6. Set5数据集中“Baby”4×重建对比图

Fig. 6. Comparison of ”Baby” reconstruction in Set5 dataset

下载图片查看所有图片

图 7. Set5数据集中“Butterfly”4×重建对比图

Fig. 7. Comparison of “Butterfly” reconstruction with magnification of 4 in Set5 dataset

下载图片查看所有图片

4 结论

在D2GAN与SRGAN的基础上,针对SISR任务设计出一个判别器超分辨率重建网络,通过增加一个判别器,利用KL与反KL散度设计目标函数。与传统的GAN设计的JS散度目标函数相比,本文方法重建效果显著,生成器能够学习得更好,但从所有生成的样本图像中来看,生成器并不完美。通过多次训练实验发现,本文模型在非线性图像上表现良好,但当网络训练到一定程度时,针对城市现代建筑物、大面积带毛动物等风格图像依旧会产生由反卷积上采样带来的伪影现象。本文模型在这些图像上的表现不具优势,所以偶尔会在图像重建时出现失真现象。下一步的研究重点将继续优化本文目标函数算法和网络框架模型,使重建的高分辨率图像与真实的高分辨率图像在高层次的抽象特征上更接近,这也是目前基于学习的图像超分辨率重建所共同面对的问题。

参考文献

[1] Park S C, Park M K, Kang M G. Super-resolution image reconstruction: a technical overview[J]. IEEE Signal Processing Magazine, 2003, 20(3): 21-36.

[2] Subhasis C. Super-resolution imaging[M]. The springer international series in engineering and computer science. New York: Springer Science+Business Media, 2001, 632: XIV, 280.

[3] DongC, Loy CC, He KM, et al. Learning a deep convolutional network for image super-resolution[M] ∥Fleet D, Pajdla T, Schiele B, et al. Computer vision-ECCV 2014. Lecture notes in computer science. Cham: Springer, 2014, 8692: 184- 199.

[4] KimJ, Lee JK, Lee KM. Deeply-recursive convolutional network for image super-resolution[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 26-July 1, 2016, Las Vegas, Nevada. New York: IEEE, 2016: 1637- 1645.

[5] SimonyanK, Zisserman A. Very deep convolutional networks for large-scale image recognition[J/OL]. ( 2015-04-10)[2019-05-12]. https:∥arxiv.org/abs/1409. 1556.

[6] Shi WZ, CaballeroJ, HuszarF, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 1874- 1883.

[7] LimB, SonS, KimH, et al. Enhanced deep residual networks for single image super-resolution[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 1132- 1140.

[8] Lai WS, Huang JB, AhujaN, et al. Deep Laplacian pyramid networks for fast and accurate super-resolution[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 5835- 5843.

[9] Sønderby CK, CaballeroJ, TheisL, et al. Amortised MAP inference for image super-resolution[J/OL]. ( 2017-02-21)[2019-05-12]. https:∥arxiv.org/abs/1610. 04490.

[10] DahlR, NorouziM, ShlensJ. Pixel recursive super resolution[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 5439- 5448.

[11] Goodfellow IJ, Pouget-AbadieJ, MirzaM, et al. Generative adversarial nets[C]∥Proceedings of the 27th International Conference on Neural Information Processing Systems, December 4-9, 2017, Long Beach, CA, USA. Canada: NIPS, 2017.

[12] LedigC, TheisL, HuszarF, et al. Photo-realistic single image super-resolution using a generative adversarial network[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 4681- 4690.

[13] Wang XT, YuK, Wu SX, et al. ESRGAN: enhanced super-resolution generative adversarial networks[M] ∥Leal-Taixé L, Roth S. Computer vision-ECCV 2018 Workshops. Lecture notes in computer science. Cham: Springer, 2019, 11133: 63- 79.

[14] Nguyen TD, LeT, VuH, et al. Dual discriminator generative adversarial nets[C]∥Proceedings of the 27th International Conference on Neural Information Processing Systems, December 4-9, 2017, Long Beach, CA, USA. Canada: NIPS, 2017.

[15] He KM, Zhang XY, Ren SQ, et al. Identity mappings in deep residual networks[M] ∥Leibe B, Matas J, Sebe N, et al. Computer vision-ECCV 2016. Lecture notes in computer science. Cham: Springer, 2016, 9908: 630- 645.

[16] GulrajaniI, AhmedF, ArjovskyM, et al. Improved training of Wasserstein GANs[C]∥Proceedings of the 27th International Conference on Neural Information Processing Systems, December 4-9, 2017, Long Beach, CA, USA. Canada: NIPS, 2017.

[17] Wang Z, Bovik A C. Mean squared error: love it or leave it? A new look at signal fidelity measures[J]. IEEE Signal Processing Magazine, 2009, 26(1): 98-117.

[18] Zhao H, Gallo O, Frosio I, et al. Loss functions for image restoration with neural networks[J]. IEEE Transactions on Computational Imaging, 2017, 3(1): 47-57.

[19] Bruhn A, Weickert J, Schnörr C. Lucas/Kanade meets Horn/Schunck: combining local and global optic flow methods[J]. International Journal of Computer Vision, 2005, 61(3): 211-231.

[20] Wu BZ, Duan HD, Liu ZC, et al. SRPGAN: perceptual generative adversarial network for single image super resolution[J/OL]. ( 2017-12-20)[2019-05-12]. https:∥arxiv.org/abs/1712. 05927.

[21] Liu GL, Reda FA, Shih KJ, et al. Image inpainting for irregular holes using partial convolutions[M] ∥Ferrari V, Hebert M, Sminchisescu C, et al. Computer vision-ECCV 2018. Lecture notes in computer science. Cham: Springer, 2018, 11215: 89- 105.

[22] AgustssonE, TimofteR. NTIRE 2017 challenge on single image super-resolution: dataset and study[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 1122- 1131.

[23] BevilacquaM, RoumyA, GuillemotC, et al. Neighbor embedding based single-image super-resolution using Semi-Nonnegative Matrix Factorization[C]∥2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), March 25-30, 2012, Kyoto, Japan. New York: IEEE, 2012: 1289- 1292.

[24] YuanY, Liu SY, Zhang JW, et al. Unsupervised image super-resolution using cycle-in-cycle generative adversarial networks[C]∥2008 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, June 18-22, 2018, Salt Lake City, Utah. New York: IEEE, 2018: 814- 823.

[25] MartinD, FowlkesC, TalD, et al. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics[C]∥Proceedings Eighth IEEE International Conference on Computer Vision. ICCV 2001, July 7-14, 2001, Vancouver, BC, Canada. New York: IEEE, 2001: 416- 423.

[26] Zhang YL, Tian YP, KongY, et al. Residual dense network for image restoration[J/OL]. ( 2018-12-25)[2019-05-12]. https:∥arxiv.org/abs/1812. 10477.

袁飘逸, 张亚萍. 双判别器生成对抗网络图像的超分辨率重建方法[J]. 激光与光电子学进展, 2019, 56(23): 231010. Piaoyi Yuan, Yaping Zhang. Image Super-Resolution Reconstruction Method Using Dual Discriminator Based on Generative Adversarial Networks[J]. Laser & Optoelectronics Progress, 2019, 56(23): 231010.

双判别器生成对抗网络图像的超分辨率重建方法下载： 1331次

1 引言

2 双判别器超分辨率重建网络

图 1. DDSRRN的生成器模型结构

Fig. 1. Generator model structure of DDSRRN

图 2. DDSRRN的判别器模型结构

Fig. 2. Discriminator model structure of DDSRRN

2.1 网络模型

2.2 模型训练

图 3. 反卷积上采样结构的可视化棋盘伪影图像

Fig. 3. Visualized checkerboard artifact images of deconvolution upsampling structure

3 实验结果与分析

图 4. DDSRRN与SRGAN模型在DIV2K验证集上的R_PSN与S_SIM表现对比。(a) R_PSN值;(b) S_SIM值

Fig. 4. Comparison of S_PSN and S_SIM between DDSRRN and SRGAN models on DIV2K validation set. (a) S_PSN;(b) S_SIM

表 1. 各模型在基准数据集和DIV2K验证集上的平均性能比较

Table 1. Average performance of each model on baseline dataset and DIV2K validation set

图 5. DIV2K数据集中“0846”建筑物4×重建对比图

Fig. 5. Comparison of ”0846” building reconstruction with magnification of 4 in DIV2K dataset

图 6. Set5数据集中“Baby”4×重建对比图

Fig. 6. Comparison of ”Baby” reconstruction in Set5 dataset

图 7. Set5数据集中“Butterfly”4×重建对比图

Fig. 7. Comparison of “Butterfly” reconstruction with magnification of 4 in Set5 dataset

4 结论

Article Outline

关于本站 Cookie 的使用提示

全站搜索

双判别器生成对抗网络图像的超分辨率重建方法 下载： 1331次

1 引言

2 双判别器超分辨率重建网络

图 1. DDSRRN的生成器模型结构

Fig. 1. Generator model structure of DDSRRN

图 2. DDSRRN的判别器模型结构

Fig. 2. Discriminator model structure of DDSRRN

2.1 网络模型

2.2 模型训练

图 3. 反卷积上采样结构的可视化棋盘伪影图像

Fig. 3. Visualized checkerboard artifact images of deconvolution upsampling structure

3 实验结果与分析

图 4. DDSRRN与SRGAN模型在DIV2K验证集上的RPSN与SSIM表现对比。(a) RPSN值;(b) SSIM值

Fig. 4. Comparison of SPSN and SSIM between DDSRRN and SRGAN models on DIV2K validation set. (a) SPSN;(b) SSIM

表 1. 各模型在基准数据集和DIV2K验证集上的平均性能比较

Table 1. Average performance of each model on baseline dataset and DIV2K validation set

图 5. DIV2K数据集中“0846”建筑物4×重建对比图

Fig. 5. Comparison of ”0846” building reconstruction with magnification of 4 in DIV2K dataset

图 6. Set5数据集中“Baby”4×重建对比图

Fig. 6. Comparison of ”Baby” reconstruction in Set5 dataset

图 7. Set5数据集中“Butterfly”4×重建对比图

Fig. 7. Comparison of “Butterfly” reconstruction with magnification of 4 in Set5 dataset

4 结论

Article Outline

相关论文

相关资讯

关于本站 Cookie 的使用提示

全站搜索

双判别器生成对抗网络图像的超分辨率重建方法下载： 1331次

图 4. DDSRRN与SRGAN模型在DIV2K验证集上的R_PSN与S_SIM表现对比。(a) R_PSN值;(b) S_SIM值

Fig. 4. Comparison of S_PSN and S_SIM between DDSRRN and SRGAN models on DIV2K validation set. (a) S_PSN;(b) S_SIM