基于生成对抗网络与自校准卷积的行人重识别 下载: 555次
1 引言
行人重识别[1],也称行人再识别,是指给定一个摄像头拍摄的行人图像,从其他视野可能重叠但视角不同的多个摄像头捕获的大量图像中重新识别该行人的过程,也可将其理解为图像检索,其在智能视频监控、刑侦等领域有着非常广阔的应用前景,也是近年来计算机视觉领域的研究热点。
在实际监控环境中,行人重识别面临着遮挡、跨模态和样本量少等问题。不同位置部署的摄像头具有较大的环境差异,拍摄到的行人图片往往背景杂乱且存在遮挡问题。跨模态的行人重识别主要为了解决行人的RGB图像和红外图像等不同模态下图像的交叉模态变化问题。相对于有监督学习,无监督的行人重识别任务不需要大量的有标签样本,其主要挑战在于学习样本图像中无标签的判别性特征识别。在实际场景中,现有技术无法有效地解决上述的各种挑战,行人重识别任务依然是国内外专家学者高度关注和广泛研究的重点。
为应对背景、光照和分辨率等因素造成相机采集到的行人图像在外观和风格上有差异的问题,文献[2-5]尝试用不同的方法去解决行人图像风格差异的问题。经典的方法包括KissMe[2]和XQDA[3]等,其中,KissMe算法使用似然比检验来判断两张图片之间的差异程度;XQDA算法利用高斯模型分别拟合类内和类间样本特征的差值分布,再使用对数似然比推导出马氏距离。深度学习的方法包括SVDNet[4]和TripletNet[5]等,其中,SVDNet算法利用正交性约束提升特征向量的表达能力;TripletNet算法由三个相同且彼此参数共享的前馈神经网络组成,分别计算正样本、负样本与候选样本的欧氏距离。以上方法都是在不同相机之间提取同一行人的不变性特征,但往往无法充分挖掘样本分布中更加丰富的其他特征信息。
另外一种思路则是通过扩充数据集的方式减小图像风格的差异性。但这种方法仍然存在一个问题,虽然利用扩充后的数据集能够提升识别的各项指标,但大规模的人工标注成本非常高。为了解决人工标注问题,文献[6-7]提出了多种数据扩充和正则化方法。其中,文献[6]使用DCGAN[8]生成未标记的样本,并为它们分配统一的标签以提高CNN模型的辨别能力。与文献[6]相反,Zhu等在文献[8]中提出的CycleGAN实现了对不同风格的图像进行转换,且风格转换的样本是从真实数据中产生的。因此只向训练集中添加更多的样本,而不重新标注新的数据,这样既能解决数据少的问题,也避免了标注成本的增加。除此之外,与此类似的生成对抗网络还有DualGAN[9]和DiscoGAN[10]等。
同时,行人重识别的准确率很大程度上也取决于行人的特征信息,行人特征信息获取越全面,重识别的效果就越好。文献[11]提出了一种多尺度卷积特征融合算法,使用金字塔池化方法获得全局特征和多尺度局部特征,以提升特征的鉴别能力。Simonyan等[12]提出的VGGNet使用更小核尺寸(3×3)的卷积滤波器来构建更深层次的网络,从而使得网络在使用更少参数的情况下具有更好的性能;毕晓君等[13]提出了一种基于视角信息嵌入的行人重识别模型,利用行人图像视角朝向特点对视角单元进行特征提取,以进一步优化网络;Chen等[14]提出了一种级联抑制策略,使网络更多地挖掘被显著特征掩盖的各种潜在的有用特征。
针对行人重识别过程中跨相机拍摄导致的行人图像风格差异问题以及传统卷积结构进行卷积操作时感受野较小导致的鲁棒性和判别力较差的问题,本文提出了一种基于生成对抗网络与自校准卷积的行人重识别学习框架。
2 基本原理及网络结构
2.1 基本原理
GAN(generative adversarial network)最初是由Goodfellow等[15]在2014年所提出,主要用于图像之间的翻译与转换。基本的GAN模型包含生成器G(generator)和判别器D(discriminator)两个网络,网络示意图如
式中:
CycleGAN的本质是两个镜像对称的GAN构成的一个环形网络,两个镜像GAN一共拥有两个生成器和两个判别器[8],如
图 2. 环形网络工作原理。(a)生成器及判别器;(b)前向循环一致性损失;(c)后向循环一致性损失
Fig. 2. Cyclic network working principle. (a) Generator and discriminator; (b) forward cycle-consistency loss; (c) backward cycle-consistency loss
文献[16]正是基于这种思想提出了CamStyle方法,但是仍然存在一些问题:1)CycleGAN生成的Camstyle图像样本中会有图像噪声伪影,导致产生错误图像,如
图 3. 由Market-1501中的CycleGAN和CVQGAN生成的示例
Fig. 3. Examples generated by CycleGAN and CVQGAN in Market-1501
类似于GAN,Variational autoencoder(VAE)是2013年由Kingma等[17]提出的一种基于变分思想的深度学习生成模型。它的目标与GAN的目标基本相同,都是希望构建一个从源数据X生成目标数据Y的模型。VAE又称为变分自编码器,由两个部分组成,即encoder编码器网络和decoder解码器网络,可以将源域的原始数据转换为不同风格的目标域数据。随机输入一个给定数据分布的n维向量,用于生成一张新的图片。对于GAN,生成器通过学习真实样本的数据分布进行训练以生成伪造样本,而判别器则对真实与伪造样本进行概率估计,两者通过对抗学习的方式获得较好的模型效果。不同于GAN生成图像的方式,对于VAE而言,n维向量代表的是n个决定最终生成图片样式的隐形因素。每一个因素都对应着一种分布,先从这些分布中进行采样,再通过深度网络恢复图片。
2.2 CVQGAN模型
本文利用VQ(vector quantization)的思想,设计了一种离散化的矢量量化模块,将该模块融入CycleGAN中,取代原始生成器结构中的Resnet转换模块。CVQGAN生成器结构流程图如
首先输入
CVQStyle图像生成网络的结构图如
2.3 网络结构
本文采用残差网络结构Resnet50[18]作为本文框架的主干网络。针对传统的深度学习网络在信息传递时存在信息丢失、梯度消失或者梯度爆炸的问题,在Resnet50网络中加入残差学习的思想,通过引入一条残差边实现了跨层连接。在Resnet50网络中输入的信息可以通过残差边到达输出,这简化了神经网络训练学习的难度,也保证了信息在传输过程中的完整性,解决了梯度消失导致的深度网络退化问题。
为了进一步解决同一行人在不同相机下的风格差异问题,本文引入了自校准卷积模块SCNet[19]。自校准卷积模块网络结构图如
SCNet的操作主要分为两条路径:第一条路径即虚线部分为自校准操作,第二条路径为传统的卷积操作。首先,将大小为
式中:
式中:Up为双线性插值算子,用于实现上采样操作。将
式中:
最后对
第二条路径的目的是保留空间上下文关系,
框架总体结构图如
3 实验分析与讨论
3.1 数据集及评价指标
为验证本文所提方法的有效性,在Market-1501[21]和DukeMTMC-reID[22]两个标准数据集上进行了测试实验。Market-1501数据集是在清华大学校园内采集得到的,由6个摄像头拍摄到的1501个行人组成,共32668张行人图像,每个行人的图片由2~6个相机拍摄。其中:训练集有751人,包含12936张图像;测试集有750人,包含19732张图像。行人检测框使用DPM检测器进行标注。DukeMTMC-reID数据集是在杜克大学校园内采集,由8个不同摄像头拍摄到的1812个行人组成,但在两个以上摄像头中出现过的行人只有1404个,共34183张图像:训练集包含702个行人,共16522张图像;测试集包含702个行人,共17661张图像。行人检测矩形框由人工进行标注。这两个数据集在光照与姿态等方面均有着较大的变化,更加符合真实场景的应用。
此次实验采用首位命中率(Rank-1)与均值平均精度(mAP)两种评价指标评估算法的性能。采用了三种评价生成图像质量的指标即PSNR(peak signal to noise ratio)、FID(Frechet inception distance)和SSIM(structural similarity),对本文提出的CVQGAN与CycleGAN生成图片的质量进行比较。
3.2 实验环境及参数设置
实验使用Pytorch的深度学习框架进行网络的搭建,操作系统为Ubuntu16.04 版本,编程环境为Pycharm,配备了2.50 GHz E5-2678 v3 CPU和显卡为16G的Tesla T4 GPU的设备进行网络的训练,且本文采用在ImageNet数据集上预训练的Resnet50网络作为特征提取网络。在CVQGAN的训练过程中,将所有输入图片的大小调整为256
3.3 CVQStyle模型
本文提出的CVQGAN解决了CycleGAN产生噪声伪图像的问题,有着更出色的相机风格转换能力。相对于DCGAN的单生成器结构,CVQGAN的两个生成器G、F对数据域X和Y实现了
图 8. DCGAN、CycleGAN和CVQGAN生成图像示例。
Fig. 8. Image examples generated by DCGAN, CycleGAN, and CVQGAN.
为了更加直观地对比两种方法生成图像的质量,本文采用了常用的GAN生成图像质量的三种评估指标PSNR、SSIM以及FID。PSNR,又称峰值信噪比,可以更好地反映GAN生成图像过程中产生的失真情况,其值越大则真实度更高;SSIM从亮度、对比度与结构三个方面度量两幅图像之间的相似性,以此判断生成结果的多样性,其值越大则代表模型性能越好;FID用来计算真实图像与生成图像的特征向量间距离的一种度量,其值越小,特征越相近。对
表 1. 生成图像质量对比
Table 1. Generated image quality comparison
|
由
3.4 消融实验
为了进一步验证本文所提方法的有效性,在Market-1501和DukeMTMC-reID两个数据集上进行了消融实验,结果如
表 2. 不同模型的实验结果
Table 2. Experimental results of different models
|
3.5 实验结果可视化
本文将改进后模型的结果与基准模型的检索结果进行可视化展示,如
图 9. Market-1501数据集的可视化结果。(a)(c)基准模型;(b)(d)所提模型
Fig. 9. Visualization results of Market-1501 dataset. (a) (c) Reference model; (b) (d) proposed model
3.6 与主流算法的比较
为了更直观地表明本文算法的有效性,在Market-1501和DukeMTMC-reID两种数据集上将本文算法与主流算法进行了比较。为了验证CVQGAN的广泛适用性,Baseline除了使用Resnet50外,还将PCB[24]、Densenet121[25]作为主干网络,将CVQGAN应用到以上两种模型,以验证其有效性,结果如
表 3. 所提算法在Market-1501和DukeMTMC-reID数据集上与主流算法的性能比较
Table 3. Performance comparison of proposed algorithm with mainstream algorithms on Market-1501 and DukeMTMC-reID datasets
|
4 结论
提出了一种基于CVQGAN与自校准卷积模块的行人重识别学习框架。通过给定任意摄像头下的一张行人图像,CVQGAN将此样本图像转换为其他摄像头下清晰的、接近真实风格的不同行人图像,以此对数据集进行有效扩充,并且所提出的矢量量化模块有效解决了原始生成器产生噪声伪图像的问题,生成的CVQStyle图像质量更高。自校准卷积行人重识别网络将不同尺度的行人特征进行融合,从而获取更多的特征信息,使产生的特征图更具辨识性。所提方法在数据集Market-1501和DukeMTMC-reID上的性能与目前主流方法相比准确率和鲁棒性有了明显的提高,取得了更好的效果。
Article Outline
李开放, 惠冠程, 王汝涵, 张苗辉. 基于生成对抗网络与自校准卷积的行人重识别[J]. 激光与光电子学进展, 2022, 59(10): 1015007. Kaifang Li, Guancheng Hui, Ruhan Wang, Miaohui Zhang. Person Re-Identification Based on Generative Adversarial Network and Self-Calibrated Convolution[J]. Laser & Optoelectronics Progress, 2022, 59(10): 1015007.