基于压缩激励残差网络与特征融合的行人重识别 下载: 940次
ing at the problems of deep network depth, low utilization rate of feature relationship and low time efficiency in existing pedestrian recognition algorithm based on deep learning, this paper proposes an improved method based on squeeze and excitation residual neural network (SE-ResNet) and feature fusion. By introducing the squeeze and excitation (SE) module, the features are compressed and excited on the feature channels, and then weights are assigned to each channel to enhance the useful feature channels and suppress the useless feature channels to reduce the depth of the network model. In order to improve the recognition accuracy and computing efficiency, shallow features and deep features are used, and feature extraction modules are deleted. The relationship between the size of convolution kernel and the running time and recognition accuracy is modeled to find the best balance point. Experimental results show that compared with ResNet50, the recognition accuracy of this algorithm is 4.26 percentage points higher, mean average accuracy value is 17.41 percentage points higher. Compared with other classic algorithms, the recognition accuracy of this algorithm has also been improved to varying degrees, and the robustness is better.
1 引言
行人重识别是机器视觉领域的研究热点,在智能交通的实现过程中起不可或缺的作用。我国已建成世界上最大的视频监控网络,摄像头遍布大街小巷和各个交通要道,行人重识别与交通安防相结合可实现车辆辅助驾驶,与智能安防[1]相结合可以辅助安保部门实现犯罪追踪。但由于视频场景复杂,行人个体间存在差异,且同一行人在不同摄像头下的拍摄角度和设备分辨率存在差异,在同一摄像头下也存在遮挡、姿态不一致、光照变化等问题,使行人重识别难度加大。
目前,行人重识别的研究包括基于表征学习、基于度量学习、基于局部特征以及基于深度学习网络的研究。Hermans等[2]提出了利用三重损失的行人重识别算法,引入三重损失计算特征距离,但算法的网络深度较深,且运行时间长;Ren等[3]提出了基于反馈机制的迭代度量学习算法,在引入反馈机制与迭代度量的同时,增加了网络深度和计算量;陈兵等[4]提出了基于卷积神经网络判别特征学习的行人重识别算法,通过引入正样本距离阈值,构建难负样本对,解决了识别过程中出现的过拟合问题,其原理是在特征提取后对分类器进行改进,也增加了网络深度;Guo等[5]提出的基于细粒度特征提取的行人重识别算法,将行人图像分为三个区域并提取特征,然后将各区域特征进行融合;Wei等[6]提出了基于生成对抗网络的行人重识别算法,利用生成对抗网络扩充行人数据集提高识别率,但主要在网络深度与网络场景迁移上进行改进,并未对网络本身的融合进行改进。
针对上述问题,本文提出了一种基于压缩激励残差网络(SE-ResNet)[7-8]与特征融合的行人重识别算法,在残差网络中引入压缩激励(SE)模块,抑制无用的特征通道,增强有用的特征通道。为了保证各神经元能正常工作,将激活函数设置为带泄露修正线性单元(Leaky ReLu)。在此基础上,删除第四层特征提取模块,融合其余模块提取的特征,以降低网络深度。分析了本算法中卷积核的大小对算法性能的影响,综合考虑了算法的识别精度和运行时间,替换算法中的卷积核。最后引入重排序算法,进一步提高算法的首位命中率,基于Market-1501数据集[9]与DukeMTMC-reID数据集[10]进行对比实验,并得出相应结论。
2 基本原理
2.1 SE-ResNet网络
对于重识别算法的改进,大多是通过增加网络深度以提取更抽象的高维特征。但随着网络深度的增加,会导致梯度消失和梯度爆炸问题越来越严重,计算量成倍增加,同时算法精度没有太大的提高。因此,本算法注重浅层特征间的联系,减小网络深度与额外计算量的同时提高了算法的识别率。
将SE模块引入ResNet中,通过抑制深度网络的无用特征通道,增强有用特征通道。再将激活函数替换为Leaky Relu激活函数,解决了学习率较大时,部分神经元无法正常工作的问题。删除部分模块,并融合不同模块避免丢失有用特征,同时降低了运算量。
首先,将特征在空间维度上进行压缩,将每个二维的特征通道都压缩为一个实数,输入通道数与输出通道数对应,由于压缩为特征通道上的纵向压缩,得到的实数具有全局感受野。压缩操作可表示为
式中,z为压缩(squeeze)操作的全局描述,c为卷积核的序号,uc为卷积操作后得到的三维矩阵,Fsq为压缩操作后得到的矩阵,即c个大小为h×w的特征图,h和w分别为特征图的高和宽,i和j为矩阵的行列。压缩操作的作用是将尺寸为c×h×w的图像转换为尺寸为c×1×1的特征图,其结果即为全局信息。
其次,激励步骤通过显式建模学习的通道相关性,再用“门”机制产生通道权重,最后将该权重乘到输入特征上,对各通道进行权重重置。激励操作可表示为
式中,s为激励(excitation)操作的全局描述,Fex为激励操作的函数表示,σ为全连接过程,g为对全连接结果进行非线性激活,δ为修正线性单元(ReLU)激活函数,W1、W2为两个全连接层,W1的维度为
为了避免学习率增大时,网络神经元失效的问题,用Leaky ReLU[11]替换ReLU[12]。与ReLU相比,Leaky ReLU给予所有负值一个非零斜率,即一个很小的常数
图 2. ReLU与Leaky ReLU激活函数。(a) ReLU;(b) Leaky ReLU
Fig. 2. Activation functions of ReLU and Leaky ReLU. (a) ReLU; (b) Leaky ReLU
2.2 重排序算法
按照识别结果最终为目标行人的“可能性”大小,用重排序(Re-rank)算法将网络识别出的图像序列重新进行排序,有效提高了算法的前k位命中率(Rank-k)和平均精度均值(mAP)。重排序算法的具体步骤:首先,用编码加权的k倒排最近邻向量形成k倒排特征向量;然后,用该特征向量计算图像间的杰卡德距离;其次,为获得鲁棒的k倒排最近邻特征向量,设计了局部查询扩展方法,进一步提高重识别算法的性能;最后,对原始距离和杰卡德距离进行加权计算,得到最终距离,并按照从小到大的顺序排序。可表示为
式中,d*为最终距离,p为可疑目标,gn为第n个查询目标,dJ(p,gn)为改进的杰卡德距离,d(p,gn)为马氏距离,λ为马氏距离的权重。
2.3 基于SE-ResNet与特征融合的行人重识别算法
实验使用的行人重识别算法通过在ResNet50上加入SE模块对特征通道进行选择,以增强有用特征通道,抑制无用特征通道。为了有效利用网络中的浅层特征,降低网络深度,对网络内部的层间特征进行融合,采用多个1×1卷积核进行缩放,保证各网络层间的特征能有效融合。为了保证融合后网络的大部分神经元仍然有效,引入Leaky ReLU激活函数。最后对分类器运行的结果进行重排序,提高算法的Rank-k与mAP。算法结构如
改进的SE-ResNet工作流程:首先,输入图像通过压缩操作,对特征通道进行空间维度上的压缩,得到一个具有全局感受野的实数集合。其次,通过参数ω生成每个特征通道的权重,并将上一步输出的权重加权到先前的特征上,重置原始特征的权重。
如
2.4 算法步骤
本算法的实现步骤如下。
1)将Market-1501、DukeMTMC-reID数据集合并,利用随机擦除法对数据集中的目标进行随机遮挡,以模仿真实场景下的行人遮挡问题。
图 4. 改进的SE-ResNet行人重识别算法效果图
Fig. 4. Effect diagram of improved SE-ResNet pedestrian re-identification algorithm
2) 将待检测数据集输入SE-ResNet算法中提取图像特征,并用Leaky ReLU激活函数对提取的图像特征进行非线性激活。
3) 将经过归一化与最大池化的图像特征输入特征提取模块,进行高层次特征提取,并将layer1与layer3提取的特征进行融合。
4) 用分类器进行损失计算与重排序,将排序后的识别结果按照与真实目标的相似程度进行排序,得到最终结论。
2.5 实验结果
本实验在Ubuntu-16.04环境下,基于Pytorch深度学习框架完成,硬件为NVIDIA DGX-1,GPU为NVIDIA TESLA V100,数据集采用Market-1501与DukeMTMC-reID数据集(如
考虑到深度学习需要大量的训练数据,而重识别数据集中样本数量不足,因此借鉴yolov2中的联合学习世界树思想,将MarKet-1501和DukeMTMC-reID两个数据集的训练集进行合并,其测试集共享权重。采用随机擦除法,模拟现实中物体遮挡目标行人的情况,对训练集图像进行随机遮挡,有效降低了过拟合风险,提高了算法的鲁棒性。
图 5. 部分行人图像。(a) DukeMTMC-reID数据集;(b) MarKet-1501数据集
Fig. 5. Partial pedestrian images in two datasets. (a) DukeMTMC-reID dataset; (b) MarKet-1501 dataset
为找出最佳融合方法,基于ResNet,对conv1、layer1、layer2、layer3、layer4进行了两两融合实验,并将融合网络应用于行人重识别算法中,得出各融合方案下的Rank-k与mAP,结果如
图 6. 不同融合方案下的Rank-k与mAP。(a) Rank-k;(b) mAP
Fig. 6. Rank-k and mAPs at different fusion schemes. (a) Rank-k; (b) mAP
综上所述,低维特征包含大量的有用信息与冗余信息,而高维特征在剔除冗余信息的同时不可避免地删除了部分有用信息,所以融合高维特征与低维特征可以突出有用信息在整体特征信息中的比重。本算法的特征提取模块(layer1、layer2、layer3、layer4)提取的图像特征逐渐趋向高维,即layer1提取的特征维度保留的有用特征与冗余特征最多,layer4提取的特征维度最高。但当提取layer4模块的特征时,特征中的高维特征在经历四次随机丢弃算法后损失的有用特征最多,且极为抽象,并不适合进行层间融合,而将模块layer1与模块layer3进行融合可以获得最好的效果。
为了研究卷积核的大小对行人重识别算法的影响,分别考虑了卷积核尺寸为3×3、5×5、7×7、9×9、11×11时,行人重识别算法的精度与时间损耗,结果如
表 1. 不同卷积大小的实验结果
Table 1. Experimental results of different convolution sizes
|
3 分析与讨论
将本算法与其他经典算法在相同数据集和检测环境下进行对比,在Market-1501数据集中的结果如
表 3. 不同算法的性能比较(DukeMTMC-reID数据集)
Table 3. Performance comparison of different algorithms (DukeMTMC-reID dataset) unit: %
|
表 2. 不同算法的性能比较(Market-1501数据集)
Table 2. Performance comparison of different algorithms (Market-1501 dataset)unit: %
|
用DukeMTMC-reID数据集进行验证,结果如
4 结论
提出了一种基于SE-ResNet与特征融合的行人重识别算法,通过合并两个数据集的训练集,并使用随机擦除方法对图像进行遮挡,模拟实际情况。将提取的高低维特征进行融合,加强了模块间特征的相关性。用Leaky ReLU作为激活函数,保证了融合后神经元的有效性,通过应用重排序算法,提高了算法精度。实验结果表明,在Market-1501数据集上,本算法的行人重识别结果与ResNet50相比,Rank-1提高了4.26个百分点,mAP提高了17.41个百分点。在DukeMTMC-reID数据集上,本算法的精度相比其他算法也有不同程度的提高,具有较好的鲁棒性和准确率。如何在保证准确率和时间效率的基础上,进一步提高算法的效率,是下一步工作需要研究的方向。
[2] HermansA, BeyerL, LeibeB. In defense of the triplet loss for person re-identification[EB/OL]. [2019-12-11].https:∥arxiv.org/abs/1703. 07737.
[3] Ren Y T, Li X L, Lu X Q. Feedback mechanism based iterative metric learning for person re-identification[J]. Pattern Recognition, 2018, 75: 99-111.
[4] 陈兵, 查宇飞, 李运强, 等. 基于卷积神经网络判别特征学习的行人重识别[J]. 光学学报, 2018, 38(7): 0720001.
Chen B, Zha Y F, Li Y Q, et al. Person re-identification based on convolutional neural network discriminative feature learning[J]. Acta Optica Sinica, 2018, 38(7): 0720001.
[5] Guo CX, Yu TZ, Gu HX, et al. Mgn: multi-glimpse network for action recognition[C]∥2018 IEEE International Conference on Acoustics, April 15-20, 2018, Calgary, AB, Canada. New York: IEEE, 2018: 1932- 1936.
[6] Wei LH, Zhang SL, GaoW, et al. Person transfer GAN to bridge domain gap for person re-identification[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA. New York: IEEE, 2018: 79- 88.
[7] He KM, Zhang XY, Ren SQ, et al. Deep residual learning for image recognition[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 770- 778.
[8] He KM, Zhang XY, Ren SQ, et al. Identity mappings in deep residual networks[M] ∥Leibe B, Matas J, Sebe N, et al. Computer Vision-ECCV 2016. Lecture Notes in Computer Science. Cham: Springer, 2016, 9908: 630- 645.
[9] ZhengL, Shen LY, TianL, et al. Scalable person re-identification: a benchmark[C]∥2015 IEEE International Conference on Computer Vision (ICCV), December 7-13, 2015, Santiago, Chile. New York: IEEE, 2015: 1116- 1124.
[10] Zheng ZD, ZhengL, YangY. Unlabeled samples generated by GAN improve the person re-identification baseline in vitro[C]∥2017 IEEE International Conference on Computer Vision, October 22-29, 2017, Venice, Italy. New York: IEEE, 2017: 3774- 3782.
[11] He KM, Zhang XY, Ren SQ, et al. Delving deep into rectifiers: surpassing human-level performance on ImageNet classification[C]∥2015 IEEE International Conference on Computer Vision(ICCV), December 7-13, 2015, Santiago, Chile. New York: IEEE, 2015: 1026- 1034.
[12] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507.
[13] Sun YF, ZhengL, YangY, et al. Beyond part models: person retrieval with refined part pooling (and a strong convolutional baseline)[M] ∥Ferrari V, Hebert M, Sminchisescu C, et al.Computer Vision - ECCV 2018. Lecture Notes in Computer Science. Cham: Springer, 2018, 11208: 501- 518.
[14] HuangG, Liu Z, van der Maaten L, et al. Densely connected convolutional networks[EB/OL].[2019-12-14]. https:∥arxiv.org/abs/1608. 06993.
Article Outline
邬可, 张宝华, 吕晓琪, 谷宇, 王月明, 刘新, 任彦, 李建军, 张明. 基于压缩激励残差网络与特征融合的行人重识别[J]. 激光与光电子学进展, 2020, 57(18): 181007. Ke Wu, Baohua Zhang, Xiaoqi Lü, Yu Gu, Yueming Wang, Xin Liu, Yan Ren, Jianjun Li, Ming Zhang. Person Re-Identification Based on Squeeze and Excitation Residual Neural Network and Feature Fusion[J]. Laser & Optoelectronics Progress, 2020, 57(18): 181007.