激光与光电子学进展, 2020, 57 (18): 181007, 网络出版: 2020-09-02   

基于压缩激励残差网络与特征融合的行人重识别 下载: 940次

Person Re-Identification Based on Squeeze and Excitation Residual Neural Network and Feature Fusion
作者单位
1 内蒙古科技大学信息工程学院, 内蒙古 包头 014010
2 内蒙古工业大学信息工程学院, 内蒙古 呼和浩特 010080
摘要
为解决现有基于深度学习的行人重识别算法中网络深度过深,网络层间的特征关系利用率、时间效率低等问题,提出了一种基于压缩激励残差网络(SE-ResNet)与特征融合的改进算法。通过引入压缩激励(SE)模块,在特征通道上对特征进行压缩和激励,然后重新对各通道分配权重,以增强有用特征通道,抑制无用特征通道,降低网络的深度;为提高识别精度和运算效率,将浅层特征与深层特征融合,删除部分特征提取模块,并对卷积核的大小与运行时间、识别精度的关系进行建模,寻找最佳平衡点。实验结果表明,相比ResNet50,本算法的Rank-1提高了4.26个百分点,平均精度均值提高了17.41个百分点。与其他经典算法相比,本算法的识别精度也有不同程度的提高,且鲁棒性较好。
Abstract
Aim

ing at the problems of deep network depth, low utilization rate of feature relationship and low time efficiency in existing pedestrian recognition algorithm based on deep learning, this paper proposes an improved method based on squeeze and excitation residual neural network (SE-ResNet) and feature fusion. By introducing the squeeze and excitation (SE) module, the features are compressed and excited on the feature channels, and then weights are assigned to each channel to enhance the useful feature channels and suppress the useless feature channels to reduce the depth of the network model. In order to improve the recognition accuracy and computing efficiency, shallow features and deep features are used, and feature extraction modules are deleted. The relationship between the size of convolution kernel and the running time and recognition accuracy is modeled to find the best balance point. Experimental results show that compared with ResNet50, the recognition accuracy of this algorithm is 4.26 percentage points higher, mean average accuracy value is 17.41 percentage points higher. Compared with other classic algorithms, the recognition accuracy of this algorithm has also been improved to varying degrees, and the robustness is better.

1 引言

行人重识别是机器视觉领域的研究热点,在智能交通的实现过程中起不可或缺的作用。我国已建成世界上最大的视频监控网络,摄像头遍布大街小巷和各个交通要道,行人重识别与交通安防相结合可实现车辆辅助驾驶,与智能安防[1]相结合可以辅助安保部门实现犯罪追踪。但由于视频场景复杂,行人个体间存在差异,且同一行人在不同摄像头下的拍摄角度和设备分辨率存在差异,在同一摄像头下也存在遮挡、姿态不一致、光照变化等问题,使行人重识别难度加大。

目前,行人重识别的研究包括基于表征学习、基于度量学习、基于局部特征以及基于深度学习网络的研究。Hermans等[2]提出了利用三重损失的行人重识别算法,引入三重损失计算特征距离,但算法的网络深度较深,且运行时间长;Ren等[3]提出了基于反馈机制的迭代度量学习算法,在引入反馈机制与迭代度量的同时,增加了网络深度和计算量;陈兵等[4]提出了基于卷积神经网络判别特征学习的行人重识别算法,通过引入正样本距离阈值,构建难负样本对,解决了识别过程中出现的过拟合问题,其原理是在特征提取后对分类器进行改进,也增加了网络深度;Guo等[5]提出的基于细粒度特征提取的行人重识别算法,将行人图像分为三个区域并提取特征,然后将各区域特征进行融合;Wei等[6]提出了基于生成对抗网络的行人重识别算法,利用生成对抗网络扩充行人数据集提高识别率,但主要在网络深度与网络场景迁移上进行改进,并未对网络本身的融合进行改进。

针对上述问题,本文提出了一种基于压缩激励残差网络(SE-ResNet)[7-8]与特征融合的行人重识别算法,在残差网络中引入压缩激励(SE)模块,抑制无用的特征通道,增强有用的特征通道。为了保证各神经元能正常工作,将激活函数设置为带泄露修正线性单元(Leaky ReLu)。在此基础上,删除第四层特征提取模块,融合其余模块提取的特征,以降低网络深度。分析了本算法中卷积核的大小对算法性能的影响,综合考虑了算法的识别精度和运行时间,替换算法中的卷积核。最后引入重排序算法,进一步提高算法的首位命中率,基于Market-1501数据集[9]与DukeMTMC-reID数据集[10]进行对比实验,并得出相应结论。

2 基本原理

2.1 SE-ResNet网络

对于重识别算法的改进,大多是通过增加网络深度以提取更抽象的高维特征。但随着网络深度的增加,会导致梯度消失和梯度爆炸问题越来越严重,计算量成倍增加,同时算法精度没有太大的提高。因此,本算法注重浅层特征间的联系,减小网络深度与额外计算量的同时提高了算法的识别率。

将SE模块引入ResNet中,通过抑制深度网络的无用特征通道,增强有用特征通道。再将激活函数替换为Leaky Relu激活函数,解决了学习率较大时,部分神经元无法正常工作的问题。删除部分模块,并融合不同模块避免丢失有用特征,同时降低了运算量。图1为ResNet与SE-ResNet的示意图,其中,x为输入图像, x~为输出特征,c×h×w为图像尺寸。

图 1. SE-ResNet与ResNet模块

Fig. 1. Modules of SE-ResNet and ResNet

下载图片 查看所有图片

首先,将特征在空间维度上进行压缩,将每个二维的特征通道都压缩为一个实数,输入通道数与输出通道数对应,由于压缩为特征通道上的纵向压缩,得到的实数具有全局感受野。压缩操作可表示为

zc=Fsquc=1h×wi=1hj=1wuc(i,j),(1)

式中,z为压缩(squeeze)操作的全局描述,c为卷积核的序号,uc为卷积操作后得到的三维矩阵,Fsq为压缩操作后得到的矩阵,即c个大小为h×w的特征图,hw分别为特征图的高和宽,ij为矩阵的行列。压缩操作的作用是将尺寸为c×h×w的图像转换为尺寸为c×1×1的特征图,其结果即为全局信息。

其次,激励步骤通过显式建模学习的通道相关性,再用“门”机制产生通道权重,最后将该权重乘到输入特征上,对各通道进行权重重置。激励操作可表示为

s=Fex(z,W)=σ[g(z,W)]=σ[W2δ(W1z)],(2)

式中,s为激励(excitation)操作的全局描述,Fex为激励操作的函数表示,σ为全连接过程,g为对全连接结果进行非线性激活,δ为修正线性单元(ReLU)激活函数,W1W2为两个全连接层,W1的维度为 cr×c,r为缩放参数,其作用是减少通道数,降低计算量;由ReLU激活函数进行非线性变换,输出维度不变;再与W2相乘,W2的维度为c× cr;最后再经过激活函数sigmoid得到s

为了避免学习率增大时,网络神经元失效的问题,用Leaky ReLU[11]替换ReLU[12]。与ReLU相比,Leaky ReLU给予所有负值一个非零斜率,即一个很小的常数 am。两个激活函数的图像如图2所示,可以看出,在(-¥,0](阈值为负)范围内,ReLU激活函数的值始终为0,而Leaky ReLU激活函数则为一个缓慢接近0的负值。

图 2. ReLU与Leaky ReLU激活函数。(a) ReLU;(b) Leaky ReLU

Fig. 2. Activation functions of ReLU and Leaky ReLU. (a) ReLU; (b) Leaky ReLU

下载图片 查看所有图片

2.2 重排序算法

按照识别结果最终为目标行人的“可能性”大小,用重排序(Re-rank)算法将网络识别出的图像序列重新进行排序,有效提高了算法的前k位命中率(Rank-k)和平均精度均值(mAP)。重排序算法的具体步骤:首先,用编码加权的k倒排最近邻向量形成k倒排特征向量;然后,用该特征向量计算图像间的杰卡德距离;其次,为获得鲁棒的k倒排最近邻特征向量,设计了局部查询扩展方法,进一步提高重识别算法的性能;最后,对原始距离和杰卡德距离进行加权计算,得到最终距离,并按照从小到大的顺序排序。可表示为

d*(p,gn)=(1-λ)dJ(p,gn)+λd(p,gn),λ[0,1],(3)

式中,d*为最终距离,p为可疑目标,gn为第n个查询目标,dJ(p,gn)为改进的杰卡德距离,d(p,gn)为马氏距离,λ为马氏距离的权重。

2.3 基于SE-ResNet与特征融合的行人重识别算法

实验使用的行人重识别算法通过在ResNet50上加入SE模块对特征通道进行选择,以增强有用特征通道,抑制无用特征通道。为了有效利用网络中的浅层特征,降低网络深度,对网络内部的层间特征进行融合,采用多个1×1卷积核进行缩放,保证各网络层间的特征能有效融合。为了保证融合后网络的大部分神经元仍然有效,引入Leaky ReLU激活函数。最后对分类器运行的结果进行重排序,提高算法的Rank-k与mAP。算法结构如图3所示,其中, Ftr为卷积操作, θ为卷积核, c2为经 Ftr卷积操作后的特征通道数, Fscale为权重重置操作。

改进的SE-ResNet工作流程:首先,输入图像通过压缩操作,对特征通道进行空间维度上的压缩,得到一个具有全局感受野的实数集合。其次,通过参数ω生成每个特征通道的权重,并将上一步输出的权重加权到先前的特征上,重置原始特征的权重。

图3所示,用SE-ResNet对特征通道进行权重重置后,经过Leak ReLU激活函数、批量归一化、最大池化后,对图像特征进行提取。将layer1与layer3提取的特征进行平均池化后,对二者的池化结果进行特征融合。最后通过卷积核为1×1的平均池化层降低级联后的输出通道数。并将融合结果输入分类器中进行比较,计算损失。改进的SE-ResNet行人重识别算法效果如图4所示。对比分类器得出的损失,通过Re-rank算法找出最相似的行人目标,并计算Rank-k与mAP。

2.4 算法步骤

本算法的实现步骤如下。

1)将Market-1501、DukeMTMC-reID数据集合并,利用随机擦除法对数据集中的目标进行随机遮挡,以模仿真实场景下的行人遮挡问题。

图 3. SE-ResNet的结构图

Fig. 3. Structure diagram of SE-ResNet

下载图片 查看所有图片

图 4. 改进的SE-ResNet行人重识别算法效果图

Fig. 4. Effect diagram of improved SE-ResNet pedestrian re-identification algorithm

下载图片 查看所有图片

2) 将待检测数据集输入SE-ResNet算法中提取图像特征,并用Leaky ReLU激活函数对提取的图像特征进行非线性激活。

3) 将经过归一化与最大池化的图像特征输入特征提取模块,进行高层次特征提取,并将layer1与layer3提取的特征进行融合。

4) 用分类器进行损失计算与重排序,将排序后的识别结果按照与真实目标的相似程度进行排序,得到最终结论。

2.5 实验结果

本实验在Ubuntu-16.04环境下,基于Pytorch深度学习框架完成,硬件为NVIDIA DGX-1,GPU为NVIDIA TESLA V100,数据集采用Market-1501与DukeMTMC-reID数据集(如图5所示),网络学习率为0.05。

考虑到深度学习需要大量的训练数据,而重识别数据集中样本数量不足,因此借鉴yolov2中的联合学习世界树思想,将MarKet-1501和DukeMTMC-reID两个数据集的训练集进行合并,其测试集共享权重。采用随机擦除法,模拟现实中物体遮挡目标行人的情况,对训练集图像进行随机遮挡,有效降低了过拟合风险,提高了算法的鲁棒性。

图 5. 部分行人图像。(a) DukeMTMC-reID数据集;(b) MarKet-1501数据集

Fig. 5. Partial pedestrian images in two datasets. (a) DukeMTMC-reID dataset; (b) MarKet-1501 dataset

下载图片 查看所有图片

为找出最佳融合方法,基于ResNet,对conv1、layer1、layer2、layer3、layer4进行了两两融合实验,并将融合网络应用于行人重识别算法中,得出各融合方案下的Rank-k与mAP,结果如图6所示。可以发现,将conv1与layer1、layer2、layer3、layer4进行特征融合或将layer1与layer2进行特征融合时,Rank-5和Rank-10均低于ResNet50,而conv1与layer3、layer4进行特征融合后的Rank-1优于ResNet50;将layer2与layer4、layer3与layer4进行特征融合后,Rank-1比ResNet50分别提高了2.95,3.42个百分点。通过多次对比发现,layer1与layer3的特征融合为最优解,相比ResNet50的Rank-1提高了4.26个百分点、mAP提高17.41个百分点。

图 6. 不同融合方案下的Rank-k与mAP。(a) Rank-k;(b) mAP

Fig. 6. Rank-k and mAPs at different fusion schemes. (a) Rank-k; (b) mAP

下载图片 查看所有图片

综上所述,低维特征包含大量的有用信息与冗余信息,而高维特征在剔除冗余信息的同时不可避免地删除了部分有用信息,所以融合高维特征与低维特征可以突出有用信息在整体特征信息中的比重。本算法的特征提取模块(layer1、layer2、layer3、layer4)提取的图像特征逐渐趋向高维,即layer1提取的特征维度保留的有用特征与冗余特征最多,layer4提取的特征维度最高。但当提取layer4模块的特征时,特征中的高维特征在经历四次随机丢弃算法后损失的有用特征最多,且极为抽象,并不适合进行层间融合,而将模块layer1与模块layer3进行融合可以获得最好的效果。

为了研究卷积核的大小对行人重识别算法的影响,分别考虑了卷积核尺寸为3×3、5×5、7×7、9×9、11×11时,行人重识别算法的精度与时间损耗,结果如表1所示。可以发现,相比小尺寸的卷积核,大尺寸卷积核具有更大的感受野,能感受到更多的图像信息,但同时也会将过多不相关的冗余信息集合到一起,使卷积效果大幅下降,计算量倍增。如卷积核尺寸分别为9×9、11×11时,训练时间分别是卷积核尺寸为7×7的7倍、8倍,因此,实验选取尺寸为7×7的卷积核,以使算法的识别精度最高,运行时间也在可接受的范围内。

表 1. 不同卷积大小的实验结果

Table 1. Experimental results of different convolution sizes

Convolution kernel sizeRank-1 /%Rank-5 /%Rank-10 /%mAP /%Running time /s
3×391.6095.6096.4087.801316
5×592.1095.4096.3087.901807
7×793.1096.0097.0089.001983
9×991.7495.7297.0087.5912273
11×1191.7495.7297.0087.5914146

查看所有表

3 分析与讨论

将本算法与其他经典算法在相同数据集和检测环境下进行对比,在Market-1501数据集中的结果如表2所示。可以发现,相比ResNet50、基于部分卷积基线(PCB)的网络、DenseNet-121算法,本算法的Rank-1分别提高了4.26,0.46,2.93个百分点,mAP分别提高了17.41,11.53,14.98个百分点。

表 3. 不同算法的性能比较(DukeMTMC-reID数据集)

Table 3. Performance comparison of different algorithms (DukeMTMC-reID dataset) unit: %

AlgorithmRank-1Rank-5Rank-10mAP
PCB85.6891.4793.4980.68
DenseNet-12180.0288.8691.7463.63
ResNet5085.5991.3892.2680.65
SE-ResNet(before fusion)57.9469.7074.5946.75
SE-ResNet(after fusion)86.0091.4294.0381.24

查看所有表

表 2. 不同算法的性能比较(Market-1501数据集)

Table 2. Performance comparison of different algorithms (Market-1501 dataset)unit: %

AlgorithmRank-1Rank-5Rank-10mAP
DenseNet-121[13]90.1794.5096.0874.02
PCB[14]92.6493.3794.9577.47
ResNet5088.8494.8496.6271.59
SE-ResNet(before fusion)88.5393.2894.8982.25
SE-ResNet(after fusion)93.1096.0097.0089.00

查看所有表

用DukeMTMC-reID数据集进行验证,结果如表3所示。可以发现,融合后SE-ResNet算法的Rank-1和mAP均有所提高。这表明本算法应用于行人重识别时,具有更好的准确度,且鲁棒性较好。

4 结论

提出了一种基于SE-ResNet与特征融合的行人重识别算法,通过合并两个数据集的训练集,并使用随机擦除方法对图像进行遮挡,模拟实际情况。将提取的高低维特征进行融合,加强了模块间特征的相关性。用Leaky ReLU作为激活函数,保证了融合后神经元的有效性,通过应用重排序算法,提高了算法精度。实验结果表明,在Market-1501数据集上,本算法的行人重识别结果与ResNet50相比,Rank-1提高了4.26个百分点,mAP提高了17.41个百分点。在DukeMTMC-reID数据集上,本算法的精度相比其他算法也有不同程度的提高,具有较好的鲁棒性和准确率。如何在保证准确率和时间效率的基础上,进一步提高算法的效率,是下一步工作需要研究的方向。

参考文献

[1] Wang X G. Intelligent multi-camera video surveillance: a review[J]. Pattern Recognition Letters, 2013, 34(1): 3-19.

[2] HermansA, BeyerL, LeibeB. In defense of the triplet loss for person re-identification[EB/OL]. [2019-12-11].https:∥arxiv.org/abs/1703. 07737.

[3] Ren Y T, Li X L, Lu X Q. Feedback mechanism based iterative metric learning for person re-identification[J]. Pattern Recognition, 2018, 75: 99-111.

[4] 陈兵, 查宇飞, 李运强, 等. 基于卷积神经网络判别特征学习的行人重识别[J]. 光学学报, 2018, 38(7): 0720001.

    Chen B, Zha Y F, Li Y Q, et al. Person re-identification based on convolutional neural network discriminative feature learning[J]. Acta Optica Sinica, 2018, 38(7): 0720001.

[5] Guo CX, Yu TZ, Gu HX, et al. Mgn: multi-glimpse network for action recognition[C]∥2018 IEEE International Conference on Acoustics, April 15-20, 2018, Calgary, AB, Canada. New York: IEEE, 2018: 1932- 1936.

[6] Wei LH, Zhang SL, GaoW, et al. Person transfer GAN to bridge domain gap for person re-identification[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA. New York: IEEE, 2018: 79- 88.

[7] He KM, Zhang XY, Ren SQ, et al. Deep residual learning for image recognition[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 770- 778.

[8] He KM, Zhang XY, Ren SQ, et al. Identity mappings in deep residual networks[M] ∥Leibe B, Matas J, Sebe N, et al. Computer Vision-ECCV 2016. Lecture Notes in Computer Science. Cham: Springer, 2016, 9908: 630- 645.

[9] ZhengL, Shen LY, TianL, et al. Scalable person re-identification: a benchmark[C]∥2015 IEEE International Conference on Computer Vision (ICCV), December 7-13, 2015, Santiago, Chile. New York: IEEE, 2015: 1116- 1124.

[10] Zheng ZD, ZhengL, YangY. Unlabeled samples generated by GAN improve the person re-identification baseline in vitro[C]∥2017 IEEE International Conference on Computer Vision, October 22-29, 2017, Venice, Italy. New York: IEEE, 2017: 3774- 3782.

[11] He KM, Zhang XY, Ren SQ, et al. Delving deep into rectifiers: surpassing human-level performance on ImageNet classification[C]∥2015 IEEE International Conference on Computer Vision(ICCV), December 7-13, 2015, Santiago, Chile. New York: IEEE, 2015: 1026- 1034.

[12] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507.

[13] Sun YF, ZhengL, YangY, et al. Beyond part models: person retrieval with refined part pooling (and a strong convolutional baseline)[M] ∥Ferrari V, Hebert M, Sminchisescu C, et al.Computer Vision - ECCV 2018. Lecture Notes in Computer Science. Cham: Springer, 2018, 11208: 501- 518.

[14] HuangG, Liu Z, van der Maaten L, et al. Densely connected convolutional networks[EB/OL].[2019-12-14]. https:∥arxiv.org/abs/1608. 06993.

邬可, 张宝华, 吕晓琪, 谷宇, 王月明, 刘新, 任彦, 李建军, 张明. 基于压缩激励残差网络与特征融合的行人重识别[J]. 激光与光电子学进展, 2020, 57(18): 181007. Ke Wu, Baohua Zhang, Xiaoqi Lü, Yu Gu, Yueming Wang, Xin Liu, Yan Ren, Jianjun Li, Ming Zhang. Person Re-Identification Based on Squeeze and Excitation Residual Neural Network and Feature Fusion[J]. Laser & Optoelectronics Progress, 2020, 57(18): 181007.

本文已被 2 篇论文引用
被引统计数据来源于中国光学期刊网
引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!