基于多尺度注意力网络的行人属性识别算法 下载: 1086次
1 引言
行人属性识别是近年来监控领域的研究热点,目的是识别图像或视频中行人的视觉属性,如年龄、性别、服装风格、鞋子类别,在计算机视觉任务中有很大的应用潜力,如行人重识别[1-2]利用行人属性辅助匹配不同监控摄像头下的同一行人,行人检索[3]利用属性快速检索感兴趣的目标。在许多真实的监控场景中,摄像机被安装在能覆盖一定区域的位置,捕获的行人图像分辨率较低,难以获得清晰的脸部图像。因此,这种情况下的行人属性因其光照不变性和对比度不变性具有很好的应用价值。
行人属性识别算法可大致可分为传统机器学习和深度学习的算法。其中,传统机器学习算法主要由特征提取和分类器设计组成。首先利用手工特征获取行人图像的底层特征,如Deng等[4]选取颜色特征、纹理特征以及方向梯度直方图特征,并利用K近邻法对特征进行分类。Gray等[5]通过组合局部手工特征实现行人属性识别。传统机器学习在训练前需要进行手工特征提取,工作量较大,因此不能保证特征选取的合理性。随着深度学习的发展,很多计算机视觉任务[6-8]有了新的突破,Li等[9]提出的多标签属性学习卷积神经网络(CNN)模型DeepMar(Deep learning based multiple attributes recognition)也取得了较大的进展。DeepMar用CNN得到更丰富的特征,以代替手工特征,从一个网络模型中同时识别出行人的多个属性。Sudowe等[10]提出的属性卷积网络(ACN)将整个行人图像作为模型输入,联合学习所有属性的预测。这些方法都是利用网络最后一个特征图完成属性识别任务,不能提高属性识别的准确率,原因是不同网络层的特征反映了属性不同的语义信息。如CNN模型需要从前几层网络中提取颜色或纹理等底层特征,这些特征对于衣服颜色和条纹的属性非常重要,但对于性别、年龄这样的语义属性,高层网络的特征比底层特征更有效。Park等[11]融合多个网络中间层特征识别行人属性,Zhou等[12]将中间层特征利用不同的内核进行池化操作,以弱监督的方式预测属性的位置,为了有效提高行人属性识别的性能,需要网络中不同层次的特征。
为了应对多层次的属性识别,通过CNN提取行人图像的特征构建特征金字塔网络(FPN)[13]。本文针对行人属性识别任务的特点重新设计了多尺度注意力网络,采用基础的残差网络ResNet50[14]框架构建FPN,以融合底层特征和高层特征,并利用通道注意力机制提升特征通道之间的关联性,以增强网络的属性识别能力。
2 网络结构
CNN处理计算机视觉任务时,使用的池化操作会不断缩小特征图的尺寸,网络卷积由底层到高层的分辨率越来越粗糙,特征图也越来越小。但卷积层越高,特征图包含的语义信息越丰富。为了同时利用底层特征和高层特征,本网络的结构如
2.1 自底向上的特征提取
He等[14]提出的ResNet可以有效解决深度神经网络训练过程中出现的梯度消失以及加深网络导致的退化问题。该网络主要对残差块进行重复使用,将原始输入直接跳过某些层传到之后的层中,并将两者相加作为输出,这样的连接也被称为残差块。实验用ResNet50作为主干网络,选择每个阶段卷积层(conv2,conv3,conv4,conv5)最后一个残差结构的特征输出,相对于输入图像的分辨率分别为{56 pixel×56 pixel,28 pixel×28 pixel,14 pixel×14 pixel,7 pixel×7 pixel}。由于conv1的特征尺度太大,容易占用内存,因此未被使用。
2.2 自顶向下构建特征金字塔
自顶向下网络的目的是融合相邻层的特征,构建特征金字塔。以conv3为例,相邻两层特征的融合过程如
式中,f'c为经过basic conv的横向连接,是一个1×1的卷积操作。f'u为上采样的结果,fc为conv3层的特征输出,fu为conv4层与conv5(相邻)的融合输出,f'c和f'u经像素相加得到融合的特征,再用3×3卷积核x3×3进行去卷积处理,得到最终的特征F。
为了保证高层特征图和相邻下一层特征图的大小相同,对高层特征进行2倍上采样。实验采用最近邻插值算法减少计算的复杂度。为了在不增加太多计算量的同时融合不同尺度的特征,用basic conv改变网络的通道数,由于相邻特征层的通道数不相同,该过程主要包括三个操作:首先将输入特征通过1×1卷积层提取;然后经批量正则化(batch norm)层进行数据归一化处理,避免网络提取的特征因数值过大出现不稳定情况;最后经修正线性单元(ReLU)激活函数处理。通过像素间的加法融合相邻层的特征,为了消除上采样带来的混叠效应,用3×3的卷积核处理已经融合的特征图。重复迭代该过程,得到conv2,conv3,conv4,conv5层对应的融合特征层为p2,p3,p4,p5。
2.3 通道注意力模块
为了减少网络的参数,利用最大池化对特征图p5(7×7)进行下采样,如对特征图p4用1个3×3的卷积核进行池化操作,对特征图p3则用2个3×3的卷积核进行池化操作,对特征图p2进行类似的池化操作,以保证所有融合的特征层有相同的大小和形状。
由于融合后的最终特征不同,通道的作用也不同,为了增大有效特征通道的权重,减小无效或者效果小的特征通道权重,增强更有利于行人属性识别效果的通道特征表示,结合Hu等[15]提出的注意力方法设置一个通道注意力机制,使网络自主学习融合特征中不同的通道特征。最大池化和通道注意力模块结构如
最终的预测是p5'、p4'、p3'、p2'以及自底向上预测(top prediction)的融合结果,实验得到属性的预测为5组N个属性的特征向量,用N个滤波器组、5×1的卷积核为这5组预测属性分配不同的权重,并用Softmax函数对每组权重加以约束,确保每组权重的和为1。最后将注意力加权输出作为属性识别的最终预测结果。
2.4 损失函数
本模型同时识别行人样本的多个属性,本质上是对行人的多标签识别,因此,采用交叉熵损失。在行人数据集中,如果一张图像具有某个属性,则为该属性的正样本,否则为负样本。但大部分属性的正样本和负样本分布严重不平衡,如RAP数据集中,戴眼镜的正样本只占10%。正样本的比例越小,该属性的损失值越大。为了解决该问题,在损失函数中引入了一个正样本权重因子wl。当某个属性的正样本数目较少时,为整个损失函数赋予一个较大的惩罚权重,以防止出现网络训练时因正负样本不平衡导致的梯度爆炸现象,可表示为
式中,M为行人图像的数量,L为属性个数,xm为不同的行人图像,m∈1,2,…,M,对应的属性标签为yl,l∈1,2,…,L,ym,l∈{0,1}为样本xm的第l个属性的标签,ym,l=1表示样本xm包含第l个属性,反之则不包含。pm,l为属性识别网络对样本xm第l个属性预测的结果,pl为第l个属性的正样本比率,即该属性正样本数目在训练集中所占的比率,σ为1。
3 实验结果及分析
3.1 实验数据
实验使用的数据集为RAP[16]和PA-100K[17]两大行人属性数据集,RAP数据集在真实室内监视场景拍摄,包含26个摄像头拍摄的41585张图像,其中,33268张用于训练,其余图像用于测试,数据集中图像的分辨率从36 pixel×92 pixel到344 pixel×554 pixel。每张图像用72个细粒度属性注释,选取正样本比例高于1%的51个属性进行评价。PA-100K数据集包括598个室外监控摄像头采集到的100000张行人图像,分辨率从50 pixel×100 pixel到758 pixel×454 pixel,每张图像用26个属性注释。目前PA-100K数据集是最大的行人属性识别数据集,将80000张图像用于训练,20000张图像用于测试。
3.2 参数设置和评价指标
实验环境:工作站为64位Ubuntu系统,服务器的GPU为NVIDIA GTX 1080 Ti、内存为16 G。模型训练使用的深度学习平台为Pytorch,编程语言为Python。根据行人图像特点将输入图像的分辨率统一缩放至224 pixel×224 pixel,同时使用随机扩张、随机裁剪等数据增强方法,网络使用随机梯度下降法(SGD)训练。共训练200个epoch,batch-size为32,学习率(learning-rate)采用多分步策略,初始学习率为1×10-3,在150,180和200个epoch时学习率依次衰减为上一次的十分之一。参数衰减值(weight-decay)为0.0005,动量因子(momentum)为0.9。为防止初始XLoss爆炸,前10个epoch的学习率从1×10-4逐渐升至4×10-4。
衡量行人属性识别能力的两个指标为基于标签的评价指标和基于实例的评价指标。Deng等[18]提出基于标签的评价方式即平均精度(mA),分别计算每个属性正样本和负样本识别正确的比例,再将二者的平均值作为每个属性的准确度。Zhao等[19]提出基于实例的评价方式,根据每个样本的分对属性和分错属性关系得到4个评价指标,分别为准确率(Acc)、精确率(Prec)、召回率(Rec)和F1。
3.3 网络模型的切片分析
为了更好地分析通道注意力模块的有效性,
表 1. 通道注意力有效性的验证实验
Table 1. Verification experiment of the channel attention effectiveness unit: %
|
为了验证自顶向下模块的指导效果,在每个数据集上进行3组对比实验,第1组实验在基础网络中添加
表 2. 不同特征融合模块的识别结果
Table 2. Recognition results of different feature fusion modules unit: %
|
3.4 属性在各个特征层的识别率
为了进一步分析网络中多尺度特征融合的有效性,用几个行人属性在RAP数据集上进行实验,包括高级语义属性年龄Age less 16、 Age 17~60、Age bigger 60和低级语义属性上身衬衫(ub-shirt)、下身裙子(lb-skirt)和上身短袖(ub-short sleeve),结果如
表 3. RAP数据集上每层特征的识别结果
Table 3. Recognition results for each layer feature on RAP data set unit: %
|
对单个属性的分析,推断低级语义属性同时基于低级特征和高级特征。如上身短袖(ub-short sleeve)依赖于从网络的浅层中获得的低层特征,如纹理特征;而上身衣服属性需要从高层特征的语义信息中获得,当高层特征用于指导底层特征时,可大幅度提升属性识别率,这表明高层特征对底层特征具有属性语义指导作用。因此,每个属性的识别需要多层次的特征。由实验数据可知,p5'、p4'、p3'、p2'四个横向预测对不同属性的识别率不同,因此,融合时对所有预测的总和进行加权,结果表明本算法更有效。
3.5 实验结果
本算法与其他行人属性识别算法在RAP和PA-100K数据集上的训练和验证结果如
表 4. 不同算法在RAP数据集上的识别结果
Table 4. Recognition results of different algorithms on the RAP data set unit: %
|
表 5. 不同算法在PA-100K数据集上的识别结果
Table 5. Recognition results of different algorithms on the PA-100K data set unit: %
|
从
4 结论
提出了一种端到端多尺度特征融合的行人属性识别算法,通过对残差网络建立特征金字塔以及通道注意力模块,有效融合了高层语义特征和底层特征,进一步提升了模型的学习效率。在RAP和PA-100K数据集上的实验结果表明,与现有算法相比,本算法的平均精度、准确度和F1性能更好。但该模型没有充分利用属性之间的联系,后续可将属性之间的关系建模整合到行人属性识别网络中,进一步提高行人属性的识别率。
[1] SchumannA, StiefelhagenR. Person re-identification by deep learning attribute-complementary information[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), July 21-26, 2017, Honolulu, HI, USA.New York: IEEE Press, 2017: 1435- 1443.
[2] Su C, Yang F, Zhang S L, et al. Multi-task learning with low rank attribute embedding for multi-camera person re-identification[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(5): 1167-1181.
[3] SchumannA, SpeckerA, BeyererJ. Attribute-based person retrieval and search in video sequences[C]∥2018 15th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS), November 27-30, 2018, Auckland, New Zealand.New York: IEEE Press, 2018: 1- 6.
[4] Deng YB, LuoP, Loy CC, et al. Pedestrian attribute recognition at far distance[C]∥Proceedings of the 22nd ACM International Conference on Multimedia, November 3-7, 2014, Orlando, Florida, USA. New York: ACM, 2014: 789- 792.
[5] GrayD, TaoH. Viewpoint invariant pedestrian recognition with an ensemble of localized features[M] ∥Forsyth D, Torr P, Zisserman A, et al. Computer Vision-ECCV 2018. Lecture Notes in Computer Science. Cham: Springer, 2018, 5302: 262- 275.
[6] 陈立里, 张正道, 彭力. 基于改进SSD的实时检测方法[J]. 激光与光电子学进展, 2019, 56(1): 011002.
[7] 王俊强, 李建胜, 周学文, 等. 改进的SSD算法及其对遥感影像小目标检测性能的分析[J]. 光学学报, 2019, 39(6): 0628005.
[8] 欧攀, 张正, 路奎, 等. 基于卷积神经网络的遥感图像目标检测[J]. 激光与光电子学进展, 2019, 56(5): 051002.
[9] Li DW, Chen XT, Huang KQ. Multi-attribute learning for pedestrian attribute recognition in surveillance scenarios[C]∥2015 3rd IAPR Asian Conference on Pattern Recognition (ACPR), November 3-6, 2015, Kuala Lumpur, Malaysia.New York: IEEE Press, 2015: 111- 115.
[10] SudoweP, SpitzerH, LeibeB. Person attribute recognition with a jointly-trained holistic CNN model[C]∥2015 IEEE International Conference on Computer Vision Workshop (ICCVW), December 7-13, 2015, Santiago, Chile.New York: IEEE Press, 2015: 329- 337.
[11] ParkS, Zhu SC. Attributed grammars for joint estimation of human attributes, part and pose[C]∥2015 IEEE International Conference on Computer Vision (ICCV), December 7-13, 2015, Santiago, Chile.New York: IEEE Press, 2015: 2372- 2380.
[13] Lin TY, DollárP, GirshickR, et al.Feature pyramid networks for object detection[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA.New York: IEEE Press, 2017: 936- 944.
[14] He KM, Zhang XY, Ren SQ, et al.Deep residual learning for image recognition[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA.New York: IEEE Press, 2016: 770- 778.
[15] HuJ, ShenL, AlbanieS, et al. Squeeze-and-excitation networks [EB/OL]. [2020-09-11].https:∥arxiv.org/abs/1709. 01507.
[16] Li DW, ZhangZ, Chen XT, et al. A richly annotated dataset for pedestrian attribute recognition[EB/OL]. [2020-09-15].https:∥arxiv.org/abs/1603. 07054.
[17] Saquib MS, SchumannA, WangY, et al. Deep view-sensitive pedestrian attribute inference in an end-to-end model[EB/OL]. [2020-09-13].http:∥arxiv.org/abs/1707. 06089.
[18] Deng YB, LuoP, Loy CC, et al. Learning to recognize pedestrian attribute[EB/OL]. [2020-09-18].http:∥arxiv.org/abs/1501. 00901.
[19] ZhaoX, Sang LF, Ding GG, et al.Grouping attribute recognition for pedestrian with joint recurrent learning[C]∥Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence, July 13-19, 2018, Stockholm, Sweden.California: AAAI Press, 2018: 3177- 3183.
[20] Li DW, Chen XT, ZhangZ, et al.Pose guided deep model for pedestrian attribute recognition in surveillance scenarios[C]∥2018 IEEE International Conference on Multimedia and Expo (ICME), July 23-27, 2018, San Diego, CA, USA.New York: IEEE Press, 2018: 1- 6.
[21] Liu XH, Zhao HY, Tian MQ, et al.HydraPlus-net: attentive deep features for pedestrian analysis[C]∥2017 IEEE International Conference on Computer Vision (ICCV), October 22-29, 2017, Venice, Italy. New York: IEEE Press, 2017: 350- 359.
Article Outline
李娜, 武阳阳, 刘颖, 邢琎. 基于多尺度注意力网络的行人属性识别算法[J]. 激光与光电子学进展, 2021, 58(4): 0410025. Na Li, Yangyang Wu, Ying Liu, Jin Xing. Pedestrian Attribute Recognition Algorithm Based on Multi-Scale Attention Network[J]. Laser & Optoelectronics Progress, 2021, 58(4): 0410025.