基于时空交互注意力模型的人体行为识别算法 下载: 1049次
1 引言
基于视频的人体行为识别在智能监控、公共安全、人机交互和行为分析等科学和技术领域十分重要,近年来受到了学术界的广泛关注。行为识别系统的性能在很大程度上取决于它是否可以从视频中提取并利用相关信息。双流网络的出现极大地促进了视频行为识别方面的发展。许多研究人员建立了具有不同深度和宽度的各种网络结构,用于从图像中提取复杂的特征。文献[ 1]第一次提出时间和空间网络的双流卷积神经网络(CNN)结构,分别对单独的RGB帧和堆积的光流帧进行操作并在最后进行融合。文献[ 2]介绍了时间段网络,以多模态为输入,基于长范围时间结构建模,从而保证从分段视频中学习到有效特征。文献[ 3]将双流的思想加入到三维(3D) ConvNet中,在大型数据集上进行训练,使得从视频中学习到高效的时空特征提取器成为可能。
受到文献[ 4]中图像注意力的启发,许多的研究人员试图在行为识别模型中引入空间注意力,关注每一帧中感兴趣的目标区域,抑制无用信息的影响。文献[ 5]提出一个时空神经网络来预测帧上的共享注意力位置。在每个视频帧中,人的视线方向和潜在的目标框是检测社交场景中共享注意力的两个关键问题。文献[ 6]提出一种空间注意力网络,以注意力图的形式帮助网络聚焦于帧的相关区域来预测行为。文献[ 7]提出了双重注意网络(DANet),在全连接(FC)网络中附加了两种类型的注意力模块,基于空间和通道维度上的语义依赖性进行建模。上述方法在构造空间注意力时更多地考虑全局和局部的关系,而忽视了图像中前景与背景的关系。此外,对于视频中的人体行为识别任务,由于视频具有时间信息,因此,不仅需要关注空间上的有效特征,还需要关注时间上的有效帧,深入了解视频的行为。文献[ 8]提出在双向LSTM(Bi-LSTM)网络基础上添加时间注意力层,自适应地感知时间上的重要特征。文献[ 9]提出深度渐进强化学习(DPRL)方法,通过深度强化学习来模拟帧的选择,挖掘最有辨别性的帧并且丢失序列中的模糊帧。文献[ 10]提出VideoYOLO方法,在单个过程中捕获整个视频的整体时间动态。该方法通过选择帧的子集来生成代理视频,大致保留原始视频中所呈现的整体时间动态。尽管文献[ 11-12]整合了时空注意力来提取特征,但是,它们单纯基于RGB模态构造时空注意力,并没有充分利用RGB模态和光流模态的时空特性。
为了全面考虑RGB模态中前景与背景的关系,最大化利用RGB模态和光流模态的时空特性,本文提出了一种基于时空交互注意力模型(STIAM)的人体行为识别算法。基于全局RGB图的背景和局部掩模图的前景关系来构建空间注意力(MGSAM);基于光流的短期时间相关性来构造时间注意力(OGTAM);将RGB模态计算的空间注意力权重用于时间网络,同时,将光流模态计算的时间注意力权重用于空间网络,增加时空注意力的交互性,有效提取时间和空间特征,最终达到提高行为识别准确性的目的。
2 基本原理
本文以双流模型为基础,设计出一种时空交互注意力网络用于视频行为识别。该模型的总体框架如
图 1. 基于时空交互注意力模型的行为识别网络框架图
Fig. 1. Framework of action recognition network based on spatio-temporal interactive attention model
2.1 掩模引导的空间注意力
本文采用Mask R-CNN[13]分割技术来训练一个特定的显著性动作检测模型。该模型可以检测出每一个运动帧上的显著物体和人体,这些特征都是与该动作息息相关的。具体来说,从一个人体行为数据集的各个行为类别中,分别选取少量RGB帧对显著人体及物体进行标注,并基于标注的显著性数据重新训练Mask R-CNN网络,保存训练后的显著性行为检测网络模型。基于预训练的显著性行为检测网络模型,对读入的每一帧进行测试,有效地得到每一帧的检测效果图。对每一帧的检测效果图,仅保留被检测出的部分,其余图像部分的像素灰度值设置为0,得到所需的局部掩模(Local_Mask)特征图。这一步将每个检测图的前景和背景分开。Local_Mask特征图边界之内和之外的那些像素分别被视为前景和背景。以UCF101数据集为例,该数据集每个行为都包含不同的物体和人体。如
图 2. UCF101数据集生成的Local_Mask特征图。(a)平衡木;(b)遛狗
Fig. 2. Local_Mask feature maps generated from UCF101 dataset. (a) Balance beam; (b) walking with dog
在得到每个行为的Local_Mask特征图之后,开始致力于构造空间注意力机制提取辨别性特征。本文提出一个双流架构来分别提取局部Local_Mask图和全局RGB图的特征。来自两个流的特征被级联为更丰富的特征表示,并采用重新加权操作以突出更有用的特征,同时抑制无用的特征。如
具体来说,每一个前景Local_Mask图像XL通过L-Net网络,每一个原始全局图像XG通过G-Net网络。L-Net和G-Net拥有相同的网络结构,但是网络参数彼此之间不共享。这两个网络分别生成相应的特征图,表示为FL、FG。L-Net和G-Net的执行过程可表示为
式中:i可以分别表示L和G,即局部Local_Mask特征和全局特征;Inc表示Inception V3网络;GAP表示全局平均池化。
然后将这两个特征图沿通道串联为F,
以F作为输入,构建一个注意力重加权网络对F进行重新加权,以得到加权特征图Fs,加权的过程可表示为
式中:γ表示Relu激活函数;σ表示Sigmoid激活函数;FCs1、FCs2表示两个全连接层;GAP表示全局平均池化;☉表示通道级相乘;在经过GAP之后,Ws1的输出大小为R1×1×512,最终权重Ws的输出大小为R1×1×1024。将加权特征图Ws与原特征图F进行加权乘法,有选择性地突出有效特征、弱化无效特征,为后续的行为分类提供了重要的特征表示。
2.2 光流引导的时间注意力
在传统的图像分类任务中,通过注意力模块来判断帧中区域的重要性,而对于视频动作识别任务,还需要判断在长期视频中帧的重要性。为了使网络自动地关注视频中的关键帧,有效地计算时间注意力,本文提出了光流引导的时间注意力模块,为相应的帧分配合理的权重。
首先,将单个视频中生成的光流帧通过3D ConvNet提取特征,从而得到一个多通道的特征图Fo。因此,时间注意力的计算被转换成通道注意力的计算。然后,执行全局平均池化,将全部信息压缩到通道描述符中,这些描述符的统计信息可表示整个视频。这个全局平均池化的过程可表述为
式中:W和H分别表示宽度和高度。
最终,将压缩后的特征图输入到由两个完全连接层组成的网络中,目的是获得时间上的相互依赖关系。第二个全连接层的大小与所输入的特征图的通道数o一致,将新学习到的权重和原始特征Fo之间执行通道级乘法,表示为
式中:Wt表示分配有时间权重的一个视频特征检测器。
2.3 时空融合
双流网络中空间流是以原始帧的形式提取特征,其中包含视频中描绘的场景和物体的信息。时间流是以光流的形式来提取特征,其中包含摄像机和场景中物体的运动信息。本文网络体系结构以双流网络为基础,两个网络相互补充,相互融合,从而获得更高的性能。
本文使用在ImageNet数据集上经过预训练的InceptionV3网络来提取特征,该网络的最后一层卷积层的输出将作为预先的特征表示。在空间流部分,该特征被送入空间注意力模块中得到空间辨别性特征,再使用Bi-LSTM网络提取特征。在时间流部分,使用3D ConvNet网络提取特征,该特征被送入时间注意力模块中得到时间辨别性特征。为了充分利用行为视频序列提供的空间特征和时间特征,本文考虑对RGB模态和光流模态的视频级别预测执行概率融合。最终预测结果yfusion可以通过下式获得。
式中:λ代表在最终的融合过程中空间流视频级别预测yrgb所需要的权重;yopt表示时间流视频级别预测;Orgb和Oopt表示原始的RGB和光流特征;AS表示掩模引导的空间注意力机制;AT表示光流引导的时间注意力机制。
3 实验过程
3.1 数据集
UCF101数据集是一个典型的行为识别数据集,总共包含13320个视频,来源于YouTube。它的类别总数是101,其中具体包含以下几类动作:人和物体交互、人的肢体行为、人与人的交互行为、人和乐器之间的行为、人与球类之间的行为。UCF101数据集类别丰富,并且存在着相机运动、姿势、尺寸、视角、杂乱的背景以及光照条件等变化因素,因此该数据集是具有挑战性的。
Penn Action数据集包含了2326视频序列,有15个行为类别,例如baseball pitch、bench press等。这个数据集面临的挑战是在某些行为上会缺少一些身体部位,此外,人体外观、视角、背景以及各个样本之间图像尺寸会有区别,因此该数据集也是具有挑战性的。
3.2 实验设置
考虑到视频本质上的多模态性,本文主要应用RGB和光流两种模态。对于不同的数据集,首先生成RGB帧和对应的光流帧。光流帧是由TVNet运动模式代替,它是由文献[ 14]提供的一种改进的TV-L1算法所生成的图像。
对于所有视频来说,由于其庞大的数量,系统无法处理所有帧的信息,因此对现有的帧进行操作,选取其中的15帧进行实验。为了使识别性能和计算负担之间达到平衡,UCF101数据集每一帧的大小为128×128,而Penn Action每一帧的大小为150×150。
实验通过搭建keras框架在GPU环境下进行,计算机配置是Ubuntu16.04系统,64 GB内存,3块NVIDIA GeForce GTX Titan 6 G显存。
表 1. 实验参数
Table 1. Experimental parameters
|
3.3 单个模态实验结果
3.3.1 以光流引导的时间注意力机制的影响
在一段视频中,并不是所有的帧都对行为识别有益,对于那些与类别无关的行为或是无关背景显然会扰乱行为识别的最终结果。因此时间注意力机制是否存在是一个重要的选择。使用时间注意力机制,网络自动给每一帧分配相应的权重,越有利的帧其权重越高,学习到的特征也会越有效,最终会改善行为识别的精度。从
表 2. UCF101数据集上光流引导的时间注意力机制的影响
Table 2. Effects of optical flow guided temporal attention mechanism on UCF101 datasetunit: %
|
3.3.2 以掩模引导的空间注意力机制的影响
在视频的每一帧中,并不是所有区域都是同等重要的。相比于前景,背景所包含的有效信息显然更少。因此空间注意力机制是否存在也是一个重要的选择。通过空间注意力,每一帧上的不同区域被分配相应的权重,越有利的区域其权重越高,并且,不同帧学习到的空间注意力信息也是不同的。从
表 3. UCF101数据集上掩模引导的空间注意力机制的影响
Table 3. Effects of mask guided spatial attention mechanism on UCF101 dataset%
|
3.4 两个模态融合实验结果
空间流和时间流不同组合方式的研究结果如
表 4. UCF101数据集上本文模型和其他基础模型的比较
Table 4. Comparison of proposed model and other basic models on UCF101 dataset%
|
图 5. 各算法在UCF101数据集上的训练测试迭代过程曲线图。(a) 本文模型;(b) 本文模型引入OGTAM; (c) 本文模型引入MGSAM;(d) 本文模型引入OGTAM和MGSAM
Fig. 5. Training and testing iteration curves of each algorithm on UCF101 dataset.(a) Proposed model; (b) proposed model with OGTAM;(c) proposed model with MGSAM;(d) proposed model with OGTAM+MGSAM
4 实验结果对比与分析
在UCF101数据集和Penn Action数据集上,将本文模型与当前行为识别最新的方法进行比较。结果如
从
表 6. 不同算法在Penn Action数据集上的准确率对比
Table 6. Comparison of accuracy of different algorithms on Penn Action dataset%
|
表 5. 不同算法在UCF101数据集上的准确率对比
Table 5. Comparison of accuracy of different algorithms on UCF101 dataset%
|
在Penn Action行为数据集上,将本文方法与一些基础双流方法和一些最新的方法进行比较,结果如
总的来说,从
图 6. 本文算法在不同数据集上的可视化效果图。(a) UCF101; (b) Penn Action
Fig. 6. Visualization results of proposed algorithm on different datasets. (a) UCF101; (b) Penn Action
5 结论
本文提出了一个新的双流模型称作时空交互注意力模型。该模型构造了掩模引导的空间注意力机制来计算每一帧上的显著性区域;并构造光流引导的时间注意力机制来定位每个视频中的显著性帧。两个注意力机制所计算的权重在两个模态上的交互加权,实现了注意力上的交互性,从而最大化利用RGB模态和光流模态的互补性。在两个公开数据集UCF101和Penn Action上与其他已有的方法进行比较,本文模型能更好地提取每一帧的空间特征和帧与帧间的时序特征,识别准确率更好。
[1] SimonyanK, ZissermanA. Two-stream convolutional networks for action recognition in videos[C]∥Advances in neural information processing systems, December 8-13, 2014, Montreal, Quebec, Canada: Curran Associates, Inc., 2014: 568- 576.
[2] Wang LM, Xiong YJ, WangZ, et al.Temporal segment networks: towards good practices for deep action recognition[M] ∥Computer Vision-ECCV 2016. Cham: Springer International Publishing, 2016: 20- 36.
[3] CarreiraJ, ZissermanA. Quo vadis, action recognition? A new model and the kinetics dataset[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 21-26 July 2017, Honolulu, HI, USA.New York: IEEE Press, 2017: 4724- 4733.
[4] MnihV, HeessN, GravesA, et al. Recurrent models of visual attention[C]∥NIPS'14: Proceedings of the 27th International Conference on Neural Information Processing Systems - Volume 2.2014: 2204- 2212.
[5] Fan LF, Chen YX, WeiP, et al.Inferring shared attention in social scene videos[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. 18-23 June 2018, Salt Lake City, UT, USA.New York: IEEE Press, 2018: 6460- 6468.
[6] Lu M L, Li Z N, Wang Y M, et al. Deep attention network for egocentric action recognition[J]. IEEE Transactions on Image Processing, 2019, 28(8): 3703-3713.
[7] FuJ, LiuJ, Tian HJ, et al.Dual attention network for scene segmentation[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 15-20 June 2019, Long Beach, CA, USA.New York: IEEE Press, 2019: 3141- 3149.
[8] 朱铭康, 卢先领. 基于Bi-LSTM-Attention模型的人体行为识别算法[J]. 激光与光电子学进展, 2019, 56(15): 151503.
[9] Tang YS, TianY, Lu JW, et al.Deep progressive reinforcement learning for skeleton-based action recognition[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. 18-23 June 2018, Salt Lake City, UT, USA.New York: IEEE Press, 2018: 5323- 5332.
[10] Jing L L, Yang X D, Tian Y L. Video You only look once: overall temporal convolutions for action recognition[J]. Journal of Visual Communication and Image Representation, 2018, 52: 58-65.
[11] Yu T Z, Guo C X, Wang L F, et al. Joint spatial-temporal attention for action recognition[J]. Pattern Recognition Letters, 2018, 112: 226-233.
[12] Lu L H, Di H J, Lu Y, et al. Spatio-temporal attention mechanisms based model for collective activity recognition[J]. Signal Processing: Image Communication, 2019, 74: 162-174.
[13] He KM, GkioxariG, DollárP, et al.Mask R-CNN[C]∥2017 IEEE International Conference on Computer Vision (ICCV). 22-29 Oct. 2017, Venice, Italy.New York: IEEE Press, 2017: 2980- 2988.
[14] Fan LJ, Huang WB, GanC, et al.End-to-end learning of motion representation for video understanding[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. 18-23 June 2018, Salt Lake City, UT, USA.New York: IEEE Press, 2018: 6016- 6025.
[15] Li Z Y, Gavrilyuk K, Gavves E, et al. Video LSTM convolves, attends and flows for action recognition[J]. Computer Vision and Image Understanding, 2018, 166: 41-50.
[16] Zhang J X, Hu H F. Deep spatiotemporal relation learning with 3D multi-level dense fusion for video action recognition[J]. IEEE Access, 2019, 7: 15222-15229.
[17] Khowaja S A, Lee S L. Hybrid and hierarchical fusion networks: a deep cross-modal learning architecture for action recognition[J]. Neural Computing and Applications, 2019: 1-12.
[18] WangH, SchmidC. Action recognition with improved trajectories[C]∥2013 IEEE International Conference on Computer Vision. 1-8 Dec. 2013, Sydney, NSW, Australia.New York: IEEE Press, 2013: 3551- 3558.
[19] Peng X J, Wang L M, Wang X X, et al. Bag of visual words and fusion methods for action recognition: comprehensive study and good practice[J]. Computer Vision and Image Understanding, 2016, 150: 109-125.
[20] Lan ZZ, LinM, Li XC, et al.Beyond Gaussian pyramid: multi-skip feature stacking for action recognition[C]∥2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 7-12 June 2015, Boston, MA, USA. New York: IEEE Press, 2015: 204- 212.
[21] ZhuY, Lan ZZ, NewsamS, et al.Hidden two-stream convolutional networks for action recognition[M] ∥Computer Vision-ACCV 2018. Cham: Springer International Publishing, 2019: 363- 378.
[22] Tu Z G, Xie W, Dauwels J, et al. Semantic cues enhanced multimodality multistream CNN for action recognition[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 29(5): 1423-1437.
[23] TranA, Cheong LF. Two-stream flow-guided convolutional attention networks for action recognition[C]∥2017 IEEE International Conference on Computer Vision Workshops (ICCVW). 22-29 Oct. 2017, Venice, Italy.New York: IEEE Press, 2017: 3110- 3119.
[24] Du W B, Wang Y L, Qiao Y. Recurrent spatial-temporal attention network for action recognition in videos[J]. IEEE Transactions on Image Processing, 2018, 27(3): 1347-1360.
[25] Cao CQ, Zhang YF, Zhang CJ, et al. Action recognition with joints-pooled 3D deep convolutional descriptors[C]∥IJCAI'16: Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence.2016: 3324- 3330.
[26] VillegasR, YangJ, ZouY, et al. Learning to generate long-term future via hierarchical prediction[C]∥Proceedings of the 34th International Conference on Machine Learning-Volume 70, Aug 6-11, 2017, Sydney, Australia: JMLR. org, 2017: 3560- 3569.
[27] Gao RH, XiongB, GraumanK. Im2flow: motion hallucination from static images for action recognition[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. 18-23 June 2018, Salt Lake City, UT, USA. New York: IEEE Press, 2018: 5937- 5947.
Article Outline
潘娜, 蒋敏, 孔军. 基于时空交互注意力模型的人体行为识别算法[J]. 激光与光电子学进展, 2020, 57(18): 181506. Na Pan, Min Jiang, Jun Kong. Human Action Recognition Algorithm Based on Spatio-Temporal Interactive Attention Model[J]. Laser & Optoelectronics Progress, 2020, 57(18): 181506.