基于时空交互注意力模型的人体行为识别算法

潘娜; 蒋敏; 孔军

doi:doi:10.3788/LOP57.181506

激光与光电子学进展, 2020, 57 (18): 181506, 网络出版: 2020-09-02

基于时空交互注意力模型的人体行为识别算法下载： 1049次

Human Action Recognition Algorithm Based on Spatio-Temporal Interactive Attention Model

论文大纲

潘娜蒋敏 ^*孔军

作者单位

江南大学江苏省模式识别与计算智能工程实验室, 江苏无锡 214122

机器视觉行为识别双流网络注意力深度学习交互性 machine vision action recognition two-stream network attention deep learning interaction

AI 词云图 AI一句话精读 AI短摘要

注：本部分内容由 AI 自动生成，请您知悉。

摘要

针对传统的双流网络不能有效提取视频序列中的有效帧和帧中的有效区域,而导致识别准确率低的问题,提出了一种基于时空交互注意力模型(STIAM)的人体行为识别算法。首先,利用两个不同的深度学习网络分别提取空间和时间特征;其次,设计一种掩模引导的空间注意力模型,用于计算每一帧上的显著性位置;然后,设计一种光流引导的时间注意力模型,用于定位每个视频中的显著性帧;最后,分别将时间、空间注意力获得的权重与空间特征、时间特征进行加权融合,使模型实现时空交互性。在UCF101和Penn Action数据集上与现有的方法进行比较,实验结果表明,STIAM具有较好的特征提取能力,可以明显提升行为识别的精度。

Abstract

A human action recognition algorithm is proposed based on spatio-temporal interactive attention model (STIAM) to solve the problem of low recognition accuracy. This problem is caused by the incapability of the two-stream network to effectively extract the valid frames in each video and the valid regions in each frame. Initially, the proposed algorithm applies two different deep learning networks to extract spatial and temporal features respectively. Subsequently, a mask-guided spatial attention model is designed to calculate the salient regions in each frame. Then, an optical flow-guided temporal attention model is designed to locate the saliency frames in each video. Finally, the weights obtained from temporal and spatial attention are weighted respectively with spatial features and temporal features to make this model realize the spatio-temporal interaction. Compared with the existing methods on UCF101 and Penn Action datasets, the experimental results show that STIAM has high feature extraction performance and the accuracy of action recognition is obviously improved.

1 引言

基于视频的人体行为识别在智能监控、公共安全、人机交互和行为分析等科学和技术领域十分重要,近年来受到了学术界的广泛关注。行为识别系统的性能在很大程度上取决于它是否可以从视频中提取并利用相关信息。双流网络的出现极大地促进了视频行为识别方面的发展。许多研究人员建立了具有不同深度和宽度的各种网络结构,用于从图像中提取复杂的特征。文献[ 1]第一次提出时间和空间网络的双流卷积神经网络(CNN)结构,分别对单独的RGB帧和堆积的光流帧进行操作并在最后进行融合。文献[ 2]介绍了时间段网络,以多模态为输入,基于长范围时间结构建模,从而保证从分段视频中学习到有效特征。文献[ 3]将双流的思想加入到三维(3D) ConvNet中,在大型数据集上进行训练,使得从视频中学习到高效的时空特征提取器成为可能。

受到文献[ 4]中图像注意力的启发,许多的研究人员试图在行为识别模型中引入空间注意力,关注每一帧中感兴趣的目标区域,抑制无用信息的影响。文献[ 5]提出一个时空神经网络来预测帧上的共享注意力位置。在每个视频帧中,人的视线方向和潜在的目标框是检测社交场景中共享注意力的两个关键问题。文献[ 6]提出一种空间注意力网络,以注意力图的形式帮助网络聚焦于帧的相关区域来预测行为。文献[ 7]提出了双重注意网络(DANet),在全连接(FC)网络中附加了两种类型的注意力模块,基于空间和通道维度上的语义依赖性进行建模。上述方法在构造空间注意力时更多地考虑全局和局部的关系,而忽视了图像中前景与背景的关系。此外,对于视频中的人体行为识别任务,由于视频具有时间信息,因此,不仅需要关注空间上的有效特征,还需要关注时间上的有效帧,深入了解视频的行为。文献[ 8]提出在双向LSTM(Bi-LSTM)网络基础上添加时间注意力层,自适应地感知时间上的重要特征。文献[ 9]提出深度渐进强化学习(DPRL)方法,通过深度强化学习来模拟帧的选择,挖掘最有辨别性的帧并且丢失序列中的模糊帧。文献[ 10]提出VideoYOLO方法,在单个过程中捕获整个视频的整体时间动态。该方法通过选择帧的子集来生成代理视频,大致保留原始视频中所呈现的整体时间动态。尽管文献[ 11-12]整合了时空注意力来提取特征,但是,它们单纯基于RGB模态构造时空注意力,并没有充分利用RGB模态和光流模态的时空特性。

为了全面考虑RGB模态中前景与背景的关系,最大化利用RGB模态和光流模态的时空特性,本文提出了一种基于时空交互注意力模型(STIAM)的人体行为识别算法。基于全局RGB图的背景和局部掩模图的前景关系来构建空间注意力(MGSAM);基于光流的短期时间相关性来构造时间注意力(OGTAM);将RGB模态计算的空间注意力权重用于时间网络,同时,将光流模态计算的时间注意力权重用于空间网络,增加时空注意力的交互性,有效提取时间和空间特征,最终达到提高行为识别准确性的目的。

2 基本原理

本文以双流模型为基础,设计出一种时空交互注意力网络用于视频行为识别。该模型的总体框架如图1所示。该模型核心之处在于时空注意力机制的整体作用,一方面是捕获每个视频中的有效帧,另一方面是捕获每个帧中的有效区域。本节着重介绍以下三个部分:掩模引导的空间注意力、光流引导的时间注意力和时空融合。

图 1. 基于时空交互注意力模型的行为识别网络框架图

Fig. 1. Framework of action recognition network based on spatio-temporal interactive attention model

下载图片查看所有图片

2.1 掩模引导的空间注意力

本文采用Mask R-CNN^[13]分割技术来训练一个特定的显著性动作检测模型。该模型可以检测出每一个运动帧上的显著物体和人体,这些特征都是与该动作息息相关的。具体来说,从一个人体行为数据集的各个行为类别中,分别选取少量RGB帧对显著人体及物体进行标注,并基于标注的显著性数据重新训练Mask R-CNN网络,保存训练后的显著性行为检测网络模型。基于预训练的显著性行为检测网络模型,对读入的每一帧进行测试,有效地得到每一帧的检测效果图。对每一帧的检测效果图,仅保留被检测出的部分,其余图像部分的像素灰度值设置为0,得到所需的局部掩模(Local_Mask)特征图。这一步将每个检测图的前景和背景分开。Local_Mask特征图边界之内和之外的那些像素分别被视为前景和背景。以UCF101数据集为例,该数据集每个行为都包含不同的物体和人体。如图2所示,跳平衡木的行为,其有效区域就是表演者和平衡木;遛狗的行为,其有效区域就是主人和狗。这些区域不仅有明显的运动状态,而且彼此之间也存在显著差异。因此,确定数据集中每一帧中的有效区域,才能使识别算法的性能更好。

图 2. UCF101数据集生成的Local_Mask特征图。(a)平衡木;(b)遛狗

Fig. 2. Local_Mask feature maps generated from UCF101 dataset. (a) Balance beam; (b) walking with dog

下载图片查看所有图片

在得到每个行为的Local_Mask特征图之后,开始致力于构造空间注意力机制提取辨别性特征。本文提出一个双流架构来分别提取局部Local_Mask图和全局RGB图的特征。来自两个流的特征被级联为更丰富的特征表示,并采用重新加权操作以突出更有用的特征,同时抑制无用的特征。如图3所示,原始全局RGB图像和局部Local_Mask图像被送入掩模引导的空间注意力模型中。

图 3. 掩模引导的空间注意力模型

Fig. 3. Mask guided spatial attention model

下载图片查看所有图片

具体来说,每一个前景Local_Mask图像X_L通过L-Net网络,每一个原始全局图像X_G通过G-Net网络。L-Net和G-Net拥有相同的网络结构,但是网络参数彼此之间不共享。这两个网络分别生成相应的特征图,表示为F_L、F_G。L-Net和G-Net的执行过程可表示为

\begin{array}{l} I_{i} = Inc (X_{i}), (1) \\ G_{i} = GAP (I_{i}), (2) \end{array}

式中:i可以分别表示L和G,即局部Local_Mask特征和全局特征;Inc表示Inception V3网络;GAP表示全局平均池化。

然后将这两个特征图沿通道串联为F,

F = F_{L} \oplus F_{G} 。 (3)

以F作为输入,构建一个注意力重加权网络对F进行重新加权,以得到加权特征图F_s,加权的过程可表示为

\begin{array}{l} F_{s} = F ☉ W_{s}, (4) \\ W_{s 1} = γ \{F C_{s 1} [GAP (F)]\}, (5) \\ W_{s} = σ [F C_{s 2} (W_{s 1})], (6) \end{array}

式中:γ表示Relu激活函数;σ表示Sigmoid激活函数;FC_s1、FC_s2表示两个全连接层;GAP表示全局平均池化;☉表示通道级相乘;在经过GAP之后,W_s1的输出大小为R^1×1×512,最终权重W_s的输出大小为R^1×1×1024。将加权特征图W_s与原特征图F进行加权乘法,有选择性地突出有效特征、弱化无效特征,为后续的行为分类提供了重要的特征表示。

2.2 光流引导的时间注意力

在传统的图像分类任务中,通过注意力模块来判断帧中区域的重要性,而对于视频动作识别任务,还需要判断在长期视频中帧的重要性。为了使网络自动地关注视频中的关键帧,有效地计算时间注意力,本文提出了光流引导的时间注意力模块,为相应的帧分配合理的权重。图4详细描述了光流引导的时间注意力的过程。

图 4. 光流引导的时间注意力模型

Fig. 4. Optical flow guided temporal attention model

下载图片查看所有图片

首先,将单个视频中生成的光流帧通过3D ConvNet提取特征,从而得到一个多通道的特征图F_o。因此,时间注意力的计算被转换成通道注意力的计算。然后,执行全局平均池化,将全部信息压缩到通道描述符中,这些描述符的统计信息可表示整个视频。这个全局平均池化的过程可表述为

F_{g'} = GAP (F_{o}) = \frac{\sum_{i}^{=} \sum_{j}^{=} F_{o} (i, j)}{W \times H}, (7)

式中:W和H分别表示宽度和高度。

最终,将压缩后的特征图输入到由两个完全连接层组成的网络中,目的是获得时间上的相互依赖关系。第二个全连接层的大小与所输入的特征图的通道数o一致,将新学习到的权重和原始特征F_o之间执行通道级乘法,表示为

\begin{array}{l} F_{t} = F_{o} ☉ W_{t} = \sum_{j}^{=} v_{j} \times F_{j}, (8) \\ W_{t 1} = γ [F C_{t 1} (F_{g'})], (9) \\ W_{t} = σ [F C_{t 2} (W_{t 1})], (10) \end{array}

式中:W_t表示分配有时间权重的一个视频特征检测器。

2.3 时空融合

双流网络中空间流是以原始帧的形式提取特征,其中包含视频中描绘的场景和物体的信息。时间流是以光流的形式来提取特征,其中包含摄像机和场景中物体的运动信息。本文网络体系结构以双流网络为基础,两个网络相互补充,相互融合,从而获得更高的性能。

本文使用在ImageNet数据集上经过预训练的InceptionV3网络来提取特征,该网络的最后一层卷积层的输出将作为预先的特征表示。在空间流部分,该特征被送入空间注意力模块中得到空间辨别性特征,再使用Bi-LSTM网络提取特征。在时间流部分,使用3D ConvNet网络提取特征,该特征被送入时间注意力模块中得到时间辨别性特征。为了充分利用行为视频序列提供的空间特征和时间特征,本文考虑对RGB模态和光流模态的视频级别预测执行概率融合。最终预测结果y_fusion可以通过下式获得。

\begin{array}{l} y_{rgb} = O_{rgb} \times A_{S} \times A_{T}, (11) \\ y_{opt} = O_{opt} \times A_{S} \times A_{T}, (12) \\ y_{fusion} = λ \times y_{rgb} + (1 - λ) \times y_{opt}, (13) \end{array}

式中:λ代表在最终的融合过程中空间流视频级别预测y_rgb所需要的权重;y_opt表示时间流视频级别预测;O_rgb和O_opt表示原始的RGB和光流特征;A_S表示掩模引导的空间注意力机制;A_T表示光流引导的时间注意力机制。

3 实验过程

3.1 数据集

UCF101数据集是一个典型的行为识别数据集,总共包含13320个视频,来源于YouTube。它的类别总数是101,其中具体包含以下几类动作:人和物体交互、人的肢体行为、人与人的交互行为、人和乐器之间的行为、人与球类之间的行为。UCF101数据集类别丰富,并且存在着相机运动、姿势、尺寸、视角、杂乱的背景以及光照条件等变化因素,因此该数据集是具有挑战性的。

Penn Action数据集包含了2326视频序列,有15个行为类别,例如baseball pitch、bench press等。这个数据集面临的挑战是在某些行为上会缺少一些身体部位,此外,人体外观、视角、背景以及各个样本之间图像尺寸会有区别,因此该数据集也是具有挑战性的。

3.2 实验设置

考虑到视频本质上的多模态性,本文主要应用RGB和光流两种模态。对于不同的数据集,首先生成RGB帧和对应的光流帧。光流帧是由TVNet运动模式代替,它是由文献[ 14]提供的一种改进的TV-L1算法所生成的图像。

对于所有视频来说,由于其庞大的数量,系统无法处理所有帧的信息,因此对现有的帧进行操作,选取其中的15帧进行实验。为了使识别性能和计算负担之间达到平衡,UCF101数据集每一帧的大小为128×128,而Penn Action每一帧的大小为150×150。

实验通过搭建keras框架在GPU环境下进行,计算机配置是Ubuntu16.04系统,64 GB内存,3块NVIDIA GeForce GTX Titan 6 G显存。表1列举了本文实验参数设置。

表 1. 实验参数

Table 1. Experimental parameters

Parameter	Value
Loss function	Categorical_cross entropy
Optimizer	Adam
Learning rate	0.0001
Batch size	18
Epoch	150(Penn Action)/250(UCF101)

查看所有表

3.3 单个模态实验结果

3.3.1 以光流引导的时间注意力机制的影响

在一段视频中,并不是所有的帧都对行为识别有益,对于那些与类别无关的行为或是无关背景显然会扰乱行为识别的最终结果。因此时间注意力机制是否存在是一个重要的选择。使用时间注意力机制,网络自动给每一帧分配相应的权重,越有利的帧其权重越高,学习到的特征也会越有效,最终会改善行为识别的精度。从表2可以看出,不管是RGB模态还是TVNet光流模态,使用时间注意力机制的精度比不使用情况下,精度至少提高1%。此外,分别对两个模态使用两种不同的网络提取特征,可以发现,Bi-LSTM网络更适合提取RGB特征;而3D ConvNet网络更适合提取TVNet光流特征。因此,在后续的实验部分,本文将在空间流应用Bi-LSTM,在时间流应用3D ConvNet网络。除了表中实验外,又增加了一组在RGB模态上的实验。如果将光流计算的权重与对应的RGB特征进行加权,RGB模态上的精度会由82.22增加到85.92;因此,可以认为光流特征更适合计算时间注意力权重。在此基础上,本文在时间流上构建了光流引导的时间注意力模块,并用于空间流中,更大程度地提高了时间流和空间流的时空交互性。

表 2. UCF101数据集上光流引导的时间注意力机制的影响

Table 2. Effects of optical flow guided temporal attention mechanism on UCF101 datasetunit: %

Modalityattention	RGB		TVNet
Modalityattention	With	Without	With	Without
3D ConvNet	76.58	75.43	82.79	81.71
Bi-LSTM	82.22	80.15	80.36	79.38

查看所有表

3.3.2 以掩模引导的空间注意力机制的影响

在视频的每一帧中,并不是所有区域都是同等重要的。相比于前景,背景所包含的有效信息显然更少。因此空间注意力机制是否存在也是一个重要的选择。通过空间注意力,每一帧上的不同区域被分配相应的权重,越有利的区域其权重越高,并且,不同帧学习到的空间注意力信息也是不同的。从表3可以看出,与未使用空间注意力机制相比,本文方法在不同模态上有更大的提升。在RGB上添加空间注意力机制,性能提高了5%;在TVNet光流上添加空间注意力机制,性能提高了约1%;在两个模态融合上添加空间注意力机制,性能提高了约1%。因此,以掩模引导的空间注意力可以进一步改进空间流和时间流的辨别性特征提取能力。基于光流特征难以提取掩模特征,因此采用RGB计算得到的掩模特征来构造空间注意力机制,这不仅增加了两个模态特征的有效性,还提高了时间流和空间流的时空交互性。

表 3. UCF101数据集上掩模引导的空间注意力机制的影响

Table 3. Effects of mask guided spatial attention mechanism on UCF101 dataset%

Attention	With	Without
RGB	85.44	80.15
TVNet	82.62	81.71
RGB+TVNet	92.80	91.70

查看所有表

3.4 两个模态融合实验结果

空间流和时间流不同组合方式的研究结果如表4所示。两个网络的融合比起表2和表3中单模态的网络精度更高。多模态的网络可以更好地处理视频信息,将各个模态的信息相互巩固、相互弥补来改善识别性能。除此以外,还将所提模型与其他的基础模型进行比较。表4显示了本文模型在UCF101数据集上相比其他的模型性能更好,比双流HHF模型^[17]高0.5%,比videoLSTM双流模型^[15]高2%,比双流MLDF-3D模型^[16]高0.4%。由2.1节和2.2节可知,本文模型引入MGSAM和OGTAM算法,这两个机制将模型的精度进一步提高到92.8%和92.2%,最终,总的模型识别精度为94.9%。

图5显示了各算法包括OGTAM和MGSAM算法在UCF101数据集上利用可视化工具得到的训练测试迭代过程曲线图。随着训练和测试次数的增加,每个算法的准确性和损失的变化情况有所差异。从图5可以看出,在基础模型上,当迭代次数接近80时,准确率达到87%,并趋于稳定,随着迭代次数的增加,准确率缓慢上升,损失缓慢下降;最终达到91%后,准确率增长趋于平稳。对于OGTAM算法和MGSAM算法,当迭代次数接近60时,准确率就达到了91%;随着迭代继续进行,准确率持续缓慢上升,损失持续缓慢下降。最终,本文算法在迭代次数仅为40时,准确率就达到93%,并继续增长直至收敛饱和;与其他算法曲线相比,本文最终算法(Proposed model with OGTAM+MGSAM)的收敛速度更快,拟合和预测精度更高。

表 4. UCF101数据集上本文模型和其他基础模型的比较

Table 4. Comparison of proposed model and other basic models on UCF101 dataset%

Model	Accuracy
VideoLSTM-two stream^[15]	89.2
Two-stream MLDF-3D^[16]	91.3
Two-stream HHF^[17]	91.2
Proposed model	91.7
Proposed model(with OGTAM)	92.2
Proposed model(with MGSAM)	92.8
Proposed model(with OGTAM+MGSAM)	94.9

查看所有表

图 5. 各算法在UCF101数据集上的训练测试迭代过程曲线图。(a) 本文模型;(b) 本文模型引入OGTAM; (c) 本文模型引入MGSAM;(d) 本文模型引入OGTAM和MGSAM

Fig. 5. Training and testing iteration curves of each algorithm on UCF101 dataset.(a) Proposed model; (b) proposed model with OGTAM;(c) proposed model with MGSAM;(d) proposed model with OGTAM+MGSAM

下载图片查看所有图片

4 实验结果对比与分析

在UCF101数据集和Penn Action数据集上,将本文模型与当前行为识别最新的方法进行比较。结果如表5~6所示。和不同类型的方法进行对比,包括基于手工特征的方法、基于深度学习的方法、基于注意力的方法。

从表5可以看出,对于UCF101数据集,传统方法使用手工特征来表示视频,其性能远低于深度学习方法。除此以外,部分最新的模型引入各种注意力机制在提取特征方面优化了网络的能力。在这些方法中,本文方法显然取得了很好的效果,这是因为充分利用了时空信息的交互性以及注意力模型的辨别性特征提取能力。本文方法比表5第一部分的传统方法至少高出约6%。此外,与表5第三部分中的注意力模型相比,精度提升约1%。与大多数深度学习方法相比,本文方法效果更好,除了表5第二部分中精度为98.0%的双流I3D模型^[3]以外。

表 6. 不同算法在Penn Action数据集上的准确率对比

Table 6. Comparison of accuracy of different algorithms on Penn Action dataset%

Model	Accuracy
Good-practice CNN	88.6
JDD^[25]	87.4
C3D^[25]	86.0
TSN-S+T^[2]	93.8
GLTF^[26]	86.1
Im2Flow^[27]	77.4
Spatial	81.7
Temporal	83.4
Proposed model	89.3
Proposed model(with OGTAM)	90.7
Proposed model(with MGSAM)	90.6
Proposed model(with OGTAM+MGSAM)	91.7

查看所有表

表 5. 不同算法在UCF101数据集上的准确率对比

Table 5. Comparison of accuracy of different algorithms on UCF101 dataset%

Model	Accuracy
IDT+FV^[18]	85.9
IDT+HSV^[19]	87.9
MIFS^[20]	89.1
TSN(two modalities)^[2]	94.0
Hidden two-stream^[21]	93.1
MLDF-3D^[16]	94.4
MS-NET^[22]	93.9
Two-stream I3D^[3]	98.0
Two-stream FCAN-comp^[23]	92.0
VideoLSTM^[15]	89.2
JSTA^[11]	93.7
RSTAN^[24]	94.6
VideoYOLO^[10]	90.6
Proposed model	91.7
Proposed model(with OGTAM+MGSAM)	94.9

查看所有表

在Penn Action行为数据集上,将本文方法与一些基础双流方法和一些最新的方法进行比较,结果如表6所示。由于此数据集更多地用于基于骨骼的行为识别方法中,因此用于比较的方法较少。除了TSN之外,本文方法比大多数最新方法都有很大提升。具体来说,本文方法比空间网络结果提升了8%,比时间网络结果提升了6%。具有时间特征的单模态网络优于具有空间特征的单模态网络,这意味着在该数据集上,运动线索起着关键作用。因此,当最终融合两个模态的结果时,为时间模态选择了更高的权重。在表6所有方法中,本文方法取得了出色的效果(89.3%和91.7%)。

总的来说,从表5和表6可以看出,本文方法在不同数据集上都优于大多数深度学习方法以及注意力方法。图6显示了本文算法在UCF101和Penn Action数据集上的可视化效果图。以图6中的视频序列为例,某一个动作的焦点(例如,射箭和打保龄球)可能集中在空间区域(每一帧的特殊高亮部分)而不是整个帧,该特殊高亮部分是通过添加掩模引导的空间注意力机制获得的辨别性空间信息,包含行为相关的人体和物体,该信息有效地提高了空间特征的获取能力。类似地,视频序列中的不同帧对行为识别也有不同的贡献,图中红色粗线框表示视频中识别的重要帧。图片中数字表示根据光流引导的时间注意力机制,计算当前帧与视频中所有帧之间的关系而得到权重,有效提高时序特征的获取能力。因此,行为识别应同时注意视频的时空焦点信息。不管是UCF101数据集还是Penn Action数据集,与大多数的行为识别算法相比,本文算法获取的特征显然更加有效,甚至可以聚焦到细小的物体信息,去除大量冗余信息,使得识别算法的性能更好。

图 6. 本文算法在不同数据集上的可视化效果图。(a) UCF101; (b) Penn Action

Fig. 6. Visualization results of proposed algorithm on different datasets. (a) UCF101; (b) Penn Action

下载图片查看所有图片

5 结论

本文提出了一个新的双流模型称作时空交互注意力模型。该模型构造了掩模引导的空间注意力机制来计算每一帧上的显著性区域;并构造光流引导的时间注意力机制来定位每个视频中的显著性帧。两个注意力机制所计算的权重在两个模态上的交互加权,实现了注意力上的交互性,从而最大化利用RGB模态和光流模态的互补性。在两个公开数据集UCF101和Penn Action上与其他已有的方法进行比较,本文模型能更好地提取每一帧的空间特征和帧与帧间的时序特征,识别准确率更好。

参考文献

[1] SimonyanK, ZissermanA. Two-stream convolutional networks for action recognition in videos[C]∥Advances in neural information processing systems, December 8-13, 2014, Montreal, Quebec, Canada: Curran Associates, Inc., 2014: 568- 576.

[2] Wang LM, Xiong YJ, WangZ, et al.Temporal segment networks: towards good practices for deep action recognition[M] ∥Computer Vision-ECCV 2016. Cham: Springer International Publishing, 2016: 20- 36.

[3] CarreiraJ, ZissermanA. Quo vadis, action recognition? A new model and the kinetics dataset[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 21-26 July 2017, Honolulu, HI, USA.New York: IEEE Press, 2017: 4724- 4733.

[4] MnihV, HeessN, GravesA, et al. Recurrent models of visual attention[C]∥NIPS'14: Proceedings of the 27th International Conference on Neural Information Processing Systems - Volume 2.2014: 2204- 2212.

[5] Fan LF, Chen YX, WeiP, et al.Inferring shared attention in social scene videos[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. 18-23 June 2018, Salt Lake City, UT, USA.New York: IEEE Press, 2018: 6460- 6468.

[6] Lu M L, Li Z N, Wang Y M, et al. Deep attention network for egocentric action recognition[J]. IEEE Transactions on Image Processing, 2019, 28(8): 3703-3713.

[7] FuJ, LiuJ, Tian HJ, et al.Dual attention network for scene segmentation[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 15-20 June 2019, Long Beach, CA, USA.New York: IEEE Press, 2019: 3141- 3149.

[8] 朱铭康, 卢先领. 基于Bi-LSTM-Attention模型的人体行为识别算法[J]. 激光与光电子学进展, 2019, 56(15): 151503.

Zhu M K, Lu X L. Human action recognition algorithm based on Bi-LSTM-attention model[J]. Laser & Optoelectronics Progress, 2019, 56(15): 151503.

[9] Tang YS, TianY, Lu JW, et al.Deep progressive reinforcement learning for skeleton-based action recognition[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. 18-23 June 2018, Salt Lake City, UT, USA.New York: IEEE Press, 2018: 5323- 5332.

[10] Jing L L, Yang X D, Tian Y L. Video You only look once: overall temporal convolutions for action recognition[J]. Journal of Visual Communication and Image Representation, 2018, 52: 58-65.

[11] Yu T Z, Guo C X, Wang L F, et al. Joint spatial-temporal attention for action recognition[J]. Pattern Recognition Letters, 2018, 112: 226-233.

[12] Lu L H, Di H J, Lu Y, et al. Spatio-temporal attention mechanisms based model for collective activity recognition[J]. Signal Processing: Image Communication, 2019, 74: 162-174.

[13] He KM, GkioxariG, DollárP, et al.Mask R-CNN[C]∥2017 IEEE International Conference on Computer Vision (ICCV). 22-29 Oct. 2017, Venice, Italy.New York: IEEE Press, 2017: 2980- 2988.

[14] Fan LJ, Huang WB, GanC, et al.End-to-end learning of motion representation for video understanding[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. 18-23 June 2018, Salt Lake City, UT, USA.New York: IEEE Press, 2018: 6016- 6025.

[15] Li Z Y, Gavrilyuk K, Gavves E, et al. Video LSTM convolves, attends and flows for action recognition[J]. Computer Vision and Image Understanding, 2018, 166: 41-50.

[16] Zhang J X, Hu H F. Deep spatiotemporal relation learning with 3D multi-level dense fusion for video action recognition[J]. IEEE Access, 2019, 7: 15222-15229.

[17] Khowaja S A, Lee S L. Hybrid and hierarchical fusion networks: a deep cross-modal learning architecture for action recognition[J]. Neural Computing and Applications, 2019: 1-12.

[18] WangH, SchmidC. Action recognition with improved trajectories[C]∥2013 IEEE International Conference on Computer Vision. 1-8 Dec. 2013, Sydney, NSW, Australia.New York: IEEE Press, 2013: 3551- 3558.

[19] Peng X J, Wang L M, Wang X X, et al. Bag of visual words and fusion methods for action recognition: comprehensive study and good practice[J]. Computer Vision and Image Understanding, 2016, 150: 109-125.

[20] Lan ZZ, LinM, Li XC, et al.Beyond Gaussian pyramid: multi-skip feature stacking for action recognition[C]∥2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 7-12 June 2015, Boston, MA, USA. New York: IEEE Press, 2015: 204- 212.

[21] ZhuY, Lan ZZ, NewsamS, et al.Hidden two-stream convolutional networks for action recognition[M] ∥Computer Vision-ACCV 2018. Cham: Springer International Publishing, 2019: 363- 378.

[22] Tu Z G, Xie W, Dauwels J, et al. Semantic cues enhanced multimodality multistream CNN for action recognition[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 29(5): 1423-1437.

[23] TranA, Cheong LF. Two-stream flow-guided convolutional attention networks for action recognition[C]∥2017 IEEE International Conference on Computer Vision Workshops (ICCVW). 22-29 Oct. 2017, Venice, Italy.New York: IEEE Press, 2017: 3110- 3119.

[24] Du W B, Wang Y L, Qiao Y. Recurrent spatial-temporal attention network for action recognition in videos[J]. IEEE Transactions on Image Processing, 2018, 27(3): 1347-1360.

[25] Cao CQ, Zhang YF, Zhang CJ, et al. Action recognition with joints-pooled 3D deep convolutional descriptors[C]∥IJCAI'16: Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence.2016: 3324- 3330.

[26] VillegasR, YangJ, ZouY, et al. Learning to generate long-term future via hierarchical prediction[C]∥Proceedings of the 34th International Conference on Machine Learning-Volume 70, Aug 6-11, 2017, Sydney, Australia: JMLR. org, 2017: 3560- 3569.

[27] Gao RH, XiongB, GraumanK. Im2flow: motion hallucination from static images for action recognition[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. 18-23 June 2018, Salt Lake City, UT, USA. New York: IEEE Press, 2018: 5937- 5947.

潘娜, 蒋敏, 孔军. 基于时空交互注意力模型的人体行为识别算法[J]. 激光与光电子学进展, 2020, 57(18): 181506. Na Pan, Min Jiang, Jun Kong. Human Action Recognition Algorithm Based on Spatio-Temporal Interactive Attention Model[J]. Laser & Optoelectronics Progress, 2020, 57(18): 181506.

基于时空交互注意力模型的人体行为识别算法下载： 1049次

1 引言

2 基本原理

图 1. 基于时空交互注意力模型的行为识别网络框架图

Fig. 1. Framework of action recognition network based on spatio-temporal interactive attention model

2.1 掩模引导的空间注意力

图 2. UCF101数据集生成的Local_Mask特征图。(a)平衡木;(b)遛狗

Fig. 2. Local_Mask feature maps generated from UCF101 dataset. (a) Balance beam; (b) walking with dog

图 3. 掩模引导的空间注意力模型

Fig. 3. Mask guided spatial attention model

2.2 光流引导的时间注意力

图 4. 光流引导的时间注意力模型

Fig. 4. Optical flow guided temporal attention model

2.3 时空融合

3 实验过程

3.1 数据集

3.2 实验设置

表 1. 实验参数

Table 1. Experimental parameters

3.3 单个模态实验结果

表 2. UCF101数据集上光流引导的时间注意力机制的影响

Table 2. Effects of optical flow guided temporal attention mechanism on UCF101 datasetunit: %

表 3. UCF101数据集上掩模引导的空间注意力机制的影响

Table 3. Effects of mask guided spatial attention mechanism on UCF101 dataset%

3.4 两个模态融合实验结果

表 4. UCF101数据集上本文模型和其他基础模型的比较

Table 4. Comparison of proposed model and other basic models on UCF101 dataset%

图 5. 各算法在UCF101数据集上的训练测试迭代过程曲线图。(a) 本文模型;(b) 本文模型引入OGTAM; (c) 本文模型引入MGSAM;(d) 本文模型引入OGTAM和MGSAM

Fig. 5. Training and testing iteration curves of each algorithm on UCF101 dataset.(a) Proposed model; (b) proposed model with OGTAM;(c) proposed model with MGSAM;(d) proposed model with OGTAM+MGSAM

4 实验结果对比与分析

表 6. 不同算法在Penn Action数据集上的准确率对比

Table 6. Comparison of accuracy of different algorithms on Penn Action dataset%

表 5. 不同算法在UCF101数据集上的准确率对比

Table 5. Comparison of accuracy of different algorithms on UCF101 dataset%

图 6. 本文算法在不同数据集上的可视化效果图。(a) UCF101; (b) Penn Action

Fig. 6. Visualization results of proposed algorithm on different datasets. (a) UCF101; (b) Penn Action

5 结论

Article Outline

关于本站 Cookie 的使用提示

全站搜索

基于时空交互注意力模型的人体行为识别算法 下载： 1049次

1 引言

2 基本原理

图 1. 基于时空交互注意力模型的行为识别网络框架图

Fig. 1. Framework of action recognition network based on spatio-temporal interactive attention model

2.1 掩模引导的空间注意力

图 2. UCF101数据集生成的Local_Mask特征图。(a)平衡木;(b)遛狗

Fig. 2. Local_Mask feature maps generated from UCF101 dataset. (a) Balance beam; (b) walking with dog

图 3. 掩模引导的空间注意力模型

Fig. 3. Mask guided spatial attention model

2.2 光流引导的时间注意力

图 4. 光流引导的时间注意力模型

Fig. 4. Optical flow guided temporal attention model

2.3 时空融合

3 实验过程

3.1 数据集

3.2 实验设置

表 1. 实验参数

Table 1. Experimental parameters

3.3 单个模态实验结果

表 2. UCF101数据集上光流引导的时间注意力机制的影响

Table 2. Effects of optical flow guided temporal attention mechanism on UCF101 datasetunit: %

表 3. UCF101数据集上掩模引导的空间注意力机制的影响

Table 3. Effects of mask guided spatial attention mechanism on UCF101 dataset%

3.4 两个模态融合实验结果

表 4. UCF101数据集上本文模型和其他基础模型的比较

Table 4. Comparison of proposed model and other basic models on UCF101 dataset%

图 5. 各算法在UCF101数据集上的训练测试迭代过程曲线图。(a) 本文模型;(b) 本文模型引入OGTAM; (c) 本文模型引入MGSAM;(d) 本文模型引入OGTAM和MGSAM

Fig. 5. Training and testing iteration curves of each algorithm on UCF101 dataset.(a) Proposed model; (b) proposed model with OGTAM;(c) proposed model with MGSAM;(d) proposed model with OGTAM+MGSAM

4 实验结果对比与分析

表 6. 不同算法在Penn Action数据集上的准确率对比

Table 6. Comparison of accuracy of different algorithms on Penn Action dataset%

表 5. 不同算法在UCF101数据集上的准确率对比

Table 5. Comparison of accuracy of different algorithms on UCF101 dataset%

图 6. 本文算法在不同数据集上的可视化效果图。(a) UCF101; (b) Penn Action

Fig. 6. Visualization results of proposed algorithm on different datasets. (a) UCF101; (b) Penn Action

5 结论

Article Outline

相关论文

相关资讯

关于本站 Cookie 的使用提示

全站搜索

基于时空交互注意力模型的人体行为识别算法下载： 1049次