基于空-时域特征决策级融合的人体行为识别算法

李艳荻; 徐熙平

doi:doi:10.3788/AOS201838.0810001

光学学报, 2018, 38 (8): 0810001, 网络出版: 2018-09-06

基于空-时域特征决策级融合的人体行为识别算法下载： 856次

Human Action Recognition by Decision-Making Level Fusion Based on Spatial-Temporal Features

论文大纲

李艳荻 ^*徐熙平 ^*

作者单位

长春理工大学光电工程学院, 吉林长春 130022

图像处理行为识别形状上下文动态时间规划决策级融合 image processing action recognition shape context dynamic time warping decision-making level fusion

AI 词云图 AI一句话精读 AI短摘要

注：本部分内容由 AI 自动生成，请您知悉。

摘要

提出一种基于空-时域特征决策级融合的人体行为识别算法。在空间域提取人体的形状上下文特征,用于同一时刻模板图像与测试图像的轮廓匹配;在时间域用变化的空间特征序列表征运动特征,联合稳健的空间特征进行有效的行为识别。识别阶段采用动态时间规划算法分别计算两种特征对于每种类别的后验概率,在决策级采用加权平均法对两种特征的后验概率进行融合,将最大概率对应的类别记为最终分类结果。针对动态时间规划算法提出一种基于椭圆边界约束的改进搜索策略,有效缩减最优路径的搜索空间,同时剔除视频中的噪声干扰。从计算复杂度和识别精度两方面对椭圆边界的约束性能进行分析,实验表明,椭圆边界约束性能优于平行四边形及菱形约束,并给出最佳边界尺寸范围。算法分别在Weizmann、KTH和UCF101行为数据集上进行测试,平均识别率分别优于93.2%、92.7%和81.2%,有效实现了室内智能监控系统的高效性及稳定性。

Abstract

A human action recognition algorithm is proposed based on the decision-making level fusion with spatial and temporal features. Shape context feature of human body is extracted to match the contours of template images and test images in the spatial domain, while the motion feature is described by a changing spatial feature sequence in the time domain. Then, the motion feature is combined with the robust spatial feature for effective human action recognition. At the recognition stage, the dynamic time warping is applied to calculate the posterior probabilities of two kinds of features for each class. The weighted-average method is used to fuse the two posterior probabilities at the decision-making level, and the corresponding class with the maximum probability is recorded as the final classification result. Aiming at the dynamic time warping algorithm, we propose an improved searching strategy based on the elliptic boundary constraint, which can effectively reduce the space for searching for the optimal path, while eliminate the noise interference in the video sequence. The constraint performance of elliptical boundary is analyzed from two aspects of computational complexity and recognition accuracy. Experimental results show that the performance of elliptical boundary constraint is better than that of the parallelogram and diamond boundary constraints, and the optimal boundary size range is given. Experimental results on Weizmann, KTH and UCF101 datasets demonstrate that the average recognition rate of the proposed method is higher than 93.2%, 92.7% and 81.2%, respectively, indicating that the proposed method can effectively obtain the efficiency and stability of indoor intelligent monitoring system.

1 引言

人体行为识别作为图像理解的一个重要分支,在视频监控、人机交互及虚拟现实等计算机视觉领域有着广泛的应用前景。本研究拟从视频或图像中提取和分析图像特征,考虑上下文环境信息和时序关系,估计、识别和重构人体姿态或行为^[1],是近年来计算机视觉领域的研究热点及难点。

根据现有的研究成果,人体行为识别方法可以分为3种:基于概率统计模型的方法^[2-3],基于模板的方法和基于深度学习的方法。

Yamato等^[4]最先提出基于隐马尔科夫模型(HMM)的概率统计模型,输入人体运动区域块的特征信息,利用HMMs模型对人体动作进行识别。Peursum等^[5]用层次HMM对动作在不同层次的信息进行描述,较好地实现了人体局部细节的行为识别。Natarajan等^[6]提出了一种层次变量转变的HMM,对每个行为进行3次建模,并引入可变窗口,实时性效果显著。对于一般的HMM,模型参数通常会随着运动目标数目的增加成指数递增,复杂的计算量会增加模型应用的局限性;同时,该模型很难有效地融合特征信息,会导致序列间的特征出现重叠累积,影响识别精度。Lafferty等^[2]提出条件随机场模型,利用大范围上下文信息进行参数学习和预测,相较于HMM具有更强的时序建模能力。Huang等^[7]也证明,基于时空兴趣点和光流特征,隐条件随机场比HMM和支持向量机(SVM)方法更有效。但是,条件随机场模型的训练过程需要较多的人为标注数据,以获得空间特征随时间动态性所表现出的判别性能,复杂度相对较大,甚至会影响模型的稳定性。文献[ 8]通过提取视频中的时空兴趣点构造时空词袋模型,并结合潜在狄立克雷分配(LDA)主题模型和概率潜在语义(PLSA)主题模型进行行为识别,对动态背景下的行为识别稳健性较好;文献[ 9]将加速稳健特征(SURF)特征和稠密光流特征作为视频行为表征,利用随机抽样一致(RANSAC)算法完成特征点的精确匹配,该方法同样适用于相机运动的情况。

基于模板的方法主要包含模板匹配法和动态规划法。文献[ 10]在空间域使用Gabor滤波器提取图像的局部特征,然后对时间域的光流运动特征进行加权融合,最后利用SVM进行识别,取得了不错的效果。Liu等^[11]用费德勒嵌入的方法将旋转图像和局部时空立方体嵌套到同一空间中,实现了单一视角和多视角下的行为识别。模板匹配^[12-13]的优点在于易于实现、计算复杂度较低,但是对前景目标的提取精度要求较高,而且在时间序列时间长度不一致的情况下准确度会受到干扰,因此,不适用于时间尺度不固定的动作识别。动态规划方法^[14]能够较好地解决人体行为在时间尺度上的不确定性,但是计算量会随着训练样本数量不断增加,易造成维数灾难。文献[ 15-16]将特征序列表示为几个人体状态的转移,通过确定输入特征序列与模板序列是否匹配得到行为类别,该方法引入了状态转移函数,有效提高了序列特征描述的稳健性。人体关节具有较大的自由度,对环境变化也十分敏感,因此对于基于模板的方法来讲,要确定一个稳健性较强的姿态描述是极具挑战的。

基于深度学习的识别方法是近年来新兴起的一种方法,基本思想都是将二维图像识别的神经网络框架扩展到三维(3D)视频中用于行为识别,在视频数据的时间维度和空间维度上进行特征计算^[17-18]。Karpathy等^[19]通过卷积神经网络学习局部时空特征,通过不同方式将行为视频描述成视频流形式的向量表征,最后用神经网络分类器进行行为识别。Baccouche等^[20]利用3D卷积神经网络以类似的方式学习时空特征,利用长短时记忆网络获取视频片段在时间域上的联系,然后对提取的时空特征序列进行行为识别。目前行为识别方法所采用的数据库多是分割好的短视频片段,具有明确的行为类别,对时间尺度比较大且未做分割处理的视频效果并不好。有鉴于此,Shou等^[21]提出了一种基于视频片段的3D卷积神经网络,对运动边界进行微调,提高了识别精度。传统深度学习的一个重要优势在于不需要手动提取特征(通常只须将整帧视频作为输入进行特征学习),但是需要训练大量的网络参数,对样本的数量需求较大,特别是对于某些特定行为,很难收集到足够数量的有效样本。另外,3D卷积操作的计算量呈指数级增长,这些都将成为网络训练过程中的难点。

本文提出一种基于时间-空间域特征决策级融合的人体行为识别算法,在空间域提取人体的形状上下文特征,在时间域用变化的空间特征序列表征运动特征,然后联合稳健的空间特征进行有效的人体行为识别。通过动态时间规划算法分别计算出两种特征对于行为类别的后验概率,在决策级采用加权平均法进行融合,将最大概率对应的类别记为最终分类结果。针对动态规划方法易产生维数灾难的问题,提出一种基于椭圆边界全局约束的搜索策略,从计算复杂度、识别精度两方面对其约束性能进行分析,最后分别在Weizmann、KTH和UCF101行为数据库进行测试及效率评估。

2 时间-空间域上人体行为特征序列匹配算法

由于人体行为在空间结构上可以描述成各个时刻的姿态集合,在时间序列上可以看作一段时间内姿态的演变过程;因此,可以用变化的空间特征序列表征运动特征,然后联合稳健的空间特征来共同描述人体行为。以形状上下文特征匹配算法为基础,在空间域用其来计算同一时刻模板图像与测试图像的轮廓相似度,在时间域用其来估计模板序列和测试序列中各自相邻两帧之间的形状变化,利用得到的两组由形状变化度组成的数据来计算两段视频序列在时间轴上的相似度。

2.1 形状上下文特征匹配

形状上下文特征具有良好的尺度不变性及旋转不变性,在目标发生微小几何形变及存在异常点的情况下,稳健性较好;因此,将其作为人体行为在空间域上的特征描述子^[22]。形状上下文特征不是利用图像的某个区域或者轮廓来描述其形状特征,而是通过在对象轮廓上提取一些离散并且分布均匀或代表性较强,(如角点)的特征点集来表达,然后针对点集中的每一个特征点,计算其所对应的形状直方图,用来存储该特征点与轮廓上其他所有特征点全部的矢量关系。

形状上下文特征匹配算法的输入是一串二值人体轮廓序列,因此需要对视频图像进行目标轮廓提取。这一步骤的准确度直接影响特征的有效性,进而决定系统的识别性能。根据本课题组在文献[ 23]中提出的运动目标检测算法对每一帧图像提取前景,然后对其进行高斯平滑滤波及形态学处理,目的是消除噪声、空洞干扰。采用腐蚀运算消除细小目标、孤立的点或小区域,再利用膨胀处理填充目标内部的间隙和孔洞,以强化目标的空间相关性。对得到的连通域进行边缘检测,得到运动目标的轮廓,具体流程如图1所示。

基于空-时域特征决策级融合的人体行为识别算法 下载： 856次

1 引言

2 时间-空间域上人体行为特征序列匹配算法

2.1 形状上下文特征匹配

图 1. 目标轮廓提取过程。(a)原始视频;(b)运动目标检测;(c)目标轮廓提取

Fig. 1. Target contour extraction process. (a) Original video; (b) motion detection; (c) target contour extraction

图 2. POSER三维仿真的(a)模板样本和(b)测试样本

Fig. 2. (a) Template image and (b) test image of POSER 3D simulation samples

图 3. 采样结果

Fig. 3. Sampling results

图 4. 极坐标下的轮廓点分布

Fig. 4. Distribution of contour points in polar coordinates

图 5. 不同轮廓采样点的形状直方图。(a)采样点1;(b)采样点2;(c)采样点3

Fig. 5. Shape histogram of different contour sampling points. (a) Sampling point 1; (b) sampling point 2; (c) sampling point 3

图 6. 匹配结果

Fig. 6. Matching results

图 7. 不同数量采样点的匹配结果

Fig. 7. Matching results of different sampling points

2.2 时间-空间域特征的视频序列匹配

图 8. 视频序列

Fig. 8. Video sequences

图 9. 空间域特征序列匹配过程

Fig. 9. Matching process of feature sequence in spatial domain

图 10. 时间域特征序列匹配过程

Fig. 10. Match process of feature sequence in time domain

3 基于椭圆边界约束的动态时间规划识别算法

3.1 动态时间规划算法

图 11. DTW算法示意图

Fig. 11. Schematic diagram of DTW algorithm

图 12. 几种典型的局部路径约束示意图

Fig. 12. Schematic of typical local path constraint

3.2 基于椭圆约束的动态时间规划搜索策略改进

图 13. “病态”扭曲路径示意图

Fig. 13. Diagram of "Morbid" twisting path

图 14. 椭圆边界参数示意图

Fig. 14. Schematic of parameter of elliptic band

4 决策级融合

图 15. 权值分配比例对识别率的影响

Fig. 15. Recognition rate of different weight distributions

图 16. 决策阈值对识别率的影响

Fig. 16. Influence of decision threshold values on recognition rate

5 实验结果及分析

5.1 椭圆边界的约束性能分析

图 17. 边界尺寸相同的三种常见的全局约束边界示意图

Fig. 17. Schematic of three global constraint boundaries with the same warping window size

图 18. 不同边界的搜索效率比较

Fig. 18. Comparison of searching efficiency of different bands

图 19. 不同全局边界在较长时间序列下的搜索效率

Fig. 19. Searching efficiency of different global boundaries on large time series

图 20. 不同边界形状/尺寸对识别精度的影响

Fig. 20. Classification accuracies of different boundaries sharps and sizes

图 21. 不同样本帧数下边界尺寸对识别精度的影响

Fig. 21. Classification accuracies of all warping window sizes with different frames

5.2 行为分类识别

图 22. KTH 数据库上分类结果的混淆矩阵。(a)形状特征;(b)运动特征;(c)融合特征

Fig. 22. Confusion matrix of classification results on KTH dataset. (a) Shape feature; (b) motion feature; (c) fusion feature

表 1. 不同算法在KTH行为数据库上的平均识别率与运行时间比较

Table 1. Comparison ofaccuracy and computation time of different algorithms on KTH dataset

图 23. Weizmann 数据库上分类结果的混淆矩阵。(a)形状特征;(b)运动特征;(c)融合特征

Fig. 23. Confusion matrix of classification results on Weizmann dataset. (a) Shape feature; (b) motion feature; (c) fusion feature

表 2. 不同算法在Weizmann行为数据库上的平均识别率和运行时间比较

Table 2. Comparison of average accuracy and computation time of different algorithms on Weizmann dataset

表 3. 不同算法在UCF101行为数据库上的平均识别率比较

Table 3. Comparison of average accuracy of different algorithms on UCF101 dataset

6 结论

Article Outline

相关论文

相关资讯

关于本站 Cookie 的使用提示

全站搜索

基于空-时域特征决策级融合的人体行为识别算法下载： 856次