激光与光电子学进展, 2018, 55 (1): 011010, 网络出版: 2018-09-10   

基于判别协作表征分类器的人体行为识别 下载: 950次

Human Action Recognition Based on Discriminative Collaborative Representation Classifier
昝宝锋 1,*孔军 1,2蒋敏 1
作者单位
1 江南大学物联网工程学院, 江苏 无锡 214122
2 新疆大学电气工程学院, 新疆 乌鲁木齐 830047
摘要
为了解决协作表征分类器(CRC)对相似样本误分类概率高的问题,提出一种判别协作表征分类器(DCRC)。该分类器考虑了所有训练样本和每一类样本对协作表征系数的影响,得到判别性强的协作表征系数,提升了对相似样本的判别性。基于DCRC进行人体行为识别研究。首先用深度运动映射图(DMMs)提取深度动作序列特征,得到DMMs特征描述子,然后利用DCRC对特征描述子进行协作表征编码,最后利用新的判别规则进行分类识别。在人体行为识别数据集上的实验结果表明,DCRC对相似动作具有一定的判别性,且识别精度优于现有的方法。
Abstract
In order to solve the problem of high probability of misclassification for similar samples of the collaborative representation classifier (CRC), we propose a discriminative CRC (DCRC), which takes the effect of all training samples and each class of training samples on the collaborative representation coefficient into account. The coefficient obtained has strong discrimination and can improve the discriminability of the similar samples. Human action recognition is conducted based on DCRC. We first extract the features of depth action sequence via depth motion maps (DMMs). Then, we use DCRC to encode the DMMs features and perform classification and recognition by new classification rules. Experimental results on the human action recognition datasets show that the DCRC has certain discriminative properties for similar actions, and the recognition accuracy is superior to some existed methods.

1 引言

人体行为识别是模式识别、机器学习、计算机视觉领域的研究热点。近年来,人体行为识别技术被应用于多个领域,如群体行为识别已应用于智能监控系统和人机交互游戏等[1-3]。当前,人体行为识别主要针对4种对象:基于视频流序列[4-5],静态图像序列,深度图像序列和可穿戴传感器。基于静态图像序列的行为识别关注度很高,但是由于二维图像容易受到环境变化以及光照变化的影响,在实际应用中效果并不理想。由于深度信息具有背景简单、受环境影响小等特点,基于深度信息序列的行为识别逐渐成为新兴热点。

人体行为识别最重要的两个步骤为特征提取和行为分类。特征提取方面,文献[ 6]首先将深度运动图像投影到3个视角上,通过差分、阈值化和累加计算得到每个视角下的深度运动映射图(DMMs),然后从DMMs提取方向直方图特征(HOG)作为人体行为特征描述子。虽然,DMMs-HOG特征描述子可以有效地表达出运动对象的形状和运动信息,但是高维的特征增加了计算复杂度,难以保证实时性。文献[ 7]对DMMs-HOG特征描述子进行了改进,省略了HOG特征提取,降低了计算复杂度,提高了人体行为识别的实时性。

行为分类方面,最常用的分类器为支持向量机(SVM),但是需要先进行训练,再进行测试。当数据量大时,SVM训练的时间过长。大量实验证明,稀疏表示分类器(SRC)可以有效解决人脸识别和图像分类等问题[7-12],且SRC所需训练时间短,甚至不需要训练。Wright等[8]最早提出SRC,对系数进行了1范数约束,最终优化得到的系数向量具有稀疏性,但是SRC的优化求解较为困难。Zhang等[9]认为,2范数约束不仅使优化过程变得简单,而且识别率相较于1范数约束没有发生下降,基于此,提出了协作表征分类器(CRC)。文献[ 7]提出了2范数正则化CRC(L2-CRC),并将其应用到人体行为识别领域。首先对深度动作序列提取DMMs特征描述子,然后利用提出的分类器进行稀疏编码及分类,从而实现对人体行为的实时识别。文献[ 10]提出了稀疏增强CRC,结合稀疏特征和密集特征对测试样本进行分类,在人脸库等公开的数据集上进行验证,得到很好的分类结果。文献[ 11]将常见的线性回归分类器和协作表征分类器结合起来,在人脸库得到了良好的识别效果。文献[ 12]将稀疏表示分类器和k近邻结合起来,提出一种稳健性强的高光谱图像分类方法。

虽然,SRC/CRC通过对表征系数进行约束增加了稀疏性,降低了过拟合的风险,然而当训练集中有2类动作非常相似时,这2类样本对重构测试样本的贡献力度相近,那么利用测试样本和重构样本之间残差的分类规则产生的误分类概率就会变大。为此,本文基于L2-CRC[9]提出判别协作CRC(DCRC),通过对协作表征系数的两次2范数约束,得到重构能力较强的协作表征系数,并使用新的分类规则来判定测试样本的类别,提高分类器的分类精度。

2 特征提取

DMMs特征描述子[9]具有实时性高、计算简单的特点,因此,参照文献[ 7]中的方法提取DMMs特征描述子。

首先将N帧动作深度序列的每一帧深度图都投影到笛卡尔直角坐标系的三个方向上,得到三幅视图(前视图、侧视图、上视图)。这一操作可以将一个三维的深度图像映射成为三个二维图像,分别用mfmsmt表示三个二维图。然后分别计算相同视角下连续两帧投影图之差的绝对值,累加得到DMMs特征描述子:

CDMMs=i=abmf,s,ti+1-mapf,s,ti,(1)

式中 mif表示第i帧深度图在前视角下的投影图像。在一个动作深度序列中,前几帧和最后几帧中的对象实际上是处于静止状态或者只有微小的移动,这对提取DMMs特征描述子没有任何贡献或者贡献非常小,因此在实际操作中起始帧和终止帧分别设置为a∈{2,3,…,N}、b∈{2,3,…,N}。

提取到的DMMs特征描述子通过限位框来提取非0区域,即感兴趣区域,从而更加精确地捕捉运动动作的变化区域。最后,经过PCA降维处理,得到最终的DMMs特征描述子。由(1)式可以看出,DMMs特征描述子的计算非常简单,可有效提高特征提取阶段的实时性,并且该特征将三维图像映射为二维图像,将行为识别问题转化成为图像分类问题。

3 行为分类

3.1 CRC

CRC是一种非常有效的分类器,它认为测试样本可以由所有训练样本近似线性表示。给定一个具有K类的训练样本集合D= D1,,Dk,,DK,其中Dk(k=1,2,…,K)是类别k所对应的样本向量集合。用y来表示一个测试样本,则可以由D协作表征为y,其中α是测试样本的协作表征系数向量。协作表征分类器算法过程如下。

输入:训练样本集合,测试样本y,正则化参数λ

1) 基于目标函数,优化协作表征系数向量:

α˙=argminαy-22+λf(α)22,(2)

式中f(α)为关于α的函数。

2) 计算重构样本和测试样本间的残差:

ei=y-Diα˙i22,(3)

式中 α˙i(i=1,2,…,K)为类别i的训练样本所对应的系数向量。

3) 计算测试样本的标签

label(y)=argmin(ei)i(4)

输出:label(y)。

L2-CRC使用Tikhonov矩阵作为正则项对协作表征系数进行约束,目标函数为

α˙=argminαy-22+λΓα22,(5)

式中Γ为Tikhonov正则矩阵,形式如下:

Γ=y-D12200y-DK22(6)

在对(5)式进行优化求解时,Γ可以对系数向量α提供先验知识,从而更精确地逼近最优解,得到的表征系数向量α相较于CRC更加稳健。但对于具有相似动作的训练样本,利用表征系数向量α重构出来的相似样本之间判别性不强。本文通过二次约束项来提升表征系数α的判别性和分类器的性能。

3.2 DCRC

S来表示由所有训练样本协作张成的线性空间,用Si表示由一个相同类别的样本Di(i=1,2,…,K)张成的线性子空间,用L=1,2,,K来表示所有类别的集合。由3.1节可知,对于不属于空间S内的测试样本可以表示为y,这仅仅能够表明测试样本的类别是属于L中的一类。接着利用测试样本和每一个类别重构样本之间的残差来近似判定出样本的类别。然而,当训练样本中存在2类样本非常相似时(如DiDj),CRC得到的表征系数向量中相对应的系数αiαj重构出的样本相似度很高,那么基于残差的分类规则产生误分类的概率就会变大。

为了提高CRC对相似动作的判别性,提高分类器的性能,本文通过对系数进行二次约束获得判别性强的协作表征系数,据此提出DCRC。首先,确定空间S中一个共享样本点 y˙=*=Dα1*,,αK*,其中,α*为样本点 y˙相对应的表征系数向量,该共享样本点要满足两个条件:1) 与测试样本之间的相似度很高;2) 与每一个子空间Si中重构的样本点 y˙i=Diαi*距离之和最小。然后,经过对目标函数的不断优化,可以得到最佳的协作表征系数α*,同时可以得到最佳的共享样本点 y˙。最后,判定共享样本点 y˙与某一子空间中的重构样本点 y˙i(i=1,…,K)的残差最小,得到测试样本的类别(图1)。

图 1. DCRC的图示说明

Fig. 1. Illustration of DCRC

下载图片 查看所有图片

由经验可知,当2个样本距离越近时,这2个样本属于同一类的概率就越大。假设所有样本都是独立分布的,用l(y)表示样本y的标签,则测试样本y属于类别i的概率为

Pl(y)=i=Pl(y)=l(y˙)|l(y˙)=i)Pl(y˙)=i=P(l(y)=l(y˙)|l(y˙)=i)Pl(y˙)=i|l(y˙)LPl(y˙)L(7)

由于样本之间相互独立,那么Pl(y)=l(y˙)|l(y˙)=i=Pl(y)=l(y˙)|l(y˙)L,则(7)式等价于:

Pl(y)=i=Pl(y)=l(y˙)|l(y˙)=iPl(y˙)=i=Pl(y)=l(y˙)Pl(y˙)=i|l(y˙)L,(8)

式中Pl(y)=l(y˙)可以度量测试样本y与定点 y˙之间的距离,即等价于 y-y˙22。因为 y˙i是落在子空间Si内部的,因此Pl(y˙)=i|l(y˙)L可以认为度量了定点 y˙y˙i之间的距离,即 i=1Ky˙-Diαi22。为了得到测试样本的标签,则有:

maxPl(y)=i=miny-22+μi=1Ky˙-Diαi22(9)

为了降低过拟合的风险与计算复杂度,利用文献[ 6]中的Tikhonov矩阵正则项进行约束,得到最终的目标函数:

α˙=argminαy-22+λΓα22+μi=1Ky˙-Diαi22,(10)

式中λ和μ为正则化约束参数,都是标量; i=1Ky˙-Diαi基于Diαi进行二次约束,可以使最终的系数向量α判别性增强。当μ=0时,(10)式的模型就变为CRC模型,因此要保证μ>0。(7)~(10)式从概率角度证明了DCRC的可行性,能够通过取测试样本y属于单一类别的概率的最大值来判定其所属类别。

约束项 i=1Ky˙-Diαi22对系数向量α的偏导求解过程如下:

αi=1Ky˙-Diαi22=αi=1Ktr(y˙-Diαi)T(y˙-Diαi)=i=1Kαtr(αTDT-αTDTDiαi-αTiDTi+αTiDTiDiαi)=i=1K2DT-2(DT[0,Di,0]α+[0,DTi,0])+2[0,DTi,0][0,Di,0]α(11)

D̅i=[0,…,Di,…,0],则(11)式可化简为

i=1K2DT-2(DTD̅iα+D̅Ti)+2D̅TiD̅iα(12)

与CRC模型的最优解结合起来,可以得到判别协作表征分类器的最优解:

α˙=DTD+λΓTΓ+μi=1K(D-D̅i)T(D-D̅i)-1DTy(13)

最后,采用一个新的判别规则来判定测试样本的类别:

ei=Dα˙-Diα˙i22,(14)label(y)=argmine(i)i(15)

4 实验结果

在MSR Action 3D Dataset和UTD-MHAD数据集上对所提出的行为识别方法进行验证。

4.1 参数分析

(10)式中包含2个正则化参数λ和μ,有利于表征系数更好地拟合训练数据,且保持表征系数的值较小,防止出现参数过大、过拟合的情况。正则化参数值不能过大或者过小:过大的正则化参数会使最终的表征系数趋近于0,产生欠拟合的情况,模型的泛化能力会很差;过小的表征系数容易造成过拟合的情况。根据经验,正则化参数的取值一般在0.1~1之间。

4.2 MSR Action 3D Dataset

MSR Action 3D Dataset是深度摄像头采集到的深度序列动作集,包含20个动作,每个动作由10个人进行演示,每次演示2~3次,采集到的深度图分辨率为320 pixel×240 pixel。为了保证试验的公正性,采用文献[ 7]中的设置。

表1可以看到,在所有的实验中本文方法的识别率都高于文献[ 6]和文献[ 13],并且大部分实验结果较文献[ 7]均有所提升。在实验2中,本文方法在所有子集上的识别率都达到100%。在实验3中,本文方法的识别率较文献[ 9]均有所提升。

为了验证DCRC的稳定性,随机选择实验对象的演示动作作为训练数据,其余作为测试数据,进行100次实验,计算平均识别率和平均标准差,结果如表2所示。与前3项实验的结果相比,Test 1和Test 2的识别率相差不大,并且标准差都比较小。Test 3 虽然识别率有所下降,但是平均识别率达到了80%,并且标准差相差不大,说明DCRC具有一定的稳定性。

将编号为1、3、5、7、9的对象所演示的所有动作作为训练数据,其余的作为测试数据,使用相同的特征描述子,不同分类器的识别率如表3所示,其中SRC使用的是1范数约束,不同方法的识别率如表5所示。从表3可以看到,DCRC的识别率优于SRC和L2-CRC,相比L2-CRC,DCRC的识别率提升了3.78%。从表4可以看出,本文方法的识别精度高于其他方法,识别精度最高提高了4.67%。

图2为在Action 3D数据集上使用DMMs+L2-CRC和DMMs+DCRC方法的混淆图。使用L2-CRC时,相似动作Tennis serve和Tennis swing,以及Draw x、Draw tick和Draw circle非常容易产生混淆。当使用DCRC进行识别时,Tennis swing的识别率提

高到93%,Draw x的识别率提高到85.7%,Draw circle的识别率提高到60%,同时,其他动作,如bend的识别率达到100%。这表明DCRC可以提高对相似动作的识别率。

图 2. MSR Action 3D数据集上DMMs+CRC(a)与DMMs+DCRC(b)的混淆图

Fig. 2. Confusion matrix of DMMs+CRC (a) and DMMs+DCRC (b) on MSR Action 3D dataset

下载图片 查看所有图片

表 1. MSR Action 3D数据集上不同方法的识别率

Table 1. Recognition rates of different methods on MSR Action 3D dataset%

TestSubsetRef.[6]methodRef.[7]methodRef.[13]methodRef.[14]methodRef.[15]methodProposedmethod
Test 1AS197.397.389.598.294.798.0
AS292.296.189.094.895.496.7
AS398.098.796.397.497.396.7
Average95.897.491.696.895.897.2
Test 2AS198.798.693.499.197.3100
AS294.798.792.997.098.7100
AS398.710096.398.797.3100
Average97.499.194.298.397.8100
Test 3AS196.296.272.984.774.597.1
AS284.183.271.981.376.183.2
AS394.692.079.288.496.492.9
Average91.690.574.784.882.391.1

查看所有表

表 2. MSR Action 3D数据集上实验4的平均识别率和平均标准差

Table 2. Average recognition rates and its standard deviation of MSR Action 3D dataset on test 4

SubsetTest 1Test 2Test 3
Recognitionrate /%StandarddeviationRecognitionrate /%StandarddeviationRecognitionrate /%Standarddeviation
AS197.60.898.81.180.03.2
AS296.81.098.41.270.04.0
AS397.11.098.90.990.03.4
Average97.20.998.71.180.03.5

查看所有表

表 3. MSR Action 3D数据集DMMs特征下不同分类器的识别率

Table 3. Recognition rates of different classifier on MSR Action 3D dataset with DMMs features

ClassifierRecognition rate /%
PRF-SVM85.50
SRC86.01
L2-CRC86.23
DCRC90.01

查看所有表

表 4. MSR Action 3D数据集上不同方法的识别率

Table 4. Recognition rates of different methods on MSR Action 3D dataset

MethodRecognition rate /%
Ref.[6] method85.52
Ref.[16] method88.89
Ref.[17] method88.80
Ref.[18] method89.45
Ref.[19] method89.86
Proposed method90.19

查看所有表

4.3 UTD-MHAD

Chen等[20]提出了一个新的行为识别数据集,命名为 UTD Multimodal Human Action Dataset (UTD-MHAD)。该数据集包含多种模式:RGB视频序列,深度序列,由Kinect采集的骨骼点位置信息,可穿戴式传感器采集的加速和旋转信号。共包含27个动作,每个动作由8个人来演示(4男4女),每个动作演示4遍。除去3个损坏的序列,该数据集一共包含861个动作序列。

在UTD-MHAD数据集上,选择编号为1、3、5、7的对象所演示的动作作为训练数据,剩余的作为测试数据,最终的识别率如表5所示。本文方法的识别率比文献[ 6]方法的识别率提高了4.27%。图3为这两种方法在该数据集上结果的混淆图。比较发现,本文方法对相似动作baseball_swing和tennis_swing的识别率有所提升,对sit2stand和stand2sit的识别率显著提升,表明DCRC的二次约束对相似动作具有一定的判别性。

表 5. UTD-MHAD数据集上不同方法的识别率

Table 5. Recognition rate of different methods on UTD-MHAD dataset

MethodRecognition rate /%
Ref.[20] method66.10
Proposed method70.37

查看所有表

图 3. UTD-MHAD数据集上DMMs+CRC(a)与DMMs+DCRC(b)的混淆图

Fig. 3. Confusion matrix of DMMs+CRC (a) and DMMs+DCRC (b) on UTD-MHAD dataset

下载图片 查看所有图片

5 结论

提出了DCRC,通过对协作表征系数的二次约束,增强了对相似动作的判别性,提升了分类器的性能。基于该分类器进行人体行为识别。首先,采用复杂度低、实时性好的DMMs作为动作的特征描述子,然后,利用DCRC对提取的DMMs特征描述子进行分类识别,从而实现人体行为识别。在两个数据集上的实验结果表明,DCRC对相似动作具有一定的判别性,且较现有的一些方法具有更高的识别率。虽然DCRC可以提升对相似动作的识别率,但提升的效果有限,因此下一步工作将使用多尺度的深度运动映射图特征来进一步提高对相似动作的识别能力。

参考文献

[1] Chen C, Jafari R, Kehtarnavaz N. Improving human action recognition using fusion of depth camera and inertial sensors[J]. IEEE Transactions on Human-Machine Systems, 2015, 45(1): 51-61.

[2] ChenC, KehtarnavazN, JafariR. A medication adherence monitoring system for pill bottles based on a wearable inertial sensor[C]// Proceedings of the 36th International Conference of the IEEE Engineering in Medicine and Biology Society, 2014: 4135- 4138.

[3] 张旭光, 刘春霞, 左佳倩. 基于因果网络分析的小规模人群行为识别[J]. 光学学报, 2015, 35(8): 0815001.

    Zhang X G, Liu C X, Zuo J Q. Small scale crowd behavior recognition based on causality network analysis[J]. Acta Optica Sinica, 2015, 38(8): 0815001.

[4] 蔡加欣, 冯国灿, 汤鑫, 等. 基于局部轮廓和随机森林的人体行为识别[J]. 光学学报, 2014, 34(10): 1015006.

    Cai J X, Feng G C, Tang X, et al. Human action recognition based on local image contour and random forest[J]. Acta Optica Sinica, 2014, 34(10): 1015006.

[5] 蔡加欣, 冯国灿, 汤鑫, 等. 基于姿势字典学习的人体行为识别[J]. 光学学报, 2014, 34(12): 1215002.

    Cai J X, Feng G C, Tang X, et al. Human action recognition by learning pose dictionary[J]. Acta Optica Sinica, 2014, 34(12): 1215002.

[6] YangX, ZhangC, TianY. Recognizing actions using depth motion maps-based histograms of oriented gradients[C]// Proceedings of the 20th ACM International Conference on Multimedia, 2012: 1057- 1060.

[7] Chen C, Liu K, Kehtarnavaz N. Real-time human action recognition based on depth motion maps[J]. Journal of Real-Time Image Processing, 2013, 12(1): 155-163.

[8] Wright J, Yang A Y, Sastry S S. et al. Robust face recognition via sparse representation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(2): 210-227.

[9] ZhangL, YangM, FengX. Sparse representation or collaborative representation: which helps face recognition[C]. IEEE International Conference on Computer Vision, IEEE, 2012: 471- 478.

[10] AkhtarN, ShafaitF, MianA. Sparseness helps: sparsity augmented collaborative representation for classification[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2015: 1- 10.

[11] Zhang H, Wang F, Chen Y, et al. Sample pair based sparse representation classification for face recognition[J]. Expert Systems with Applications, 2016, 45(1): 352-358.

[12] Cui M, Prasad S. Class-dependent sparse representation classifier for robust hyperspectral image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2015, 53(5): 2683-2695.

[13] LiW, ZhangZ, LiuZ. Action recognition based on a bag of 3D points[C]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2010: 9- 14.

[14] Vieira 1 AW, Nascimento ER, Oliveira1 GL, et al. Stop: space-time occupancy patterns for 3D action recognition from depth map sequences[M]. Heidelberg: Springer, 2012: 252- 259.

[15] YangX, TianY. Eigen joints-based action recognition using naive-bayes-nearest-neighbor[C]. IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2012: 14- 19.

[16] OreifejO, LiuZ. HON4D: histogram of oriented 4D normals for activity recognition from depth sequences[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2013: 716- 723.

[17] RahmaniH, MahmoodA, Huynh DQ, et al. Real time action recognition using histograms of depth gradients and random decision forests[C]. Applications of Computer Vision, IEEE, 2014: 626- 633.

[18] Zhang C, Tian Y. Histogram of 3D facets: a depth descriptor for human action and hand gesture recognition[J]. Computer Vision and Image Understanding, 2015, 139: 29-39.

[19] EvangelidisG, SinghG, HoraudR. Skeletal quads: human action recognition using joint quadruples[C]. International Conference on Pattern Recognition, 2014: 4513- 4518.

[20] ChenC, JafariR, KehtarnavazN. UTD-MHAD: A multimodal dataset for human action recognition utilizing a depth camera and a wearable inertial sensor[C]. IEEE International Conference on Image Processing, 2015: 168- 172.

昝宝锋, 孔军, 蒋敏. 基于判别协作表征分类器的人体行为识别[J]. 激光与光电子学进展, 2018, 55(1): 011010. Zan Baofeng, Kong Jun, Jiang Min. Human Action Recognition Based on Discriminative Collaborative Representation Classifier[J]. Laser & Optoelectronics Progress, 2018, 55(1): 011010.

本文已被 3 篇论文引用
被引统计数据来源于中国光学期刊网
引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!