基于稀疏编码特征融合的交互行为识别

李建军; 孙玥; 张宝华

doi:doi:10.3788/LOP57.181006

激光与光电子学进展, 2020, 57 (18): 181006, 网络出版: 2020-09-02

基于稀疏编码特征融合的交互行为识别下载： 722次

Interactive Behavior Recognition Based on Sparse Coding Feature Fusion

论文大纲

李建军孙玥 ^*张宝华

作者单位

内蒙古科技大学信息工程学院, 内蒙古包头 014010

图像处理交互行为识别特征融合稀疏编码 image processing interactive behavior recognition feature fusion sparse coding

AI 词云图 AI一句话精读 AI短摘要

注：本部分内容由 AI 自动生成，请您知悉。

摘要

交互行为的识别是机器视觉研究领域的热点和难点,针对其识别率低的问题,提出了一种融合深度图像边缘特征、RGB(Red, Green, Blue)图像纹理特征以及光流运动轨迹特征的识别算法。首先,采用Canny算子提取深度图像的边缘特征,采用局部二值模式算子提取RGB图像的纹理特征,采用光流直方图描述图像的动态特征;然后,将提取的边缘特征和纹理特征进行加权融合;最后,利用基于稀疏表示的空间金字塔匹配模型对静态融合特征和光流运动轨迹特征进行编码融合,对交互行为进行识别。基于MSR Action Pairs、SBU Kinect interaction、CAD-60数据集的实验结果表明,本算法的识别效果较好。

Abstract

Research on interactive behavior recognition has always been a research hotspot and difficulty in the field of machine vision research. For the problem of low recognition rate, this paper proposes a recognition algorithm that combines edge features of depth images, texture features of RGB (Red, Green, Blue) images, and optical flow motion trajectory features. First, Canny operator is used to extract the edge features of the depth images, local binary pattern operator is used to extract the texture features of the RGB images, and optical flow histogram is used to describe the dynamic characteristics of the images. Then, the extracted edge features and texture features are weighted and fused. Finally, static fusion feature and optical flow motion trajectory feature are coded and fused using the spatial pyramid matching model based on sparse representation to identify interactive behaviors. Experimental results based on MSR Action Pair, SBU Kinect interaction, and CAD-60 data sets show that the algorithm has a better recognition effect.

1 引言

人体行为识别技术的飞速发展,使其逐渐渗入到许多行业中。人体行为识别是计算机自动理解真实场景的重要步骤,有广阔的应用前景。根据人体行为的复杂度,Aggarwal等^[1]将人体行为分为身体局部动作、简单行为、交互行为和人群行为。其中,交互行为可进一步分为人物交互行为、双人交互行为和多人交互行为^[2]。交互行为的识别具有复杂性高,冗余信息量大,特征维数高且难以区分等特点,因此,交互行为的特征选取及表达对识别算法具有重要作用。交互行为识别方法主要分为传统的特征提取和分类方法以及基于大量数据的深度学习方法^[3]。

近几年,针对交互行为的识别研究大多基于RGB(Red, Green, Blue)视频序列。Burghouts等^[4]采用时空兴趣点(STIP)提取特征组,用随机森林法将图像的特征量化为直方图,最后用支持向量机(SVM)进行分类;Zhang等^[5]使用相关滤波算法将提取的交互行为按照运动轨迹分成不同的组,采用大位移光流直方图作为运动特征向量,然后用K最近邻(KNN)算法进行分类识别;Kong等^[6]通过学习的高级描述,利用交互式短语识别交互动作,从视频中人的边缘提取三维(3D)兴趣点,用词袋模型表示该行为,并将运动属性和测试视频的词袋表示提供给交互模型,从而推断出视频的交互类别;Wang等^[7]从视频中提取交互行为的密集轨迹,对其进行聚类得到轨迹群组,采用协方差矩阵对群组进行特征描述,然后利用稀疏表示对特征描述符进行稀疏编码(SC),最后采用多示例学习算法进行分类。虽然基于RGB视频序列的交互行为取得了较好的研究成果,但RGB图像中复杂的背景、光照强度、角度等因素都会影响交互行为的识别,从而降低识别率。深度相机的应用,在一定程度上弥补了RGB图像的不足。Ijjina等^[8]将RGB和深度视频中的运动序列信息作为卷积网络的输入进行学习和识别。

本文利用多源信息的互补特性,提取了对应的特征。由于深度图像边缘上的灰度变化比较平缓、两侧变化较快,因此提取了深度图像的边缘特征;由于纹理特征不依赖形状和颜色,具有鲁棒性和良好的抗噪性,因此提取了RGB图像的纹理特征;而人体行为视频中包含的运动特征,在一定程度上可以有效区分部分动作,充分描述运动过程,同时可以保证每个动作的连贯性,所以采用光流直方图(HOF)描述运动特征。最后用权重融合机制对特征进行融合,用稀疏超完备字典方法对复杂性问题进行压缩,降低运算复杂性。

2 特征提取与融合

2.1 RGB图像特征提取

纹理特征体现了物体的表面特性,不同形态的物体具有独特的纹理特征。与颜色特征不同,纹理特征不依赖物体的形状和颜色,具有良好的抗噪性、稳定性、旋转不变性以及鲁棒性。提取纹理特征的方法可以分为四类:统计法、模型法、结构法和频谱法^[9-10]。实验采用的局部二值模式(LBP)算子属于统计法,文献[ 11]给出了LBP算子的旋转不变模式,最初LBP算子在3×3窗口内运用,如图1所示。

图 1. 3×3窗口的像素灰度值

Fig. 1. Pixel gray value of 3×3 window

下载图片查看所有图片

LBP算子可表示为

L (g) = \overset{8}{\sum_{i = 1}} 2^{i - 1} s (g_{i} - g), (1)

式中,g为窗口中心的灰度值,g_i(i=1,2,…,8)为与g相邻像素的8个像素灰度值,其中

s (x) = \{\begin{array}{l} 1, x \geq 0 \\ 0, x < 0 \end{array} 。 (2)

通过(1)式可生成一个八位二进制数,将其转化为十进制数即代表该区域的LBP特征值。但上述算子仅适用于固定区域,为了满足不同尺度或频率纹理的需求,对LBP算子进行改进。改进后的LBP算子在圆周上等间距选取像素点,其中,圆的半径为R,像素点数目为P,具体的R和P根据实际图像确定。对(R,P)取了三对值,如图2所示。

图 2. 圆对称邻域。(a) (1,8);(b) (1.5,12);(c) (2,16)

Fig. 2. Neighborhood of circular symmetry. (a) (1,8); (b) (1.5,12); (c) (2,16)

下载图片查看所有图片

改进后的LBP算子可表示为

L_{P, R} (g) = \overset{P}{\sum_{i = 1}} 2^{i - 1} s (g_{i} - g), (3)

式中,i=1,2,…,P。由于g₁总是位于中心像素相邻采样点的同一位置,当图像发生旋转时,会产生不同的LBP编码,可以通过不断旋转最初的局部二值模式得到不同的LBP特征值。最小的LBP特征值对应的局部二值模式,即L_P_,_R,可表示为

L_{P, R} = \min {X_{ROR} (L_{P, R}, i) | i = 0,1, \dots, P - 1}, (4)

式中,函数X_ROR(x,i)是对长度为P的数值x按环形,比特位右移i次,得到的局部二值模式。原始LBP算子与改进的LBP算子对图像的处理结果如图3所示。

图 3. 两种模式的处理结果。(a)灰度图像;(b)原始LBP算子;(c)改进的LBP算子

Fig. 3. Processing results of the two modes. (a) Gray image; (b) original LBP operator; (c) improved LBP operator

下载图片查看所有图片

2.2 深度图像特征提取

深度图像的边缘包含丰富的信息,是区域属性发生突变的地方^[12]。边缘上的灰度变化比较平缓,边缘两侧灰度变化较快。相比RGB图像,深度图像中的目标更突出,边缘上的灰度变化更明显,提取出的边缘特征也更精确,易于区分目标与背景。常见的算子有Prewitt、Sobel、Canny算子等,Prewitt、Sobel算子属于梯度算子,对灰度渐变、低噪声图像的检测结果较好。但检测精度不高,只能检测出图像的大致轮廓。Canny算子对图像的边缘检测更加精准、细致,因此,实验采用Canny算子^[13]提取深度图像的边缘特征,具体步骤如下。

1) 采用高斯滤波器平滑处理图像,利用一阶导数分别按行、列对原始图像进行卷积处理,可表示为

\begin{array}{l} G (x, y) = \frac{1}{2 π σ^{2}} \exp (- \frac{x^{2} + y^{2}}{2 σ^{2}}), (5) \\ h (x, y) = G (x, y) * f (x, y), (6) \end{array}

式中,(x,y)为点坐标,为整数,σ为高斯函数的标准差,可调节平滑程度,G(x,y)为高斯函数,f(x,y)为原始图像,h(x,y)为平滑处理后的图像,*为卷积。

2) 为了计算梯度幅值和方向,采用一阶偏导的有限差分法。用2×2的一阶有限差分计算二维高斯函数G(x,y)的梯度,可表示为

\nabla G (x, y) = [\begin{array}{l} \frac{\partial G (x, y)}{\partial x} \\ \frac{\partial G (x, y)}{\partial y} \end{array}], (7)

与f(x,y)卷积,得到

\begin{array}{l} I_{x} (x, y) = \frac{\partial G (x, y)}{\partial x} * f (x, y), (8) \\ I_{y} (x, y) = \frac{\partial G (x, y)}{\partial y} * f (x, y), (9) \\ P (x, y) = \sqrt[]{{I_{x}}^{2} (x, y) + {I_{y}}^{2} (x, y)}, (10) \\ θ (x, y) = \arctan [\frac{I_{y} (x, y)}{I_{x} (x, y)}], (11) \end{array}

式中,P(x,y)和θ(x,y)分别为图像中(x,y)处的梯度幅值和方向角。

3) 对梯度幅值进行非极大值抑制,首先根据8近邻将边缘方向量化为8个方向,如图4所示。若考察的像素幅值不为0,则需要进一步考察该像素两个邻接点的像素值,邻接像素由边缘方向确定,如图5所示。若两个邻接像素的幅值均大于当前考察像素的幅值,则将该像素标记出来。考察完图像上所有像素后,再次扫描图像,用0代替标记的像素。

图 4. 像素点邻域

Fig. 4. Neighborhood of pixel point

下载图片查看所有图片

图 5. 邻接像素

Fig. 5. Adjacent pixel

下载图片查看所有图片

4) 用双阈值算法检测和连接边缘。经前三个步骤处理后的图像仍存在虚假边缘和噪声,因此,需要作滞后阈值化处理,以消除虚假边缘,降低噪声。设置高阈值T_h和低阈值T_l,并与步骤3)处理后的图像像素幅值进行对比。设某一像素位置的梯度幅值为P(x,y),如果P(x,y)>T_h,则该像素为边缘像素;如果P(x,y)<T_l,则该像素被删除;如果T_l≤P(x,y)≤T_h,则需判断该像素8邻域空间内是否存在大于T_h的像素,若存在,则该像素为边缘像素。用不同阈值提取同一深度图像的边缘,结果如图6所示。

图 6. 不同阈值提取的边缘。(a)深度图像;(b)自动阈值;(c)阈值范围为[0.32,0.8];(d)阈值范围为[0.08,0.2]

Fig. 6. Edges extracted by different thresholds. (a) Depth image; (b) automatic threshold; (c) threshold range is [0.32,0.8]; (d) threshold range is [0.08,0.2]

下载图片查看所有图片

2.3 光流运动轨迹特征提取

光流法可以很好地描述目标交互动作的行为过程,因此实验采用HOF描述交互行为中的动态特征^[14]。HOF的计算过程与方向梯度直方图(HOG)相似,是对光流方向的加权统计,用光流代替HOG中的梯度值,并将光流划分为9个梯度方向,得到HOF特征。HOF的计算步骤如下。

1) 计算数据集中每帧图像的光流场,使用的数据集都是每隔一帧的完整交互动作图像序列。

2) 光流矢量与横轴的夹角β可表示为

\begin{array}{l} v = {[x, y]}^{T}, (12) \\ β = \arctan (y / x), (13) \end{array}

式中,v为转置矩阵。当β在- $\frac{π}{2}$ +π $\frac{b - 1}{B}$ ≤β<- $\frac{π}{2}$ +π $\frac{b}{B}$ 时,幅值 $\sqrt[]{x^{2} + y^{2}}$ 作用到直方图的第b个模块中,其中,1≤b≤B。

3) 归一化直方图得到最终的光流直方图。

2.4 特征融合

用加权特征融合技术将每帧RGB图像的纹理特征和深度图像的边缘特征进行串行融合。相比传统的串行融合,加权融合方法使每帧图像提取的融合特征信息更加精简有效,且消除了大部分冗余信息,避免了高维度导致的分类速度下降以及多目标中信息不相容问题。加权特征融合可表示为

T = ω_{1} A_{RGB} + ω_{2} A_{depth}, (14)

式中,T为加权融合后的特征,A_RGB、A_depth分别为RGB图像的纹理特征和深度图像的边缘特征,ω₁、ω₂分别为对应特征的加权参数。

利用相关性判断纹理特征和边缘特征对分类结果质量的贡献,从而确定权重的大小,使分类结果更准确。Person相关系数ρ的取值从-1到1,ρ的绝对值越大,表明相关性越强。可表示为

\begin{array}{l} ρ_{X, Y} = \frac{cov (X, Y)}{σ_{X} σ_{Y}}, (15) \\ cov (X, Y) = \frac{\sum_{k}^{i} (X_{i} - \bar{X}) (Y_{i} - \bar{Y})}{k - 1}, (16) \\ σ_{X} = \sqrt[]{E (X^{2}) - E^{2} (X)}, (17) \\ σ_{Y} = \sqrt[]{E (Y^{2}) - E^{2} (Y)}, (18) \end{array}

式中,ρ_X_,_Y为Person相关系数,cov(X,Y)为变量X、Y的协方差, $\bar{X}$ 、 $\bar{Y}$ 分别为X、Y的平均值,k为样本点的数量,σ_X、σ_Y分别为两个变量的标准差,E()为期望值。根据两特征的相关性,得到ω₁、ω₂分别为0.3、0.7。

3 基于稀疏编码的空间金字塔匹配模型

3.1 稀疏编码

用基于稀疏表示的空间金字塔匹配(ScSPM)模型^[15]对静态融合特征和光流运动轨迹特征进行编码,具体流程如图7所示。

图 7. ScSPM模型的具体步骤

Fig. 7. Specific steps of the ScSPM model

下载图片查看所有图片

ScSPM采用SC进行编码,相比空间金字塔匹配(SPM)模型采用的矢量量化编码,在编码时可将特征映射到字典中的多个单词,更好地保留图像中的信息,具有良好的重建性,且有利于获取描述符的突出模式,使特征更加线性可分。SC的准则为

\arg \min_{U} \overset{M}{\sum_{m = 1}} ‖ w_{m} - V u_{m} ‖^{2} + λ ‖ u_{m} ‖_{1}, (19)

式中,M为特征数目,W为从两类特征中提取的尺度不变特征变换(SIFT)特征向量集合,W=[w₁,w₂,…,w_M]∈R^D^×^N,V为稀疏字典,λ为正则化参数,u_m为V的稀疏编码表示,U=[u₁,u₂,…,u_M], $‖ u_{m} ‖_{1}$ 为稀疏正则化约束项。

3.2 编码特征融合

静态特征描述了单帧图像的特征,光流运动轨迹特征描述了图像序列间的特征,针对两者的互补性,将稀疏编码计算出的静态融合特征和光流运动轨迹特征的线性空间金字塔特征进行加权融合。动静态特征融合过程是对每一类特征采用加权串行融合,减少了冗余信息,使每一类交互动作特征更加明显、有效,避免了因动静态特征提取方式不同导致的不相容现象,可表示为

S = ω_{3} T' + ω_{4} A'_{d yn}, (20)

式中,S为编码融合特征,T'、A'_dyn分别为编码后的静态融合特征和光流轨迹特征,ω₃、ω₄分别为对应特征的加权参数,采用相关性得到ω₃、ω₄分别为0.3、0.7。

4 算法结构

实验采用的算法流程图如图8所示,算法具体步骤:1)采用LBP旋转不变模式提取RGB图像的纹理特征以及光流运动轨迹特征,采用Canny算子提取深度图像的边缘特征;2)对RGB图像和深度图像的特征进行加权融合得到静态融合特征;3)采用ScSPM模型对静态融合特征和光流运动轨迹特征进行编码融合;4)采用线性SVM进行分类识别。

5 实验结果与分析

可将交互行为作为一个整体进行处理,避免了多目标场景特征不相容的问题。为验证本算法的有效性,用CAD-60和MSR Action Pairs数据集对人物交互动作进行识别,用SBU Kinect interaction数据集对双人交互动作进行识别。识别过程中,随机抽取30帧图像进行分类测试,取5次随机测试的平均结果作为最终平均识别率。

图 8. 本算法流程图

Fig. 8. Flow chart of our algorithm

下载图片查看所有图片

图 9. CAD-60数据集的识别结果

Fig. 9. Recognition results of the CAD-60 dataset

下载图片查看所有图片

不同算法在CAD-60数据集上的识别结果如表1所示,其中full tow-layer MEMM为完整的双层最大熵马尔可夫模型,HMM为隐马尔可夫模型,CF_t为融合了物体特征的特征向量,包括由局部特征矩阵聚类成的词袋(BOW),与Hu矩阵的第一、第二矩组成人体交互特征,RBF-SVM为基于径向基核函数(RBF)的SVM分类器。可以发现,本算法的识别率均高于其他算法,具有一定的可行性。

表 2. 不同算法的识别率(MSR Action Pairs数据集)

Table 2. Recognition rates of different algorithms (MSR Action Pairs dataset)

Reference	Recognitionmethod	Recognitionrate /%
Ref. [19]	skeleton+LOPskeleton+LOP+pyramid	61.782.2
Ref. [20]	DMM	66.1
Ref. [21]	HON4D	93.3
Ours	S+ScSPM	93.1

查看所有表

表 1. 不同算法的识别率(CAD-60数据集)

Table 1. Recognition rates of different algorithms (CAD-60 dataset)

Reference	Recognitionmethod	Recognitionrate /%
Ref. [16]	Full tow-layer MEMM	61.7
Ref. [17]	HMM	82.3
Ref. [18]	CF_t+RBF-SVM	94.0
Ours	S+ScSPM	99.0

查看所有表

表 3. 不同算法的识别率(SBU Kinect interaction数据集)

Table 3. Recognition rates of different algorithms (SBU Kinect interaction dataset)

Reference	Recognitionmethod	Recognitionrate /%
Ref. [22]	joint features+CFDM	89.4
Ref. [23]	SVM+LCNN	92.8
Ref. [24]	BOW+HOG	92.5
Ref. [25]	motion feature+shape feature(depth)	98.4
Ours	S+ScSPM	95.4

查看所有表

MSR Action Pairs数据集包括6组具有相似形状的动作,每组动作由10个人进行3次完成。分别为拿起盒子(lift box)、放下盒子(put down box)、捡起盒子(pick up box)、放置盒子(place box)、推椅子(push chair)、拉椅子(pull chair)、戴帽子(put on hat)、脱帽子(take off hat)、背起背包(put on back pack)、放下背包(take off back pack)、贴海报(stick poster)和撕海报(remove poster)。用本算法对MSR Action Pairs数据集进行识别,其中一次的识别结果如图10所示。5次随机测试结果的平均识别率为93.1%,可以发现,成对的动作容易发生识别错误。原因是动作相似性较高,而本算法对不同底层的特征采用了相同的提取方法。

图 10. MSR Action Pairs数据集的识别结果

Fig. 10. Recognition results of the MSR Action Pairs dataset

下载图片查看所有图片

不同算法在MSR Action Pairs数据集上的识别结果如表2所示,其中,LOP为局部占用模式,DMM为深度运动图;HON4D为用于深度序列活动识别的定向4D法线直方图。可以发现,文献[ 21]中算法的识别率为93.3%,高于本算法。原因是文献[ 21]中的算法在时间序列、深度和深度序列空间坐标的4D空间中使用表面法线方向,但极大增加了时间复杂度和计算时间,实时性不高。而本算法的特征提取都是基于低层特征,复杂度较低,运算速度快,可以满足人体行为识别的实时性要求。

SBU Kinect interaction数据集为双人交互的视频数据集,包括彩色、深度以及骨架图像。实验选取7个人做的8个双人交互的动作,分别为靠近(approaching)、分开(departing)、交换(exchange)、拥抱(hugging)、踢(kicking)、殴打(punching)、推开(pushing)和握手(shaking hands)。数据集中的动作是非周期性的,且动作序列图像中有相似动作图像,非常具有挑战性。用本算法对该据集进行识别,其中一次的识别结果如图11所示。5次随机测试结果的平均识别率为95.4%,多次实验发现,握手和踢两个动作识别结果为100%,由于双人交互动作更为复杂,且有相似动作图像,而本算法用同一种模型对三类底层特征进行编码,所以识别率相对较低。

图 11. SBU Kinect interaction数据集上识别结果

Fig. 11. Recognition results of the SBU Kinect interaction dataset

下载图片查看所有图片

不同算法在SBU Kinect interaction数据集上的识别结果如表3所示,可以发现,文献[ 25]对深度图像的识别率为98.4%,高于本算法。原因是深度图像通过距离成像,仅提取深度图像的特征,缺失了纹理信息,而且深度图像随着深度增加,特征的描述能力会迅速减弱。通过RGB图像提取的纹理特征体现了物体的表面特性,具有良好的抗噪性和鲁棒性。针对RGB-D图像提取的特征有一定的互补性,具有普遍的适用性。

6 结论

基于RGB图像和深度图像特征以及静态特征和动态特征的互补性,提出一种多特征融合的交互行为识别方法。将RGB图像的纹理特征与深度图像的边缘特征进行权重融合,采用ScSPM模型对静态融合特征以及光流运动轨迹特征进行编码,将其对应的编码特征再次进行权重融合,最后采用线性SVM进行分类识别。采用加权串行融合方法进行融合,所需要的运算量小、复杂性低。且静态融合特征和光流轨迹特征在稀疏编码后融合,大大减少了数据的冗余量,提高了融合速度。实验结果表明,本算法在CAD-60数据集、SBU Kinect interaction数据集和MSR Action Pairs数据集上的识别效果较好。在未来研究中还需进一步优化三个特征,增强算法的实时性。其次,在分类识别时,线性SVM分类器的训练和测试速度比非线性SVM快,可以进一步满足实时性要求。

参考文献

[1] Aggarwal J K, Ryoo M S. Human activity analysis: a review[J]. ACM Computing Surveys, 2011, 43(3): 16.

[2] 陈昌红, 张杰, 刘峰. 双人交互行为的稀疏表征方法[J]. 模式识别与人工智能, 2016, 29(5): 464-471.

Chen C H, Zhang J, Liu F. Sparse representation method for human interaction[J]. Pattern Recognition and Artificial Intelligence, 2016, 29(5): 464-471.

[3] 徐鹏程, 刘本永. 基于图像增强和深层CNN学习的交互行为识别[J]. 通信技术, 2019, 52(3): 701-706.

Xu P C, Liu B Y. Interactive behavior recognition based on image enhancement and deep CNN learning[J]. Communications Technology, 2019, 52(3): 701-706.

[4] Burghouts G J, Schutte K. Spatio-temporal layout of human actions for improved bag-of-words action detection[J]. Pattern Recognition Letters, 2013, 34(15): 1861-1869.

[5] ZhangB, RotaP, ConciN, et al. Human interaction recognition in the wild: analyzing trajectory clustering from multiple-instance-learning perspective[C]∥2015 IEEE International Conference on Multimedia and Expo (ICME), June 29-July 3, 2015, Turin, Italy. New York: IEEE, 2015: 1- 6.

[6] Kong Y, Jia Y D, Fu Y. Interactive phrases: semantic descriptions for human interaction recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(9): 1775-1788.

[7] Wang J, Zhou S C, Xia L M. Human interaction recognition based on sparse representation of feature covariance matrices[J]. Journal of Central South University, 2018, 25(2): 304-314.

[8] Ijjina E P, Chalavadi K M. Human action recognition in RGB-D videos using motion sequence information and deep learning[J]. Pattern Recognition, 2017, 72: 504-516.

[9] 徐苗苗. 彩色纹理图像特征提取与分类研究[D]. 广州: 华南理工大学, 2016.

Xu MM. Study on feature extraction and classification for color texture image[D]. Guangzhou: South China University of Technology, 2016.

[10] 张磊. 基于改进LBP纹理图像特征提取与分类研究[D]. 哈尔滨: 哈尔滨工程大学, 2019.

ZhangL. Research on texture image feature extraction and classification of based on improved LBP[D]. Harbin: Harbin Engineering University, 2019.

[11] Ojala T, Pietikainen M, Maenpaa T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7): 971-987.

[12] 范晞, 费胜巍, 储有兵. 基于Canny算子的改进型图像边缘提取算法[J]. 自动化与仪表, 2019, 34(1): 41-44.

Fan X, Fei S W, Chu Y B. Improved algorithm for image edge extraction based on Canny operator[J]. Automation & Instrumentation, 2019, 34(1): 41-44.

[13] Canny J. A computational approach to edge detection[J]. IEEE transactions on pattern analysis and machine intelligence, 1986, 8(6): 679-698.

[14] 刘冬寅. 教室监控视频中人员异常行为检测研究[D]. 成都: 电子科技大学, 2018.

Liu DY. Research on detection of abnormal behavior in classroom monitoring video[D]. Chengdu: University of Electronic Science and Technology of China, 2018.

[15] Yang JC, YuK, Gong YH, et al. Linear spatial pyramid matching using sparse coding for image classification[C]∥2009 IEEE Conference on Computer Vision and Pattern Recognition, June 20-25, 2009, Miami, FL, USA. New York: IEEE, 2009: 1794- 1801.

[16] SungJ, PonceC, SelmanB, et al. Unstructured human activity detection from RGBD images[C]∥2012 IEEE International Conference on Robotics and Automation, May 14-18, 2012, Saint Paul, MN, USA. New York: IEEE, 2012: 842- 849.

[17] Taha A, Zayed H H, Khalifa M, et al. Skeleton-based human activity recognition for video surveillance[J]. International Journal of Scientific and Engineering Research, 2015, 6(1): 993-1004.

[18] 王永雄, 曾艳, 李璇, 等. 融合交互信息和能量特征的三维复杂人体行为识别[J]. 小型微型计算机系统, 2018, 39(8): 1828-1834.

Wang Y X, Zeng Y, Li X, et al. Fusing interactive information and energy features for 3D complicated human activity recognition[J]. Journal of Chinese Computer Systems, 2018, 39(8): 1828-1834.

[19] WangJ, Liu ZC, WuY, et al. Mining actionlet ensemble for action recognition with depth cameras[C]∥2012 IEEE Conference on Computer Vision and Pattern Recognition, June 16-21, 2012, Providence, RI, USA. New York: IEEE, 2012: 1290- 1297.

[20] Yang XD, Zhang CY, Tian YL. Recognizing actions using depth motion maps-based histograms of oriented gradients[C]∥Proceedings of the 20th ACM International Conference on Multimedia-MM'12, October, 2012, Nara, Japan. New York: ACM, 2012: 1057- 1060.

[21] OreifejO, Liu ZC. HON4D: histogram of oriented 4D normals for activity recognition from depth sequences[C]∥2013 IEEE Conference on Computer Vision and Pattern Recognition, June 23-28, 2013, Portland, OR, USA. New York: IEEE, 2013: 716- 723.

[22] Ji Y L, Cheng H, Zheng Y L, et al. Learning contrastive feature distribution model for interaction recognition[J]. Journal of Visual Communication and Image Representation, 2015, 33: 340-349.

[23] Lin L, Wang K Z, Zuo W M, et al. A deep structured model with radius-margin bound for 3D human activity recognition[J]. International Journal of Computer Vision, 2016, 118(2): 256-273.

[24] 金壮壮, 曹江涛, 姬晓飞. 多源信息融合的双人交互行为识别算法研究[J]. 计算机技术与发展, 2018, 28(10): 32-36, 43.

Jin Z Z, Cao J T, Ji X F. Research on human interaction recognition algorithm based on multi-source information fusion[J]. Computer Technology and Development, 2018, 28(10): 32-36, 43.

[25] Li J, Mao X, Chen L, et al. Human interaction recognition fusing multiple features of depth sequences[J]. IET Computer Vision, 2017, 11(7): 560-566.

李建军, 孙玥, 张宝华. 基于稀疏编码特征融合的交互行为识别[J]. 激光与光电子学进展, 2020, 57(18): 181006. Jianjun Li, Yue Sun, Baohua Zhang. Interactive Behavior Recognition Based on Sparse Coding Feature Fusion[J]. Laser & Optoelectronics Progress, 2020, 57(18): 181006.

基于稀疏编码特征融合的交互行为识别 下载： 722次

1 引言

2 特征提取与融合

2.1 RGB图像特征提取

图 1. 3×3窗口的像素灰度值

Fig. 1. Pixel gray value of 3×3 window

图 2. 圆对称邻域。(a) (1,8);(b) (1.5,12);(c) (2,16)

Fig. 2. Neighborhood of circular symmetry. (a) (1,8); (b) (1.5,12); (c) (2,16)

图 3. 两种模式的处理结果。(a)灰度图像;(b)原始LBP算子;(c)改进的LBP算子

Fig. 3. Processing results of the two modes. (a) Gray image; (b) original LBP operator; (c) improved LBP operator

2.2 深度图像特征提取

图 4. 像素点邻域

Fig. 4. Neighborhood of pixel point

图 5. 邻接像素

Fig. 5. Adjacent pixel

图 6. 不同阈值提取的边缘。(a)深度图像;(b)自动阈值;(c)阈值范围为[0.32,0.8];(d)阈值范围为[0.08,0.2]

Fig. 6. Edges extracted by different thresholds. (a) Depth image; (b) automatic threshold; (c) threshold range is [0.32,0.8]; (d) threshold range is [0.08,0.2]

2.3 光流运动轨迹特征提取

2.4 特征融合

3 基于稀疏编码的空间金字塔匹配模型

3.1 稀疏编码

图 7. ScSPM模型的具体步骤

Fig. 7. Specific steps of the ScSPM model

3.2 编码特征融合

4 算法结构

5 实验结果与分析

图 8. 本算法流程图

Fig. 8. Flow chart of our algorithm

图 9. CAD-60数据集的识别结果

Fig. 9. Recognition results of the CAD-60 dataset

表 2. 不同算法的识别率(MSR Action Pairs数据集)

Table 2. Recognition rates of different algorithms (MSR Action Pairs dataset)

表 1. 不同算法的识别率(CAD-60数据集)

Table 1. Recognition rates of different algorithms (CAD-60 dataset)

表 3. 不同算法的识别率(SBU Kinect interaction数据集)

Table 3. Recognition rates of different algorithms (SBU Kinect interaction dataset)

图 10. MSR Action Pairs数据集的识别结果

Fig. 10. Recognition results of the MSR Action Pairs dataset

图 11. SBU Kinect interaction数据集上识别结果

Fig. 11. Recognition results of the SBU Kinect interaction dataset

6 结论

Article Outline

相关论文

相关资讯

关于本站 Cookie 的使用提示

全站搜索

基于稀疏编码特征融合的交互行为识别下载： 722次