基于稀疏编码特征融合的交互行为识别 下载: 722次
1 引言
人体行为识别技术的飞速发展,使其逐渐渗入到许多行业中。人体行为识别是计算机自动理解真实场景的重要步骤,有广阔的应用前景。根据人体行为的复杂度,Aggarwal等[1]将人体行为分为身体局部动作、简单行为、交互行为和人群行为。其中,交互行为可进一步分为人物交互行为、双人交互行为和多人交互行为[2]。交互行为的识别具有复杂性高,冗余信息量大,特征维数高且难以区分等特点,因此,交互行为的特征选取及表达对识别算法具有重要作用。交互行为识别方法主要分为传统的特征提取和分类方法以及基于大量数据的深度学习方法[3]。
近几年,针对交互行为的识别研究大多基于RGB(Red, Green, Blue)视频序列。Burghouts等[4]采用时空兴趣点(STIP)提取特征组,用随机森林法将图像的特征量化为直方图,最后用支持向量机(SVM)进行分类;Zhang等[5]使用相关滤波算法将提取的交互行为按照运动轨迹分成不同的组,采用大位移光流直方图作为运动特征向量,然后用K最近邻(KNN)算法进行分类识别;Kong等[6]通过学习的高级描述,利用交互式短语识别交互动作,从视频中人的边缘提取三维(3D)兴趣点,用词袋模型表示该行为,并将运动属性和测试视频的词袋表示提供给交互模型,从而推断出视频的交互类别;Wang等[7]从视频中提取交互行为的密集轨迹,对其进行聚类得到轨迹群组,采用协方差矩阵对群组进行特征描述,然后利用稀疏表示对特征描述符进行稀疏编码(SC),最后采用多示例学习算法进行分类。虽然基于RGB视频序列的交互行为取得了较好的研究成果,但RGB图像中复杂的背景、光照强度、角度等因素都会影响交互行为的识别,从而降低识别率。深度相机的应用,在一定程度上弥补了RGB图像的不足。Ijjina等[8]将RGB和深度视频中的运动序列信息作为卷积网络的输入进行学习和识别。
本文利用多源信息的互补特性,提取了对应的特征。由于深度图像边缘上的灰度变化比较平缓、两侧变化较快,因此提取了深度图像的边缘特征;由于纹理特征不依赖形状和颜色,具有鲁棒性和良好的抗噪性,因此提取了RGB图像的纹理特征;而人体行为视频中包含的运动特征,在一定程度上可以有效区分部分动作,充分描述运动过程,同时可以保证每个动作的连贯性,所以采用光流直方图(HOF)描述运动特征。最后用权重融合机制对特征进行融合,用稀疏超完备字典方法对复杂性问题进行压缩,降低运算复杂性。
2 特征提取与融合
2.1 RGB图像特征提取
纹理特征体现了物体的表面特性,不同形态的物体具有独特的纹理特征。与颜色特征不同,纹理特征不依赖物体的形状和颜色,具有良好的抗噪性、稳定性、旋转不变性以及鲁棒性。提取纹理特征的方法可以分为四类:统计法、模型法、结构法和频谱法[9-10]。实验采用的局部二值模式(LBP)算子属于统计法,文献[
11]给出了LBP算子的旋转不变模式,最初LBP算子在3×3窗口内运用,如
LBP算子可表示为
式中,g为窗口中心的灰度值,gi(i=1,2,…,8)为与g相邻像素的8个像素灰度值,其中
通过(1)式可生成一个八位二进制数,将其转化为十进制数即代表该区域的LBP特征值。但上述算子仅适用于固定区域,为了满足不同尺度或频率纹理的需求,对LBP算子进行改进。改进后的LBP算子在圆周上等间距选取像素点,其中,圆的半径为R,像素点数目为P,具体的R和P根据实际图像确定。对(R,P)取了三对值,如
图 2. 圆对称邻域。(a) (1,8);(b) (1.5,12);(c) (2,16)
Fig. 2. Neighborhood of circular symmetry. (a) (1,8); (b) (1.5,12); (c) (2,16)
改进后的LBP算子可表示为
式中,i=1,2,…,P。由于g1总是位于中心像素相邻采样点的同一位置,当图像发生旋转时,会产生不同的LBP编码,可以通过不断旋转最初的局部二值模式得到不同的LBP特征值。最小的LBP特征值对应的局部二值模式,即LP,R,可表示为
式中,函数XROR(x,i)是对长度为P的数值x按环形,比特位右移i次,得到的局部二值模式。原始LBP算子与改进的LBP算子对图像的处理结果如
图 3. 两种模式的处理结果。(a)灰度图像;(b)原始LBP算子;(c)改进的LBP算子
Fig. 3. Processing results of the two modes. (a) Gray image; (b) original LBP operator; (c) improved LBP operator
2.2 深度图像特征提取
深度图像的边缘包含丰富的信息,是区域属性发生突变的地方[12]。边缘上的灰度变化比较平缓,边缘两侧灰度变化较快。相比RGB图像,深度图像中的目标更突出,边缘上的灰度变化更明显,提取出的边缘特征也更精确,易于区分目标与背景。常见的算子有Prewitt、Sobel、Canny算子等,Prewitt、Sobel算子属于梯度算子,对灰度渐变、低噪声图像的检测结果较好。但检测精度不高,只能检测出图像的大致轮廓。Canny算子对图像的边缘检测更加精准、细致,因此,实验采用Canny算子[13]提取深度图像的边缘特征,具体步骤如下。
1) 采用高斯滤波器平滑处理图像,利用一阶导数分别按行、列对原始图像进行卷积处理,可表示为
式中,(x,y)为点坐标,为整数,σ为高斯函数的标准差,可调节平滑程度,G(x,y)为高斯函数,f(x,y)为原始图像,h(x,y)为平滑处理后的图像,*为卷积。
2) 为了计算梯度幅值和方向,采用一阶偏导的有限差分法。用2×2的一阶有限差分计算二维高斯函数G(x,y)的梯度,可表示为
与f(x,y)卷积,得到
式中,P(x,y)和θ(x,y)分别为图像中(x,y)处的梯度幅值和方向角。
3) 对梯度幅值进行非极大值抑制,首先根据8近邻将边缘方向量化为8个方向,如
4) 用双阈值算法检测和连接边缘。经前三个步骤处理后的图像仍存在虚假边缘和噪声,因此,需要作滞后阈值化处理,以消除虚假边缘,降低噪声。设置高阈值Th和低阈值Tl,并与步骤3)处理后的图像像素幅值进行对比。设某一像素位置的梯度幅值为P(x,y),如果P(x,y)>Th,则该像素为边缘像素;如果P(x,y)<Tl,则该像素被删除;如果Tl≤P(x,y)≤Th,则需判断该像素8邻域空间内是否存在大于Th的像素,若存在,则该像素为边缘像素。用不同阈值提取同一深度图像的边缘,结果如
图 6. 不同阈值提取的边缘。(a)深度图像;(b)自动阈值;(c)阈值范围为[0.32,0.8];(d)阈值范围为[0.08,0.2]
Fig. 6. Edges extracted by different thresholds. (a) Depth image; (b) automatic threshold; (c) threshold range is [0.32,0.8]; (d) threshold range is [0.08,0.2]
2.3 光流运动轨迹特征提取
光流法可以很好地描述目标交互动作的行为过程,因此实验采用HOF描述交互行为中的动态特征[14]。HOF的计算过程与方向梯度直方图(HOG)相似,是对光流方向的加权统计,用光流代替HOG中的梯度值,并将光流划分为9个梯度方向,得到HOF特征。HOF的计算步骤如下。
1) 计算数据集中每帧图像的光流场,使用的数据集都是每隔一帧的完整交互动作图像序列。
2) 光流矢量与横轴的夹角β可表示为
式中,v为转置矩阵。当β在-
3) 归一化直方图得到最终的光流直方图。
2.4 特征融合
用加权特征融合技术将每帧RGB图像的纹理特征和深度图像的边缘特征进行串行融合。相比传统的串行融合,加权融合方法使每帧图像提取的融合特征信息更加精简有效,且消除了大部分冗余信息,避免了高维度导致的分类速度下降以及多目标中信息不相容问题。加权特征融合可表示为
式中,T为加权融合后的特征,ARGB、Adepth分别为RGB图像的纹理特征和深度图像的边缘特征,ω1、ω2分别为对应特征的加权参数。
利用相关性判断纹理特征和边缘特征对分类结果质量的贡献,从而确定权重的大小,使分类结果更准确。Person相关系数ρ的取值从-1到1,ρ的绝对值越大,表明相关性越强。可表示为
式中,ρX,Y为Person相关系数,cov(X,Y)为变量X、Y的协方差,
3 基于稀疏编码的空间金字塔匹配模型
3.1 稀疏编码
用基于稀疏表示的空间金字塔匹配(ScSPM)模型[15]对静态融合特征和光流运动轨迹特征进行编码,具体流程如
ScSPM采用SC进行编码,相比空间金字塔匹配(SPM)模型采用的矢量量化编码,在编码时可将特征映射到字典中的多个单词,更好地保留图像中的信息,具有良好的重建性,且有利于获取描述符的突出模式,使特征更加线性可分。SC的准则为
式中,M为特征数目,W为从两类特征中提取的尺度不变特征变换(SIFT)特征向量集合,W=[w1,w2,…,wM]∈RD×N,V为稀疏字典,λ为正则化参数,um为V的稀疏编码表示,U=[u1,u2,…,uM],
3.2 编码特征融合
静态特征描述了单帧图像的特征,光流运动轨迹特征描述了图像序列间的特征,针对两者的互补性,将稀疏编码计算出的静态融合特征和光流运动轨迹特征的线性空间金字塔特征进行加权融合。动静态特征融合过程是对每一类特征采用加权串行融合,减少了冗余信息,使每一类交互动作特征更加明显、有效,避免了因动静态特征提取方式不同导致的不相容现象,可表示为
式中,S为编码融合特征,T'、A'dyn分别为编码后的静态融合特征和光流轨迹特征,ω3、ω4分别为对应特征的加权参数,采用相关性得到ω3、ω4分别为0.3、0.7。
4 算法结构
实验采用的算法流程图如
5 实验结果与分析
可将交互行为作为一个整体进行处理,避免了多目标场景特征不相容的问题。为验证本算法的有效性,用CAD-60和MSR Action Pairs数据集对人物交互动作进行识别,用SBU Kinect interaction数据集对双人交互动作进行识别。识别过程中,随机抽取30帧图像进行分类测试,取5次随机测试的平均结果作为最终平均识别率。
不同算法在CAD-60数据集上的识别结果如
表 2. 不同算法的识别率(MSR Action Pairs数据集)
Table 2. Recognition rates of different algorithms (MSR Action Pairs dataset)
|
表 1. 不同算法的识别率(CAD-60数据集)
Table 1. Recognition rates of different algorithms (CAD-60 dataset)
|
表 3. 不同算法的识别率(SBU Kinect interaction数据集)
Table 3. Recognition rates of different algorithms (SBU Kinect interaction dataset)
|
MSR Action Pairs数据集包括6组具有相似形状的动作,每组动作由10个人进行3次完成。分别为拿起盒子(lift box)、放下盒子(put down box)、捡起盒子(pick up box)、放置盒子(place box)、推椅子(push chair)、拉椅子(pull chair)、戴帽子(put on hat)、脱帽子(take off hat)、背起背包(put on back pack)、放下背包(take off back pack)、贴海报(stick poster)和撕海报(remove poster)。用本算法对MSR Action Pairs数据集进行识别,其中一次的识别结果如
图 10. MSR Action Pairs数据集的识别结果
Fig. 10. Recognition results of the MSR Action Pairs dataset
不同算法在MSR Action Pairs数据集上的识别结果如
SBU Kinect interaction数据集为双人交互的视频数据集,包括彩色、深度以及骨架图像。实验选取7个人做的8个双人交互的动作,分别为靠近(approaching)、分开(departing)、交换(exchange)、拥抱(hugging)、踢(kicking)、殴打(punching)、推开(pushing)和握手(shaking hands)。数据集中的动作是非周期性的,且动作序列图像中有相似动作图像,非常具有挑战性。用本算法对该据集进行识别,其中一次的识别结果如
图 11. SBU Kinect interaction数据集上识别结果
Fig. 11. Recognition results of the SBU Kinect interaction dataset
不同算法在SBU Kinect interaction数据集上的识别结果如
6 结论
基于RGB图像和深度图像特征以及静态特征和动态特征的互补性,提出一种多特征融合的交互行为识别方法。将RGB图像的纹理特征与深度图像的边缘特征进行权重融合,采用ScSPM模型对静态融合特征以及光流运动轨迹特征进行编码,将其对应的编码特征再次进行权重融合,最后采用线性SVM进行分类识别。采用加权串行融合方法进行融合,所需要的运算量小、复杂性低。且静态融合特征和光流轨迹特征在稀疏编码后融合,大大减少了数据的冗余量,提高了融合速度。实验结果表明,本算法在CAD-60数据集、SBU Kinect interaction数据集和MSR Action Pairs数据集上的识别效果较好。在未来研究中还需进一步优化三个特征,增强算法的实时性。其次,在分类识别时,线性SVM分类器的训练和测试速度比非线性SVM快,可以进一步满足实时性要求。
[1] Aggarwal J K, Ryoo M S. Human activity analysis: a review[J]. ACM Computing Surveys, 2011, 43(3): 16.
[2] 陈昌红, 张杰, 刘峰. 双人交互行为的稀疏表征方法[J]. 模式识别与人工智能, 2016, 29(5): 464-471.
Chen C H, Zhang J, Liu F. Sparse representation method for human interaction[J]. Pattern Recognition and Artificial Intelligence, 2016, 29(5): 464-471.
[3] 徐鹏程, 刘本永. 基于图像增强和深层CNN学习的交互行为识别[J]. 通信技术, 2019, 52(3): 701-706.
Xu P C, Liu B Y. Interactive behavior recognition based on image enhancement and deep CNN learning[J]. Communications Technology, 2019, 52(3): 701-706.
[4] Burghouts G J, Schutte K. Spatio-temporal layout of human actions for improved bag-of-words action detection[J]. Pattern Recognition Letters, 2013, 34(15): 1861-1869.
[5] ZhangB, RotaP, ConciN, et al. Human interaction recognition in the wild: analyzing trajectory clustering from multiple-instance-learning perspective[C]∥2015 IEEE International Conference on Multimedia and Expo (ICME), June 29-July 3, 2015, Turin, Italy. New York: IEEE, 2015: 1- 6.
[7] Wang J, Zhou S C, Xia L M. Human interaction recognition based on sparse representation of feature covariance matrices[J]. Journal of Central South University, 2018, 25(2): 304-314.
[8] Ijjina E P, Chalavadi K M. Human action recognition in RGB-D videos using motion sequence information and deep learning[J]. Pattern Recognition, 2017, 72: 504-516.
[9] 徐苗苗. 彩色纹理图像特征提取与分类研究[D]. 广州: 华南理工大学, 2016.
Xu MM. Study on feature extraction and classification for color texture image[D]. Guangzhou: South China University of Technology, 2016.
[10] 张磊. 基于改进LBP纹理图像特征提取与分类研究[D]. 哈尔滨: 哈尔滨工程大学, 2019.
ZhangL. Research on texture image feature extraction and classification of based on improved LBP[D]. Harbin: Harbin Engineering University, 2019.
[11] Ojala T, Pietikainen M, Maenpaa T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7): 971-987.
[12] 范晞, 费胜巍, 储有兵. 基于Canny算子的改进型图像边缘提取算法[J]. 自动化与仪表, 2019, 34(1): 41-44.
Fan X, Fei S W, Chu Y B. Improved algorithm for image edge extraction based on Canny operator[J]. Automation & Instrumentation, 2019, 34(1): 41-44.
[13] Canny J. A computational approach to edge detection[J]. IEEE transactions on pattern analysis and machine intelligence, 1986, 8(6): 679-698.
[14] 刘冬寅. 教室监控视频中人员异常行为检测研究[D]. 成都: 电子科技大学, 2018.
Liu DY. Research on detection of abnormal behavior in classroom monitoring video[D]. Chengdu: University of Electronic Science and Technology of China, 2018.
[15] Yang JC, YuK, Gong YH, et al. Linear spatial pyramid matching using sparse coding for image classification[C]∥2009 IEEE Conference on Computer Vision and Pattern Recognition, June 20-25, 2009, Miami, FL, USA. New York: IEEE, 2009: 1794- 1801.
[16] SungJ, PonceC, SelmanB, et al. Unstructured human activity detection from RGBD images[C]∥2012 IEEE International Conference on Robotics and Automation, May 14-18, 2012, Saint Paul, MN, USA. New York: IEEE, 2012: 842- 849.
[17] Taha A, Zayed H H, Khalifa M, et al. Skeleton-based human activity recognition for video surveillance[J]. International Journal of Scientific and Engineering Research, 2015, 6(1): 993-1004.
[18] 王永雄, 曾艳, 李璇, 等. 融合交互信息和能量特征的三维复杂人体行为识别[J]. 小型微型计算机系统, 2018, 39(8): 1828-1834.
Wang Y X, Zeng Y, Li X, et al. Fusing interactive information and energy features for 3D complicated human activity recognition[J]. Journal of Chinese Computer Systems, 2018, 39(8): 1828-1834.
[19] WangJ, Liu ZC, WuY, et al. Mining actionlet ensemble for action recognition with depth cameras[C]∥2012 IEEE Conference on Computer Vision and Pattern Recognition, June 16-21, 2012, Providence, RI, USA. New York: IEEE, 2012: 1290- 1297.
[20] Yang XD, Zhang CY, Tian YL. Recognizing actions using depth motion maps-based histograms of oriented gradients[C]∥Proceedings of the 20th ACM International Conference on Multimedia-MM'12, October, 2012, Nara, Japan. New York: ACM, 2012: 1057- 1060.
[21] OreifejO, Liu ZC. HON4D: histogram of oriented 4D normals for activity recognition from depth sequences[C]∥2013 IEEE Conference on Computer Vision and Pattern Recognition, June 23-28, 2013, Portland, OR, USA. New York: IEEE, 2013: 716- 723.
[22] Ji Y L, Cheng H, Zheng Y L, et al. Learning contrastive feature distribution model for interaction recognition[J]. Journal of Visual Communication and Image Representation, 2015, 33: 340-349.
[23] Lin L, Wang K Z, Zuo W M, et al. A deep structured model with radius-margin bound for 3D human activity recognition[J]. International Journal of Computer Vision, 2016, 118(2): 256-273.
[24] 金壮壮, 曹江涛, 姬晓飞. 多源信息融合的双人交互行为识别算法研究[J]. 计算机技术与发展, 2018, 28(10): 32-36, 43.
Jin Z Z, Cao J T, Ji X F. Research on human interaction recognition algorithm based on multi-source information fusion[J]. Computer Technology and Development, 2018, 28(10): 32-36, 43.
[25] Li J, Mao X, Chen L, et al. Human interaction recognition fusing multiple features of depth sequences[J]. IET Computer Vision, 2017, 11(7): 560-566.
Article Outline
李建军, 孙玥, 张宝华. 基于稀疏编码特征融合的交互行为识别[J]. 激光与光电子学进展, 2020, 57(18): 181006. Jianjun Li, Yue Sun, Baohua Zhang. Interactive Behavior Recognition Based on Sparse Coding Feature Fusion[J]. Laser & Optoelectronics Progress, 2020, 57(18): 181006.