基于深度网络模型的视频序列中异常行为的检测方法

吴沛佶; 梅雪; 何毅; 袁申强

doi:doi:10.3788/LOP56.131101

激光与光电子学进展, 2019, 56 (13): 131101, 网络出版: 2019-07-11

基于深度网络模型的视频序列中异常行为的检测方法下载： 1234次

Method of Detecting Abnormal Behavior in Video Sequences Based on Deep Network Models

论文大纲

吴沛佶 ^*梅雪何毅袁申强

作者单位

南京工业大学电气工程与控制科学学院, 江苏南京 211816

成像系统深度学习卷积神经网络异常行为 imaging systems deep learning convolutional neural networks abnormal behavior

AI 词云图 AI一句话精读 AI短摘要

注：本部分内容由 AI 自动生成，请您知悉。

摘要

针对视频序列中的几种异常行为,构建训练模型,对其进行识别。使用卷积神经网络(CNN)进行特征提取并采用Adam算法(一种基于梯度的优化算法)进行优化。引入自适应池化层,筛选出判别的特征信息,减轻网络的计算量,加快识别视频序列中存在的异常行为。使用Adam算法对模型进行优化后,识别率可以达到87.6%,引入自适应池化层后,识别率可以达到91.9%。该卷积神经网络对视频序列中基本的异常行为的检测效果比改进的轨迹跟踪(iDT)和双流网络更快更准确;相较于时间分割网络(TSN)和时间关系网络(TRN),识别的准确率稍低,但是识别的速度更快。

Abstract

In this study, a training model was constructed to identify several abnormal behaviors in video sequences. A convolutional neural network (CNN) was used to extract features, and the features were then optimized using a gradient-based optimization algorithm known as Adam algorithm. The adaptive pooling layer was introduced for feature discrimination to reduce the computational complexity of the network and rapidly identify abnormal behaviors in video sequences. The recognition rate reaches 87.6% after using the Adam algorithm for model optimization. The recognition rate reaches 91.9% when the adaptive pooling layer is introduced. CNN is faster and more accurate than the improved dense trajectories and the two-stream networks in detecting abnormal behaviors in video sequences. Compared with the temporal segment networks and temporal relation networks, the CNN has a lower accuracy but a faster speed.

1 引言

异常行为识别在机器视觉和模式识别领域中备受关注,具有广泛的应用价值,如医疗辅助、家居养老等^[1]。但是视频中的光线变化及背景的灵活多变、镜头的晃动、待识别对象的遮挡等都会给行为识别带来很大的困难^[2]。在深度学习出现之前,有3种常见的行为识别方法:参数建模、视频立方体分析和模板匹配^[3]。参数建模是建立一个用于表述视频中行为的模型,如隐马尔可夫模型^[4]、贝叶斯网络^[5]等。视频立方体分析^[6]是把待测视频当作一个含有三维时空信息的立方体,并对这个立方体进行一系列的研究。模板匹配^[7]是提取视频数据的特征,将之与已经定义的特征模板相匹配后进行识别。上述方法均难以客观地实现行为特征的提取。深度学习在特征提取过程中减少了人为参与,避免了人工选择的主观性和随意性,提高了提取的精确度^[8]。

深度学习推动了人工智能的发展,在学术界掀起了探索和研究的热潮。相较于传统方法,深度学习算法可以有效提高识别精度,基于深度学习的人脸识别可以极大提高识别结果的准确率^[9],实现根据人脸进行性别判断^[10];深度学习也可以实现手写字的辨别^[11]以及文本的识别与理解^[12-14],能够有效提取那些因信息量大^[15-16]、解析度低^[17]而导致特征提取不准确的样本图像的特征。深度学习在行人检测^[18]、手势识别^[19]、语音识别^[20]等领域也有广泛的应用。

在深度学习中,卷积神经网络(CNN)是一种常用的特征提取方法。通过卷积层对视频序列进行特征提取可以避免因人为因素导致特征提取不准确的问题;通过网络的池化层,改善对复杂高维数据的特征提取效果;通过共享卷积核的权值可以直接将未经过预处理的原始视频序列作为CNN的输入,有效地提高输入数据特征提取的精确度,提高深度网络的学习性能。基于CNN的识别方法大致有以下几种:基于单帧的识别方法——截取视频中的关键帧,然后基于每一帧进行深度学习表达,将截取自视频中的帧输入网络即可获得相应的识别结果;基于CNN扩展网络的识别方法——通过在CNN框架中找到时间域上的信息来描述局部的动态信息,最终实现整体识别效果的提升;基于双路CNN的识别方法——双路CNN就是2个CNN,最终的识别结果就是对2个CNN得到的结果取平均值,其中一个CNN是基于单帧的CNN,另一个则是把一个序列中连续帧的光流叠加后输入;基于长短期记忆网络(LSTM)的识别方法——通过LSTM在时间轴上对CNN的全连接层进行整合,其好处有2个:1) 有充分的时间对CNN提取的特征进行融合,2) LSTM可以帮助分辨出视频帧在原始视频中的顺序;三维卷积核(3D CNN)法——将原始视频序列堆砌成一个立方体,扩展卷积核,从相邻帧中得到每一个特征。

本文通过在CNN网络中引入自适应池化层,提高了最终的识别结果。

2 引入自适应的卷积神经网络

2.1 CNN结构

通过卷积层对输入的图片样本进行特征提取,经过自适应池化层对卷积层提取的特征进行特征压缩,降低计算量并提取主要特征,再由全连接层上的softmax分类器进行识别,最后输出分类结果。本文使用的网络在网络的池化层中添加了一个特征筛选的依据,将所有特征分为判别的特征和非判别的特征,如图1所示。判别的特征即是需要识别的行为正相关的特征,它能帮助池化层更准确地筛选出主要特征,进而提高最终的识别精度。

图 1. CNN流程图

Fig. 1. CNN flow chart

下载图片查看所有图片

2.2 自适应池化层

自适应池化层是该方法的关键模块,它可以在给定特征向量和已经合并的特征向量的情况下推断当前特征向量的重要性。如果它包含与已定义的正常行为或者异常行为正相关的特征,并且可能与其他行为负相关,那么它就是判别的特征信息;如果是冗余的特征,那么它就是非判别的特征信息。

将自适应合并向量X的前s个元素表示为ψ(X,s)。自适应池化层通过递归计算2个操作来实现池化。第1个操作,表示为f_imp,预测判别重要性,重要性分数γ_s₊₁∈[0,1],其中第(s+1)个元素给出其CNN特征,即ϕ(x_s₊₁),汇总特征直到第s个元素,得到ψ(X,s)。将重要性分数表示为实数序列τ={γ₁,…,γ_s}∈[0,1]。第2个操作是加权平均合并操作,其通过将先前合并的特征与来自当前的特征及其预测的重要性聚合来计算新的合并特征ψ(X,s+1),公式为

\begin{matrix} \begin{matrix} γ_{s + 1} = f_{imp} [ψ (X, s), ϕ (x_{s + 1})], (1) \\ ψ (X, s + 1) = \frac{1}{{\hat{γ}}_{s + 1}} [{\hat{γ}}_{s} ψ (X, s) + γ_{s + 1} ϕ (x_{s + 1})], (2) \\ {\hat{γ}}_{p} = \overset{p}{\sum_{k = 1}} γ_{k}, (3) \end{matrix} \end{matrix}

式中: $\begin{matrix} {\hat{γ}}_{p} \end{matrix}$ 为前p个特征的重要性之和; $\begin{matrix} {\hat{γ}}_{s} \end{matrix}$ 为前s个特征的重要性之和;k为序号。

使用标准交叉熵损失l_loss来制定损失函数,并添加基于熵的正则化器l_c,如

\begin{matrix} \begin{matrix} l (X, y) = λ l_{c} (τ) + l_{loss} (X, y), (4) \\ l_{c} (τ) = - \sum_{k} \frac{\exp γ_{k}}{N} lb (\frac{\exp γ_{k}}{N}), (5) \end{matrix} \end{matrix}

式中:y为期望输出;λ为折中参数;N为前s个特征重要性分数的e指数之和,即

\begin{matrix} N = \sum_{s} \exp γ_{s}, w h en γ_{k} \geq 0, λ \geq 0 。 (6) \end{matrix}

正则化器使用softmax最小化判别分数的熵,这样有助于选择判别的特征,并丢弃非判别的特征。参数λ可以平衡稀疏帧的选择和最小化交叉熵分类损失项。由于期望选择较少数量的特征,若将λ设置为相对较高的值,则分类任务很困难;若λ的值相对较低,则期望模型有可能过拟合。实验部分展示了不同的λ取值带来的影响。

3 仿真与实验

3.1 样本选择

选取法国国家信息与自动化研究所(INRIA)圣诞动作采集序列(IXMAS)作为训练模型的样本。由11个人分别表示站立、交叉手臂、挠头、坐下、转身、步行、拳、踢等动作。该数据库从5个视角获得,室内4个方向和头顶一共安装5个摄像头。将拳、踢等行为标记为异常行为,共有7000张图片,其中有6000张用于训练,1000张用于测试;其他行为标记为正常行为,共有12000张图片,其中有10000张用于训练,2000张用于测试。在Caffe框架下使用CNN对该数据集进行二分类。图2与图3是动作序列中的一个人在2号摄像头下的部分动作。

图 2. 异常行为

Fig. 2. Abnormal behaviors

下载图片查看所有图片

图 3. 正常行为

Fig. 3. Normal behaviors

下载图片查看所有图片

3.2 实验

Caffe是一种常用的深度学习框架。通过配置solver文件,训练模型并对其进行优化。同时还可以选择调用中央处理器(CPU)或者图形处理器(GPU)来训练模型。

3.2.1 网络结构

CNN共有1个输入层,3个卷积层,3个池化层,2个全连接层和1个输出层。设定的基本学习率是0.01,采用的是step学习策略,最大迭代次数为4000。

表 1. 卷积神经网络参数

Table 1. Convolutional neural network parameters

Layer	Size /(pixel×pixel)	Number of layers
Input	28×28	1
Convolution kernel	5 ×5	3
Pooling layer	2 ×2	3
Fully connectedlayer	192 ×1	2
Output	10 ×1	1

查看所有表

为保障模型的精度,做了3组对比实验:

1) 对数据集不做任何处理,按照两类行为的定义分成训练集和测试集并使用CNN进行训练和测试,如图4所示。

2) 使用crop(Caffe深度学习框架里用于图像裁剪的参数)限制待测图片的有效区域,减轻了网络的计算量,最后使用CNN进行训练和测试,如图5所示。

3) 使用Caffe(一种深度学习框架)提供的6种优化算法对神经网络进行优化。它们分别是随机梯度下降法(SGD),稳健的学习率方法(AdaDelta),自适应梯度算法(AdaGrad),基于梯度的优化方法(Adam和RMSProp),Nesterov的加速梯度法(NAG)。

图 4. 直接分类的结果

Fig. 4. Direct classification results

下载图片查看所有图片

图 5. 预处理后的结果

Fig. 5. Processed results

下载图片查看所有图片

本文采用误识率,即识别错误的结果占识别结果总数的比例,来评价各个算法识别结果的好坏。据表2的对比结果,在第2组实验中加入Adam优化算法,得到的结果如图6所示。

表 2. 6种优化算法误识率对比[21]

Table 2. Comparison of misidentification rates of six optimization algorithms[21]

Algorithm	SGD	AdaDelta	NAG	AdaGrad	Adam	RMSProp
False rate /%	16.15	19.56	28.68	18.97	12.33	17.37

查看所有表

图 6. Adam算法优化结果

Fig. 6. Adam algorithm optimization results

下载图片查看所有图片

3.2.2 引入自适应池化层后的结果对比

首先测试λ的有效性,确定λ可以帮助网络有效减少非判别的特征。如1.2节所述,不同的λ取值对于特征的过滤能力有很大的影响。如图7所示,λ在ln 2到ln 5之间时,它的过滤性能保持在50%不变,说明这是网络自身的过滤能力;而当λ超过ln 6之后,过滤性能急速下降,当达到ln 9的时候只剩下了30%,这表明λ能够基于特征的重要性筛选出判别的特征,提高最终的识别精度。

图 7. λ与过滤性能的关系

Fig. 7. Relationship between λ and filtering performance

下载图片查看所有图片

原始CNN与引入自适应池化层的CNN在INRIA圣诞动作采集序列(IXMAS)上分别迭代4000次。由图8可知,在4000左右时基本收敛,且引入自适应池化层的CNN收敛效果更好。

图 8. 收敛曲线对比

Fig. 8. Convergence curve comparison

下载图片查看所有图片

图 9. 误识率曲线对比

Fig. 9. Misrecognition rate curve comparison

下载图片查看所有图片

由表3中数据和图9可以看出,随着迭代次数的增加,原始CNN和引入自适应池化层的CNN的误识率都在逐渐降低,但是引入自适应池化层的CNN的误识率明显低于原始的CNN,当迭代收敛时,引入自适应池化层的CNN的误识率比原始CNN的误识率降低了35.04%。

本文算法与目前识别效果较好的几种算法作了对比。

1) 改进的轨迹跟踪(iDT):除深度学习外最好的算法,是改进的DT算法,利用相邻两帧的光流消除相机等外在因素的影响,识别结果稳定可靠,但是速度慢。

表 3. 误识率对比

Table 3. Misrecognition rate comparison

Number ofiterations	Oldmisrecognitionrate /%	Newmisrecognitionrate /%	Reductionrate /%
100	50.44	19.18	61.97
1200	27.15	12.69	53.26
2200	20.26	10.27	49.31
3400	15.34	8.43	45.05
4000	12.33	8.01	35.04

查看所有表

2) 双流融合(Two-Stream Fusion):对早期的双流网络中加以改进的双流网络,能更好地融合时空信息。

3) 时间分割网络(TSN):提高了双流网络处理长时间视频序列的能力。

4) 时间关系网络(TRN):TSN的改进版本。

由表4可以看出,本文提出的CNN相较iDT和双流网络有更好的识别效果。图10给出了表4中4种深度学习算法的误识率曲线,由表4和图10可以看出,相较于TSN和TRN,本文算法的识别效果略差。但是对于同一数据集,本文算法完成一次迭代(iter)的平均时间是1.109 s,TSN和TRN都是0.953 s,而本文算法在迭代至4000次时就已经收敛,TSN和TRN都需要迭代至5000次才能收敛,因此本文算法收敛所需要的时间比TSN和TRN要少。

表 4. 不同算法识别效果

Table 4. Recognition effect of different algorithms

Algorithm	Two-stream	TSN	iDT	TRN	Thispaper
False rate /%	9.37	7.93	8.54	7.26	8.01
Reduction rate /%	14.5	-1.0	6.2	-10.3	-

查看所有表

图 10. 几种算法的对比

Fig. 10. Comparison of several algorithms

下载图片查看所有图片

本文还引用了UT-interaction database来验证算法的效果。取其中的punch和kick两种行为共6000 frame作为异常行为,其余几种动作共12000 frame作为正常行为加以测试。经过10000次迭代后,所有算法均已收敛,结果如表5所示。

表 5. 在UT-interaction database上的识别效果

Table 5. Recognition effect on UT-interaction database

Algorithm	Two-stream	TSN	iDT	TRN	Thispaper
False rate /%	12.62	9.49	10.44	8.92	9.53
Reduction rate /%	24.5	-0.4	8.7	-6.8	-

查看所有表

由于UT-interaction database是一个交互行为数据库,多人互动带来的干扰对几种模型产生了不同程度的影响。对比表5和表4的降低率可以看出,本文的模型受到的影响较小,与Two-Stream和iDT的精度差距进一步扩大,与TSN和TRN的精度差距则在减小。这也体现了本文提出的自适应池化层能够有效提取判别的特征,提高识别精度。

4 结论

选用CNN对预定义的几种正常与异常行为进行训练并得到识别模型,最后将Caffe提供的几种优化算法进行对比。基于Adam算法,引入自适应池化层,通过进一步筛选卷积层提取出的特征来提高CNN模型的判别能力。与其他几种算法对比,结果表明训练出的模型能够基本满足预期的识别要求。但是本文算法实时性较差,只能用于线下视频的处理,能够以3 frame/s的速度处理视频序列。因此,今后研究目标为结合能够实现时序动作检测的CNN,做到实时识别智能监控系统中的异常行为。

参考文献

[1] 汪力, 叶桦, 夏良正. 基于半马尔可夫和large-margin的动作识别[J]. 中国图象图形学报, 2009, 14(11): 2304-2310.

Wang L, Ye H, Xia L Z. Discriminative human action recognition using semi-Markov model and large-margin[J]. Journal of Image and Graphics, 2009, 14(11): 2304-2310.

[2] 徐光祐, 曹媛媛. 动作识别与行为理解综述[J]. 中国图象图形学报, 2009, 14(2): 189-195.

Xu G Y, Cao Y Y. Action recognition and activity understanding: a review[J]. Journal of Image and Graphics, 2009, 14(2): 189-195.

[3] 胡琼, 秦磊, 黄庆明. 基于视觉的人体动作识别综述[J]. 计算机学报, 2013, 36(12): 2512-2524.

Hu Q, Qin L, Huang Q M. A survey on visual human action recognition[J]. Chinese Journal of Computers, 2013, 36(12): 2512-2524.

[4] Fu Y W, Yang S P. Human action recognition by extracting motion trajectories[J]. Proceedings of SPIE, 2015, 9631: 96311H.

[5] Gheisari S, Meybodi M R, Dehghan M, et al. BNC-VLA: Bayesian network structure learning using a team of variable-action set learning automata[J]. Applied Intelligence, 2016, 45(1): 135-151.

[6] 陈婷婷, 阮秋琦, 安高云. 视频中人体行为的慢特征提取算法[J]. 智能系统学报, 2015, 10(3): 381-386.

Chen T T, Ruan Q Q, An G Y. Slow feature extraction algorithm of human actions in video[J]. CAAL Transactions on Intelligent Systems, 2015, 10(3): 381-386.

[7] Maity S, Bhattacharjee D, Chakrabarti A. A novel approach for human action recognition from silhouette images[J]. IETE Journal of Research, 2017, 63(2): 160-171.

[8] 马永杰, 李雪燕, 宋晓凤. 基于改进深度卷积神经网络的交通标志识别[J]. 激光与光电子学进展, 2018, 55(12): 121009.

Ma Y J, Li X Y, Song X F. Traffic sign recognition based on improved deep convolution neural network[J]. Laser & Optoelectronics Progress, 2018, 55(12): 121009.

[9] 龙鑫, 苏寒松, 刘高华, 等. 一种基于角度距离损失函数和卷积神经网络的人脸识别算法[J]. 激光与光电子学进展, 2018, 55(12): 121505.

Long X, Su H S, Liu G H, et al. A face recognition algorithm based on angular distance loss function and convolutional neural network[J]. Laser & Optoelectronics Progress, 2018, 55(12): 121505.

[10] 汪济民, 陆建峰. 基于卷积神经网络的人脸性别识别[J]. 现代电子技术, 2015, 38(7): 81-84.

Wang J M, Lu J F. Face gender recognition based on convolutional neural network[J]. Modern Electronics Technique, 2015, 38(7): 81-84.

[11] 金连文, 钟卓耀, 杨钊, 等. 深度学习在手写汉字识别中的应用综述[J]. 自动化学报, 2016, 42(8): 1125-1141.

Jin L W, Zhong Z Y, Yang Z, et al. Applications of deep learning for handwritten Chinese character recognition: a review[J]. Acta Automatica Sinica, 2016, 42(8): 1125-1141.

[12] Jaderberg M, Simonyan K, Vedaldi A, et al. Reading text in the wild with convolutional neural networks[J]. International Journal of Computer Vision, 2016, 116(1): 1-20.

[13] 常亮, 邓小明, 周明全, 等. 图像理解中的卷积神经网络[J]. 自动化学报, 2016, 42(9): 1300-1312.

Chang L, Deng X M, Zhou M Q, et al. Convolutional neural networks in image understanding[J]. Acta Automatica Sinica, 2016, 42(9): 1300-1312.

[14] 蔡国永, 夏彬彬. 基于卷积神经网络的图文融合媒体情感预测[J]. 计算机应用, 2016, 36(2): 428-431, 477.

Cai G Y, Xia B B. Multimedia sentiment analysis based on convolutional neural network[J]. Journal of Computer Applications, 2016, 36(2): 428-431, 477.

[15] Hou B, Zhang X R, Ye Q, et al. A novel method for hyperspectral image classification based on Laplacian eigenmap pixels distribution-flow[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2013, 6(3): 1602-1618.

[16] Najafabadi M M, Villanustre F, Khoshgoftaar T M, et al. Deep learning applications and challenges in big data analytics[J]. Journal of Big Data, 2015, 2: 1.

[17] 史紫腾, 王知人, 王瑞, 等. 基于卷积神经网络的单幅图像超分辨[J]. 激光与光电子学进展, 2018, 55(12): 121001.

Shi Z T, Wang Z R, Wang R, et al. Single image super-resolution based on convolutional neural network[J]. Laser & Optoelectronics Progress, 2018, 55(12): 121001.

[18] 张红颖, 王赛男, 胡文博. 改进的基于卷积神经网络的人数估计方法[J]. 激光与光电子学进展, 2018, 55(12): 121503.

Zhang H Y, Wang S N, Hu W B. Improved method for estimating number of people based on convolution neural network[J]. Laser & Optoelectronics Progress, 2018, 55(12): 121503.

[19] 蔡娟, 蔡坚勇, 廖晓东, 等. 基于卷积神经网络的手势识别初探[J]. 计算机系统应用, 2015, 24(4): 113-117.

Cai J, Cai J Y, Liao X D, et al. Preliminary study on hand gesture recognition based on convolutional neural network[J]. Computer Systems & Applications, 2015, 24(4): 113-117.

[20] GoldbergY, HirstG. Neural network methods for natural language processing[M]. Williston, VT: Morgan & Claypool, 2017.

[21] 刘万军, 梁雪剑, 曲海成. 自适应增强卷积神经网络图像识别[J]. 中国图象图形学报, 2017, 22(12): 1723-1736.

Liu W J, Liang X J, Qu H C. Adaptively enhanced convolutional neural network algorithm for image recognition[J]. Journal of Image and Graphics, 2017, 22(12): 1723-1736.

吴沛佶, 梅雪, 何毅, 袁申强. 基于深度网络模型的视频序列中异常行为的检测方法[J]. 激光与光电子学进展, 2019, 56(13): 131101. Peiji Wu, Xue Mei, Yi He, Shenqiang Yuan. Method of Detecting Abnormal Behavior in Video Sequences Based on Deep Network Models[J]. Laser & Optoelectronics Progress, 2019, 56(13): 131101.

基于深度网络模型的视频序列中异常行为的检测方法 下载： 1234次

1 引言

2 引入自适应的卷积神经网络

2.1 CNN结构

图 1. CNN流程图

Fig. 1. CNN flow chart

2.2 自适应池化层

3 仿真与实验

3.1 样本选择

图 2. 异常行为

Fig. 2. Abnormal behaviors

图 3. 正常行为

Fig. 3. Normal behaviors

3.2 实验

表 1. 卷积神经网络参数

Table 1. Convolutional neural network parameters

图 4. 直接分类的结果

Fig. 4. Direct classification results

图 5. 预处理后的结果

Fig. 5. Processed results

表 2. 6种优化算法误识率对比[21]

Table 2. Comparison of misidentification rates of six optimization algorithms[21]

图 6. Adam算法优化结果

Fig. 6. Adam algorithm optimization results

图 7. λ与过滤性能的关系

Fig. 7. Relationship between λ and filtering performance

图 8. 收敛曲线对比

Fig. 8. Convergence curve comparison

图 9. 误识率曲线对比

Fig. 9. Misrecognition rate curve comparison

表 3. 误识率对比

Table 3. Misrecognition rate comparison

表 4. 不同算法识别效果

Table 4. Recognition effect of different algorithms

图 10. 几种算法的对比

Fig. 10. Comparison of several algorithms

表 5. 在UT-interaction database上的识别效果

Table 5. Recognition effect on UT-interaction database

4 结论

Article Outline

相关论文

相关资讯

关于本站 Cookie 的使用提示

全站搜索

基于深度网络模型的视频序列中异常行为的检测方法下载： 1234次