基于深度特征自适应融合的运动目标跟踪算法 下载: 951次
1 引言
近年来,目标跟踪算法受到研究者更多的关注,其应用系统包括自主驾驶、视频监控和人机接口及自动控制系统[1]。根据目标模型的建模方式,目标跟踪算法大致可以分为生成类方法和判别类方法两类。生成类方法对于目标特征的描述较详细,但忽略了背景信息的影响,当目标发生变形或者遮挡时,易丢失目标,该方法包括均值漂移和粒子滤波等[2-3]。判别类跟踪方法将目标跟踪问题转换为二分类问题,将目标区域看作正样本,背景区域看作负样本,该方法包括相关滤波类和基于深度学习类方法等[4-7]。近年来,深度学习类算法以其良好的跟踪精度被广泛应用。
在计算机视觉领域中,深度学习能够适应复杂环境、尺度变化和目标遮挡等场景[1]。Danelljan等[8]使用了卷积网络来获取多种尺寸的特征图,并将其传入连续的空间域中来学习、判别卷积算子,以预测目标的高置信度位置;Nam等[5]构建了多个由卷积神经网络(CNN)组成的树形结构来估计目标状态,以更新网络模型。以上算法均实现了较高的跟踪精度,但基于深度学习的目标跟踪算法具有实时性差,且需要大量的训练样本,效率较低。
基于无监督学习的自编码器对数据有低依赖性的优点。Yin等[9]采用了稀疏自编码器(SAE)来提取目标特征,并结合支持向量机(SVM)对场景进行分类,取得了较高的分类精度。Su等[10]使用了SAE来重构深度图像中包含人体内在结构的特征,从而实现快速的人体定位。综上所述,基于自编码器的跟踪算法可以省去复杂、耗时的预训练,同时无监督学习机制也减少了深度学习对标签的依赖。但是,基于自编码器的跟踪算法的定位精度低,限制了算法的应用范围。因此本文提出一种基于深度特征融合的鲁棒运动目标跟踪算法,考虑到深度特征缺乏纹理边缘的信息,空间分辨率低,将深度稀疏特征与HOG(Histogram of Oriented Gradient)特征自适应融合,可以显著提高跟踪器的性能;利用基于改进SURF(Speeded Up Robust Features)特征的更新策略对跟踪目标进行定位,可以有效解决基于自编码器的跟踪算法鲁棒性差的问题;使用无监督网络可以解决在线跟踪时样本不足的问题,同时避免传统网络复杂耗时的预训练过程。
2 基本原理
2.1 基于深度稀疏神经网络的特征提取
将神经网络的稀疏特征通过最少的隐藏单元并对输入特征进行重构[11],以获取一组能够高效表示样本数据的基向量,达到提取结构特征的目的。
自编码器的训练就是寻找参数θ={w,w',b,b'},使输入样本x的代价函数最小化的过程,其中w和w'分别表示当前层与下一层神经网络的权重,b和b'分别表示当前层与下一层神经网络的偏置项。代价函数可表示为
式中:m表示样本的大小;y表示训练样本的输出;λ表示权重因子;
为了限制SAE中隐藏神经元的活跃度,通常在优化目标函数中加入额外的惩罚因子,可表示为
式中:S表示输入层神经元的数量;z表示第z层隐藏层;az,j表示第z隐藏层中第j个神经元的激活度;xi表示第i个输入;ρ表示稀疏参数;
总体代价函数为
式中:β表示稀疏性惩罚因子的权重。
利用多层SAE来得到深层神经网络,再采用贪婪算法对输入数据进行重构,得到深度稀疏特征。同时,因ReLU函数具有单侧抑制性可使部分神经元输出为0,降低神经网络的计算成本,解决梯度消失的问题[11]。
2.2 基于置信度的自适应多特征融合
考虑到单一特征表达能力的局限性,尤其是难以适应背景环境复杂的情况,Bhat等[12]融合了深层特征与浅层特征以同时提高跟踪器的鲁棒性与精度。Danelljan 等[13]指出了深度运动特征、手工特征和深度RGB(Red,Green,Blue)特征所包含的互补信息。因此,为了提高算法的跟踪精度与鲁棒性,将神经网络学习得到的深层特征与跟踪目标的方向梯度直方图(HOG)[14]特征进行融合。
HOG特征是浅层的手工特征,其空间分辨率高,但其不变性差,不能很好地适应复杂场景,因而跟踪器的鲁棒性差;通过深度学习得到包含高层语义的深度特征,其具有良好的平移不变性,但空间分辨率较低。
所提算法将初始帧目标及后续帧估计目标的HOG特征加入深层稀疏神经网络中,通过
将HOG特征与深层稀疏特征融合后的特征作为训练样本。式中:λ1和λ2表示两个特征的融合系数,其中λ1=
自适应融合规则:将第i-1帧图像的HOG特征和深度特征分别输入深层稀疏神经网络中,得到置信度ζHOG,i-1和ζdeep,i-1,并对其进行归一化处理,再通过(5)式来融合特征得到跟踪第i帧所需的特征。
2.3 基于局部特征的目标再定位
复杂环境的跟踪任务经常伴有小概率错误跟踪事件,即跟踪漂移和跟踪失败等,原因在于模型误差累积和得到的特征不能满足跟踪目标的所需。为了解决跟踪漂移的问题,已有学者选择定位能力强的特征描述子,其中基于图像局部特征提取的SURF算法,其识别和再定位的能力强且实时性好。当采用SURF算法来描述特征点时,主方向过度依赖于像素梯度信息,容易出现点对不匹配的问题。朱奇光等[15]利用了相邻区域的Krawtchouk矩不变性来表征目标,获得特征点在X和Y方向上的响应以确定主方向,并对其进行特征匹配。所提算法使用以Krawtchouk矩为基准改进的SURF算法,当计算得到的值低于搜索范围的更新阈值时,采用改进的SURF算法来修正目标位置以提高算法的跟踪精度。
改进算法使用o阶Krawtchouk多项式,即Ko(x;p,O),对Ko(x;p,O)进行归一化处理,可表示为
式中:o=0,1,…,O,其中O>0;p∈(0,1);ρ(o;p,O)=(-1)o[(1-p)/p]o[o!/(-o)]。
通过部分遮挡实验证明改进的SURF算法具有良好的鲁棒性,使用Benchmark中的视频序列Jogging进行实验,结果如
图 1. 改进的SURF算法在不同图像上的结果。(a)第67 frame和第68 frame;(b)第60 frame和第65 frame的图像
Fig. 1. Results of improved SURF algorithm on different images. (a) 67th frame and 68th frame; (b) 60th frame and 65th frame image
3 所提算法
目标跟踪在有遮挡的场景中易出现跟踪漂移的现象,为了提升算法的跟踪精度与计算效率,实验利用密集采样跟踪策略来确定目标的候选区域,再通过深层稀疏神经网络来计算候选区域中置信度最大的区域,并将其作为跟踪结果,该网络省去复杂费时的网络预训练过程,从而提升算法的计算效率。所提算法融合目标的深层稀疏特征和梯度方向特征,利用多特征融合来提升跟踪精度,同时显著提高所提算法的抗遮挡性能。
3.1 目标状态的估计
目标跟踪的过程中,初始帧给定目标状态s0={x0,y0,w0,h0},其中x0和y0为目标真值图(Ground Truth)左上角的位置,w0和h0分别为目标的宽和高,在初始帧给定区域中进行采样,即可得到目标初始的正样本。同时在给定区域的周围随机采样以获取负样本,考虑到正样本的数量有限,则对其进行有效扩充。Eigen等[16]通过对图像采用缩放、平移和旋转等预处理来扩充数据量。实验对跟踪目标进行亮度、翻转和滤波等多种变化,将初始帧中的单个正样本扩充至10个,再对样本进行归一化处理,将得到的标准灰度图作为网络的输入,用于初始化训练。
训练完成后,对后续帧进行目标位置的估计。以t-1帧图像的估计结果的中心位置为中心,向其四周扩展M个像素点以得到搜索区域I,其中包含(2M+1)2个像素点。将I中所有像素点(xi,yi)作为采样中心,(wi,hi)作为样本尺寸,并分别送入训练好的网络中进行检测,通过Sigmoid分类层可以得到每个样本的置信度ζi(0<ζi<1),置信度最大的样本作为估计结果,则第t帧的目标估计位置可表示为
式中:st={xt,yt,wt,ht}。
为了应对尺度变化,采样时对样本尺寸(wi,hi)附加一个随机扰动d=(wd,hd),其中wd和hd为扰动目标的宽和高,此时利用扰动后的块与扰动前的块之间的相关系数计算扰动后的块的权重,得到的样本尺寸为(wi+wd,hi+hd)。其中扰动采用均值为0、方差为0.1的正态分布随机数。
3.2 跟踪策略
3.2.1 网络更新
跟踪过程中,若目标处于被遮挡或背景相似等情况,则会学习到噪声特征,而这些干扰信息会被传递到后续帧的更新过程中,影响跟踪结果的精度及成功率。因此为了降低噪声特征对模型更新的影响,所提算法采用一种预定义阈值的更新策略以自适应更新模型。
当目标位置脱离之前的局部搜索范围时,此时需要适度扩大搜索区域以提高算法的精确性,则扩大搜索范围的条件为
式中:ε1表示搜索范围的更新阈值。若(8)式成立,则根据
扩大搜索区域。式中:N表示初始的搜索范围;δ表示搜索范围的增量。
同时,由于跟踪过程中目标会受到快速形变、运动模糊和背景变化等因素的影响,当目标模型发生变化时,需要相应地调整网络参数来学习目标特征。当满足
时,更新网络。式中:ε2表示网络的更新阈值。
更新策略:实时更新时间滑动窗中10 frame的跟踪结果[17];再将当前帧的负样本、初始帧的正样本、时间滑动窗及其对应的HOG特征作为输入进行学习,实时更新网络的参数。
3.2.2 目标位置的更新
实验提出利用SURF算法来快速提取目标特征,以估计目标位置。当t-1帧跟踪的置信度低于搜索范围的更新阈值时,即(8)式成立,则结合t-2帧的跟踪结果来计算第t帧目标特征点;再利用
融合改进SURF算法来得到特征点的整体位置与网络更新后计算得到的目标估计位置。式中:μ1=0.7;μ2=0.3;lsurf和ldeep表示融合系数,用来估计目标位置;L表示最终估计的目标位置。
3.3 跟踪算法
根据3.1节和3.2节对深度特征融合的鲁棒运动目标跟踪算法中主要算法的描述,所提算法的流程如
step 1: 采集初始帧的正、负样本并对其进行归一化处理,以提取目标HOG特征。
step 2: 使用step 1中获取的数据来训练网络的初始参数。
step 3: 对于第t-1帧图像,将第t-2帧的可信估计位置st-2以及前9帧的跟踪结果输入时间滑动窗,同时提取st-2的HOG特征,并采集st-2周围的负样本,将上述数据输入神经网络中以预测第t-1帧的目标位置。
step 4: 若第t-1帧估计结果的置信度ζ小于搜索阈值ε1,则扩大搜索区域并使用改进的SURF算法对目标进行定位,因为此时置信度较低,目标很有可能不在搜索区域内;若ζ大于ε1且小于网络更新阈值ε2,则更新网络参数,因为此时目标在运动过程中已发生较大形变或存在光照等其他外界因素;若ζ大于ε2,则进行后续帧的跟踪。
4 实验结果及分析
实验对OTB[18]数据集进行全面评估。在i7-8700K 3.70 GHz处理器和GTX-1081TI GPU的计算机平台上测试所提算法的性能。实验参数:ρ=0.05,λ=0.005, β=0.1,ε1=0.6,ε2=0.85,N=10,δ=5。选取8种主流跟踪算法与所提算法在OTB-2015测试数据集中进行对比实验。对比算法选用:MTT[3]、Struck[6]、TLD [8]、DFT[19]、MIL[20]、ASLA[21]、Compressive Tracking (CT)[22]、MS-V[23],这些算法在测试中均使用默认参数。其中,DFT是基于像素分布域描述算子的跟踪算法,MTT和ASLA是生成类的经典跟踪算法,其余算法均为判别类的经典代表跟踪算法。
4.1 实验结果
为了测试所提算法抗遮挡的鲁棒性,对所提算法和深度稀疏特征(DSF)[24]的跟踪结果进行比较,即,实验结果如
图 3. 不同算法的性能对比。(a) DSF;(b)所提算法
Fig. 3. Performance comparison of different algorithms. (a) DSF; (b) proposed algorithm
为了定量分析所提算法的跟踪性能,挑选12组有遮挡的视频展示对比实验结果,如
4.2 实验分析
为了进一步评估所提算法的性能,采用OTB-2015数据集进行实验。在OTB-2015基准数据集的单程评估(OPE)下的精确图和成功图的结果,如
所提算法及其他跟踪器的平均跟踪速度,如
图 4. OTB-2015数据集中不同序列的实验运行结果。(a) Jogging-1;(b) Jogging-2;(c) Code;(d) Walking2;(e) David3;(f) Basketball
Fig. 4. Experimental results of different sequences in OTB-2015 data set. (a) Jogging-1; (b) Jogging-2; (c) Code; (d) Walking2; (e) David3; (f) Basketball
5 结论
提出一种基于深度特征自适应融合的运动目标跟踪算法。首先为了减少传统深层神经网络的预训练过程,提高特征提取的效率,构建深度稀疏神经网络,而且仅对初始帧的标签样本进行在线学习就能提取跟踪目标的深度特征;其次,为了改善跟踪器的精度与鲁棒性,根据跟踪结果的置信度将深层特征与浅层特征融合;最后,利用密集采样搜索来选取目标候选区域,通过置信度来定位跟踪目标。当出现目标丢失或跟踪漂移时,采用改进的SURF算法进行目标再定位,以实时更新目标模型。实验结果表明,所提算法能够有效、精确地跟踪目标。
图 5. 图像序列的精确度和成功率。(a)精度曲线;(b)成功率曲线
Fig. 5. Accuracy and success rate of image sequences. (a) Accuracy curves; (b) success rate curves
表 1. 跟踪速度的对比
Table 1. Comparison of tracking speed
|
[1] Wang X, Hou Z Q, Yu W, et al. Robust occlusion-aware part-based visual tracking with object scale adaptation[J]. Pattern Recognition, 2018, 81: 456-470.
[2] Vojir T, Noskova J, Matas J. Robust scale-adaptive mean-shift for tracking[J]. Pattern Recognition Letters, 2014, 49: 250-258.
[3] Zhang TZ, GhanemB, LiuS, et al. Robust visual tracking via multi-task sparse learning[C]∥2012 IEEE Conference on Computer Vision and Pattern Recognition, June 16-21, 2012, Providence, RI, USA. New York: IEEE, 2012: 2042- 2049.
[4] Henriques J F, Caseiro R, Martins P, et al. High-speed tracking with kernelized correlation filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583-596.
[5] NamH, BaekM, Han B.Modeling and propagating CNNs in a tree structure for visual tracking[EB/OL]. ( 2016-08-25)[2019-12-04]. https:∥arxiv.org/abs/1608. 07242.
[6] Hare S, Golodetz S, Saffari A, et al. Struck: structured output tracking with kernels[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(10): 2096-2109.
[8] DanelljanM, RobinsonA, Shahbaz KhanF, et al. Beyond correlation filters: learning continuous convolution operators for visual tracking[M] ∥Leibe B, Matas J, Sebe N, et al. Computer vision-ECCV 2016. Lecture notes in computer science. Cham: Springer, 2016, 9909: 472- 488.
[9] Yin H P, Jiao X G, Chai Y, et al. Scene classification based on single-layer SAE and SVM[J]. Expert Systems With Applications, 2015, 42(7): 3368-3380.
[10] Su S Z, Liu Z H, Xu S P, et al. Sparse auto-encoder based feature learning for human body detection in depth image[J]. Signal Processing, 2015, 112: 43-52.
[11] GlorotX, BordesA, BengioY. Deep sparse rectifier neural networks[C]∥ Proceedings of the 14th International Conference on Artificial Intelligence and Statistics, April 11-13, 2011, Fort Lauderdale, USA.San Francisco: MLR Press, 2011: 315- 323.
[12] BhatG, JohnanderJ, DanelljanM, et al. Unveiling the power of deep tracking[M] ∥Ferrari V, Hebert M, Sminchisescu C, et al. Computer vision - ECCV 2018. Lecture notes in computer science. Cham: Springer, 2018, 11206: 493- 509.
[13] Danelljan M, Bhat G, Gladh S, et al. Deep motion and appearance cues for visual tracking[J]. Pattern Recognition Letters, 2019, 124: 74-81.
[14] DalalN, TriggsB. Histograms of oriented gradients for human detection[C]∥2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05), June 20-25, 2005, San Diego, CA, USA. New York: IEEE, 2005: 886- 893.
[15] 朱奇光, 张朋珍, 李昊立, 等. 基于全局和局部特征融合的图像匹配算法研究[J]. 仪器仪表学报, 2016, 37(1): 170-176.
Zhu Q G, Zhang P Z, Li H L, et al. Investigation on the image matching algorithm based on global and local feature fusion[J]. Chinese Journal of Scientific Instrument, 2016, 37(1): 170-176.
[16] EigenD, PuhrschC, Fergus R. Depth map prediction from a single image using a multi-scale deep network[EB/OL]. ( 2014-06-09)[2020-02-09]. https:∥arxiv.org/abs/1406. 2283.
[17] Gao C X, Chen F F, Yu J G, et al. Robust visual tracking using exemplar-based detectors[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2017, 27(2): 300-312.
[18] WuY, LimJ, Yang MH. Online object tracking: a benchmark[C]∥2013 IEEE Conference on Computer Vision and Pattern Recognition, June 23-28, 2013, Portland, OR, USA. New York: IEEE, 2013: 2411- 2418.
[19] LearnedmillerE, SevillalaraL. Distribution fields for tracking[C]∥ 2012 IEEE Conference on Computer Vision and Pattern Recognition, June 16-21, 2012, Providence, RI, USA. New York: IEEE, 2012: 1910- 1917.
[21] JiaX, Lu HC, Yang MH. Visual tracking via adaptive structural local sparse appearance model[C]∥2012 IEEE Conference on Computer Vision and Pattern Recognition, June 16-21, 2012, Providence, RI, USA. New York: IEEE, 2012: 1822- 1829.
[22] Zhang KH, ZhangL, Yang MH. Real-time compressive tracking[M] ∥Fitzgibbon A, Lazebnik S, Perona P, et al. Computer vision-ECCV 2012. Lecture notes in computer science. Berlin, Heidelberg: Springer, 2012, 7574: 864- 877.
[23] Bradski G R. Real time face and object tracking as a component of a perceptual user interface[C]∥Proceedings Fourth IEEE Workshop on Applications of Computer Vision, October 19-21, 1998, Princeton, NJ, USA. New York: IEEE, 2882: 214- 219.
[24] 王鑫, 侯志强, 余旺盛, 等. 基于深度稀疏学习的鲁棒视觉跟踪[J]. 北京航空航天大学学报, 2017, 43(12): 2554-2563.
Wang X, Hou Z Q, Yu W S, et al. Robust visual tracking based on deep sparse learning[J]. Journal of Beijing University of Aeronautics and Astronautics, 2017, 43(12): 2554-2563.
Article Outline
杨锐, 张宝华, 张艳月, 吕晓琪, 谷宇, 王月明, 刘新, 任彦, 李建军. 基于深度特征自适应融合的运动目标跟踪算法[J]. 激光与光电子学进展, 2020, 57(18): 181501. Rui Yang, Baohua Zhang, Yanyue Zhang, Xiaoqi Lü, Yu Gu, Yueming Wang, Xin Liu, Yan Ren, Jianjun Li. Moving Object Tracking Algorithm Based on Depth Feature Adaptive Fusion[J]. Laser & Optoelectronics Progress, 2020, 57(18): 181501.