基于时序一致和空间剪裁的多特征相关滤波跟踪算法 下载: 882次
ing to improve the tracking accuracy of the correlation filter tracking algorithm when faced with occlusion, background clutter, and deformation of the object target, this study proposes a correlation filter tracking algorithm for multiple features based on temporal consistency and spatial pruning. First, in the training stage, the energy distribution of the filter template is pruned using the binary matrix mask to make the template information more concentrated in the target area, which alleviates the boundary effect caused by the cyclic shifted samples. Second, the l2-norm is used as the temporal consistency model to establish smoothness constraints for the filters of two consecutive frames so that filter templates can learn the context information of consecutive-frame target and increase the anti-interference ability of the algorithm. To further improve the expressive ability of the target template, ResNet50 deep features, which contain rich semantic information, are introduced into the tracking framework. Principal component analysis is used to reduce the dimension of the extracted depth feature, and traditional features in combination with deep features improve the accuracy and robustness of the tracking results. A comparison of the proposed algorithm with five existing algorithms verifies the proposed tracking algorithm’s robustness in dealing with distractors such as target occlusion, background clutter, and deformation.
1 引言
目标跟踪是计算机视觉中的重要研究课题之一,在视频监控、无人驾驶和人机交互等方向有着广泛的应用。跟踪的主要目的是对视频序列中的运动目标进行检测、提取、识别和跟踪,获得运动目标的表观信息和运动参数,从而进行相应的处理与分析[1]。
近些年,相关滤波跟踪算法因拥有较高的跟踪精度和实时性等优势,在众多公开视频测试数据集和竞赛中取得了优异的成绩,因而受到国内外研究人员的广泛关注[2]。影响相关滤波跟踪算法性能的因素主要包括跟踪框架的设计、表观信息的特征提取方式、选择和融合等[3]。
早期的相关滤波跟踪算法由于在训练过程中缺少训练样本,导致跟踪精度较差,直到2010年Bolme等[4]提出输出误差最小平方和滤波器(MOSSE),跟踪效果才得以改善。Henriques等[5-6]在此基础上,提出循环结构跟踪算法(CSK)和核相关滤波跟踪算法(KCF),利用循环矩阵结构生成大量的循环样本,有效提升了分类器的鉴别能力,获得较好的跟踪精度。此外,研究人员针对目标存在的尺度变化问题,将鉴别性尺度滤波器引入跟踪框架中[7-8],以构建尺度回归和尺度采样的方法对目标的尺度变化进行准确的估计,使得算法的跟踪精度有较大的提升。近年来,更多的相关滤波算法集中于优化由循环矩阵结构导致的边界效应问题。循环矩阵结构可以有效解决跟踪训练过程中训练样本较少的问题,但经由循环结构生成的循环样本往往包含着较多的边界信息,过多的高频信息会对滤波器的训练造成较大的干扰,导致分类器的鉴别能力下降。针对这一问题的改进算法有空间正则化相关滤波器(SRDCF)[9]和空间通道可靠性滤波器(CSRDCF)[10]等。其中,SRDCF在目标函数中对滤波器的空间分布设置空间正则化约束,使滤波器的能量主要集中于目标区域,从而达到在抑制边界效应的同时,扩大目标的搜索区域,提升算法精度的目的;CSRDCF则利用目标图像的颜色直方图特征判断前景与背景区域,以此作为依据生成掩模,将目标前景与背景分离,有效地去除了循环矩阵结构引入的混叠样本,提升了训练样本的质量。
通过对上述算法的研究,本文提出一种基于时序一致和空间剪裁的多特征相关滤波算法。首先,扩大算法中的目标采样区域,获取更多的循环样本,同时利用学习得到的二值矩阵对滤波器模板周围的能量进行空间裁剪,使模板信息集中于目标区域,抑制循环样本产生的边界效应,提升样本质量;其次,利用l2范数作为时序一致模型,使滤波器模板学习到目标相邻帧的上下文信息,缓解样本被污染时的滤波器退化问题,增强算法的抗干扰能力;最后引入ResNet50深度特征增加目标模板的表达能力,利用主成分分析法(PCA)对深度特征进行降维,降低高维特征带来的复杂计算量。
2 多通道相关滤波跟踪算法原理
相关滤波算法以目标为中心,在目标周围循环采样,实现滤波器的训练,通过滤波器与候选目标的相关操作,判断目标所在位置[5]。算法的跟踪过程主要包括滤波器训练、目标检测以及模板更新3部分[3,8]。
2.1 滤波器训练
相关滤波跟踪算法通过训练滤波器,将跟踪目标与背景分离,其训练过程为标准的岭回归过程[6],即
式中,
式中,
2.2 目标检测
利用滤波器检测下一帧目标的位置,由于相邻帧时间间隔较短,目标通常不会大范围移动,因此需根据目标上一帧的位置建立采样区域,对采集测试样本
式中,
2.3 模板更新
考虑到目标在跟踪过程中的外观变化,需要对学习到的滤波器进行在线更新,因此在第
式中,
图 1. 基于时序一致和空间剪裁的多特征相关滤波跟踪算法流程图
Fig. 1. Flow chart of correlation filter tracking algorithm for multiple features based on temporal consistency and spatial pruning
2.4 问题分析
传统相关滤波跟踪算法需要大量训练样本训练滤波器,但在实际的跟踪过程中,仅在第1帧指定真实的跟踪目标,样本数量不足。为提升样本数量,多数算法对目标周围建立一个采样区域,以区域内的图像作为原始样本,在空间域内采用循环移位的方式生成一定数量的循环样本[5],采样区域越大,获取的样本数量越多,但该方式产生的边界效应一定程度上降低了滤波器的鉴别能力,因此多数算法只能将采样区域控制在相对较小的范围内,通常为目标大小的1.5至3倍。CSRDCF针对该问题提出基于颜色直方图特征的前景掩模,通过前景掩模抑制滤波器模板周围的能量,降低边界效应对跟踪造成的影响,提升了算法的跟踪精度。但该方法获取掩模的过程依然存在如下缺点:1)颜色直方图特征稳健性较弱,容易受到背景及光照变化的影响,导致分割结果不够准确; 2)当背景与前景相似程度较高时,分割后的前景掩模可能包含目标的背景信息,导致滤波器边缘区域依然存在能量;3)获取颜色直方图特征的过程增加了算法的额外耗时;4)分割得到的前景掩模空间范围较小,不利于提取表达能力更强但分辨率较低的深度特征。
此外,多数相关滤波跟踪算法在特征提取阶段采用方向梯度直方图特征(HOG)结合颜色名称特征(CN)的形式[10-11],这种传统特征组合具有较高的分辨率,提取过程相对简单,在跟踪速度上具有一定优势,但在目标发生旋转、快速运动及复杂背景下的稳健性较差,不利于算法实现长时稳健跟踪。
3 相关滤波算法的改进
为解决上述问题,在CSRDCF的基础上进行改进,提出一种基于时序一致和空间剪裁的多特征相关滤波跟踪算法,算法的完整流程图如
3.1 二值矩阵掩模
为解决CSRDCF中前景掩模存在的不足,提出二值矩阵掩模,其作用与前景掩模类似。利用二值矩阵实现滤波器能量的裁剪,即
式中:
区别于同样使用掩模的CSRDCF,本文提出的掩模操作无需获取目标的颜色直方图特征,所以耗时更短,同时避免了颜色特征稳健性不足的缺陷。此外,二值矩阵掩模相比于CSRDCF中的前景掩模具有更大的空间范围。因此,在使用深度特征时,本文方法可以学习到更为丰富的语义信息,使目标模板具有更强的表达能力,两种算法得到的滤波器模板对比图如
图 3. 本文算法与CSRDCF生成的掩模对比图。(a)本文算法基于Matrix视频中单帧图像生成的掩模;(b) CSRDCF算法基于Matrix视频中单帧图像生成的掩模;(c) Matrix视频中的单帧图像;(d)本文算法基于Basketball视频中单帧图像生成的掩模;(e) CSRDCF算法基于Basketball视频中单帧图像生成的掩模;(f) Basketball视频中的单帧图像
Fig. 3. Comparison of generated masks by proposed algorithm and CSRDCF algorithm. (a) Mask generated by proposed algorithm based on by single frame image in Matrix video; (b) mask generated by CSRDCF algorithm based on by single frame image in Matrix video; (c) single frame image in Matrix video; (d) mask generated by proposed algorithm based on by single frame image in Basketball video; (e) mask generated by CSRDCF algorithm based on by single frame image in Basketball video; (f) single frame image in
3.2 时序一致模型
相关滤波跟踪算法的目标模板在跟踪过程中需要不断更新,因此当跟踪目标受到遮挡、光照变化及背景嘈杂等干扰时,用于训练滤波器的目标样本可能会被污染,从而导致跟踪漂移或失败。针对该问题,本文在跟踪算法中加入对目标历史帧模板信息的考量,提升了跟踪结果的稳健性。通过实验发现,跟踪过程中,相邻帧的时间间隔较短,因此目标和背景在前后两帧间通常不会产生太大的差异。本文以此为依据,利用l2范数作为时序一致模型对相邻帧的滤波器模板进行约束,使目标模板学习到目标的上下文信息,即
式中,
3.3 增广拉格朗日优化过程
将(5)式与(6)式作为约束条件加入(1)式中,即
式中,
式中,l表示拉格朗日优化式的损失,
式中,
3.4 深度特征与PCA降维
目标特征类型的选择在一定程度上影响着算法的跟踪结果,近年来多数相关滤波跟踪算法在特征类型的选择上以HOG融合CN[12-13]为主,这种传统特征组合在跟踪速度上具有一定优势,但在目标发生旋转、快速运动及复杂背景下的稳健性较差。与传统特征相比,利用神经网络学习到的深度特征包含更加丰富的语义信息,跟踪中目标产生的旋转、平移和缩放具有不变性,在复杂背景下,具有更强的稳健性。因此本文算法采用了HOG、CN和利用ImageNet数据集预训练得到的ResNet50深度特征[14]。
ResNet50的网络结构允许保留之前网络层的一定比例输出,通过学习上一个网络的残差,减少信息传递的损耗和丢失,保护了信息的完整性,对描述目标外观具有很强的表达能力。本文根据文献[
15]中针对ResNet50深度网络的测试结果,选择该网络中第4个卷积块(block-4)中第5个卷积层(conv5)的输出作为学习的深度特征,其输出为 1024个特征图谱,属于网络中高层卷积特征,包含较多的语义信息,同时具有较强的稳健性,有利于本文算法提升跟踪精度。为减少高维特征带来的复杂计算量,本文采用文献[
12]中的方法,利用PCA对得到的深度特征进行降维,从1024个特征图谱中提取其中的
在目标检测的过程中,本文对3种特征采用文献[ 16]中的融合方式,对HOG、CN和ResNet50特征分别计算其对应的目标响应,将得到的结果缩放至同一分辨率下求和,即为最终的目标响应。
3.5 尺度估计
针对目标的尺度变化问题,本文采用鉴别性尺度滤波器(DSST) [7]中的尺度估计法,根据估测出的目标位置,利用尺度滤波器在尺度空间进行搜索,以实现准确的目标尺度估计。
4 实验结果与分析
为评估本文算法的性能,利用数据集OTB-100[17]和VOT2016[18]对算法进行测试,算法的实现平台为MATLAB R2016a。实验共分2部分:第1部分为实验定量分析,利用OTB-100和VOT2016数据集对本文算法进行总体性能对比测试,测试序列数量分别为100和60;第2部分为实验定性分析,在OTB-100数据集中4组具有遮挡、背景杂乱及光照变化干扰属性的视频序列中,测试算法的跟踪效果。实验代码中
4.1 数据集和评价指标
针对OTB-100数据集,采用一次通过评估模式(OPE),评估标准采用成功率曲线面积(AUC)和距离精度(DP)。AUC为计算重叠率大于某个阈值的帧数占总帧数的百分比,其结果用曲线围成的面积表示;DP为中心误差小于20 pixel的帧数占总帧数的百分比。
针对VOT2016数据集, 算法评估标准采用期望平均覆盖率(EAO)、失败率(Failures) 、平均覆盖率(AO)3项指标。EAO综合衡量算法的精度和稳健性;Failures表示算法跟踪过程中丢失目标的次数,用来衡量算法的稳健性;AO 表示算法的跟踪精度。
4.2 定量分析
4.2.1 OTB数据集实验结果
针对OTB数据集中100组具有复杂属性的视频序列,将算法在所有视频序列上运行一次,得到算法在100组视频序列中的平均AUC和DP,对比算法包括7种相关滤波算法,即本文采用ResNet50+HOG+CN特征组合的算法ours(D+HC)、本文采用HOG+CN特征组合的算法ours(HC)、ECO-HC(efficient convolution operators)[16]、CCOT(continuous convolution operators for visual tracking)[19]、BACF(background aware correlation filter)[20]、SRDCF[9]、CSRDCF[10],实验结果如
从
图 4. 7种算法在OTB-100上的平均AUC曲线和DP曲线。(a)平均AUC;(b)平均DP
Fig. 4. Average AUC and average DP curves of 7 algorithms on OTB-100 dataset. (a) Average AUC; (b) average DP
表 1. 6种算法在OTB-100上6种挑战中的平均成功率结果
Table 1. Average AUC results of 6 algorithms in 6 challenges on OTB-100 dataset
|
Ours(D+HC)在
表 2. 6种算法在OTB-100上6种挑战中的平均精度结果
Table 2. Average DP results of 6 algorithms in 6 challenges on OTB-100 dataset
|
4.2.2 VOT2016数据集实验结果
为进一步验证所提算法的性能,利用数据集VOT2016对ours(D+HC)进行测试,该数据集中共包含70种跟踪算法。本节选取其中排名前8的跟踪算法与本文算法进行对比测试,实验结果如
图 5. 9种算法在VOT2016数据集上的对比结果。(a) EAO;(b) AUC
Fig. 5. Comparison of 9 algorithms on VOT2016 dataset. (a) EAO; (b) AUC
表 3. 9种算法在VOT2016数据集上的跟踪结果
Table 3. Tracking results of 9 algorithms on VOT2016 dataset
|
图 6. 6种算法在Bird1和Lemming上的跟踪效果图。(a) Bird1;(b) Lemming
Fig. 6. Comparison of tracking results of 6 algorithms on Bird1 and Lemming. (a) Bird1; (b) Lemming
从
4.3 定性分析
选取4组包含目标遮挡、形变和背景杂乱等干扰信息的代表性视频序列,将ours(D+HC)与5种算法进行对比测试,验证算法的稳健性。本文算法依然用ours表示,在视频中显示为红色矩形框。
4.3.1 目标遮挡性能分析
4.3.2 背景杂乱性能分析
图 7. 6种算法在Iron Man和Matirx上的跟踪效果图。(a) Iron Man;(b) Matrix
Fig. 7. Comparisonof tracking results of 6 algorithms on Iron Man and Matrix. (a) Iron Man; (b) Matrix
5 结论
为提升相关滤波跟踪算法在复杂背景下的稳健性,同时降低边界效应对跟踪结果的影响,在CSRDCF的基础上,提出一种基于时序一致和空间剪裁的多特征相关滤波跟踪算法。算法在训练阶段利用空间范围更大的二值矩阵掩模对滤波器的能量分布进行裁剪,有效解决了采样窗口扩大导致的边界效应问题;基于l2范数的时序一致模型使滤波器模板保留相邻帧目标的上下文信息,增强了算法在复杂背景下的抗干扰能力;ResNet50深度特征弥补了HOG和CN稳健性不足的缺点,进一步提升了算法的跟踪精度。利用OTB-2015和VOT2016数据集对所提算法进行测试,验证了本文算法在面对遮挡、背景杂乱及目标形变等干扰时具有一定优越性。目前本文算法存在的主要缺点为运行速度较慢,其主要原因是运行深度网络和ALM迭代的过程增加了算法耗时。未来的工作中可以考虑对算法框架进行优化,以提升跟踪速度。
[1] 杨剑锋, 张建鹏. 基于核相关滤波的长时间目标跟踪[J]. 激光与光电子学进展, 2019, 56(2): 021502.
[2] 成悦, 李建增, 褚丽娜, 等. 基于模型与尺度更新的相关滤波跟踪算法[J]. 激光与光电子学进展, 2018, 55(12): 121015.
[3] 冯棐, 吴小俊, 徐天阳. 基于子空间和直方图的多记忆自适应相关滤波目标跟踪算法[J]. 模式识别与人工智能, 2018, 31(7): 612-624.
[4] BolmeD, Beveridge JR, Draper BA, et al. Visual object tracking using adaptive correlation filters[C]∥2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, June 13-18, 2010, San Francisco, CA, USA. New York: IEEE, 2010: 2544- 2550.
[5] Henriques JF, CaseiroR, MartinsP, et al. Exploiting the circulant structure of tracking-by-detection with kernels[M] ∥Fitzgibbon A, Lazebnik S, Perona P, et al. Computer vision-ECCV 2012. Lecture notes in computer science. Berlin, Heidelberg: Springer, 2012, 7575: 702- 715.
[7] DanelljanM, H?gerG, Shahbaz KF, et al.Accurate scale estimation for robust visual tracking[C]∥Proceedings of the British Machine Vision Conference 2014, September 1-5, 2014, Nottingham, UK.UK: BMVA Press, 2014.
[8] 何雪东, 周盛宗. 快速尺度自适应核相关滤波目标跟踪算法[J]. 激光与光电子学进展, 2018, 55(12): 121501.
[9] DanelljanM, HagerG, Khan FS, et al. Learning spatially regularized correlation filters for visual tracking[C]∥2015 IEEE International Conference on Computer Vision (ICCV), December 7-13, 2015, Santiago, Chile. New York: IEEE, 2015: 4310- 4318.
[10] LukezicA, VojirT, Zajc LC, et al. Discriminative correlation filter with channel and spatial reliability[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 4847- 4856.
[11] Lin ZC, Liu RS, Su ZX. Linearized alternating direction method with adaptive penalty for low-rank representation[C]∥NIPS 2011: Neural Information Processing Systems Conference, December 12-15, 2011, Granada, Spain. Canada: NIPS, 2011: 612- 620.
[12] He KM, Zhang XY, Ren SQ, et al. Deep residual learning for image recognition[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 770- 778.
[13] BhatG, JohnanderJ, DanelljanM, et al. Unveiling the power of deep tracking[M] ∥Ferrari V, Hebert M, Sminchisescu C, et al. Computer vision-ECCV 2018. Lecture notes in computer science. Cham: Springer, 2018, 11206: 493- 509.
[14] 林彬, 李映. 基于高置信度更新策略的高速相关滤波跟踪算法[J]. 光学学报, 2019, 39(4): 0415003.
[15] Wu Y, Lim J, Yang M H. Object tracking benchmark[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1834-1848.
[16] KristanM, LeonardisA, MatasJ, et al. The visual object tracking VOT2016 challenge results[M] ∥Hua G, Jégou H. Computer vision workshops-ECCV 2016. Lecture notes in computer science. Cham: Springer, 2016, 9914: 777- 823.
[17] DanelljanM, BhatG, Khan FS, et al. ECO: efficient convolution operators for tracking[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 6931- 6939.
[18] DanelljanM, RobinsonA, Khan FS, et al. Beyond correlation filters: learning continuous convolution operators for visual tracking[M] ∥Leibe B, Matas J, Sebe N, et al. Computer vision-ECCV 2016. Lecture notes in computer science. Cham: Springer, 2016, 9909: 472- 488.
[19] Galoogahi HK, FaggA, LuceyS. Learning background-aware correlation filters for visual tracking[C]∥2017 IEEE International Conference on Computer Vision (ICCV), October 22-29, 2017, Venice, Italy. New York: IEEE, 2017: 1144- 1152.
[20] 茅正冲, 陈海东. 基于核相关滤波的长期目标跟踪算法[J]. 激光与光电子学进展, 2019, 56(1): 010702.
Article Outline
王译萱, 吴小俊, 徐天阳. 基于时序一致和空间剪裁的多特征相关滤波跟踪算法[J]. 激光与光电子学进展, 2019, 56(22): 221502. Yixuan Wang, Xiaojun Wu, Tianyang Xu. Tracking Algorithm of Correlation Filter with Multiple Features Based on Temporal Consistency and Spatial Pruning[J]. Laser & Optoelectronics Progress, 2019, 56(22): 221502.