光学学报, 2018, 38 (10): 1015002, 网络出版: 2019-05-09   

稳健的双模型自适应切换实时跟踪算法 下载: 797次

Robust Real-Time Visual Tracking via Dual Model Adaptive Switching
作者单位
1 城市道路交通智能控制技术北京市重点实验室, 北京 100144
2 北方工业大学理学院, 北京 100144
摘要
为提升卷积特征目标跟踪算法的实时性和稳健性,利用不同卷积层特征对不同目标表征能力不同的特性,提出双模型自适应切换的实时跟踪方法。该方法对选取的两个卷积层特征使用目标区域和跟踪搜索区域卷积特征的能量均值比来评估卷积特征,选择能量均值比大于给定阈值的卷积通道特征来训练两个相关滤波分类器,然后利用目标相关滤波响应图的峰旁比自适应切换两个相关滤波分类器来预测目标位置,最后采用稀疏模型更新策略来更新分类器。在标准数据集上进行算法测试,实验结果表明,本文算法平均距离精度为89.3%,接近连续卷积跟踪算法,平均跟踪速度为25.8 frams/s,是连续卷积跟踪算法的25倍,整体性能优于实验中的对比跟踪算法。
Abstract
In order to improve the real-time and robust performances of the convolutional features for visual tracking, a real-time tracking method of dual model adaptive switching is proposed based on the analysis of different convolution layer features for different object representation capabilities. This method utilizes the feature energy ratio of the object region and searches region to evaluate the features selected from two convolutional layers. The convolution channel whose energy ratio value is greater than the given threshold is selected to train two correlated filter classifiers. Consequently, the object position is predicted by switching correlation filter classifiers using the peak-to-sidelobe ratio of response map adaptively. Finally, the sparse model update strategy is applied to update the classifiers. The proposed algorithm is tested on the standard dataset. The experimental results show that the average distance accuracy of proposed algorithm is 89.3%, which is close to continuous convolution object tracking, and the average tracking speed is 25.8 frame/s, which is 25 times faster than the continuous convolution object tracking algorithm. The overall performance of the proposed algorithm outperforms other tracking methods contrasted in the experiment.

1 引言

视觉跟踪是计算机视觉领域研究的热点之一,其主要任务是在视频第一帧指定目标,然后在后续视频序列中确定目标的位置及其所在的区域,为分析目标的状态和运动轨迹等做准备,在视频监控、智能交通、人机交互、医疗等领域具有广泛的应用,并要求能够达到实时准确的效果。随着计算机性能的快速发展与跟踪算法的不断完善,虽然算法的跟踪性能不断提升,但在实际应用中,当目标遇到尺度变化、遮挡、光照变化、快速运动等复杂情况时,快速精确地跟踪目标仍然面临严峻的考验。

判别式目标跟踪方法是视觉跟踪中重要的一类方法,主要通过在第一帧目标区域和背景区域提取正负样本,利用提取到的样本训练目标分类器,在当前帧利用训练好的分类器来预测目标的位置。其中,相关滤波具有良好的跟踪效果和较快的计算速度,近年来得到了快速发展。Bolme等[1]将相关滤波应用到目标跟踪领域,使用灰度特征来表征目标,跟踪速度达到600 frame/s;Henriques等[2]在相关滤波基础上结合循环矩阵理论和快速傅里叶变换设计了基于稠密采样的快速目标跟踪,解决了训练样本不足的问题。随后,研究者们提出了多种改进的相关滤波跟踪算法。改进的方式主要为三类。第一类是改进目标特征的提取方法。传统目标特征提取方法的改进主要有方向梯度直方图(HOG)特征[3-4]、颜色属性(CN)[5]、颜色直方图特征、HOG和CN特征的组合[6-7],HOG和颜色直方图的组合[8-9]。随着卷积神经网络(CNN)在目标检测和识别等领域取得的重大突破,卷积特征强大的表征能力吸引着众多学者,并开始充分应用到目标跟踪领域。Ma等[10]将分层卷积特征与相关滤波相结合,该算法在实际测试中具有精度高、性能稳定等优点,但未达到实时的效果。Huang等[11]提出一种自适应深度特征选择跟踪策略,提升了利用卷积特征跟踪时的速度。Wang等[12]对ImageNet上预训练得到的卷积特征在目标跟踪中的性能进行深入分析,并根据分析结果设计出特征筛选网络和两个互补的预测网络,通过集成思想预测目标位置,对目标本身的形变具有较好的稳健性。由于卷积特征不像HOG、CN等传统特征具有明显的特性,因此研究者们将局部的统计特征HOG、全局特征CN和颜色直方图等特征进行组合以获取更好的跟踪效果。Ma等[13]在核相关滤波跟踪器中,融合卷积特征、HOG特征,以及局部强度直方图特征(HOI)进行跟踪,该算法跟踪精度较高,王艳川等[14]在基于在线检测和尺度自适应的相关滤波跟踪算法中融合HOG、CN、光照不变性特征进行目标定位,有效提升了目标跟踪过程中遇到遮挡、尺度变化等问题时的稳健性。Danelljan等[6]使用卷积特征、HOG特征、CN特征训练多个滤波器,对所有特征的响应进行加权求和预测目标的位置,虽然跟踪精度高,但跟踪速度慢。Ma等[15]在分层卷积相关滤波算法的基础上,为防止由于遮挡和超出视野导致的跟踪失败问题,额外训练一个HOG相关滤波器,当定位失败时,进行重新检测定位目标,提升了原算法的跟踪精度。

第二类改进是相关滤波分类器本身的改进。Henriques等[3]提出核相关滤波跟踪算法,利用循环矩阵在傅里叶空间可对角化的性质来简化计算,速度达到172 frame/s。Danelljan等[4]对核相关滤波算法进行了改进,在损失函数中引入空间正则化惩罚项,有效地解决了由循环矩阵导致的边缘效应。Song等[16]通过图像前景与背景的颜色直方图特征进行空域的可靠性判断,缓解边界效应。Danelljan等[6]在核相关滤波跟踪算法的基础上,提出一种连续空间域的卷积操作理论框架,将相关滤波跟踪算法的精度提升到新的高度,但速度慢。

第三类改进是通过引入尺度估计算法或其他辅助算法提升相关滤波跟踪效果。Danelljan等[17]融入尺度金字塔策略,训练尺度相关滤波器,预测目标在运动过程中的尺度变化。潘振福等[18]将灰度图像金字塔映射到一维特征向量进行尺度预测,对于目标尺度变化、姿态变化等具有较强的适应性。王鑫等[19]提出多层卷积特征融合的目标尺度自适应稳健跟踪算法,在多层卷积相关滤波跟踪算法的基础上融入了尺度金字塔策略。Danelljan等[6]减少尺度金字塔的变化数,在尺度相关滤波器中融入卷积特征进行尺度预测。Galoogahi等[20]融入目标的背景信息训练相关滤波器,辅助定位目标,提升了目标发生形变遮挡时定位的准确性。Ma等[21]训练多个相关滤波器,在跟踪不准确时,采用辅助滤波器重定位的方式提升算法的稳健性。赵高鹏等[22]利用峰值旁瓣比自适应分配权重融合多特征的响应图,然后根据融合响应图的峰值旁瓣比进行自适应模型更新,跟踪性能较为稳定。

此外,还有一些通过深度卷积特征降维提升相关滤波跟踪速度的方法。Wang等[23]对分层卷积目标跟踪算法进行改进,训练多尺度域滤波器进行跟踪,对卷积特征降维,提升跟踪的速度,达到实时性要求,但跟踪的精度还要进一步提高。蔡玉柱等[24]提出了基于主成分分析降维的自适应卷积特征目标跟踪算法,部分解决了空间正则化相关滤波跟踪算法在旋转变化、超出视野和严重遮挡情况下跟踪失败的问题。Danelljan等[7]采用因式分解的方式对卷积特征进行稀疏选择来降低模型的复杂度,采用样本的空间结构对模型进行更新来降低内存与时间的复杂度,同时采用稀疏模型更新策略防止模型过拟合,提升了算法的精度和速度,但该算法使用卷积特征的跟踪算法速度大约是8 frame/s。

综上,使用传统灰度特征、HOG特征、颜色特征的相关滤波跟踪算法[1-5],虽然跟踪速度快,能达到实时的要求,但其特征表达具有局限性,跟踪效果有待进一步提高。采用CNN特征,或是与CNN特征组合的算法可以取得很好的跟踪效果,但跟踪速度未达到实时的效果,需要进一步提高。使用深度卷积特征的算法跟踪速度非常快,但跟踪的精度不够高[25]。因此,现有相关滤波跟踪算法的实时性和稳健性还没达到很好的平衡。为此,本文提出双模型自适应切换的目标跟踪算法,使用自适应卷积特征选择方法降低卷积特征通道维度,采用稀疏更新的策略提高算法的稳健性和实时性。

2 算法整体框架

在分层卷积相关滤波跟踪算法的基础上,提出一种稳健的自适应卷积特征选择,以及双模型自适应切换的实时跟踪算法。算法的整体流程如图1所示,核心为自适应卷积特征选择和基于峰旁比(PSR)的自适应模型切换。具体跟踪流程:输入第一帧图片,确定目标的搜索区域,通过双线性插值的方式将图片缩放到224 pixel×224 pixel,利用牛津大学几何视觉组(VGG)提出的VGG-19网络提取pool4和conv5-3两层512个通道的卷积特征,通过自适应特征选择算法提取有效的卷积特征,用提取的卷积特征分别训练pool4和conv5-3相关滤波器,根据相关滤波响应图的PSR自适应切换到适合当前帧的相关滤波跟踪器,最后利用快速尺度估计方法对预测的目标尺度进行估计,对双相关滤波器采用稀疏更新策略提高跟踪的速度。该方法主要通过自适应卷积特征选择算法和稀疏更新策略来提升算法的实时性,利用pool4和conv5-3的两层特征的优势,通过自适应双模型切换方法提升跟踪性能。

图 1. 算法跟踪流程

Fig. 1. Flow chart of proposed tracking algorithm

下载图片 查看所有图片

双模型切换跟踪实例结果如图2所示,图中显示了Skiing、Walking2、Freeman1和Tiger1视频跟踪结果,其中,pool4_ap和conv5-3_ap为仅使用单层卷积层的自适应特征选择后的跟踪结果,proposed为使用双模型切换的跟踪结果。可以看出,利用单层自适应卷积特征进行跟踪时,对于单层特征无法跟踪目标的视频,使用模型切换策略可以有效地跟踪目标。

图 2. 单层自适应特征与模型切换跟踪部分结果。(a) Skiing; (b) Walking2; (c) Freeman1; (d) Tiger1

Fig. 2. Partial tracking results of single-layer adaptive features and model switching. (a) Skiing; (b) Walking2; (c) Freeman1; (d) Tiger1

下载图片 查看所有图片

3 自适应卷积特征选择算法

VGG-19模型在ImageNet数据集上训练得到,包含16层的5组卷积层(conv1~conv5),图像经VGG-19模型前向运算提取特征,低层的卷积特征可更好地保留目标自身的位置和空间信息。随着网络深度的增加,因池化操作得到的卷积特征分辨率不断降低,空间位置信息减少,但包含的语义信息更多。如图3所示,图3(a)为目标图像,图3(b)和(c)分别为VGG-19的pool4和conv5-3输出的卷积特征。分析VGG-19输出的卷积特征可知,pool4和conv5-3的特征可以很好地表征目标,因此分别对2层特征训练分类器,在每一帧通过自适应的方式选择适合当前帧的分类器来预测目标的位置。

图 3. 目标在不同卷积层的特征信息表达。(a)目标图像;VGG-19的(b) pool4和(c)conv5-3输出卷积特征

Fig. 3. Expression of object characteristics in different convolution layer. (a) Target image; output convolution feature of (b) pool4 and (c) conv5-3 with VGG-19

下载图片 查看所有图片

为了防止过拟合,提高模型的泛化能力,在训练深度模型时,会随机舍弃部分神经元,而神经元与特征所包含的语义信息之间具有密切的联系,因此所提取到的卷积图具有稀疏性。有效去除没有激活的神经元对应的卷积图,对提升跟踪的速度和精度都有重大影响,因此,本文利用跟踪目标和搜索区域之间的特征关系提出一种自适应特征选择算法。

相关滤波跟踪算法在获取到新一帧的图片时,会根据上一帧目标的位置,确定目标的搜索区域,然后提取搜索区域的特征,根据特征的相关滤波最大响应值来确定目标的位置,因此,好的目标特征应该满足目标区域的滤波响应值大、其他区域的滤波响应值小,即目标区域应该具有更大的特征值,而非目标区域的特征值小。由此可知,使用目标区域和搜索区域的卷积特征能量均值比来评估深度卷积特征,均值比越大,卷积特征对目标区域的响应越大,对背景区域的响应越小,反之亦然。因此,通过选择满足卷积特征能量均值大于给定阈值的卷积通道、去除不满足条件的特征通道来提升算法跟踪性能。通过VGG-19网络提取的第l层第d个通道的卷积特征为 xld(l=pool4,conv5-3),目标区域的卷积特征均值为 Mld(O),搜索区域的卷特征均值为 Mld(S),则目标区域和搜索区域特征能量均值比R定义为

R=MldO1+MldS(1)

为避免被零除,增加系数1。R值越大,表示目标区域的特征值越大,目标区域的响应值越大,目标跟踪越稳定,反之特征值越小,响应值越小,越容易造成目标丢失。若某个通道卷积特征的R值小于给定阈值θ,则舍弃该通道的卷积特征,最后将保留下来的特征训练双模型自适应切换算法中相关滤波分类器。图4所示为自适应卷积特征选择算法的实例结果,图4(a)为Jogging视频第一帧直接使用VGG-19 网络提取卷积特征时conv5-3 层输出的512个通道的卷积特征。从图4可以看出,很多通道的卷积特征图中不包含目标特征,存在较大的冗余。图4(b)为通过自适应特征选择后的特征图,可以看出,大量的冗余特征被去除,保留了可以表征目标的特征。

图 4. 自适应卷积特征选择(a)前、(b)后对比图

Fig. 4. Comparison of images (a) before and (b) after adaptive convolution features selection

下载图片 查看所有图片

4 双模型自适应切换算法

相关滤波跟踪算法对输入特征进行循环平移稠密采样,利用快速傅里叶变换高效训练相关滤波分类器,计算所有循环平移测试样本的响应值,寻找响应值中最大值的位置来定位目标,具有很好的跟踪实时性。本文将自适应选择后的分层卷积特征与相关滤波相结合,针对双层卷积特征训练双跟踪模型,通过模型跟踪输出的相关滤波响应的峰旁比,实现模型的自适应选择,提升算法的跟踪精度。

4.1 训练双模型相关滤波分类器

对于给定视频的第一帧,先获取目标块的第l层特征,经过自适应特征选择后得到的第d(d=1,2,…,Dl)维的卷积特征 xld。记 xld傅里叶变换后的特征为 Xld。在训练分类器时,对于给定的目标块采用二维高斯分布的类标签函数y,令y(m,n)为(m,n)处像素的标签函数,则有:

y(m,n)=exp-(m-M/2)2+(n-N/2)22σ2,(2)

式中MN代表跟踪目标的宽和高,σ为高斯带宽。在目标的中心位置,y(m,n)=1,越偏离目标,y(m,n)的值越接近0。采用循环平移矩阵稠密采样的方法,可通过最小化目标函数求解分类器:

argminWm,nW·Xm,n-y(m,n)2+λW22,(3)

利用傅里叶变换卷积特征快速求解可得到分类器 Wld:

Wld=YX¯ldd=1DlXldX¯ld+λ,(4)

式中:Y为标签函数y的傅里叶变换; X¯X的共轭;☉表示对应元素相乘;D代表特征的通道数;λ≥0为优化求解时的正则项参数。

4.2 预测目标位置

选取的VGG-19中pool4和conv5-3卷积特征的网络层深度不同,所包含的语义信息也不同,针对不同形状、场景、背景下目标的表征能力也不同。为了充分利用这两层特征,第一帧训练完分类器 Wld后,对后面的每一帧,都对模型进行自适应选择能表征当前状态下目标卷积层对应的模型进行跟踪,避免单一模型导致的目标跟踪失败问题。对第t帧新的图像块,提取图像块的卷积特征 zl1d,计算傅里叶变换后的卷积特征 Zl1d与分类器 Wl1d的相关输出 fl1,t:

fl1=F-1(d=1Dl1Wl1dZ¯l1d),(5)

式中:F-1为傅里叶逆变换,l1为pool4和conv5-3中的某一层,下文l2为两层中的另外一层。寻找响应值最高的位置即为预测的目标中心位置,借鉴文献[ 17]中尺度预测方式,预测目标的尺度大小,确定在第t帧时目标最终的位置和大小。

相关滤波跟踪算法通过特征响应的最大值来预测目标位置,相关滤波响应图的PSR可以很好地表示最大响应值与响应图其他位置响应值之间的关系[26]。当目标定位较为准确时,PSR值较高,反之亦然,因此可以用来评估定位的准确性。在视频第t+1帧图像时,首先计算第t帧图像中l1层分类器预测的响应 fl1,t的峰旁比:

Pl1,t=max(fl1,t)-μl1,tσl1,t,(6)

式中 μl1,tσl1,t分别为响应图的均值和方差。若 Pl1,t>th,则认为第t帧预测位置较为准确,在t+1帧继续l1分类器,获取相关输出 fl1,t+1来预测目标位置,若 Pl1,t<th,表明没有准确定位到目标。由于视频序列中相邻两帧之间目标变化相对较小,且相关滤波跟踪算法中,在新的一帧图像中预测目标位置时,以上一帧目标为中心,放大一定的区域搜索目标,因此当定位不够准确时,可切换模型使用l2对应的相关滤波分类器进行跟踪,在目标搜索区域重新定位目标,防止由于定位不够准确导致的跟丢现象,即提取图像块的卷积特征 zl2d,计算傅里叶变换后的卷积特征 Zl2d与分类器 Wl2d的相关滤波响应图 fl2,t+1,寻找响应值最高的位置,即为预测的目标中心位置。

图5所示为Freeman1视频的跟踪时PSR和最大响应图曲线,红色表示模型切换算法的曲线,蓝色表示pool4层模型的曲线,绿色表示conv5-3层模型的曲线,图5(a)为使用单层自适应特征跟踪时的PSR曲线和模型切换跟踪的PSR变化曲线,在141帧左右时,模型预测的PSR值小于阈值,模型发生切换,之后,PSR值均高于使用单层自适应特征跟踪的结果。图5(b)为目标最大响应值变化曲线,同样在141帧左右时,单层预测响应值减小,定位出现偏差,通过模型切换重新定位到目标,最大响应值上升,高于单层预测的最大响应值,后续均跟踪到目标。由图5可知,双模型切换算法可以避免单一模型导致的跟踪失败。该图对应的跟踪结果如图2(c)所示。

图 5. Freeman1视频跟踪过程的PSR与最大响应值变化曲线。(a) PSR变化曲线;(b)最大响应值变化曲线

Fig. 5. PSR and maximum response curves of Freeman1 video tracking process. (a) PSR curves; (b) maximum response curves

下载图片 查看所有图片

4.3 模型更新

双模型自适应切换跟踪算法属于在线跟踪模型,只能以跟踪序列第一帧作为模型的训练数据,但是在一段视频序列中,目标一直处于运动状态,会发生尺度和形状的改变,因此需要对模型进行不断更新以适应目标的变化。现有的部分基于相关滤波的跟踪算法[4,6,10,15,17]每一帧更新一次模型,但是在一段视频序列中,相邻两帧图片之间目标的变化很小,如果每一帧都对模型进行更新,容易造成时间浪费,并且当目标遇到遮挡或相似物的干扰时,容易出现模型漂移,因此,文献[ 23,27]中采用稀疏模型更新策略。受以上文献的启发,经实验验证,采用每两帧更新一次模型的策略,减少模型的过拟合,提高算法跟踪速度。具体更新方式为将相关滤波分类器拆分成分子Ad和分母Bd,即:

Wl,td=Al,tdBl,td+λ,(7)Al,td=(1-η)Al,t-2d+ηYX¯l,td,(8)Bl,td=(1-η)Bl,t-2d+ηi=1DlXl,tiX¯l,ti,(9)

式中t为帧序列,η为学习率。对尺度估计算法中的尺度模型采用每帧都更新的方式更新[17],参数值与原文一致。

4.4 算法具体实施过程

输入:初始目标位置(x0,y0)。

输出:预测的目标位置(xt,yt),学习得到的相关滤波器 Wld

过程:

1) 第1帧图像。

2) 以第1帧的目标图像块的中心位置(x0,y0)为基础裁剪第1帧的搜索区域图像,获取卷积特征 xld,d=1,2,3,...,D

3) for l= pool4, conv5-3 do

采用(1)式挑选出l层筛选剩余通道卷积特征记为 xld,

end for。

4) 采用(4)式训练分类器 Wld

5) repeat。

6) 以t-1帧图像位置(xt-1,yt-1)为中心,裁剪第t帧的搜索区域图像,获取l1层特征选择后的对应通道的卷积特征 zl1d

7) 采用(5)式预测目标位置 fl1

8) 根据响应值 fl1预测目标新的位置(xt,yt)。

9) 利用(6)式计算l1层分类器预测的响应 fl1,t的峰旁比 Pl1,t

10) if Pl1,t<th

l1,l2 互换

end if。

11) if 帧数除2的余数为0 then

采用(7)~(9)式更新相关滤波器 Wld,

end if。

12) until 结束所有帧。

5 实验结果及分析

5.1 实验环境和参数设置

实验测试所用平台为Ubuntu14.04 系统下的Matlab R2015b,卷积特征计算框架为MatConvNet,所有的实验均在配置为Intel Core i7-4790 4.0 GHz CPU、显存6 GB的GTX980ti台式电脑下完成。实验中所用的正则化参数λ为1×e-4,类标签函数的核带宽因子σ=0.15,实验中选用的卷积层为VGG-19网络的pool4和conv5-3层,特征选择算法中卷积特征能量比阈值θ=1.2,每两帧更新一次模型,模型切换阈值tth=4.13。

实验选用的评估数据集为OTB-100,总共包含100组不同类型的数据集,包括光照变化(IV)、遮挡(OCC)、尺度变化(SV)、快速运动(FM)、背景混乱(BC)、低分辨率(LR)、平面内旋转(IPR)、超出视野(OV)、平面外旋转(OPR)、非刚性形变(DEF),以及运动模糊(MB)等各种干扰。

实验中采用中心位置误差(CLE)、距离精度(DP)、重叠精度(OP)、一次性通过(OPE)的距离精度曲线和成功率曲线对算法进行评估。其中,CLE表示检测到的目标中心位置与目标真实中心位置的平均欧氏距离:

VCLE=(xT-xG)2+(yT-yG)2,(10)

式中(xT,yT)预测的目标中心,(xG,yG)为目标的真实位置中心。DP表示中心位置误差小于20 pixel的帧数占视频总帧数的百分比,OP表示边界框重叠的位置超过0.5的帧数占视频总帧数的百分比,重叠率的具体计算方为(StSa)/(StSa),∩表示预测框与真实框的重叠区域,∪表示二者所占的总区域。距离精度曲线体现距离精度值与阈值之间的关系,成功率曲线体现边界框重叠率与阈值之间的关系,为了评估的准确公正性,根据成功率曲线下的面积作为实际计算的成功率值。

5.2 实验设计

为验证本文算法的跟踪性能,共设计3组实验。实验1,自适应特征选择及模型切换使用前后对比实验,验证本文自适应特征选择和模型切换的高效性;实验2,定量对比实验,与现有优秀算法的整体性能进行比较,对比评价本文算法的优劣;实验3,定性对比实验,通过典型视频的跟踪结果,直观展示本文算法与其他算法的性能对比结果。

5.2.1 自适应特征选择及模型切换跟踪算法实验

对选择的卷积层进行单层跟踪、单层自适应跟踪,以及本文的双层模型自适应切换跟踪,跟踪结果如表1所示,表中后缀为ap表示通过自适应特征选择后的单层特征跟踪结果。从表1可以看出,通过自适应特征选择两层特征的跟踪结果平均CLE、平均DP、平均OP和速度均有不同程度的上升,说明自适应特征选择的方式有效地舍弃了冗余特征。由表1可知,除了速度外,本文算法其他指标均为最高,其中,本文算法的平均DP比pool4_ap的平均DP高3.5%,比conv5-3_ap的平均DP高6.1%,说明本文算法充分利用了自适应双层特征的优势,同时跟踪速度为25.8 frame/s,满足实时跟踪要求。

表 1. 特征不同应用方式的跟踪结果

Table 1. Tracking results of different features applications

FeatureAverage CLE /pixelAverage DP /%Average OP /%Speed /(frame·s-1)
pool418.384.967.630.0
conv5-325.982.167.129.5
pool4_ap16.885.868.532.6
conv5-3_ap23.183.267.834.3
Proposed12.289.376.825.8

查看所有表

5.2.2 定量对比实验

为了进一步验证本文算法的性能,选取9个主流的跟踪算法与本文算法作比较,分别为空间正则化相关滤波跟踪(SRDCF)算法[4]、连续卷积相关滤波跟踪(CCOT)算法[6]、多特征融合的实时跟踪(Staple)算法[9]、分层卷积相关滤波跟踪(HCFT)算法[10]、HCFT的改进算法(HCFTS)[15]、尺度预测跟踪(DSST)算法[17]、多尺度域跟踪(MSDAT)算法[23]、使用深度特征的多峰目标检测跟踪(D_LMCF)算法[27]、多层卷积相关滤波跟踪(HDT)算法[28]。9种算法均在相关滤波框架下设计,其中,CCOT、HCFT、HCFTS、MSDAT、HDT、D_LMCF算法使用深度卷积特征,CCOT、DSST、Staple、HCFTS4算法自带尺度估计。

根据OTB-100数据集提供的评估方法,对本文算法和上述9种算法进行一次性通过评估(OPE),图6所示为10种算法的精度曲线和成功率曲线图对比结果。面对不同挑战,平均精度和平均成功率结果如表2表3所示。从图6可以看出,本文算法的OPE准确率和成功率均排第二,排名第一的为CCOT算法,但是该算法速度约为1 frame/s,本文算法的跟踪速度约为25 frame/s。与其他使用深度特征的HCFTS、D_LMCF、HDT、HCFT、MSDAT算法相比,本文算法的平均准确率分别高出2.3%、3.4%、5.5%、5.6%、7.2%,成功率和跟踪速度同样也优于上述算法。与使用传统手工特征的DSST、SRDCF、Staple算法相比,由于深度特征强大的表征能力,本文算法平均准确率分别高出21.3%、10.4%、10.9%,虽然速度不占优势,但仍然可以保持实时跟踪。图7图8分别为不同跟踪属性下的平均准确率和成功率,图上方括号内的数字表示100组测试视频中包含该类属性的视频个数。准确度方面,本文算法在BC、DEF、IV三种属性中位居第一,在除OV的其他7种属性中位居第二;成功率方面,除LR外,其他属性本文算法均排第二,排名第一的全部为CCOT算法。但是本文算法通过自适应特征选择的方式降低了卷积特征的维度,使用双模型自适应切换的方式减少了目标位置过程的计算量,最后通过稀疏模型更新策略提升了跟踪的速度,而CCOT算法中连续卷积相关滤波模型复杂,计算量大,跟踪速度小于1 frame/s,本文算法的跟踪速度约为CCOT算法的25倍。可以看出,本文算法在保证跟踪速度的前提下,对目标跟踪中的各种干扰有较好的稳健性。

图 6. 10种算法的(a)精度和(b)成功率曲线

Fig. 6. (a) Precision and (b) success rate plots of ten algorithms

下载图片 查看所有图片

图 7. 面对不同挑战时各算法精确度曲线。(a) IV; (b) OPR; (c) SV; (d) OCC; (e) DEF; (f) MB; (g) FM; (h) IPR; (i) OV; (j) BC; (k) LR

Fig. 7. Precision plots of ten algorithms on different challenges. (a) IV; (b) OPR; (c) SV; (d) OCC; (e) DEF; (f) MB; (g) FM; (h) IPR; (i) OV; (j) BC; (k) LR

下载图片 查看所有图片

图 8. 面对不同挑战时各算法成功率值。(a) IV; (b) OPR; (c) SV; (d) OCC; (e) DEF; (f) MB; (g) FM; (h) IPR; (i) OV; (j) BC; (k) LR

Fig. 8. Success rate plots of ten algorithms on different challenges. (a) IV; (b) OPR; (c) SV; (d) OCC; (e) DEF; (f) MB; (g) FM; (h) IPR; (i) OV; (j) BC; (k) LR

下载图片 查看所有图片

5.2.3 定性对比实验

选取使用了深度特征的HCFTS、D_LMCF、HDT、HCFT、MSDAT算法与本文算法的跟踪结果进行显示,由于CCOT算法跟踪速度过于缓慢,本实验中不再进行比较。选取6组具有各种挑战的视频,相关属性如表2所示。

表 2. 测试视频的属性

Table 2. Properties of test videos

VideoFrameSize of object /(pixel×pixel)Challenging aspect
Singer2366122×67IV,DEF,IPR,OPR,BC
Tiger134984×67IV,OCC,DEF,MB,FM,IPR,OPR
Car1102055×66IV,SV,MB,FM,BC,LR
Human3169869×37SV,OCC,DEF,OPR,BC
Girl21500171×44SV,OCC,DEF,MB,OPR
Human21128162×47IV,SV,MB,OPR

查看所有表

不同算法在典型视频的部分帧跟踪结果如图9所示,图9(a)视频中,本文算法、MSDAT算法、HCFTS算法可以稳定地跟踪到目标;图9(b)视频中,本文算法、HCFTS算法、CF2算法、HDT算法均可以稳定地跟踪到目标,且本文算法对尺度的处理较为准确;图9(c)视频中,最后几帧只有本文算法和D_LMCF算法跟踪到目标;图9(d)视频中,第一幅目标遇到遮挡,只有本文算法和HDT算法跟踪到目标,第二幅由于相机抖动出现快速运动、运动模糊等一系列干扰时,只有本文算法稳定跟踪到目标;图9(e)视频中由于运动过程遇到各种干扰,最后只有本文算法和D_LMCF算法跟踪到目标,且本文算法对于目标的尺度预测较为准确;图9(f)视频中,目标发生了较大的尺度变化,虽然各算法均跟踪到目标,但是只有本文算法和D_LMCF算法对目标的尺度预测较为准确。综上所述,本文算法在跟踪过程中,当遇到光照变化、遮挡、尺度变化、快速运动等变化时,均具有较好的稳健性。

图 9. 6种跟踪算法的部分跟踪结果对比。(a) Singer2; (b) Tiger1; (c) Car1; (d) Human3; (e) Girl2; (f) Human2

Fig. 9. Comparison of partial tracking results of six tracing algorithms. (a) Singer2; (b) Tiger1; (c) Car1; (d) Human3; (e) Girl2; (f) Human2

下载图片 查看所有图片

6 结论

为了提高目标跟踪的速度和精度,在分析不同卷积层特性的基础上,选取两层卷积特征训练分类器,利用响应图的PSR构造了一种自适应双模型切换跟踪方法。该方法通过目标区域和跟踪搜索区域卷积特征的均值比评估方法选取有效的卷积通道,在提高算法跟踪效果的同时,减少后续相关滤波跟踪的计算时间,并使用等间隔的稀疏更新方法进一步提高算法的跟踪速度。除了自适应通道选择算法外,还利用相关滤波响应图的PSR系数进行自适应双模型切换跟踪,避免单一模型造成的目标跟踪失败,提高算法的整体跟踪效果。在标准数据集OTB-100上进行算法验证,实验中分析了自适应特征选择、模型切换算法的性能,并与其他算法进行对比分析。实验结果表明,本文算法的平均DP值为89.3%,平均速度为25.8 frame/s,优于HCFTS、D_LMCF、HDT等当前主流的目标跟踪算法。在目标发生光照变化、遮挡、快速运动等干扰时,本文方法具有较强的稳健性。

参考文献

[1] Bolme DS, Beveridge JR, Draper BA, et al. Visual object tracking using adaptive correlation filters[C]∥ 2010 IEEE Conference on Computer Vision and Pattern Recognition, 2010: 2544- 2550.

[2] Henriques JF, CaseiroR, MartinsP, et al. Exploiting the circulant structure of tracking-by-detection with kernels[C]∥European Conference on Computer Vision, 2012: 702- 715.

[3] Henriques J F, Caseiro R, Martins P, et al. High-speed tracking with kernelized correlation filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583-596.

[4] DanelljanM, HagerG, Shahbaz KhanF, et al. Learning spatially regularized correlation filters for visual tracking[C]∥Proceedings of the IEEE International Conference on Computer Vision, 2015: 4310- 4318.

[5] DanelljanM, Shahbaz KhanF, FelsbergM, et al. Adaptive color attributes for real-time visual tracking[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014: 1090- 1097.

[6] DanelljanM, RobinsonA, Khan FS, et al. Beyond correlation filters: Learning continuous convolution operators for visual tracking[C]∥European Conference on Computer Vision, 2016: 472- 488.

[7] DanelljanM, BhatG, Khan FS, et al. ECO: efficient convolution operators for tracking[C]∥IEEE Conference on Computer Vision and Pattern Recognition, 2017: 6931- 6939.

[8] 熊昌镇, 赵璐璐, 郭芬红. 自适应特征融合的核相关滤波跟踪算法[J]. 计算机辅助设计与图形学学报, 2017, 29(6): 1068-1074.

    Xiong C, Zhao L, Guo F. Kernelized correlation filters tracking based on adaptive feature fusion[J]. Journal of Computer-Aided Design & Computer Graphics, 2017, 29(6): 1068-1074.

[9] BertinettoL, ValmadreJ, GolodetzS, et al. Staple: complementary learners for real-time tracking[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 1401- 1409.

[10] MaC, Huang JB, YangX, et al. Hierarchical convolutional features for visual tracking[C]∥ Proceedings of the IEEE International Conference on Computer Vision, 2015: 3074- 3082.

[11] HuangC, LuceyS, RamananD. Learning policies for adaptive tracking with deep feature cascades[C]∥ IEEE International Conference on Computer Vision, 2017: 105- 114.

[12] WangL, OuyangW, WangX, et al. Visual tracking with fully convolutional networks[C]∥Proceedings of the IEEE International Conference on Computer Vision, 2015: 3119- 3127.

[13] Ma C, Huang J B, Yang X, et al. Adaptive correlation filters with long-term and short-term memory for object tracking[J]. International Journal of Computer Vision, 2018, 126(8): 771-796.

[14] 王艳川, 黄海, 李邵梅, 等. 基于在线检测和尺度自适应的相关滤波跟踪[J]. 光学学报, 2018, 38(2): 0215002.

    Wang Y C, Huang H, Li S M, et al. Correlation filter tracking based on online detection and scale-adaption[J]. Acta Optica Sinica, 2018, 38(2): 0215002.

[15] Ma C, Huang J B, Yang X, et al. Robust visual tracking via hierarchical convolutional features[J]. arXiv, 2017, 1707: 03816.

[16] SongY, MaC, GongL, et al. Crest: convolutional residual learning for visual tracking[C]∥IEEE International Conference on Computer Vision, 2017: 2574- 2583.

[17] DanelljanM, HägerG, KhanF, et al. Accurate scale estimation for robust visual tracking[C]∥British Machine Vision Conference, 2014: 1- 11.

[18] 潘振福, 朱永利. 多尺度估计的核相关滤波器目标跟踪方法[J]. 激光与光电子学进展, 2016, 53(10): 101501.

    Pan Z F, Zhu Y L. Kernelized correlation filters object tracking method with multi-scale estimation[J]. Laser & Optoelectronics Progress, 2016, 53(10): 101501.

[19] 王鑫, 侯志强, 余旺盛, 等. 基于多层卷积特征融合的目标尺度自适应稳健跟踪[J]. 光学学报, 2017, 37(11): 1115005.

    Wang X, Hon Z Q, Yu W S, et al. Target scale adaptive robust tracking based on fusion of multilayer convolutional features[J]. Acta Optica Sinica, 2017, 37(11): 1115005.

[20] Galoogahi HK, FaggA, LuceyS. Learning background-aware correlation filters for visual tracking[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 1135- 1143.

[21] MaC, YangX, ZhangC, et al. Long-term correlation tracking[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 5388- 5396.

[22] 赵高鹏, 沈玉鹏, 王建宇. 基于核循环结构的自适应特征融合目标跟踪[J]. 光学学报, 2017, 37(8): 0815001.

    Zhao G P, Shen Y P, Wang J Y. Adaptive feature fusion object tracking based on circulant structure with kernel[J]. Acta Optica Sinica, 2017, 37(8): 0815001.

[23] Wang X, Li H, Li Y, et al. Robust and real-time deep tracking via multi-scale domain adaptation[J]. arXiv, 2017, 1701: 00561.

[24] 蔡玉柱, 杨德东, 毛宁, 等. 基于自适应卷积特征的目标跟踪算法[J]. 光学学报, 2017, 37(3): 0315002.

    Cai Y Z, Yang D D, Mao N, et al. Visual tracking based on adaptive convolutional features[J]. Acta Optica Sinica, 2017, 37(3): 0315002.

[25] HeldD, ThrunS, SavareseS. Learning to track at 100 fps with deep regression networks[C]∥European Conference on Computer Vision, 2016: 749- 765.

[26] LiY, Zhu JK, Hoi S C H. Reliable patch trackers: Robust visual tracking by exploiting reliable patches[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 353- 361.

[27] WangM, LiuY, HuangZ. Large margin object tracking with circulant feature maps[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 4800- 4808.

[28] Qi YK, Zhang SP, QinL, et al. Hedged deep tracking[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 4303- 4311.

熊昌镇, 车满强, 王润玲, 卢颜. 稳健的双模型自适应切换实时跟踪算法[J]. 光学学报, 2018, 38(10): 1015002. Changzhen Xiong, Manqiang Che, Runling Wang, Yan Lu. Robust Real-Time Visual Tracking via Dual Model Adaptive Switching[J]. Acta Optica Sinica, 2018, 38(10): 1015002.

本文已被 6 篇论文引用
被引统计数据来源于中国光学期刊网
引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!