激光与光电子学进展, 2020, 57 (4): 041501, 网络出版: 2020-02-20  

基于双线性卷积神经网络的视觉目标跟踪算法 下载: 903次

Visual Object Tracking Based on Bilinear Convolutional Neural Network
作者单位
天津大学电气自动化与信息工程学院, 天津 300072
摘要
当前的一阶段回归网络可以通过多分支响应图的融合获得多级信息。然而,现有算法的响应图融合方法主要是基于简单的逐元素相加或相乘运算。基于此,提出一种新的跟踪模型,该模型集成了基于双线性卷积神经网络的新型响应图融合方法,可以获得响应图的位置关联和信息交互,利于更准确地跟踪目标物体。基于OTB2013基准数据库对本文算法进行测试,结果表明,与一流的跟踪算法相比,本文算法已经取得了比较有竞争力的结果。
Abstract
The existing one-stage regression networks can obtain the multi-level information through the fusion of multi-branch response maps. However, the algorithms for response map fusion are mostly based on a simple element-wise sum or a multiplication operation. In this paper, a novel tracking model that includes a novel response map fusion method based on bilinear convolutional neural network, is proposed. The proposed model can obtain position correlation and information interaction of response maps, which is useful for achieving more accurate target tracking. The proposed algorithm is tested on the OTB2013 benchmark. Results show that, a competitive performance can be achieved by using the proposed model, compared to the state-of-arts tracking models.

1 引言

视觉目标跟踪已成为计算机视觉领域的一个重要研究课题,并广泛应用于视频监控、人机交互和无人驾驶等领域。视觉目标跟踪通常基于第一帧图像中的人工标注和提取的特征来建立适当的外观模型,并用于预测下一帧中目标物体的新状态。尽管目标跟踪近年来取得了相当大的进步,但其跟踪过程中的遮挡、尺度变化、快速运动和旋转方面仍然是一个具有挑战性的问题,故它是计算机视觉领域最活跃的研究领域之一[1]

典型的跟踪算法主要分为两类。一类是基于分类的两阶段框架,另一类是基于回归的一阶段框架。对于两阶段跟踪框架,第一阶段在前一帧中获得多个候选框,第二阶段将他们分类为目标或背景。MDNet[2]是一个经典的两阶段跟踪框架,可以获得出色的结果。VITAL[3]通过引入GAN[4]进一步改进了MDNet。但是,两阶段跟踪器通常很慢且无法实时跟踪。

一阶段跟踪框架的代表算法是判别式相关滤波器(DCF),它是目标跟踪领域的重大突破之一。DCF的基本原理是学习具有闭环形式解的岭回归分类器,由于其将时域中卷积转化为傅里叶域中乘积而具有出色的计算速度,它在快速跟踪中表现良好。MOSSE[5]是第一个将DCF引入快速目标跟踪领域的跟踪算法,它对物体外观的变化具有很强的适应性,充分展示了DCF在视觉目标跟踪中的出色表现。后来人们提出了许多改进的算法,Danelljan等[6]提出了一种将颜色特征属性集成到循环结构核(CSK)[7]跟踪器中的自适应颜色跟踪方法。Henriques等[8]扩展了CSK跟踪器并提出了一个核相关滤波(KCF)跟踪器,通过搜索区域块的循环移位来生成训练样本,循环移位产生的样本具有明显的边界效应,降低了跟踪精度。杨剑锋等[9]基于KCF并结合自适应局部均值滤波实现了长时间跟踪。高美凤等[10]提出了一种自适应尺度的KCF目标跟踪算法, 在KCF的基础上引入尺度估计方法。然而循环移位产生的样本是合成样本,包含大量背景信息,故模型质量较低,且特征提取和模型更新分离,DCF很难从端到端训练中受益。

另一个一阶段跟踪框架是利用卷积神经网络(CNN)的回归模型。自从引入各种深度学习算法以来,CNN在视觉目标跟踪领域引起了广泛的关注,并在性能方面逐渐超越传统方法,从而取得了巨大的突破。Wang等先后提出了DLT[11]和SO-DLT[12],分别采用自编码网络和卷积神经网络实现了视觉目标跟踪。FCNT[13]通过分析深层网络模型中的特征组合不同的特征层,获得了新的视觉目标跟踪结果。Siamese[14]网络由于其具有两个相同的结构而引起了人们的注意。现有的跟踪器DSLT[15]设计了一个深度回归跟踪框架,实现了良好的性能。CREST[16]属于基于卷积框架的回归算法,该算法是通过逐元素求和运算来执行回归响应图的融合。

本文利用从多个卷积层提取的特征来表示目标外观,然后实现多级响应图的融合,以增加响应图的位置关联和信息交互。在不损失空间分辨率的情况下,引入用于响应图融合的双线性卷积神经网络(BCNN)[17]。BCNN实际上是两个向量的外积,最初用于细粒度分类,近年来它被引入计算机视觉的其他领域,如视觉问答[18]、纹理识别等。该方法有效地结合了两个响应图的位置关联和信息交互,但它不会损失空间分辨率,且可有效保留空间信息。最后基于OTB2013基准数据集对算法性能进行测试,测试结果可知,与现有的跟踪算法相比,BCNN的应用取得了比较有竞争力的结果。

2 基本原理

2.1 回归跟踪框架

DCF是一种基于检测式的跟踪算法,利用两个信号相似性度量进行跟踪,具有快速傅里叶变换的高效计算能力,广泛应用于实时跟踪。它通过在目标周围循环移位采集样本,并利用岭回归训练目标分类器。DCF基于傅里叶域中循环矩阵对角化的性质,可以将时域卷积操作转换为乘积操作。

本研究将DCF回归转换为单通道卷积层输出,以进行端到端训练。本文的一阶段回归算法通过训练卷积层,并使用梯度下降法优化如下的损失函数,

argminWW*X-Y2+αW2,(1)

式中:W为卷积层的权重,其卷积核的大小与输入的搜索区域特征的大小成比例;*表示标准卷积运算;X∈ℝw×h×n表示从预训练网络中提取的输入搜索区域的特征,其中w表示特征的宽,h表示特征的高,n表示特征的通道数;Y为通过高斯函数转换的真实软标签;α为正则化系数,以避免过拟合。本研究从预训练的VGGnet[19]中提取特征,为了提高实验结果的准确度,本研究使用主成分分析(PCA)而不是卷积层来降低特征维度。

受DSLT[15]的启发,本文提出一种简单易用的跟踪模型。它是一个一阶段的端到端的深度回归框架,如图1所示。跟踪框架包含特征提取和响应图回归网络两部分,可以通过在第一帧图像中给出的真实标签周围采样来获得搜索区域。然后,搜索区域从预训练的VGGnet中提取多级特征conv4_3和conv5_3,并逐帧训练和更新回归网络。其中,+表示求和运算,☉表示BCNN运算。响应图回归由单通道输出的卷积层预测,本研究充分利用不同层的特征,对不同的层编码不同级别的信息。顶层特征分辨率较低,故对其编码很多语义信息;而底层分辨率较高,其本身就包含物体很多的判别信息,故不需对其编码语义信息。多层特征融合可以更完整地编码目标物体的外观,融合操作是con4_3与conv5_3求和来实现,然后将融合的特征送入顶部的卷积层con6。conv5_3的特征进入底部卷积层conv7,每个分支都生成一个回归响应图。两个分支的响应图通过BCNN操作得到最终的回归响应图,其最大值就是预测目标物体的位置(方框标注)。

图 1. 本文提出的跟踪框架

Fig. 1. Our proposed tracking framework

下载图片 查看所有图片

2.2 双线性卷积神经网络

在跟踪过程中,稳健的特征对于准确预测目标物体的位置非常重要。本研究充分利用从预训练网络中提取的卷积特征来编码目标物体的外观并预测响应图。与传统的逐元素相加或相乘的融合方法不同,本文使用BCNN算法进行响应图融合。BCNN在细粒度识别任务中具有出色的表现。具体地说,它是一种特征交互操作,可通过外积操作结合成对的矢量。

假设f,g是成对的响应图向量,他们必须具有相同的空间分辨率大小,但维度可以不同。 这里假设,fRw×h×n1gRw×h×n2,其中w×h是向量的分辨率大小,n1,n2是通道大小。对于每个位置lL,其中L∈ℝw×h,则f(l)∈ R1×1×n1g(l)∈ R1×1×n2,BCNN运算是外积操作,如

B(l,f,g)=f(l)g(l)=flTg(l)(2)

这样就可以得到向量BRw×h×n1×n2,BCNN操作不会损失空间分辨率,如图2所示。输出维度大小是两个输入通道数的乘积,T表示向量f的转置,􀱋表示两个向量f,g的外积。与文献[ 17]不同,本研究不执行求和池化操作以保持空间分辨率。该算法的好处是可将整体作为一个层整合到深度学习网络中,从而进行端到端的优化。

由于输出向量B的维度大小是两个原始输入通道大小的乘积,因此维度较高,进而导致计算量迅速增加。为了解决这个问题,采用紧凑的双线性池化(Compact Bilinear Pooling)[20],即紧凑的特征表示方法(Tensor Sketch方法),来有效地减小计算量。BCNN结合了两个分支的回归响应图,这种联合表示方式可以捕获两个响应图之间不同的语义和外观信息,从而获得两个分支响应图的丰富位置关联,这对于在视觉目标跟踪任务中目标位置的预测非常有用。

图 2. 双线性操作

Fig. 2. Bilinear operation

下载图片 查看所有图片

2.3 跟踪过程

给定第一帧图像的真实标签,在第一帧图像的边界框附近裁剪获得搜索区域,该搜索区域被馈送到预训练的VGGnet中以提取特征。然后,多层特征进入回归框架以获得响应图。因此,可以通过回归响应图来预测目标在第二帧中的位置,并获得响应图的最大值。当预测下一帧中目标的位置时,在当前帧的预测位置周围裁剪获得搜索区域。随着跟踪的进行,目标会发生较大变化,因此要每隔t帧更新一次模型。整个过程包括端到端的训练和模型更新,重复上述过程,逐渐更新回归网络。

3 实验

3.1 实验设置

本文的框架是基于Caffe[21]工具箱,在MATLAB平台设计的。本研究使用CPU Intel Xeon E5-2620和GPU GeForce GTX 1080Ti的计算机进行实验。用于特征提取的骨干网络是预先训练的VGGnet[19],本文提取它的cov4_3和conv5_3的特征,并删除conv3_3后面的池化层,仅保留前两个池化层,以保证cov4_3和conv5_3具有相同的空间分辨率。本研究通过PCA将通道数减小到256。用Adam[22]方法训练本文的网络,训练和测试阶段的网络学习率分别为2×10-8和1×10-8。每t=7帧执行一次模型的更新,算法的运行速度是1.0 frame/s。

3.2 数据库和度量准则

本研究在标准数据基准OTB2013[23]上进行了实验,其中包含50个具有挑战性的视频序列。其中名为jogging的序列存在两个不同的跟踪目标。每个序列都有不同的属性标签,可以应对不同的挑战情况,包括遮挡、尺度变化、变形、光照变化、低分辨率、超出视野外、运动模糊、平面内旋转、快速运动、背景杂乱、平面外旋转。

本研究利用广泛使用的方法一次通过评估(OPE)来测量本文在数据集上的算法性能。这两个主要的评估指标包括准确率图和成功率图。前者用于估计边界框中心与真实值之间的距离,它计算了距离小于给定阈值的帧所占的比率,阈值通常设置为20 pixel;后者用于估计边界框和真实值之间的重叠分数(OS)。

3.3 消融实验

为了证明基于BCNN算法的回归响应图融合方式的有效性,设计了一个对比实验,如图3所示。 基础网络baseline的设计灵感来自 DSLT[15] , 它使用非BCNN 方法进行响应图融合,即逐元素求和方法。对比算法baseline_bcnn使用BCNN方法进行响应图融合。对比算法baseline_bcnn的准确率为0.908,而基础网络baseline的准确率为0.909。 同时,基础网络baseline的成功率为0.641,而对比算法baseline_bcnn的成功率为0.661。

结果表明,BCNN操作在准确率上有很小的性能损失,但成功率上有很大提高。BCNN在提高成功率方面具有出色表现的原因在于它以表征不变的方式捕获局部响应图的交互和关联。BCNN可以很好地整合响应图的位置变化,因此相比简单的逐元素求和,它具有更好的表现。

图 3. 在OTB2013数据集上对比算法与基础网络的对比。(a)准确率图;(b)成功率图

Fig. 3. Comparison algorithm on OTB2013 dataset with baseline network. (a) Precision; (b) success rate

下载图片 查看所有图片

3.4 与其他算法的对比

本文算法与OTB2013[23]数据集上现有的15种跟踪算法进行比较,包括STAPLE_CA[24],DeepSRDCF[25],HDT[26],SINTflow[27],ECO-HC[28],FCNT[13],LCT[29],SRDCFdecon[30],Staple[24], KCF[8],DLT[11],DSST[31],SAMF[32],CSR-DCF[33],MOSSE_CA[5]

整体性能如图4所示,图中只显示前10名算法的性能结果。结果表明,本文算法在OTB2013基准测试集中具有很好的竞争力。由于采用了回归响应融合的新颖方法,即BCNN方法,本文算法性能表现良好。由于本文算法具有更好的框架结构,因此具有比FCNT更高的精度。与基于判别相关滤波器的回归算法KCF[8],Staple[24]相比,本文基于深度卷积回归网络的算法更具竞争力。需注意的是,由于GPU内存不足,本研究没有在Lemming,Tiger1,Soccer和Deer序列中评估本文算法。

图 4. 在OTB2013数据集上与其他跟踪算法的比较。(a)准确率图;(b)成功率图

Fig. 4. Comparison algorithm on OTB2013 dataset with other algorithms. (a) Precision; (b) success rate

下载图片 查看所有图片

图5所示,将本文的跟踪器与Staple[24],DeepSRDCF[25],FCNT[13]在8个具有挑战性的序列上进行比较。从上到下,他们依次是Coke,Doll, Dudek, Football,Freeman4,Motor-Rolling,Shaking和Skiing。与DeepSRDCF和FCNT相比,本文的跟踪器在序列Coke,Freeman4中对于对抗遮挡具有很强的适应性。对于基于深度学习跟踪器框架,本文跟踪器的性能优于FCNT。Football和Motor-Rolling序列中反映出本文的跟踪器与Staple和FCNT相比具有良好的旋转不变性。本文的算法对于模糊也具有良好的性能,见Football序列。根据序列Skiing和Doll的表现,与Staple和FCNT相比,本文的跟踪器对尺度变化具有良好的适应性。总之,由于采用了新颖的响应图融合方法,本文的跟踪器具有令人印象深刻的性能。

图 5. 定性评价

Fig. 5. Qualitative evaluation

下载图片 查看所有图片

4 结论

本文设计了一个独特的深度回归网络,它集成了基于双线性卷积神经网络(BCNN)算法的新型回归响应图融合方法。BCNN结合两个响应图并捕获两个图的位置关联和交互信息,通过这种响应图融合方法可以更加准确地预测目标物体的位置。BCNN方法可以与一阶段回归网络完美结合,端对端地训练,显著提高了跟踪性能。结合这种响应图融合方法,基于OTB2013基准数据集进行测试,本文算法相比其他跟踪算法,取得了比较有竞争力的结果。

参考文献

[1] 何雪东, 周盛宗. 快速尺度自适应核相关滤波目标跟踪算法[J]. 激光与光电子学进展, 2018, 55(12): 121501.

    He X D, Zhou S Z. Fast scale adaptive kernel correlation filtering algorithm for target tracking[J]. Laser & Optoelectronics Progress, 2018, 55(12): 121501.

[2] NamH, HanB. Learning multi-domain convolutional neural networks for visual tracking[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 4293- 4302.

[3] Song YB, MaC, Wu XH, et al. VITAL: visual tracking via adversarial learning[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT. New York: IEEE, 2018: 18326240.

[4] GoodfellowI, Pouget-AbadieJ, MirzaM, et al. Generative adversarial nets[C]∥Advances in Neural Information Processing Systems, December 8-13, 2014, Montreal, Quebec, Canada. [S. l. : s. n.], 2014: 2672- 2680.

[5] BolmeD, Beveridge JR, Draper BA, et al. Visual object tracking using adaptive correlation filters[C]∥2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, June 13-18, 2010, San Francisco, CA, USA. New York: IEEE, 2010: 2544- 2550.

[6] DanelljanM, Khan FS, FelsbergM, et al. Adaptive color attributes for real-time visual tracking[C]∥2014 IEEE Conference on Computer Vision and Pattern Recognition, June 23-28, 2014, Columbus, OH, USA. New York: IEEE, 2014: 1090- 1097.

[7] Henriques JF, CaseiroR, MartinsP, et al. Exploiting the circulant structure of tracking-by-detection with kernels[M] ∥Fitzgibbon A, Lazebnik S, Perona P, et al. Computer vision-ECCV 2012. Lecture notes in computer science. Berlin: Springer, 2012, 7575: 702- 715.

[8] Henriques J F, Caseiro R, Martins P, et al. High-speed tracking with kernelized correlation filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583-596.

[9] 杨剑锋, 张建鹏. 基于核相关滤波的长时间目标跟踪[J]. 激光与光电子学进展, 2019, 56(2): 021502.

    Yang J F, Zhang J P. Long time target tracking based on kernel correlation filtering[J]. Laser & Optoelectronics Progress, 2019, 56(2): 021502.

[10] 高美凤, 张晓玄. 尺度自适应核相关滤波目标跟踪[J]. 激光与光电子学进展, 2018, 55(4): 041501.

    Gao M F, Zhang X X. Scale adaptive kernel correlation filtering for target tracking[J]. Laser & Optoelectronics Progress, 2018, 55(4): 041501.

[11] WangN, Yeung DY. Learning a deep compact image representation for visual tracking[C]∥Advances in Neural Information Processing Systems, December 5-8, 2013, Lake Tahoe, Nevada, United States. [S. l. : s. n.], 2013: 809- 817.

[12] Wang NY, Li SY, GuptaA, et al. ( 2015-04-23)[2019-05-16]. https:∥arxiv.gg363.site/abs/1501. 04587.

[13] Wang LJ, Ouyang WL, Wang XG, et al. Visual tracking with fully convolutional networks[C]∥2015 IEEE International Conference on Computer Vision (ICCV), December 7-13, 2015, Santiago, Chile. New York: IEEE, 2015: 3119- 3127.

[14] BertinettoL, ValmadreJ, Henriques JF, et al. Fully-convolutional Siamese networks for object tracking[M] ∥Hua G, Jégou H. Computer vision-ECCV 2016 Workshops. Lecture notes in computer science. Cham: Springer, 2016, 9914: 850- 865.

[15] Lu XK, MaC, Ni BB, et al. Deep regression tracking with shrinkage loss[M] ∥Ferrari V, Hebert M, Sminchisescu C, et al. Computer vision-ECCV 2018. Lecture notes in computer science. Cham: Springer, 2018, 11218: 369- 386.

[16] Song YB, MaC, Gong LJ, et al. CREST: convolutional residual learning for visual tracking[C]∥2017 IEEE International Conference on Computer Vision (ICCV), October 22-29, 2017, Venice, Italy. New York: IEEE, 2017: 2574- 2583.

[17] Lin TY, RoyChowdhury A, Maji S. Bilinear CNN models for fine-grained visual recognition[C]∥2015 IEEE International Conference on Computer Vision (ICCV), December 7-13, 2015, Santiago, Chile. New York: IEEE, 2015: 1449- 1457.

[18] FukuiA, Park DH, YangD, et al. and visualgrounding[J/OL]. ( 2016-09-24)[2019-05-16]. https:∥arxiv.gg363.site/abs/1606. 01847.

[19] SimonyanK, Zisserman A. Very deep convolutional networks for large-scale image recognition[J/OL]. ( 2015-04-10)[2019-05-16]. https:∥arxiv.gg363.site/abs/1409. 1556.

[20] GaoY, BeijbomO, ZhangN, et al. Compact bilinear pooling[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 317- 326.

[21] Jia YQ, ShelhamerE, DonahueJ, et al. Caffe: convolutional architecture for fast feature embedding[C]∥Proceedings of the ACM International Conference on Multimedia - MM '14, November 3-7, 2014, Orlando, Florida, USA. New York: ACM, 2014: 675- 678.

[22] Kingma DP, Ba J. Adam: a method for stochastic optimization[J/OL]. ( 2017-01-30)[2019-05-16]. https:∥arxiv.gg363.site/abs/1412. 6980.

[23] WuY, LimJ, Yang MH. Online object tracking: a benchmark[C]∥2013 IEEE Conference on Computer Vision and Pattern Recognition, June 23-28, 2013, Portland, OR, USA. New York: IEEE, 2013: 13824581.

[24] BertinettoL, ValmadreJ, GolodetzS, et al. Staple: complementary learners for real-time tracking[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 1401- 1409.

[25] DanelljanM, HagerG, Khan FS, et al. Convolutional features for correlation filter based visual tracking[C]∥2015 IEEE International Conference on Computer Vision Workshop (ICCVW), December 7-13, 2015, Santiago, Chile. New York: IEEE, 2015: 621- 629.

[26] Qi YK, Zhang SP, QinL, et al. Hedged deep tracking[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 4303- 4311.

[27] TaoR, GavvesE, Smeulders A W M. Siamese instance search for tracking[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 16526810.

[28] DanelljanM, BhatG, Khan FS, et al. ECO: efficient convolution operators for tracking[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 6931- 6939.

[29] MaC, Yang XK, Zhang CY, et al. Long-term correlation tracking[C]∥2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 7-12, 2015, Boston, MA, USA. New York: IEEE, 2015: 5388- 5396.

[30] DanelljanM, HagerG, Khan FS, et al. Adaptive decontamination of the training set: a unified formulation for discriminative visual tracking[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 1430- 1438.

[31] DanelljanM, HägerG, Shahbaz KhanF, et al.Accurate scale estimation for robust visual tracking[C]∥Proceedings of the British Machine Vision Conference 2014, September 2014, Nottingham.UK: BMVA Press, 2014.

[32] LiY, Zhu JK. A scale adaptive kernel correlation filter tracker with feature integration[M] ∥Agapito L, Bronstein M, Rother C. Computer vision - ECCV 2014 Workshops. Lecture notes in computer science. Cham: Springer, 2015, 8926: 254- 265.

[33] LukezicA, VojirT, Zajc LC, et al. Discriminative correlation filter with channel and spatial reliability[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 4847- 4856.

张春婷. 基于双线性卷积神经网络的视觉目标跟踪算法[J]. 激光与光电子学进展, 2020, 57(4): 041501. Chunting Zhang. Visual Object Tracking Based on Bilinear Convolutional Neural Network[J]. Laser & Optoelectronics Progress, 2020, 57(4): 041501.

引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!