激光与光电子学进展, 2019, 56 (24): 241001, 网络出版: 2019-11-26   

联合最小软阈值二乘和Haar-like特征匹配的视觉跟踪 下载: 708次

Visual Tracking Combined Least Soft-Threshold Squares with Haar-like Feature Matching
作者单位
1 滁州学院计算机与信息工程学院, 安徽 滁州 239000
2 上海航天控制技术研究所, 上海 201109
摘要
基于最小软阈值二乘的目标跟踪方法能够较好地处理视频的外观变化和异常值,但当目标子空间受到姿态变化或遮挡等干扰时,跟踪器的稳健性较差。针对这一问题,在贝叶斯引理框架下,提出一种组合最小软阈值二乘和压缩Haar-like特征匹配的在线目标跟踪算法。该算法针对最小软阈值二乘跟踪器采用定量遮挡率来评判其观测样本受离群子干扰程度,并在跟踪器单帧匹配响应过低时,利用压缩特征匹配对观测目标进行二次筛选。同时,通过观测置信度减少无关样本的数量,降低计算复杂度。实验结果表明,本文提出的算法能够取得更加优异的跟踪结果。
Abstract
The object tracking method based on least soft-threshold squares deals with the appearance change and outlier of video well. However, when the object subspace is influenced by interference such as posture change or occlusion, the tracking robustness is not completely effective. To solve this problem, this study proposes an online object tracking algorithm which combines least soft-threshold squares with compressed Haar-like feature matching in the framework of Bayes lemma. First, we employ the quantitative occlusion for the least soft-threshold squares based tracker to measure the extent of interference of outlier of observed samples. Then, we sieve the observed object again with the compressed Haar-like feature matching when the single-frame matching response of the tracker is very low. Meanwhile, by reducing the number of independent observed samples through the observed confidence coefficient, the computation complexity can be reduced. The experimental results show that the proposed method can be more effective than other methods.

1 引言

随着人工智能的快速发展,计算机视觉成为广大研究人员热衷的学科。视觉跟踪是计算机视觉中的重要一环,在机器人视觉导航、自动监控系统、智能交通系统、人机交互、精确**侦察、智能医学诊断等方面有着广泛的应用。目前已有很多科研工作者在此领域做了很多有价值的工作[1-4],但是视觉跟踪仍面临很多难以解决的问题,如遮挡、变形、运动模糊、快速运动、光照变化、背景杂乱、尺度变化等都会影响跟踪的效果。因此,对于一个跟踪系统而言,构建一个有效的外观模型来表征目标迫在眉睫。

近年来,很多科研人员提出基于稀疏表示的视觉跟踪方法,该方法已在视觉跟踪领域占据重要地位。Mei等[5]在2009年首次提出一种基于L1范数最小化的目标跟踪算法。该算法使用目标模板和琐碎模板对观测样本集进行稀疏的线性重构,并将重构误差最小的观测样本作为当前帧的跟踪结果,能较好地处理局部遮挡的问题,但计算复杂度过大。随后,Liu等[6]在L1跟踪器的基础上,将稀疏直方图和均值漂移相结合对目标进行跟踪,目标跟踪效果较好。为了弥补传统稀疏模型算法没有同时考虑生成信息和判决信息的缺陷,Zhong等[7]提出了一种组合生成模型和判决模型的跟踪算法。该模型充分利用了判别信息和生成信息的优势,但算法实时性不高,且当某个模型发生退化时,整个模型会产生退化现象。Zhuang等[8]提出一种结构化的稀疏分块表征模型,该模型对观测样本进行反向稀疏表示,利用正负样本的判决性来获取最优样本。Wang等[9]采用Gaussian-Laplacian对残差进行建模来抵御离群子干扰,以优化表征模型,采用最小软阈值二乘来逼近对观测样本的描述,但当目标在遭受严重污染时,该算法仍错误地将背景信息更新进样本子空间,使表征模型退化。

压缩感知技术作为目标跟踪领域一项重要技术被研究学者广泛关注。Haar-like特征作为一种经典的特征描述算子,起初被用于人脸表示,而后被成功地应用于目标跟踪领域[10-12]。Harr-like特征本质上反映了图像灰度的变化,具有较为优秀的表观能力。受文献[ 10]的启发,本文提出一种快速有效的目标跟踪算法,联合压缩Haar-like特征和子空间最小二乘拟合,对目标的外观进行建模,并采用在线学习将LSST算法和Haar-like特征匹配算法进行了简单有效的组合,在匹配过程中去除了大部分无用的样本,提高了目标跟踪的实时性。

2 最小软阈值二乘跟踪

给定一组PCA(Principal Components Analysis)子空间U∈Rd×k,其中d是基向量的维度,k是子空间中基向量的个数。对于一个给定的观测样本,可表示为

y=Uc+n,(1)

式中:c∈Rk×1是子空间的目标系数;n∈Rk×1为拟合噪声。则有

F(c,n)=minc,n12y-Uc-n2+μn1,(2)

式中:μ为正则化参数。为了计算(2)式的最小化问题,可以对目标系数c和噪声项n进行交替求解,即

ck+1=argmincf(nk,c)nk+1=argminnf(n,ck+1),(3)

可计算求解得到

ck+1=(UTU-1UT(y-nk)nk+1=Sμ(y-Uck+1),(4)

式中:Sμ(x)=sgn(x)max(|x|-μ,0)为软阈值操作算子。

3 联合最小软阈值二乘和Haar-like特征匹配

3.1 压缩Haar-like特征提取

给定一个观测图像f∈Rw×h,其中wh表示边界框的长和宽。可以通过一组尺度滤波器{h1,1,h1,2,…,hw,h}与其进行卷积来实现其尺度不变性,尺度滤波器定义为

hi,j(x,y)=1,1xi,1yj0,other,(5)

式中:ij分别表示尺度滤波器的长和宽。将卷积滤波后的图像拉成一个w×h维的列向量,并连接为一个高维的多尺度特征向量X= {X1,X2,,Xm}T∈Rm,其中的m=(w×h)2。如图1所示,为了减少算法表观的计算量,利用随机测量矩阵R∈Rn×m将高维向量投影到一个低维的特征空间,表达式为

V=RX,(6)

式中:V= {V1,V2,,Vm}T∈Rn,n≪m。该测量矩阵满足RIP(Restricted Isometry Property)受限等距性质,以实现向量从高维到低维的映射,R的矩阵元素满足ri,j~G(0,1)分布,其中G(*,*)表示正态分布。该稀疏随机矩阵的元素定义为

ri,j=s×1,withprobability1/(2s)0,withprobability1-(1/s)-1,withprobability1/(2s),(7)

式中:s为2或3。由于测量矩阵R只在离线计算一次,整个映射过程的计算并不复杂。在稀疏随机测量矩阵中,只有非零元素对应的矩形特征需要用积分图像进行计算,适合实时处理,其映射过程如图1所示,图中矩阵R中的黑色、灰色和白色分别表示正、负和零项。

图 1. 高维向量X到压缩低维向量V的过程示意图

Fig. 1. Schematic of process from high-dimensional vector X to compression low-dimensional vector V

下载图片 查看所有图片

3.2 特征匹配

在特征匹配中,t-1帧获得最优状态 χt-1opt后,目标lt-1的位置便可以确定,接着可以绘制对应于目标区域(lt-1,w,h)的图像块,并利用上述随机测量矩阵提取压缩Haar-like特征向量Vt-1

在整个跟踪过程中,采用遮挡率ηt来评价当前第t帧目标受到干扰的程度[13]。该遮挡率定义为

ηt=j=1dhjd,(8)

式中:d为图像总像素;hj∈{0,1},定义为

hj=0,ejopt<τ1,ejoptτ,(9)

其中 ejopt为当前真实目标中第j个像素的重构误差,τ为离群子的判定阈值。当遮挡率满足

η>ηth|ηt-ηt-1|>ξ,(10)

则表示该时刻目标受到的干扰较为严重,其中ηth为遮挡限定阈值,ξ为相邻帧遮挡误差阈值。

采用Harr-like特征匹配进行目标重检测,匹配的相似度定义为

Ti=T(Vt-1,Vti)=Vt-1·VtiVt-1·Vti,1iN,(11)

式中: Vti为当前第t帧第i个候选样本的压缩感知向量;Vt-1为上一帧目标的压缩感知向量;N为候选样本数量。在计算Haar-like特征前移除部分不重要的样本,以提高算法的实时性。若第i个候选样本的置信度pi满足

pi<12Nj=1Npj,(12)

则舍弃该样本。最后对最优状态进行更新,即

χopt=argmax1iMTi,(13)

式中:M表示有前景的样本数目,根据经验一般设置在10到70之间。

4 跟踪框架

在马尔可夫模型中,目标跟踪任务可视为贝叶斯滤波器。贝叶斯滤波器有两个主要步骤:预测和更新。整个跟踪过程如图2所示。给定所有观测样本Yt={y1,y2,…,yt}和隐藏的状态变量χt。预测步长的先验概率分布和更新步长的后验概率分布的表达式分别为

p(χt|Yt)p(yt|χt)·p(χt|χt-1)p(χt-1|Yt-1)dχt-1,(14)p(χt|Y1t)=p(Yt|χt)p(χt|Y1t-1)p(Yt|Y1t-1),(15)

式中:p(χt|χt-1)是两个连续目标状态之间的运动模型;p(yt|χt)表示观测模型。运动模型体现了两个连续视频帧的时间相关性,而观测模型应用于测量ytχt之间的似然性。

4.1 运动模型

采用随机走动理论p(χt|χt-1)=G(χt;χt-1,Φ)来描述χtχt-1之间的状态变换,其中,Φ表示对角协方差矩阵。Φ中的元素是仿射参数的方差,包括平移、旋转角度、尺度、纵横比和倾斜度。所有这些仿射参数均独立服从高斯分布。

4.2 观测模型

观测模型用来评估观测样本成为真实目标的置信度。对于第t帧第i个候选样本,可通过(4)式计算其对应目标系数 cti和拟合噪声 nti。利用似然函数描述观测模型如下:

p(yt|xti)=exp(-yt-Ucti-nti22-μnti1),(16)

通过(16)式对观测样本进行评估,以获取最佳的样本作为当前帧的真实目标。即(16)式的概率值越大,成为真实目标的可能性越大。

图 2. 算法流程框图

Fig. 2. Flow chart of proposed algorithm

下载图片 查看所有图片

4.3 在线更新机制

受文献[ 9]启发,本研究采用增量PCA更新方法对PCA子空间进行在线更新,每5帧更新一次子空间。更新PCA子空间的样本可表示为

φi=yi,|εi|=0φi,other,(17)

式中:ε=y-Uc-n为残差向量; εi,φiyi分别为残差向量,均值向量和当前帧目标状态向量的第i个元素。

5 实验与分析

本文采用MATLAB R2014a作为实验的开发工具,在配置为i5-4690 CPU(3.5 GHz)的计算机上运行算法。噪声正则化参数μ= 0.01。手动标记目标在第一帧中的尺寸和位置。观测样本归一化尺寸为32 pixel×32 pixel,采样数为600。样本子空间基向量个数为16个PCA基,并每5帧增量更新一次。

为了验证算法的有效性,对9个具有挑战的图像序列进行评估[14],这些序列分别具有遮挡、光照变化、运动模糊和复杂背景等干扰条件。同时采用另外6个较为著名的算法用于对比。这7个算法包括:增量式视觉跟踪(IVT)[2]、基于稀疏协同模型的稳健目标跟踪(SCM)[7]、基于判决稀疏相似性的目标跟踪(DSST)[8]、基于最小软阈值二乘的目标跟踪(LSST)[9]、基于L2范数正则的协作表示目标跟踪(L2-RLS)[15]、基于自适应结构表示模型的视觉跟踪(ASLA)[16],以及核相关滤波跟踪算法(KCF)[17]

5.1 定性分析

1)遮挡。在跟踪的过程中,目标受到遮挡是常见的挑战之一。图3(a)为目标发生遮挡时的部分跟踪结果。本实验中,对3个含有严重遮挡的图像序列(Occlusion2, DavidOutdoor 以及 Football)进行测试。从实验结果可以看出,IVT算法由于没有处理遮挡的机制,对于遮挡较为敏感, DavidOutdoor序列的第240帧和Football序列的第362帧丢失目标。SCM算法在Occlusion2序列上表现出较好的效果,但在DavidOutdoor(第90帧)和 Football序列上(第362帧)表现较差,这主要是因当两个独立的外观模型中有一个发生退化时,会导致整个组合模型的退化。本文在LSST算法的基础上,融合了遮挡评估机制,通过提取Harr-like特征进行二次目标匹配,在遮挡干扰下取得了较为优异的结果。

2)光照和尺度变化。图3(b)为不同算法在光照剧烈变化的序列(DavidIndoor 和Singer1)中的跟踪结果对比。除此之外,DavidIndoor 序列和 Singer1序列中还存在目标尺度变小的干扰。IVT算法和L2-RLS算法采用了PCA基向量对目标进行表示,但当光照和尺度同时变化时,两种算法在Singer1序列的第125帧分别出现了漂移和丢失目标的现象。KCF算法由于采用单尺寸进行跟踪,在初始化后保持单尺寸不变,无法有效适应目标的尺度变化, DavidIndoor的第156帧和Singer1序列中的第125帧尺度框过大。本文提出的算法采用PCA基和Harr-like特征对目标进行二级表示,在光照和尺度干扰下较为稳健,在这两个序列中都获得了良好的跟踪结果。

3)运动模糊。图3(c)为不同算法在运动模糊情况(Boy和 Jumping)下的跟踪结果。当目标在快速运动或摄像机发生抖动时,捕获目标是一项很有挑战性的任务。在模糊干扰下,对位置的不精确估计会导致重构样本不精确,并进一步恶化样本空间的准确更新。可以看到,IVT、SCM和LSST在Boy序列的第498帧中都出现了丢失目标的现象,并再也没能重捕获到目标。在Jumping序列的第88帧中,SCM算法出现了漂移;第200帧的时候,KCF算法在目标快速运动的时候出现了丢失目标的现象。与这些追踪器相比,ASLA和本文的追踪器在运动模糊条件下的跟踪性能较优。

4)复杂背景。图3(d)为算法在复杂背景序列(Deer和Stone)下的跟踪结果。此外,这些序列还包括运动模糊和局部遮挡等干扰。当背景较为复杂时,样本空间容易更新较多的背景成分。在Stone序列中,目标周围背景极为复杂,包括IVT、DSST、L2-RLS、LSST和KCF在内的跟踪器在跟踪过程中都出现了丢失目标的情况。在Deer序列的第32帧中,目标在快速运动的同时受到相似背景的干扰,导致IVT算法和KCF算法出现了目标丢失的现象。相比以上几种跟踪器,SCM跟踪器性能表现良好。然而,SCM的稀疏解是不稳定的,当联合模型中任意一个模型出现退化时,会影响整个跟踪器的结果。总的来说,本文设计的跟踪器比其他跟踪器在复杂背景下的表现更好。

图 3. 不同算法的定性结果图

Fig. 3. Qualitative results of different algorithms

下载图片 查看所有图片

5.2 定量分析

采用平均中心误差和平均重叠率[9]两种评价标准来衡量不同算法的跟踪能力。重叠率较大和中心误差较小代表跟踪结果较优。重叠率定义为

δ=A(RtRg)A(RtRg),(18)

式中:Rt为跟踪器真实的跟踪结果;Rg为事先标记的参考结果;A表示区域重叠面积。中心偏差ERtRg中心坐标的距离误差,其定义为

E=(xt-xg)2+(yt-yg)2,(19)

式中:(xt,yt)为跟踪器跟踪结果的中心点坐标;(xg,yg)为标记结果的中心点坐标。

基准目标与结果的重叠率和中心偏差分别如表1表2所示。由定量数据可知,本文提出的方法在以下9组序列中具有较大的平均重叠率和较小的中心偏差,跟踪性能良好。

表 1. 基准目标与测量结果的重叠率

Table 1. Overlap rate between datum target and measuring result

AlgorithmIVTASLASCMLSSTDSSTL2-RLSKCFOurs
Occlusion20.730.700.820.830.600.780.800.83
DavidOutdoor0.520.460.380.640.130.750.740.74
Football0.580.680.610.650.700.680.680.79
DavidIndoor0.640.420.510.760.600.230.460.76
Overlaprate /%Singer10.470.820.840.600.700.240.580.86
Boy0.190.790.530.430.780.790.790.79
Jumping0.620.670.730.680.610.730.540.74
Stone0.120.510.620.530.100.370.350.60
Deer0.240.630.610.610.630.600.480.69
Average /%0.420.630.630.590.520.570.600.75
Speed /(frame·s-1)3290.5204101724

查看所有表

表 2. 基准目标与测量结果的中心偏差

Table 2. Center deviation between datum target and measuring result

AlgorithmIVTASLASCMLSSTDSSTL2-RLSKCFOurs
Occlusion27.86.94.44.511.95.55.13.4
DavidOutdoor52.486.567.148.2209.86.07.27.4
Football17.38.815.219.48.49.212.44.1
DavidIndoor4.932.417.73.811.94.223.13.4
Centerdeviation /pixelSinger111.93.83.310.812.872.824.22.7
Boy177.22.851.814.73.22.92.83.0
Jumping6.45.23.94.96.83.87.83.7
Stone115.13.72.622.356.625.729.33.1
Deer135.25.910.111.38.89.418.86.1
Average /pixel67.718.420.133.340.215.514.54.1
Speed /(frame·s-1)3290.5204101724

查看所有表

6 结论

针对LSST算法在干扰情况下会错误更新样本子空间的情况,提出一种组合Harr-like特征匹配检测的目标跟踪算法。该算法在LSST的基础上对每一帧最优目标的响应误差程度进行定量评估。当响应误差量级比较大时,采用Harr-like特征进行二级压缩重匹配,进一步确定当前帧最优的目标状态。同时为了减少匹配评估的样本量,采用一种定量的筛选方法去除无关样本。通过与多个算法在不同基准序列上的对比实验,可以看出本文提出的算法的跟踪结果较为稳健。在未来的工作中,将考虑把判别信息融入LSST的初始外观模型中,以获得更加有效的跟踪结果。

参考文献

[1] AdamA, RivlinE, ShimshoniI. Robust fragments-based tracking using the integral histogram[C]∥2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06), June 17-22, 2006, New York, NY, USA. New York: IEEE, 2006.

[2] Ross D A, Lim J, Lin R S, et al. Incremental learning for robust visual tracking[J]. International Journal of Computer Vision, 2008, 77(1/2/3): 125-141.

[3] 赵高鹏, 沈玉鹏, 王建宇. 基于核循环结构的自适应特征融合目标跟踪[J]. 光学学报, 2017, 37(8): 0815001.

    Zhao G P, Shen Y P, Wang J Y. Adaptive feature fusion object tracking based on circulant structure with kernel[J]. Acta Optica Sinica, 2017, 37(8): 0815001.

[4] 周海英, 杨阳, 王守义. 基于核相关滤波器的多目标跟踪算法[J]. 激光与光电子学进展, 2018, 55(9): 091502.

    Zhou H Y, Yang Y, Wang S Y. Multiple object tracking algorithm based on kernel correlation filter[J]. Laser & Optoelectronics Progress, 2018, 55(9): 091502.

[5] MeiX, Ling HB. Robust visual tracking using ℓ1 minimization[C]∥2009 IEEE 12th International Conference on Computer Vision, September 29-October 2, 2009, Kyoto, Japan. New York: IEEE, 2009: 1436- 1443.

[6] Liu BY, Huang JZ, YangL, et al. Robust tracking using local sparse appearance model and K-selection[C]∥CVPR 2011, June 20-25, 2011, Colorado Springs, CO, USA. New York: IEEE, 2011: 1313- 1320.

[7] ZhongW, Lu HC, Yang MH. Robust object tracking via sparsity-based collaborative model[C]∥2012 IEEE Conference on Computer Vision and Pattern Recognition, June 16-21, 2012, Providence, RI, USA. New York: IEEE, 2012: 1838- 1845.

[8] Zhuang B H, Lu H C, Xiao Z Y, et al. Visual tracking via discriminative sparse similarity map[J]. IEEE Transactions on Image Processing, 2014, 23(4): 1872-1881.

[9] Wang D, Lu H C, Yang M H. Robust visual tracking via least soft-threshold squares[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2016, 26(9): 1709-1721.

[10] Wu Z P, Yang J, Liu H B, et al. A real-time object tracking via L2-RLS and compressed Haar-like features matching[J]. Multimedia Tools and Applications, 2016, 75(15): 9427-9443.

[11] KalalZ, MatasJ, MikolajczykK. P-N learning: bootstrapping binary classifiers by structural constraints[C]∥2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, June 13-18, 2010, San Francisco, CA, USA. New York: IEEE, 2010: 49- 56.

[12] Prasanna D, Prabhakar M. An effiecient human tracking system using Haar-like and hog feature extraction[J]. Cluster Computing, 2019, 22(S2): 2993-3000.

[13] Zhang K H, Zhang L, Yang M H. Fast compressive tracking[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(10): 2002-2015.

[14] WuY, LimJ, Yang MH. Online object tracking: a benchmark[C]∥2013 IEEE Conference on Computer Vision and Pattern Recognition, June 23-28, 2013, Portland, OR, USA. New York: IEEE, 2013: 2411- 2418.

[15] Xiao ZY, Lu HC, WangD. Object tracking with L2-RLS[C]∥Proceedings of the 21st International Conference on Pattern Recognition (ICPR2012), November 11-15, 2012, Tsukuba, Japan. New York: IEEE, 2012: 1351- 1354.

[16] JiaX, Lu HC, Yang MH. Visual tracking via adaptive structural local sparse appearance model[C]∥2012 IEEE Conference on Computer Vision and Pattern Recognition, June 16-21, 2012, Providence, RI, USA. New York: IEEE, 2012: 1822- 1829.

[17] Henriques J F, Caseiro R, Martins P, et al. High-speed tracking with kernelized correlation filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583-596.

孙凯传, 柳晨华, 姚光顺, 杨大伟. 联合最小软阈值二乘和Haar-like特征匹配的视觉跟踪[J]. 激光与光电子学进展, 2019, 56(24): 241001. Kaichuan Sun, Chenhua Liu, Guangshun Yao, Dawei Yang. Visual Tracking Combined Least Soft-Threshold Squares with Haar-like Feature Matching[J]. Laser & Optoelectronics Progress, 2019, 56(24): 241001.

本文已被 2 篇论文引用
被引统计数据来源于中国光学期刊网
引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!