基于孪生网络的目标跟踪算法
1 引言
目标跟踪是计算机视觉领域中被广泛研究的问题之一,由于其会受到跟踪背景多变、复杂环境以及物体形变等因素的干扰,目前仍然具有很大的挑战性[1]。目标跟踪可分为特征提取及匹配判断、确定帧间位置关系和模板更新3个部分[2],其是指在仅给出目标在初始帧中位置的情况下,能在后续过程中估计出目标所在视频序列中的任意位置[3]。目标跟踪常应用于多种领域,如无人驾驶[4]、机器人[5]、人机交互[6]、视频编辑[7]、视频监控[8]、增强现实[9]等。随着最近相关滤波器和深度学习的加入,目标跟踪器的性能得到大幅提高,使得目标跟踪在实践中的应用越来越广泛[10]。但目标追踪仍需克服姿势变化、运动、变形、遮挡、尺度变化和背景杂波等诸多因素带来的挑战[11]。
近年来,由于卷积神经网络(CNN)在各种视觉问题中显现出强大的性能,出现了大量基于CNN的目标跟踪器[12]。大多数目标跟踪提取目标特征使用的方法都是在离线的条件下进行的,导致事先不知道所要跟踪的目标对象,从而网络就需要在线训练这些任务,这极大地影响了跟踪的速度和精度[13]。基于孪生网络的跟踪算法由于在平衡精度和速度方面展现出的优势而受到了极大的关注,其在最近几年的VOT比赛中也获得了不俗的成绩。本文梳理了近几年的孪生网络实例搜索算法(SINT),首次将孪生网络[14]嵌入到目标跟踪算法中,开创性地提出了孪生网络实例搜索跟踪器来解决目标跟踪问题。其跟踪目标的方法是:首先将跟踪模型分成两个相同的分支,并分别输入到初始框和候选框中。然后将第一帧中的初始目标与新帧中的候选目标相匹配,利用学习匹配函数返回相差最小的目标。最后通过神经网络完成跟踪[15]。但是由于SINT取样边界框过多和采用回归等改善结果的方式使得该跟踪器实时性很差[16]。为此,Bertinetto等人提出了一个完全卷积孪生神经网络目标跟踪算法(SiamFC),基本思想是利用相同的深度卷积神经网络从目标图像块和搜索区域中提取特征,然后将两个特征图互相关联之后生成响应图,其中响应最强烈的位置就是所跟踪的目标对象在搜索区域中的位置。深度卷积经过预先训练后在神经网络跟踪过程中保持稳定,使SiamFC实现了在目标跟踪时的实时跟踪功能[16]。
虽然基于孪生网络的跟踪算法相比于传统的目标跟踪算法在速度和精度上都有所提升,但是其受到遮挡、形变等干扰因素影响较大。为此,国内外学者基于孪生网络提出了许多方法进行改进以解决此类问题。本文从3个方面对基于孪生网络的目标跟踪进行总结,分别是基于全卷积孪生神经网络的目标跟踪、基于引入回归孪生网络的目标跟踪、基于在线更新孪生网络的目标跟踪,最后讨论了孪生网络现有不足并且对未来发展趋势进行了展望。
2 基于全卷积孪生神经网络的目标跟踪
SiamFC只将开头标记的第一帧用做模板,由此产生的目标变形、目标遮挡和光线变化等诸多问题会给跟踪带来困难[17],对性能也产生了极大影响,如
图 1. 视觉目标跟踪在复杂外观变化下的效果呈现。(a)环境光照变化;(b)相机快速运动;(c)完全遮挡;(d)噪声干扰;(e)非刚性形状变形;(f)平面外对象旋转和姿势。这些因素引起的对象外观变化可能会导致跟踪性能下降甚至失败[5]。
Fig. 1. Effects of visual object tracking under complex appearance changes.(a)Ambient lighting changes;(b)Fast camera motion;(c)Complete occlusion;(d)Noise interference;(e)Non-rigid shape deformation;(f)Plane outer object rotation and pose. Changes in the appearance of objects caused by these factors can cause tracking performance to degrade or even fail[5].
表 1. 基于全卷积孪生网络算法对比
Table 1. Comparison based on full-convolutional Siamese network algorithms
|
SiamFC能够充分利用离线训练数据,使其自身具有很高的判别力,
目标跟踪可以利用离线训练平衡目标跟踪的精度和速度,但是离线训练模型和跟踪时的特定目标有时候无法充分适应[22]。在SiamFC的基础上提出的新深度架构残差注意力孪生网络(RASNet)能够使离线训练模型与在线目标跟踪相适应,RASNet从回归的角度重新制定了孪生网络跟踪,而且探索了一般注意力机制、残差注意力机制和通道注意力机制3种注意力机制[22]。自适应的深度特征级联跟踪方法(EAST)采用类似方法解决了离线训练的深度模型不能适应在线跟踪目标的问题[23]。现有基于卷积神经网络的方法大多从全局视角描述目标外观,忽略了所跟踪物体的局部结构对于跟踪鲁棒性的影响。为此,DensSiam跟踪器加入了注意力模块,其在目标对象出现遮挡和外观变化时通过减少共享网络中的参数数量解决问题使目标跟踪的精度和鲁棒性得到提高[24]。基于局部结构的孪生网络(StructSiam)同时执行判别模式检测、局部结构学习和集成[25],克服了在跟踪对象时出现的外观变化、旋转、部分遮挡等挑战。
基于全卷积孪生神经网络的目标跟踪算法相比于SiamFC在性能上均有很大的改进。
3 基于引入回归孪生神经网络的目标跟踪
SiamFC已经使用了多种尺度与目标变化相适应的方法进行目标跟踪。最近有学者开始将目标检测领域尺度变化的解决方法与孪生网络相结合,从而弥补SiamFC在性能方面的欠缺[26],其中GOTURN方法的特征提取器采用了孪生网络,使用全连接层作为融合张量,通过使用最后一帧的预测边界框作为建议来提高性能[27]。最具代表性的是将孪生网络与区域建议网络(RPN)相结合来预测目标位置的跟踪算法SiamRPN[28],其网络结构见
虽然SiamRPN通过将孪生网络与区域建议网络(RPN)相结合来执行准确有效的目标状态估计,然而预定义的锚设置不仅引入了模糊的相似性评分,还严重降低了鲁棒性[33]。基于全卷积连体跟踪器的SiamFC++方法利用基于锚或无锚的机制进行边界框估计,在定位精度方面有极大的提升[36]。由于在区域提议引入了锚点,超参数调整的专业性对于能否跟踪成功就变得至关重要。孪生分类和回归框架SiamCAR通过端到端方式训练深度 Siamese 网络,使用完全卷积框架以逐像素的方式解决跟踪问题,避免了复杂的锚定超参数调整,从而减少了人为干预,提高了泛化能力[37]。通过直接在全卷积网络FCN[38]中分类目标并对边界框进行回归的SiamBAN避免了相关超参数的调整,其因为无先验框的设计避免了与候选框相关的超参数交互,从而使SiamBAN更加灵活和通用。无先验框设计将复杂的超参数问题转化为分类回归问题,从而提高了性能[39]。
表 2. 基于引入回归孪生网络的算法对比
Table 2. Comparison of algorithms based on the introduction of regression Siamese networks
|
为了揭示孪生网络可以利用深层神经网络提取目标对象的深度特征,SiamDW将深层神经网络引入孪生框架[40],而后利用端到端训练深层孪生网络的目标跟踪算法SiamRPN++提出了互相关操作,通过逐层特征加重结构和设计深度可分离结构减少了目标模板分支中存在的参数数量,获得了显著的性能提升,网络结构如
4 基于在线更新孪生神经网络的目标跟踪
许多最新方法都是通过大量离线学习整合先前知识的形式进行目标跟踪。SiamRPN及在其基础上改进的算法经过广泛的离线训练已能够进行边界框回归,但是在目标分类问题上目标跟踪还存在一些挑战。为此,基于在多域学习框架中训练CNN的新型跟踪算法(MDNet)将目标跟踪看作是一种分类问题,通过学习一个离线深度特征提取器,然后添加一些可被学习的全连接层对分类器在线更新[45],在新序列的背景下在线更新预先训练好的CNN,目的是使特定领域的信息可以实现自适应学习[46]。在此之后,新型实时目标跟踪算法(RT-MDNet)被提出,通过改进的ROIALLIGN技术加速特征提取过程,从而解决目标形变、背景遮挡等因素带来的性能下降问题[47]。
大多数基于孪生网络的跟踪算法没有进行在线学习,所以一部分学者开始使用模板更新技术来弥补类似干扰因素带来的影响[47]。DSiam是具有快速转换学习模型的动态孪生网络,实现了有效的模板更新和杂乱背景抑制[48]。CFNet通过在模板分支结构中嵌入可以调节的相关过滤层架构对过滤器和模板进行在线更新[18]。SiamAttn通过新的孪生注意机制计算可变形注意力,提供一种隐式方式来自适应地更新目标模板,网络结构如
虽然模板更新技术解决了部分在线学习问题,但它还未拥有强大的在线学习模型的能力。为此,有学者开始利用广泛的离线训练对目标进行在线跟踪。ATOM通过在线学习判别分类器的方式来准确区分跟踪对象与其所处背景,有效地利用背景信息增强了鲁棒性,网络结构见
表 3. 基于在线更新孪生网络算法对比
Table 3. Comparison of Siamese network algorithms based on online updates
|
基于在线更新孪生神经网络的目标跟踪算法在一定程度上改变了孪生网络目标跟踪的格局,使其可以在进行目标跟踪的同时进行更新。
5 实验结果对比与分析
将基于全卷积孪生神经网络的目标跟踪、基于引入回归孪生网络的目标跟踪和基于在线更新孪生网络的目标跟踪3种方法中排名靠前的几种算法与其他表现较好的目标跟踪算法进行测试,算法包括SiamFC、StructSiam、DSiam、DaSiamRPN、MDNet、UpdatNet、VITAL、SINT、STRCF和ECO。测试工具使用的是最近反响很好的LaSOT数据集,其测试子集由280个序列构成,包含69万帧。LaSOT数据集使用成功图和归一化精度图来评估跟踪器。
对11种不同的基于孪生网络目标跟踪算法的性能进行对比分析,实验和用作分析的数据均来自官网或者文献提供的结果。
图 7. 3种方法中代表算法在LaSOT数据集上的比较。较大的值表示更好的性能。
Fig. 7. Comparison of the represent algorithms of the three methods on the LaSOT dataset. The larger values indicate better performance.
表 4. 3种孪生网络方法代表算法对比
Table 4. Three Siamese network methods represent algorithmic comparisons
|
6 结论与展望
目标跟踪领域随着深度学习的加入使跟踪目标时的速度和精度有了大幅提高,卷积神经网络在其中的应用也使目标跟踪的性能有了显著提升。基于孪生网络的目标跟踪由于其对速度与精度出色的平衡性而被越来越多的学者关注并应用。本文介绍了基于孪生网络的目标跟踪在国内外的研究进展,根据孪生网络在目标跟踪中应用的特点,将其分为3个方面,即基于全卷积孪生神经网络的单目标跟踪、基于引入回归孪生网络的单目标跟踪、基于在线更新孪生网络的单目标跟踪。基于孪生网络的目标跟踪平衡了速度与精度,展现了优异的性能。
在总结目标跟踪文献后提出3种未来研究方向:(1)孪生网络只是预测了目标特征模板,而在实际目标跟踪过程中忽略了背景外观信息。因为孪生网络在预测模型时对目标背景识别的能力有限,所以在目标模型预测时充分利用目标和背景外观信息是未来需侧重的研究方向之一。(2)孪生网络对于物体和成像在时间变化方面的完成效果依旧不太理想,如何有效地进行有目标外观变化的在线学习和背景抑制是一个重要的待解决问题。(3)孪生网络虽然最近发展十分迅速,但是卷积计算量也随之大量增加,导致其在跟踪方面的实时性和速度受到了一些影响。如何在保证实时性和速度的前提下减少计算量也是未来需要研究的方向之一。
[1] 陈云芳, 吴懿, 张伟. 基于孪生网络结构的目标跟踪算法综述[J]. 计算机工程与应用, 2020, 56(6): 10-18.
[2] 陈旭, 孟朝晖. 基于深度学习的目标视频跟踪算法综述[J]. 计算机系统应用, 2019, 28(1): 1-9.
CHEN X, MENG Z H. Survey on video object tracking algorithms based on deep learning[J]. Computer Systems & Applications, 2019, 28(1): 1-9.
[6] LIUL W, XINGJ L, AIH Z, et al. Hand posture recognition using finger geometric feature[C]// Proceedings of the 21st International Conference on Pattern Recognition. Tsukuba: IEEE, 2012: 565-568.
[12] 孙运达, 万雪, 李盛阳. 基于孪生网络的航天器部件追踪[J]. 光学 精密工程, 2021, 29(12): 2915-2923.
[26] 张长弓, 杨海涛, 王晋宇, 等. 基于深度学习的视觉单目标跟踪综述[J]. 计算机应用研究, 2021, 38(10): 2888-2895.
ZHANG C G, YANG H T, WANG J Y, et al. Survey on visual single object tracking based on deep learning[J]. Application Research of Computers, 2021, 38(10): 2888-2895.
[35] KRIZHEVSKYA, SUTSKEVERI, HINTONG E. ImageNet classification with deep convolutional neural networks[C]// Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe: Curran Associates Inc., 2012: 1097-1105.
[44] ANDREWG H, MENGLONGZ, BOC, et al. MobileNets: efficient convolutional neural networks for mobile vision applications[C]// Proceedings of 2017 Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017.
苗宗成, 高世严, 贺泽民, 欧渊. 基于孪生网络的目标跟踪算法[J]. 液晶与显示, 2023, 38(2): 256. Zong-cheng MIAO, Shi-yan GAO, Ze-min HE, Yuan OU. Single-objective tracking algorithm based on Siamese networks[J]. Chinese Journal of Liquid Crystals and Displays, 2023, 38(2): 256.