基于孪生网络的目标跟踪算法

在计算机视觉应用中，基于孪生网络的跟踪算法相比于传统的目标跟踪算法在速度和精度上都有所提升，但是其受到遮挡、形变等干扰因素影响较大。基于此，本文对现有基于孪生网络的目标跟踪方法和技术所作的改进进行了总结分析，主要包括在孪生网络中引入全卷积孪生神经网络方法、引入回归方法和在线更新方法，对基于3种方法的目标跟踪算法的改进进行了综述，并详细介绍了近年来孪生网络在目标跟踪应用中的国内外研究进展和发展现状。同时，采用 VOT2017和LaSOT数据集进行了实验对比，比较了多种基于孪生神经网络跟踪算法的性能。最后，对基于孪生网络的目标跟踪方法的发展趋势进行了展望。

Abstract

In the computer vision applications, the tracking algorithms based on the Siamese networks have improved in speed and accuracy compared with the traditional target tracking algorithms, but they are greatly affected by interference factors such as occlusion and deformation. Based on these, the existing target tracking methods and technologies based on Siamese networks are summarized and analyzed, they mainly include the introduction of fully convolutional Siamese neural network method, regression method and online update method in Siamese networks, and the improvements of the target tracking algorithms based on three methods are reviewed. The research progress and development status of Siamese networks in target tracking applications in recent years are introduced in detail. Then, the VOT2017 and LaSOT datasets are used for experimental comparison, and the performances of various tracking algorithms based on Siamese neural networks are compared. At the end, the development trend of the target tracking methods based on Siamese neural networks is prospected.

1　引言

目标跟踪是计算机视觉领域中被广泛研究的问题之一，由于其会受到跟踪背景多变、复杂环境以及物体形变等因素的干扰，目前仍然具有很大的挑战性^［1］。目标跟踪可分为特征提取及匹配判断、确定帧间位置关系和模板更新3个部分^［2］，其是指在仅给出目标在初始帧中位置的情况下，能在后续过程中估计出目标所在视频序列中的任意位置^［3］。目标跟踪常应用于多种领域，如无人驾驶^［4］、机器人^［5］、人机交互^［6］、视频编辑^［7］、视频监控^［8］、增强现实^［9］等。随着最近相关滤波器和深度学习的加入，目标跟踪器的性能得到大幅提高，使得目标跟踪在实践中的应用越来越广泛^［10］。但目标追踪仍需克服姿势变化、运动、变形、遮挡、尺度变化和背景杂波等诸多因素带来的挑战^［11］。

近年来，由于卷积神经网络（CNN）在各种视觉问题中显现出强大的性能，出现了大量基于CNN的目标跟踪器^［12］。大多数目标跟踪提取目标特征使用的方法都是在离线的条件下进行的，导致事先不知道所要跟踪的目标对象，从而网络就需要在线训练这些任务，这极大地影响了跟踪的速度和精度^［13］。基于孪生网络的跟踪算法由于在平衡精度和速度方面展现出的优势而受到了极大的关注，其在最近几年的VOT比赛中也获得了不俗的成绩。本文梳理了近几年的孪生网络实例搜索算法（SINT），首次将孪生网络^［14］嵌入到目标跟踪算法中，开创性地提出了孪生网络实例搜索跟踪器来解决目标跟踪问题。其跟踪目标的方法是：首先将跟踪模型分成两个相同的分支，并分别输入到初始框和候选框中。然后将第一帧中的初始目标与新帧中的候选目标相匹配，利用学习匹配函数返回相差最小的目标。最后通过神经网络完成跟踪^［15］。但是由于SINT取样边界框过多和采用回归等改善结果的方式使得该跟踪器实时性很差^［16］。为此，Bertinetto等人提出了一个完全卷积孪生神经网络目标跟踪算法（SiamFC），基本思想是利用相同的深度卷积神经网络从目标图像块和搜索区域中提取特征，然后将两个特征图互相关联之后生成响应图，其中响应最强烈的位置就是所跟踪的目标对象在搜索区域中的位置。深度卷积经过预先训练后在神经网络跟踪过程中保持稳定，使SiamFC实现了在目标跟踪时的实时跟踪功能^［16］。

虽然基于孪生网络的跟踪算法相比于传统的目标跟踪算法在速度和精度上都有所提升，但是其受到遮挡、形变等干扰因素影响较大。为此，国内外学者基于孪生网络提出了许多方法进行改进以解决此类问题。本文从3个方面对基于孪生网络的目标跟踪进行总结，分别是基于全卷积孪生神经网络的目标跟踪、基于引入回归孪生网络的目标跟踪、基于在线更新孪生网络的目标跟踪，最后讨论了孪生网络现有不足并且对未来发展趋势进行了展望。

2　基于全卷积孪生神经网络的目标跟踪

SiamFC只将开头标记的第一帧用做模板，由此产生的目标变形、目标遮挡和光线变化等诸多问题会给跟踪带来困难^［17］，对性能也产生了极大影响，如图1所示。为此，将相关滤波器与孪生神经网络结合的不对称跟踪算法（CFNet）被研究出来，其在完全发挥相关滤波器自身优点的同时将卷积神经网络应用于目标跟踪，使其在浅层网络的运行速度更快^［18］。为了获得更强大的目标特征，SiamFC融合了深度网络，但其没有仔细考虑输入样本之间的关系，对此，通过将三重丢失（Triplet loss）方法加入到孪生网络框架中来代替训练中的两两丢失，从而提取更加具有表现力的深度特征。该方法使性能提高而且不会降低跟踪器速度^［19］。

图 1. 视觉目标跟踪在复杂外观变化下的效果呈现。（a）环境光照变化；（b）相机快速运动；（c）完全遮挡；（d）噪声干扰；（e）非刚性形状变形；（f）平面外对象旋转和姿势。这些因素引起的对象外观变化可能会导致跟踪性能下降甚至失败^［5］。

Fig. 1. Effects of visual object tracking under complex appearance changes.（a）Ambient lighting changes；（b）Fast camera motion；（c）Complete occlusion；（d）Noise interference；（e）Non-rigid shape deformation；（f）Plane outer object rotation and pose. Changes in the appearance of objects caused by these factors can cause tracking performance to degrade or even fail^［5］.

下载图片查看所有图片

表 1. 基于全卷积孪生网络算法对比

Table 1. Comparison based on full-convolutional Siamese network algorithms

跟踪器	准确性	鲁棒性	EAO
SiamFC	0.50	0.59	0.19
SA-Siam	0.50	0.46	0.24
CFNet	0.43	0.48	0.10
SiamBM	0.57	0.48	0.32
DensSiam	0.54	0.35	0.25
StructSiam	0.53	0.38	0.26
Triloss	0.50	0.54	0.21

查看所有表

SiamFC能够充分利用离线训练数据，使其自身具有很高的判别力，图2为SiamFC网络结构。当追踪对象受到遮挡或者产生形变的情况下，SiamFC泛化能力会下降从而影响性能。为此，由语义分支和外观分支组成的双重孪生网络跟踪器（SA-Siam）通过设计两个不同分支在不同的网络层次使用特征，二者经过联合训练从而避免同质化。受益于两者的异质性，该跟踪器采取的双重设计为跟踪性能带来了显著提升^［17］。具有多分支、可以在线选择的孪生网络跟踪器（MBST）可以根据其自身的辨别能力动态选择分支。当追踪对象发生形变等情况时，选择效果最好和适合度最高的分支，通过对多个孪生网络集成以使目标特征表示多样化^［20］。SA-Siam和MBST在SiamFC的基础上将泛化能力进一步提升，获得了突出的性能。同时，SiamBM跟踪器能够解决SiamFC不能正确处理大物体的旋转与背景包含目标时跟踪乏力等问题，在SA-Siam的基础上做了改进，加入不同机制实现对追踪对象的位置、尺度与角度进行预测，跟踪性能提升明显^［21］。

图 2. SiamFC的网络结构^［16］

Fig. 2. Network structure of SiamFC^［16］

下载图片查看所有图片

目标跟踪可以利用离线训练平衡目标跟踪的精度和速度，但是离线训练模型和跟踪时的特定目标有时候无法充分适应^［22］。在SiamFC的基础上提出的新深度架构残差注意力孪生网络（RASNet）能够使离线训练模型与在线目标跟踪相适应，RASNet从回归的角度重新制定了孪生网络跟踪，而且探索了一般注意力机制、残差注意力机制和通道注意力机制3种注意力机制^［22］。自适应的深度特征级联跟踪方法（EAST）采用类似方法解决了离线训练的深度模型不能适应在线跟踪目标的问题^［23］。现有基于卷积神经网络的方法大多从全局视角描述目标外观，忽略了所跟踪物体的局部结构对于跟踪鲁棒性的影响。为此，DensSiam跟踪器加入了注意力模块，其在目标对象出现遮挡和外观变化时通过减少共享网络中的参数数量解决问题使目标跟踪的精度和鲁棒性得到提高^［24］。基于局部结构的孪生网络（StructSiam）同时执行判别模式检测、局部结构学习和集成^［25］，克服了在跟踪对象时出现的外观变化、旋转、部分遮挡等挑战。

基于全卷积孪生神经网络的目标跟踪算法相比于SiamFC在性能上均有很大的改进。表1是各算法在数据集VOT2017上的具体表现。VOT2017数据集是公正的评价工具。从表1可见，在基于SiamFC所做的孪生网络算改进中，除了CFNet以精度的损失换取了速度的提升，使预期平均重叠率（EVO）有所下降，其他的改进算法在EVO方面的表现均优于SiamFC。

3　基于引入回归孪生神经网络的目标跟踪

SiamFC已经使用了多种尺度与目标变化相适应的方法进行目标跟踪。最近有学者开始将目标检测领域尺度变化的解决方法与孪生网络相结合，从而弥补SiamFC在性能方面的欠缺^［26］，其中GOTURN方法的特征提取器采用了孪生网络，使用全连接层作为融合张量，通过使用最后一帧的预测边界框作为建议来提高性能^［27］。最具代表性的是将孪生网络与区域建议网络（RPN）相结合来预测目标位置的跟踪算法SiamRPN^［28］，其网络结构见图3。整个SiamRPN结构由孪生网络和具有分类分支和回归分支的RPN组成。在跟踪阶段，模型被进行端到端的训练并且包含该对象的边界框信息被直接回归^［29］。由于SiamRPN在模型识别方面仍有相对较低的泛化能力，难以处理与目标对象外观相似的干扰物，串并联匹配框架（SPM-Tracker）通过将专注于增强鲁棒性的粗匹配阶段和专注于提高辨别能力的精细匹配阶段进行串并联结构融合来提升性能^［30］。而后DaSiamRPN方法进一步引入了分心器感知模块，利用更多的负样本来改进SiamRPN跟踪器，增强了模型辨别力，获得了鲁棒性更高的跟踪结果^［31］。为了应对SiamRPN在物体大尺度形变和干扰物会引起性能下降的问题，在SiamRPN的基础上引入的一种新的孪生级联网络跟踪架构（C-RPN）^［32］采用多个回归步骤使定位更加精准。Ocean则通过以强大的ResNet-50代替AlexNet作为主干增强了特征表示能力，有效地改善了物体形变和遮挡因素造成的性能下降问题，并且获得了更佳的跟踪精度^［33-35］。

图 3. SiamRPN的网络结构^［29］

Fig. 3. Network structure of SiamRPN^［29］

下载图片查看所有图片

虽然SiamRPN通过将孪生网络与区域建议网络（RPN）相结合来执行准确有效的目标状态估计，然而预定义的锚设置不仅引入了模糊的相似性评分，还严重降低了鲁棒性^［33］。基于全卷积连体跟踪器的SiamFC++方法利用基于锚或无锚的机制进行边界框估计，在定位精度方面有极大的提升^［36］。由于在区域提议引入了锚点，超参数调整的专业性对于能否跟踪成功就变得至关重要。孪生分类和回归框架SiamCAR通过端到端方式训练深度 Siamese 网络，使用完全卷积框架以逐像素的方式解决跟踪问题，避免了复杂的锚定超参数调整，从而减少了人为干预，提高了泛化能力^［37］。通过直接在全卷积网络FCN^［38］中分类目标并对边界框进行回归的SiamBAN避免了相关超参数的调整，其因为无先验框的设计避免了与候选框相关的超参数交互，从而使SiamBAN更加灵活和通用。无先验框设计将复杂的超参数问题转化为分类回归问题，从而提高了性能^［39］。

表 2. 基于引入回归孪生网络的算法对比

Table 2. Comparison of algorithms based on the introduction of regression Siamese networks

追踪器	准确性	鲁棒性	EAO
SiamRPN	0.49	0.46	0.24
GOTURN	0.51	0.20	0.21
SPM-Tracker	0.58	0.30	0.34
DaSiamRPN	0.56	0.34	0.33
C-RPN	0.55	0.32	0.29
Ocean	0.60	0.17	0.47
SiamFC++	0.46	0.18	0.40
SiamCAR	0.48	0.20	0.41
SiamBAN	0.57	0.13	0.45
SiamDW	0.52	0.41	0.30
SiamRPN++	0.60	0.23	0.42
SiamMask	0.59	0.46	0.29

查看所有表

为了揭示孪生网络可以利用深层神经网络提取目标对象的深度特征，SiamDW将深层神经网络引入孪生框架^［40］，而后利用端到端训练深层孪生网络的目标跟踪算法SiamRPN++提出了互相关操作，通过逐层特征加重结构和设计深度可分离结构减少了目标模板分支中存在的参数数量，获得了显著的性能提升，网络结构如图4所示^［41］。SiamMask能实时执行视觉对象跟踪和半监督视频对象分割，并且将实例分割整合到跟踪中，展现出了比其他先进跟踪器准确性更高的特点^［42］。SiamRPN++、SiamMask和SiamDW以不同的方式消除了填充等影响因素，并将深层神经网络如ResNeXt^［43］、ResNet^［34］和MobileNet^［44］等引入到基于孪生网络的视觉跟踪器中，进一步提高了目标跟踪精度，表现出了突出的跟踪性能。

图 4. SiamRPN++的网络结构^［41］

Fig. 4. Network structure of SiamRPN++^［41］

下载图片查看所有图片

表2是基于引入回归孪生神经网络的目标跟踪算法在VOT2017数据集上的表现对比。SiamRPN的速度与精度比之前的算法有了很大的提升，速度为160 fps。DaSiamRPN速度为160 fps，与SiamRPN保持一致，但是EAO明显高于SiamRPN。SPM-Tracker在GPU上的速度为120 fps。SiamCAR在追踪精度和速度上都有明显提高，速度达到了170 fps。SiamRPN作为首个将区域建议网络引入的孪生网络跟踪算法，虽然展现出了不错的跟踪性能，但在其之后提出的基于回归的跟踪算法展现出了更加强大的性能，具体表现在准确性、鲁棒性和预期平均重叠率均有提升。

4　基于在线更新孪生神经网络的目标跟踪

许多最新方法都是通过大量离线学习整合先前知识的形式进行目标跟踪。SiamRPN及在其基础上改进的算法经过广泛的离线训练已能够进行边界框回归，但是在目标分类问题上目标跟踪还存在一些挑战。为此，基于在多域学习框架中训练CNN的新型跟踪算法（MDNet）将目标跟踪看作是一种分类问题，通过学习一个离线深度特征提取器，然后添加一些可被学习的全连接层对分类器在线更新^［45］，在新序列的背景下在线更新预先训练好的CNN，目的是使特定领域的信息可以实现自适应学习^［46］。在此之后，新型实时目标跟踪算法（RT-MDNet）被提出，通过改进的ROIALLIGN技术加速特征提取过程，从而解决目标形变、背景遮挡等因素带来的性能下降问题^［47］。

大多数基于孪生网络的跟踪算法没有进行在线学习，所以一部分学者开始使用模板更新技术来弥补类似干扰因素带来的影响^［47］。DSiam是具有快速转换学习模型的动态孪生网络，实现了有效的模板更新和杂乱背景抑制^［48］。CFNet通过在模板分支结构中嵌入可以调节的相关过滤层架构对过滤器和模板进行在线更新^［18］。SiamAttn通过新的孪生注意机制计算可变形注意力，提供一种隐式方式来自适应地更新目标模板，网络结构如图5所示^［48］。通过将卷积神经网络集成到现有的孪生跟踪器中的UpdateNet显著提高了跟踪器在标准线性更新方面的性能^［49］。

图 5. SiamAttn的网络结构^［48］

Fig. 5. Network structure of SiamAttn^［48］

下载图片查看所有图片

虽然模板更新技术解决了部分在线学习问题，但它还未拥有强大的在线学习模型的能力。为此，有学者开始利用广泛的离线训练对目标进行在线跟踪。ATOM通过在线学习判别分类器的方式来准确区分跟踪对象与其所处背景，有效地利用背景信息增强了鲁棒性，网络结构见图6^［50］。跟踪模型ROAM由可调整大小的响应生成器和边界框回归器组成，基于元学习设计了递归神经优化器以训练跟踪和更新模型^［51］。此外，DIMP^［52］和PrDIMP^［53］将在线更新与连体结构相结合，通过对目标特征和背景外观信息的充分利用来进行目标模型预测，解决了之前泛化能力和鲁棒性较差的限制，展现出强大的性能。

表 3. 基于在线更新孪生网络算法对比

Table 3. Comparison of Siamese network algorithms based on online updates

追踪器	准确性	鲁棒性	EAO
MDNet	0.54	0.23	0.26
RT-MDNet	0.54	0.34	0.27
DSiam	0.54	0.28	0.28
SiamAttn	0.68	0.14	0.54
UpdateNet	0.61	0.21	0.48
ATOM	0.59	0.20	0.40
ROAM	0.50	0.23	0.33
DIMP	0.60	0.15	0.44
PrDIMP	0.62	0.17	0.44

查看所有表

图 6. ATOM的网络结构^［50］

Fig. 6. Network structure of ATOM ^［50］

下载图片查看所有图片

基于在线更新孪生神经网络的目标跟踪算法在一定程度上改变了孪生网络目标跟踪的格局，使其可以在进行目标跟踪的同时进行更新。表3为目标在线更新跟踪算法在VOT2017数据集测试下的性能对比。

5　实验结果对比与分析

将基于全卷积孪生神经网络的目标跟踪、基于引入回归孪生网络的目标跟踪和基于在线更新孪生网络的目标跟踪3种方法中排名靠前的几种算法与其他表现较好的目标跟踪算法进行测试，算法包括SiamFC、StructSiam、DSiam、DaSiamRPN、MDNet、UpdatNet、VITAL、SINT、STRCF和ECO。测试工具使用的是最近反响很好的LaSOT数据集，其测试子集由280个序列构成，包含69万帧。LaSOT数据集使用成功图和归一化精度图来评估跟踪器。

对11种不同的基于孪生网络目标跟踪算法的性能进行对比分析，实验和用作分析的数据均来自官网或者文献提供的结果。图7给出了各个目标跟踪算法的性能评估。从图7可以看出，通过UpdateNet增强的DaSiamRPN 的更新能力在所有指标上的性能均有显著提升，引入回归方法中的DaSiamRPN对比全卷积神经网络方法中的Structsiam以0.121的差距领先，虽然二者也表现出不俗的性能，但是在线更新方法在性能提升上的表现更加优秀，进一步证明了基于孪生网络的在线更新方法在目标跟踪方面的优势。未来孪生网络目标跟踪的趋势也势必是将其与在线更新机制相结合。表4分别对3种基于孪生网络的目标跟踪算法中的代表算法进行了总结归纳。可以看出，基于孪生网络的目标跟踪算法在与时俱进，性能也随之提高。

图 7. 3种方法中代表算法在LaSOT数据集上的比较。较大的值表示更好的性能。

Fig. 7. Comparison of the represent algorithms of the three methods on the LaSOT dataset. The larger values indicate better performance.

下载图片查看所有图片

表 4. 3种孪生网络方法代表算法对比

Table 4. Three Siamese network methods represent algorithmic comparisons

代表算法	工作机制与优缺点	作用场景
SiamFC	在孪生网络用相似性学习问题替换目标跟踪过程。优点是速度在实时性方面大幅度提高，对速度和精度有很好的平衡；缺点是目标出现遮挡、形变等情况时跟踪性能下降，且缺乏尺度估计。
StructSiam	使用局部结构模式，把相似性学习问题替换为局部特征块学习问题。优点是在实时运行时跟踪精度和速度方面均优于SiamFC。	基于全卷积神经孪生网络的目标跟踪算法与基于引入回归的目标跟踪算法二者在目标跟踪时都不需要对模板进行更新，可以进行稳定持久的跟踪，但是性能容易受到形变、背景变化等外界因素影响。
SiamRPN	在孪生网络中引入区域建议模块，利用回归等两个分支进行目标追踪。优点是通过边界框回归和区域建议网络进行目标尺度预测，从而提高性能。缺点是在模型识别方面仍有相对较低的泛化能力，难以处理与目标对象外观相似的干扰物。
DaSiamRPN	设计干扰器感知模块，引入一种简单局部到全局搜索策略进行目标跟踪。优点是利用干扰感知特征学习方案显著提高了网络的判别能力，缺点是缺乏足够强大的判别能力。
UpdateNet	设计了UpdateNet神经网络，其可以集成到所有Siamese跟踪器中。优点是提出的更新方法显著提高了跟踪器在标准线性更新（或根本不更新）方面的性能，缺点是更新时产生误差并且会逐渐积累。	基于在线更新的目标跟踪算法可以随时对跟踪过程中出现的目标形变，背景变化等外界因素做出反应，但是误差会随之累积。

查看所有表

6　结论与展望

目标跟踪领域随着深度学习的加入使跟踪目标时的速度和精度有了大幅提高，卷积神经网络在其中的应用也使目标跟踪的性能有了显著提升。基于孪生网络的目标跟踪由于其对速度与精度出色的平衡性而被越来越多的学者关注并应用。本文介绍了基于孪生网络的目标跟踪在国内外的研究进展，根据孪生网络在目标跟踪中应用的特点，将其分为3个方面，即基于全卷积孪生神经网络的单目标跟踪、基于引入回归孪生网络的单目标跟踪、基于在线更新孪生网络的单目标跟踪。基于孪生网络的目标跟踪平衡了速度与精度，展现了优异的性能。

在总结目标跟踪文献后提出3种未来研究方向：（1）孪生网络只是预测了目标特征模板，而在实际目标跟踪过程中忽略了背景外观信息。因为孪生网络在预测模型时对目标背景识别的能力有限，所以在目标模型预测时充分利用目标和背景外观信息是未来需侧重的研究方向之一。（2）孪生网络对于物体和成像在时间变化方面的完成效果依旧不太理想，如何有效地进行有目标外观变化的在线学习和背景抑制是一个重要的待解决问题。（3）孪生网络虽然最近发展十分迅速，但是卷积计算量也随之大量增加，导致其在跟踪方面的实时性和速度受到了一些影响。如何在保证实时性和速度的前提下减少计算量也是未来需要研究的方向之一。

参考文献

[1] 陈云芳, 吴懿, 张伟. 基于孪生网络结构的目标跟踪算法综述[J]. 计算机工程与应用, 2020, 56(6): 10-18.

CHEN Y F, WU Y, ZHANG W. Survey of target tracking algorithm based on Siamese network structure[J]. Computer Engineering and Applications, 2020, 56(6): 10-18.

[2] 陈旭, 孟朝晖. 基于深度学习的目标视频跟踪算法综述[J]. 计算机系统应用, 2019, 28(1): 1-9.

CHEN X, MENG Z H. Survey on video object tracking algorithms based on deep learning[J]. Computer Systems & Applications, 2019, 28(1): 1-9.

[3] SMEULDERS A W M, CHU D M, CUCCHIARA R, et al. Visual tracking: an experimental survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(7): 1442-1468.

[4] LEE K H, HWANG J N. On-road pedestrian tracking across multiple driving recorders[J]. IEEE Transactions on Multimedia, 2015, 17(9): 1429-1438.

[5] LI X, HU W M, SHEN C H, et al. A survey of appearance models in visual object tracking[J]. ACM Transactions on Intelligent Systems and Technology, 2013, 4(4): 58.

[6] LIUL W, XINGJ L, AIH Z, et al. Hand posture recognition using finger geometric feature[C]// Proceedings of the 21st International Conference on Pattern Recognition. Tsukuba: IEEE, 2012: 565-568.

[7] AGARWALA A, HERTZMANN A, SALESIN D H, et al. Keyframe-based tracking for rotoscoping and animation[J]. ACM Transactions on Graphics, 2004, 23(3): 584-591.

[8] XINGJ L, AIH Z, LAOS H. Multiple human tracking based on multi-view upper-body detection and discriminative learning[C]// Proceedings of the 2010 20th International Conference on Pattern Recognition. Istanbul: IEEE, 2010: 1698-1701. 10.1109/icpr.2010.420

[9] ZHANGG C, VELAP A. Good features to track for visual SLAM[C]// Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 1373-1382. 10.1109/cvpr.2015.7298743

[10] ZHANG Y C, WANG T, LIU K X, et al. Recent advances of single-object tracking methods: a brief survey[J]. Neurocomputing, 2021, 455: 1-11.

[11] WU Y, LIM J, YANG M H. Object tracking benchmark[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1834-1848.

[12] 孙运达, 万雪, 李盛阳. 基于孪生网络的航天器部件追踪[J]. 光学精密工程, 2021, 29(12): 2915-2923.

SUN Y D, WAN X, LI S Y. Siamese network based satellite component tracking[J]. Optics and Precision Engineering, 2021, 29(12): 2915-2923.

[13] ZUO C, QIAN J M, FENG S J, et al. Deep learning in optical metrology: a review[J]. Light: Science & Applications, 2022, 11(1): 39.

[14] BROMLEYJ, GUYONI, LECUNY, et al. Signature verification using a “Siamese” time delay neural network[C]// Proceedings of the 6th International Conference on Neural Information Processing Systems. Denver: Morgan Kaufmann Publishers Inc., 1993: 737-744. 10.1142/9789812797926_0003

[15] TAOR, GAVVESE, SMEULDERSA W M. Siamese instance search for tracking[C]// Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 1420-1429. 10.1109/cvpr.2016.158

[16] BERTINETTOL, VALMADREJ, HENRIQUESJ F, et al. Fully-convolutional Siamese networks for object tracking[C]// Proceedings of Computer Vision—ECCV 2016 Workshops. Amsterdam: Springer, 2016: 850-865. 10.1007/978-3-319-48881-3_56

[17] HEA F, LUOC, TIANX M, et al. A twofold Siamese network for real-time object tracking[C]// Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 4834-4843. 10.1109/cvpr.2018.00508

[18] SHENZ L, DAIY C, RAOZ B. CFNet: cascade and fused cost volume for robust stereo matching[C]// Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 13901-13910. 10.1109/cvpr46437.2021.01369

[19] DONGX P, SHENJ B. Triplet loss in Siamese network for object tracking[C]// Proceedings of the 15th European Conference on Computer Vision. Munich: Springer, 2018: 472-488. 10.1007/978-3-030-01261-8_28

[20] LIZ X, BILODEAUG A, BOUACHIRW. Multi-branch Siamese networks with online selection for object tracking[C]// Proceedings of the 13th International Symposium on Visual Computing. Las Vegas: Springer, 2018: 309-319. 10.1007/978-3-030-03801-4_28

[21] HEA F, LUOC, TIANX M, et al. Towards a better match in Siamese network based visual object tracker[C]// Proceedings of Computer Vision-ECCV 2018 Workshops. Munich: Springer, 2019: 132-147. 10.1007/978-3-030-11009-3_7

[22] WANGQ, TENGZ, XINGJ L, et al. Learning attentions: residual attentional Siamese network for high performance online visual tracking[C]// Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 4854-4863. 10.1109/cvpr.2018.00510

[23] HUANGC, LUCEYS, RAMANAND. Learning policies for adaptive tracking with deep feature cascades[C]// Proceedings of 2017 IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 105-114. 10.1109/iccv.2017.21

[24] ABDELPAKEYM H, SHEHATAM S, MOHAMEDM M. DensSiam: end-to-end densely-Siamese network with self-attention model for object tracking[C]// Proceedings of the 13th International Symposium on Visual Computing. Las Vegas: Springer, 2018: 463-473. 10.1007/978-3-030-03801-4_41

[25] ZHANGY H, WANGL J, QIJ Q, et al. Structured Siamese network for real-time visual tracking[C]// Proceedings of the 15th European Conference on Computer Vision. Munich: Springer, 2018: 355-370. 10.1007/978-3-030-01240-3_22

[26] 张长弓, 杨海涛, 王晋宇, 等. 基于深度学习的视觉单目标跟踪综述[J]. 计算机应用研究, 2021, 38(10): 2888-2895.

ZHANG C G, YANG H T, WANG J Y, et al. Survey on visual single object tracking based on deep learning[J]. Application Research of Computers, 2021, 38(10): 2888-2895.

[27] HELDD, THRUNS, SAVARESES. Learning to track at 100 FPS with deep regression networks[C]// Proceedings of the 14th European Conference on Computer Vision. Amsterdam: Springer, 2016: 749-765. 10.1007/978-3-319-46448-0_45

[28] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

[29] LIB, YANJ J, WUW, et al. High performance visual tracking with Siamese region proposal network[C]// Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 8971-8980. 10.1109/cvpr.2018.00935

[30] WANGG T, LUOC, XIONGZ W, et al. SPM-tracker: series-parallel matching for real-time visual object tracking[C]// Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 3638-3647. 10.1109/cvpr.2019.00376

[31] ZHUZ, WANGQ, LIB, et al. Distractor-aware Siamese networks for visual object tracking[C]// Proceedings of the 15th European Conference on Computer Vision. Munich: Springer, 2018: 103-119. 10.1007/978-3-030-01240-3_7

[32] FANH, LINGH B. Siamese cascaded region proposal networks for real-time visual tracking[C]// Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 7944-7953. 10.1109/cvpr.2019.00814

[33] HUANG L H, ZHAO X, HUANG K Q. GOT-10k: a large high-diversity benchmark for generic object tracking in the wild[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(5): 1562-1577.

[34] HEK M, ZHANGX Y, RENS Q, et al. Deep residual learning for image recognition[C]// Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770-778. 10.1109/cvpr.2016.90

[35] KRIZHEVSKYA, SUTSKEVERI, HINTONG E. ImageNet classification with deep convolutional neural networks[C]// Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe: Curran Associates Inc., 2012: 1097-1105.

[36] XU Y D, WANG Z Y, LI Z X, et al. SiamFC++: towards robust and accurate visual tracking with target estimation guidelines[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 12549-12556.

[37] GUOD Y, WANGJ, CUIY, et al. SiamCAR: Siamese fully convolutional classification and regression for visual tracking[C]// Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 6268-6276. 10.1109/cvpr42600.2020.00630

[38] SHELHAMER E, LONG J, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(1): 640-651.

[39] CHENZ D, ZHONGB E, LIG R, et al. Siamese box adaptive network for visual tracking[C]// Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 6667-6676. 10.1109/cvpr42600.2020.00670

[40] ZHANGZ P, PENGH W. Deeper and wider Siamese networks for real-time visual tracking[C]// Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2020: 4586-4595. 10.1109/cvpr.2019.00472

[41] LIB, WUW, WANGQ, et al. SiamRPN++: evolution of Siamese visual tracking with very deep networks[C]// Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 4277-4286. 10.1109/cvpr.2019.00441

[42] WANGQ, ZHANGL, BERTINETTOL, et al. Fast online object tracking and segmentation: a unifying approach[C]// Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2018: 1328-1338. 10.1109/cvpr.2019.00142

[43] XIES N, GIRSHICKR, DOLLÁRP, et al. Aggregated residual transformations for deep neural networks[C]// Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 5987-5995. 10.1109/cvpr.2017.634

[44] ANDREWG H, MENGLONGZ, BOC, et al. MobileNets: efficient convolutional neural networks for mobile vision applications[C]// Proceedings of 2017 Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017.

[45] NAMH, HANB. Learning multi-domain convolutional neural networks for visual tracking[C]// Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 4293-4302. 10.1109/cvpr.2016.465

[46] ISARD M, BLAKE A. CONDENSATION-conditional density propagation for visual tracking[J]. International Journal of Computer Vision, 1998, 29(1): 5-28.

[47] JUNGI, SONJ, BAEKM, et al. Real-time MDNet[C]// Proceedings of the 15th European Conference on Computer Vision. Munich: Springer, 2018: 89-104. 10.1007/978-3-030-01225-0_6

[48] YUY X, XIONGY L, HUANGW L, et al. Deformable Siamese attention networks for visual object tracking[C]// Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 6727-6736. 10.1109/cvpr42600.2020.00676

[49] ZHANGL C, GONZALEZ-GARCIAA, VAN DE WEIJERJ, et al. Learning the model update for Siamese trackers[C]// Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 4009-4018. 10.1109/iccv.2019.00411

[50] DANELLJANM, BHATG, KHANF S, et al. ATOM: accurate tracking by overlap maximization[C]// Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2018: 4655-4664. 10.1109/cvpr.2019.00479

[51] YANGT Y, XUP F, HUR B, et al. ROAM: recurrently optimizing tracking model[C]// Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2019: 6717-6726. 10.1109/cvpr42600.2020.00675

[52] BHATG, DANELLJANM, VAN GOOLL, et al. Learning discriminative model prediction for tracking[C]// Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 6181-6190. 10.1109/iccv.2019.00628

[53] DANELLJANM, VAN GOOLL, TIMOFTER. Probabilistic regression for visual tracking[C]// Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 7181-7190. 10.1109/cvpr42600.2020.00721

苗宗成, 高世严, 贺泽民, 欧渊. 基于孪生网络的目标跟踪算法[J]. 液晶与显示, 2023, 38(2): 256. Zong-cheng MIAO, Shi-yan GAO, Ze-min HE, Yuan OU. Single-objective tracking algorithm based on Siamese networks[J]. Chinese Journal of Liquid Crystals and Displays, 2023, 38(2): 256.