一种基于改进SiameseRPN的全景视频目标跟踪算法

王殿伟; 方浩宇; 刘颖; 姜静; 任新成; 许志杰; 覃泳睿

doi:doi:10.3788/LOP57.241008

激光与光电子学进展, 2020, 57 (24): 241008, 网络出版: 2020-11-19

一种基于改进SiameseRPN的全景视频目标跟踪算法下载： 1029次

Algorithm for Panoramic Video Tracking Based on Improved SiameseRPN

论文大纲

王殿伟 ^1,*方浩宇 ^1,*刘颖 ¹姜静 ¹任新成 ²许志杰 ³覃泳睿 ³

作者单位

¹ 西安邮电大学通信与信息工程学院, 陕西西安 710121

² 延安大学物理与电子信息学院, 陕西延安 716000

³ 哈德斯菲尔德大学计算机与工程学院, Huddersfield HD1 3DH, 英国

图像处理目标跟踪深度学习全景视频 MobileNetV3 SiameseRPN image processing target tracking deep learning panoramic video MobileNetV3 SiameseRPN

AI 词云图 AI一句话精读 AI短摘要

注：本部分内容由 AI 自动生成，请您知悉。

摘要

在全景视频目标跟踪过程中,由于光照条件变化复杂和目标相对镜头运动时尺度变化剧烈,目标跟踪算法存在精度低和适用性差等问题。为了解决这个问题,提出了一种基于改进SiameseRPN的全景视频目标跟踪算法。首先采用MobileNetV3中的网络结构提取深度特征,使算法对全景视频序列中出现的场景缺陷有更好的适应性,并利用Squeeze and Excite模块增加网络对特征选择的敏感度。提出并构建了一种基于双线性插值的特征融合模块,运用双线性插值的方法使输出的后三层深度特征具有相同尺度,并融合这三层特征以用于网络预测。最后利用分类分支预测出当前序列中的正负样本,利用回归分支预测当前输出目标的位置信息和尺度信息,最终输出目标的位置信息。实验结果表明:所提算法可以有效地解决全景数据中的局部图像质量欠佳和尺度变化的问题,在保持实时跟踪性能的同时,具有较高的跟踪精度,对目标跟踪中出现的小目标、目标遮挡及多目标交叉运动等情况表现出良好的适应性,具有良好的视觉效果和较高的跟踪得分。

Abstract

The target tracking algorithm is suffering from low accuracy and poor applicability due to the complex lighting conditions and severe changes in scale caused by the relative lens movement during panoramic video target tracking. To address this issue, we propose an algorithm for panoramic target tracking based on the improved SiameseRPN. First, the network structure of MobileNetV3 is used to extract the deep features to make the algorithm have a better adaptability to the scene defects appearing in panoramic video sequences, and the Squeeze and Excite module is used to increase the sensitivity of the network to feature selection. Then, we propose and construct a feature fusion module based on bilinear interpolation, which is used to make the output depth features of the last three layers have the same scale, and these three layers of features are fused for network prediction. Finally, we use a classification sequence to predict the positive and negative samples in the current sequence, and adopt a regression branch to predict the position information and scale information of current output targets. Thus the target position information is outputted. The experimental results show that the proposed algorithm has better tracking accuracy and it can effectively deal with the problems of poor local image quality and scale changes in panoramic data, while maintaining the real-time tracking performance. It shows a good adaptability to small targets, target occlusion, and multi-target cross movements in target tracking, and has good visual effects and high tracking scores.

1 引言

目标跟踪算法是根据视频序列中给定的第一帧目标位置信息来估计之后视频帧中同一目标的位置与尺度信息,在智能监控、交通系统和人机交互等领域均有广阔的应用前景。受运动模糊、背景相似干扰、遮挡、光照变化和尺度变化等因素的影响,目标跟踪算法精度低,适用性差。因此,如何提高目标跟踪算法的鲁棒性和准确性是一项挑战^[1-2]。

全景图像具有较大的视野范围、较多的场景信息和较高的分辨率,同时也伴随着较大的计算量和较高的目标区分复杂度。尤其是当目标与全景相机的距离发生较大变化时,全景视频内目标尺度和形状的变化非常大^[3]。目前,针对单目视频的目标跟踪算法在全景视频下难以应对这种变化,容易出现目标丢失的情况,因此开展全景视频目标跟踪算法的研究具有重要的意义,而提高算法的跟踪精度和稳健性是亟需解决的问题。

深度学习是近些年来人工智能领域的研究热点之一。卷积神经网络有强大的特征表征能力,在提取特征方面具有较大优势,因此被广泛应用于目标跟踪领域。Nam等^[4]提出了MDNet(Multi-Domain Convolutional Neural Networks)模型,这是一种新颖的卷积神经网络架构,其将共用信息与特定信息分开,利用从深度网络中提取的多维特征进行模型参数的反向更新,并学习用于目标跟踪的通用特征表示。 Yun等^[5]通过结合有监督学习和强化学习,提出了ADNet(Action-Decision Networks)算法,该算法采用有监督学习训练网络跟踪目标,通过强化学习预测目标的状态及动作,较好地解决了目标跟踪过程中目标尺度变化的问题,但算法精度不佳。 Jung等^[6]在MDNet的基础上提出RT-MDNet,通过改进损失函数并采用自适应的RoIAlign层,简化了多域网络结构,在保持跟踪精度基本不变的情况下将运算速度提升了近25倍,但是该算法缺少尺度变化模块,无法直接应用于全景视频图像的目标跟踪。MobileNetV3^[7]是谷歌提出的轻量级神经网络,其利用空洞卷积显著减少了网络参数,在移动端中的准确率较高。Li等^[8]将Siamese FC^[9]与区域生成网络(Region Proposal Network,RPN)结合,提出了SiameseRPN,解决了Siamese FC尺度不能变化的问题,并利用相关滤波的方法取得了很高的准确率,同时保持了实时性,但该算法容易受相似特征背景的干扰。

针对上述问题,本文提出了一种基于改进SiameseRPN网络的目标跟踪算法,将AlexNet替换为可以利用更深层特征的MobileNetV3,并使用深层特征来训练网络以降低背景的干扰。该算法在MobileNetV3的网络结构中提取了多层间的特征,通过双线性插值来增大网络的特征输出,然后将回归和分类后的特征进行加权融合,加强了网络鲁棒性。实验结果表明,本文算法显著提高了跟踪精度,保持了实时的运算速度,能够解决全景图像目标跟踪的尺度变化和局部欠曝光问题。

2 全景视频的目标跟踪

2.1 全景数据

全景视频的可视范围大,没有视野盲区,在固定场景的目标跟踪过程中,目标再识别时不易出现特征损失。全景视频是由七目相机拍摄的视频拼接而成的,全景相机中不同摄像头的曝光程度不同,视频拼接时会发生过曝光或者欠曝光的情况,这对全景图像局部特征会产生较大的影响。当目标对象与摄像头相对运动时,距离的变化在全景图像中会以尺度变化的方式表现出来,距离越近,这种尺度变化程度越严重。全景视频中目标尺度变化的过程如图1所示。

图 1. 全景视频中运动目标的尺度变化

Fig. 1. Scale change of target motion in panoramic video

下载图片查看所有图片

图1截取了全景视频中目标运动的变化,矩形框表示目标位置的真实值,在目标由远及近的过程中,出现了严重的尺度变化和非刚体形变,一般基于深度学习的目标跟踪算法对尺度变化的映射较为简单,不能很好地适应全景视频中的变化幅度。全景图中出现的局部过曝光情况如图2所示。

图 2. 七目摄像头拼接的全景图像

Fig. 2. Panoramic image stitched by seven cameras

下载图片查看所有图片

图2所示为七目摄像头拼接的全景图,一个框表示一个摄像头,在第四个区域中摄像头面向光源,出现了欠曝光的情况。在全景视频中,多个场景均会出现欠曝光和尺度变化,这导致已有的基于深度学习的目标跟踪算法在直接应用于全景视频序列时跟踪性能下降。因此,需要分析全景图像成像方式和数据特性,针对全景数据调整网络结构,使网络具有更好的特征提取能力和应对尺度变化的能力。

目前,常用的基于深度学习的目标跟踪算法都是在公开数据集如OTB^[10]、VOT^[11]上训练的卷积神经网络。尽管这些方法可以获得有效的特征表示,但由于数据集之间的特征不一致,因此跟踪能力受到数据集的限制。为了克服全景数据中的欠曝光、小目标和尺度变化等问题,使算法具有更佳的表现能力,就需要对专门用于视觉跟踪的网络结构及数据进行训练。本文建立了用于目标跟踪的全景数据集,该数据集包含多个场景和不同时间(白天、夜晚)条件下的行人、车辆等75个视频序列,使用labelImg标注了12112 frame,单张图片标注单个目标,可以用于训练网络,实现端到端的训练。表1给出了数据集中的目标类别和出现目标跟踪难点的视频数量。

表 1. 全景数据集的跟踪难点分布

Table 1. Distribution of tracking difficulties in panoramic data sets

Classification	Total video	Being blocked	Small object	Similar target	Underexposure	Scale change
Car	30	3	0	4	23	12
Person	27	7	6	6	1	9
Motor	12	1	0	1	9	8
Bicycle	6	3	2	0	3	3

查看所有表

2.2 深度特征

传统手工特征如HOG和Haar等,由于颜色特征不明显,在图像质量差的场景下难以保持鲁棒性,而采用增强方法提高图像质量又会导致特征的损失。深度特征与传统手工特征不同,在深层的卷积神经网络中,高维度特征对图像质量的要求较低,对雾霾、雨天和光照等场景的适应性较强,但是提取的浅层神经网络特征有限,所以在网络搭建中就需要考虑应用场景,既满足场景的特征需求,又不会浪费计算资源。图3为卷积神经网络提取的全景目标特征的可视化结果,其中Conv表示卷积层输出的结果,Relu表示经过激活函数后的输出结果,Pool表示经过池化层后的输出结果。

图3中的卷积神经网络为五层特征提取网络。图3(a)为第一层卷积处理后的可视化结果。卷积神经网络中浅层网络提取的多为边缘特征,激活函数和池化层可增强卷积网络的特征输出。由图3(d)可见,图3(a)的边缘细节得到增强,随着卷积层数的增加,目标特征由浅层的边缘特征过渡到更为抽象的深层特征,同时更多维度的目标特征得到输出,信息更丰富,这使得目标位置也更明确^[12]。

图 3. 卷积网络提取的深度特征的可视化结果。 (a) Conv 1; (b) Relu 1; (c) Pool 1; (d) Conv 3; (e) Relu 3; (f) Pool 3; (g) Conv 5; (h) Relu 5; (i)原图

Fig. 3. Visualization results of deep features in convolutional neural networks. (a) Conv 1; (b) Relu 1; (c) Pool 1; (d) Conv 3; (e) Relu 3; (f) Pool 3; (g) Conv 5; (h) Relu 5; (i) original image

下载图片查看所有图片

3 本文算法流程框架

SiameseRPN利用AlexNet前五层进行了特征提取,利用真实值模板中的特征与当前视频帧目标区域的特征执行了相关操作,得到当前分类和回归值^[13]。在全景视频序列中,目标相对镜头的运动会使尺度和光照等条件发生变化,从而导致目标特征发生变化。在光照条件改变时,目标特征变化较大,网络的适应性较差,跟踪时会出现目标丢失的情况。通过对卷积网络的分析,利用深度神经网络可以有效地降低图片质量对特征提取过程的干扰。本文针对已有算法应用于全景图像目标跟踪时跟踪精度较低且特征变化适应性差的问题,提出了一种基于改进SiameseRPN的全景视频目标跟踪算法,利用MobileNetV3网络提取特征,在网络中融合多层网络特征,使网络可以利用不同类型特征进行分类和回归,加强算法对相似目标和图片区域质量问题的适应性^[14]。本文算法的网络框架如图4所示,其在第4、5、6、11和12层中引入了注意力机制,在第7~15层中运用了h-swish激活函数。

图 4. 本文算法的网络框架

Fig. 4. Network architecture of proposed algorithm

下载图片查看所有图片

由图4可知,输入全景视频序列时,算法首先通过裁减和扩充将模板和检测区域的目标置于中心区域;使模板和检测区域经过权值共享的MobileNetV3,并提取第13、14、15层的深度特征;然后进行双线性插值,将输出特征扩大至相同尺度,对送入RPN网络与模板中的特征执行相关操作,并进行回归和分类;对最后的输出进行加权融合,得到检测分支和回归分支的输出。利用高斯窗口的抑制以及形状的抑深度来分离卷积,在提取到深度特征的同时减少网络计算量。本文算法采用深层网络进行特征融合,算法在保持实时性的同时,在图像局部欠曝光的场景中也能保持鲁棒性。

3.1 MobileNetV3

深度学习算法对算力要求很高,应用场景有限,为了满足神经网络的应用需求,诞生了如MobileNet等轻量级的神经网络。算法通过MobileNet得到多个输出得分,选取其中得分最高的为当前预测输出。网络整体参数是根据全景数据进行改进的。 MobileNetV3是谷歌提出的轻量级神经网络,可减少神经网络中的计算冗余,使算法具有实时的性能,其网络结构是通过结合NAS^[15]算法和NetAdapt^[16]算法得到的。NAS算法是在定义的网络架构内,通过对结构进行评估来搜索出最优网络结构。NetAdapt算法是优化预训练网络的算法,可以度量优化网络结构,在降低计算消耗的同时,保证网络精度。

3.1.1 深度可分离卷积

在神经网络计算中,卷积的运算量占比很大。为了减少卷积过程中的计算量,学者们提出了深度可分离卷积。深度可分离卷积^[17]是MobileNet中使用的卷积网络结构,将卷积过程分为深度卷积和逐点卷积,大幅度减少了卷积中所用的参数数量,使得网络结构较深的算法也可以具有实时的性能。图5所示为MobileNetV3中使用的深度可分离卷积结构,其为加入了注意力机制的卷积层,SQ(squeeze)表示对特征进行压缩,EX(excitation)表示对特征进行扩展。

图 5. MobileNetV3中的卷积结构

Fig. 5. Convolution structure in MobileNetV3

下载图片查看所有图片

在图5中,假设输入为8×8×3的特征图,先通过1×1的卷积核提升通道数,再将每个通道的特征图通过不同的3×3卷积核,利用padding保持输出与输入特征图具有相同的尺度。可分离卷积在可以得到相同尺度特征的情况下,将一步卷积分离为两步,有效减少了网络结构中的参数,从而大幅度减少了计算量。在进行深度可分离卷积后,引入了注意力机制,通过运用SE(Squeeze and Excitation)模块来提升网络的特征表达能力。借鉴ResNet中的跳跃连接,在输出时运用跳跃连接将输入与输出相加,提升了网络的鲁棒性,得到了更深层次的特征。

3.1.2 SE模块

SE模块^[18]是注意力模型。在图5所示SE模块中,首先利用池化操作将卷积中的特征图尺度降维到1×1,保留其通道数不变;然后通过squeeze操作使降维后的尺度经过第一个全连接层,通道数缩减为squeeze操作前的四分之一;之后执行excitation操作,经过全连接层,通道数被放大四倍。注意力机制利用两步全连接层学习权重,得到的向量与输入特征具有相同通道数,每一个向量表征对应网络通道的重要程度;再进行scale操作,将向量逐层乘入特征中,完成对特征层的标注。利用SE模块可以增加网络对特征的辨识度,增强特征与网络间的相关性,抑制对当前目标任务无用的特征输入。通过这种策略,可以更好地利用有效特征来增强网络的精度。

3.1.3 h-swish激活函数

swish函数已经在大量的神经网络中得到了应用,并在实践中取得了较好的性能。swish函数与Relu函数较为相似,但是与Relu函数不同的是,swish函数是非单调的,过渡更为平滑,不会出现梯度消失的问题。但是, swish函数的计算量太大,不适合应用于轻量级神经网络中,所以学者们提出了h-swish函数:

S_{h ⁃ swish} = x \cdot \frac{R_{Relu} (x + 3)}{6}, (1)

式中: $S_{h ⁃ swish}$ 为h-swish函数; $R_{Relu}$ 为Relu函数; $x$ 为激活函数输入值。Relu6是最大值为6的Relu函数,易于在硬件中实现,且运行速度快,可避免激活损失。swish函数应用于较深的卷积层中时具有较好的性能,MobileNet在第7个卷积层后使用了h-swish函数,取得了较好的网络精度。激活函数对比如图6所示。

图 6. Relu6、h-swish、swish的激活函数对比

Fig. 6. Comparison among Relu6, h-swish, and swish activation functions

下载图片查看所有图片

3.2 多层融合

SiameseRPN基于SiameseFC的相关滤波思想,引入了RPN网络,进一步提升了网络速度和跟踪准确性。SiameseRPN利用五层的AlexNet网络进行特征提取,修改了AlexNet中的步长,去掉了填充步骤,扩大了网络特征的输出尺度。

本文算法基于SiameseRPN算法改进了网络结构。使用MobileNetV3作为特征提取网络,神经网络中不同卷积层得到的特征类型不同;为了增强网络在目标跟踪过程中的鲁棒性,将边缘特征与高层语义特征相结合,选取不同层特征进行了加权融合。本文选取MobileNetV3中Conv 13、Conv 14和Conv 15层的输出特征进行融合。三个层卷积网络的输出尺度不同,且深层特征尺度较小,为了融合多层特征,通过双线性插值将MobileNetV3中的输出特征放大到同一目标尺度,以便于在后续RPN网络中保留更多的特征进行相关操作。

在RPN网络中,为了消除网络中模板可能的累积误差,只选用第一帧的真实值作为模板。使用权重共享的MobileNetV3提取目标模板和当前帧中的特征,在RPN网络中通过相关操作完成对k个预选框的预测。RPN网络中有分类分支和回归分支,回归分支得到4k个特征图,分别代表预选框的中心位置及预选框的宽和高。分类分支得到2k个特征图,通过分离出正样本和负样本,从多个可能的预测结果中选取得分最高的候选区域作为当前预测结果。

3.3 损失函数

算法中使用的损失函数与Faster R-CNN^[19]中使用的损失函数相同,在分类分支中使用交叉熵损失(Cross Entropy Loss),在回归分支中使用smooth L1损失。整体的损失函数 $L_{loss}$ 为

L_{loss} = L_{cls} + λ L_{reg}, (2)

式中: $λ$ 是调节损失平衡的超参; $L_{cls} 和 L_{reg}$ 的表达式分别为

L_cls $(p_{i}, p_{i}^{*})$ =-log $[p_{i}^{*} p_{i} + (1 - p_{i}^{*}) (1 - p_{i})], (3)$

L_{reg} = \overset{3}{\sum_{i = 0}} L_{smoothL 1} (δ [i], σ), (4)

式中: $p_{i}$ 是预测Anchors为目标的概率; $p_{i}^{*}$ 是真实值为目标的概率; $δ [i]$ 为回归中输入的尺度信息的正则化表达; $σ$ 是权重,可以调节损失函数在不同样本中的敏感程度; $L_{smoothL 1}$ 为smooth L1损失函数; $i$ 为第 $i$ 个网络输入。损失函数是评估模型稳定性的重要指标,实验中损失函数的变化曲线如图7所示。

图 7. 损失函数曲线

Fig. 7. Curve of loss function

下载图片查看所有图片

图7为训练中的损失函数曲线,可以看出,网络的收敛趋于平稳,取得了不错的训练效果。

截取了一个视频域中的4frame图像进行对比,如图8所示,放大目标区域便于对比实验结果,其中SiameseRPN实验结果用点线框表示,改进后的网络实验结果用虚线框表示,真实值用实线框表示。在第42帧中,目标经过欠曝光区域,目标色彩和纹理丢失严重,特征难以提取。SiameseRPN网络使用了浅层特征,无法在欠曝光区域提取出有效特征,导致目标丢失并在后续帧中跟踪其他相似目标。本文算法利用深层特征融合策略,改善了网络结构,能够更好地适应全景数据特性,在经过欠曝光区域时,成功地跟踪上目标。本文算法应对图片质量较差的场景时,相比原算法具有较好的鲁棒性。

图 8. SiameseRPN与改进网络的实验结果对比

Fig. 8. Comparison of experiment results by SiameseRPN and improved network

下载图片查看所有图片

4 实验结果与分析

本文使用的训练及测试数据集均由泰科易720 Pro七目全景相机采集所得,分为4个类别并进行了标注,处理后的图片分辨率为2000×1000。

硬件配置为CPU Intel Xeon E5-2620v4,显卡为GPU Nvidia Titan XP。在Ubuntu系统中使用Python作为实验平台,网络用Pytorch框架搭建,经过10000次迭代。

4.1 主观分析

为了评估算法在全景图像中的有效性,本文选取了多个不同场景不同目标的全景视频作为测试数据,并与MDNet、ADNet、RT-MDNet、SiameseRPN++和SiameseRPN算法的跟踪结果进行主观和客观对比,主观结果如图9所示。图9中全景视频序列包含了目标变形、目标旋转、光照变化和长时间跟踪等诸多现实挑战情况^[20],为了

突出对比性能的好坏,对整幅全景图进行了截取,选取出其中具有较复杂尺度变化问题的视频序列。不同的颜色代表不同的跟踪算法的目标框,其中本文改进算法用红色表示。

图9(a)~(d)所示分别为夜晚行人、欠曝光汽车、自行车、目标旋转视频序列,序列中均出现了较大程度的尺度变化和外观变化。在图9(a)第104帧中出现了目标旋转和相似干扰的情况,SiameseRPN在第140帧后受到相似干扰,目标框飘到了相近的目标上。图9(b)在第42帧中出现拼接图像质量差的情况,目标经过部分欠曝光的场景时颜色较深,这严重影响了目标特征,浅层网络对这种情况的适应性较差,只有SiameseRPN++成功跟踪上目标。图9(c)中五种算法均有较好的准确率,在跟踪过程中,MDNet和RT-MDNet对尺度估计的适应性比较差,在第86帧和140帧中目标框几乎没有变化,本文改进算法对该场景的跟踪效果良好。在图9(d)中第40帧到118帧中发生了目标旋转和尺度变化的情况,SiameseRPN和SiameseRPN++在第88帧中受到具有相似特征的背景干扰,偏移跟踪了特征变化不明显的相似目标上。ADNet在强化学习部分中学习了对尺度变化的估计,但不能很好地应对全景序列目标跟踪。本文改进算法在准确跟踪目标的同时,目标框能够结合之前的视频帧进行自适应的变化。图10~12为采用本文算法得到的完整实验结果图及其跟踪目标的放大图。

图 9. 四个不同场景下不同算法的结果对比

Fig. 9. Comparison of results by different algorithms in four different scenarios

下载图片查看所有图片

图10所示为小目标和遮挡情况下的实验结果,图中标注了目标位置和帧序数。全景视频序列中的小目标较为普遍,小目标尺度变化不明显,并且在全景中容易出现全遮挡的情况。图10第98帧中的目标受到树木全遮挡,这对跟踪结果产生了一定的影响,但在第106帧中目标重新出现时,改进算法能够继续跟踪目标。本文算法可以应对全景视频中的小目标问题,在目标遮挡的场景中仍有不错的表现。

图 10. 小目标和遮挡情况下的实验结果

Fig. 10. Experimental results for small targets and target occlusion

下载图片查看所有图片

图11所示为多个目标交叉运动的实验结果。图11中第22、52帧中出现了目标对象与其他目标交叉运动的场景,后续第34、60帧没有受到干扰目标的影响,本文算法可以稳定地跟踪目标对象。本文算法在遇到目标与其他行人交叉运动时,依然能够准确稳定地追踪,具有较好的鲁棒性。

图 11. 多个目标交叉运动的实验结果

Fig. 11. Experimental results for multi-target cross movements

下载图片查看所有图片

图12所示为相似目标干扰的实验结果。图12中第40、90帧受到多个相似目标交叉运动的影响,跟踪结果出现了小幅度的漂移,但本文算法在后续视频帧中仍然可以稳定跟踪目标对象。本文算法在区分相似的群目标时能持续跟踪选定目标,具有较好的自适应跟踪能力。

图 12. 相似目标干扰的实验结果

Fig. 12. Experimental results for similar target interference

下载图片查看所有图片

综上所述,RT-MDNet与MDNet都达到了很好的跟踪精度,但是难以适应尺度变化问题。ADNet和SiameseRPN应对尺度变化问题的能力强于RT-MDNet,但是不能满足全景数据的需求。在出现欠曝光场景的全景视频序列中,四种算法都容易出现丢失目标的情况。全景图像由于具有很高的分辨率,对算法运算速率的要求很高。本文算法在应对不同曝光条件和不同目标时可以较好地应对目标的尺度变化,并保持了实时的运算速度,有较好的准确率和重叠率。

4.2 客观分析

为了评估算法性能,利用重叠率(Intersection over Union,IOU)和距离精度作为客观分析指标。重叠率表示预测结果与真实值之间的重叠面积与整体面积的比值,距离精度表示预测结果中心位置与真实值结果中心位置的欧氏距离。计算视频序列中所有帧的IOU和距离精度,IOU大于一定阈值的视频帧数与视频总帧数的比值称为成功率(Success rate),距离精度小于一定阈值的视频帧数与视频总帧数的比值称为精度(Precision),可以满足阈值条件的帧数所占的比率越高,表示算法跟踪性能越好。表2给出了各算法在欧氏距离阈值为20 pixel时跟踪器的精确率、IOU大于阈值0.5时跟踪器的成功率和基于全景数据集的平均处理速度(即算法每秒可以处理的视频帧数量),处理速度超过30 frame/s的算法具有实时性。

表 2. 各算法的性能对比

Table 2. Performance comparison of all algorithms

Performance	MDNet	ADNet	RT-MDNet	SiameseRPN	SiameseRPN++	Ours
Precision /%	0.744	0.316	0.801	0.783	0.833	0.896
Success rate /%	0.562	0.673	0.516	0.731	0.757	0.855
Speed /(frame·s^-1)	1	4	8	75	91	33

查看所有表

由表2可知, SiameseRPN应用于全景视频序列时精度为78.3%,成功率为73.1%。本文算法适应了全景数据特性,利用深度特征加强网络的特征提取和学习能力,可以更好地应对全景视频序列中欠曝光的场景。本文算法对目标跟踪中的相似干扰、目标遮挡和小目标等情况都表现出了一定的适应性,精确率为89.6%,成功率为85.5%。本文算法的平均处理速度为33,具有实时的计算性能,但由于深层网络在卷积中占用了大量的计算资源,影响了算法的计算速度,因此速度低于SiameseRPN和SiameseRPN++^[21]。

利用全景图像数据集上得到的预测结果IOU和目标框,计算成功率和精确率的阈值。在对比算法性能时采用一次性评估(One Pass Evaluation,OPE)准则,给定初始第一帧的真实值,根据初始目标特征,对之后视频帧中的目标进行跟踪和预测,如果算法丢失目标,不会进行修正,结果如图13所示。

图 13. 六种算法在全景数据集上的测试结果。(a)精确率;(b)成功率

Fig. 13. Test results of six algorithms on panoramic dataset. (a) Precision; (b) success rate

下载图片查看所有图片

图13所示为不同算法在全景数据集上的测试结果。ADNet因为跟丢目标情况较多,所以在精度图中的表现较差,但应对尺度变化的能力优于RT-MDNet和MDNet。SiameseRPN和SiameseRPN++应对尺度变化问题的能力强于除本文算法以外的其他三种算法,但成功率略低于RT-MDNet。从图13中可以看出,本文改进算法在精度和成功率方面相对原算法均有明显的提升。

综上所述,RT-MDNet与MDNet都达到了很好的精度,但是难以应对尺度变化问题。ADNet应对尺度变化问题的能力强于RT-MDNET和MDNet,但无法满足全景数据中尺度变化的需求。SiameseRPN和SiameseRPN++较好地应对了尺度变化的问题,但相关滤波方法容易受相似特征背景的影响,精确率较低。当视频质量不好时,四种算法的性能会受到一定影响。通过以上对比可以得出,本文算法在不同曝光条件和不同目标时可以较好地应对目标的尺度变化和遮挡问题,在全景图像上的准确率和重叠率较高,跟踪效果得到明显提升。

5 结论

为了解决基于全景数据集的目标跟踪问题,提出了一种基于SiameseRPN的全景视频目标跟踪算法。采用MobileNetV3提取深层特征,使用SE模块加强网络对特征的选择,通过h-swish激活函数提升网络性能,并利用双线性插值方法来扩大卷积输出尺度,将扩大尺度后的多层特征进行融合,增强了网络的鲁棒性。分类分支分离当前预测的正负样本,回归分支回归出当前目标的位置和尺度信息,利用交叉熵损失和smooth L1损失优化网络性能,针对数据集改进了网络结构。实验结果表明,所提算法具有较高的跟踪精度,能够适应当前视频帧质量不佳和复杂场景中目标扭曲、旋转剧烈、目标运动快、背景相似干扰等多种挑战,可以长期稳定地跟踪目标,在保持精度的同时实现了实时的运算性能,在全景图像上的精确率和成功率较高。但是,由于跟踪过程中模板不更新,SiameseRPN算法容易出现目标漂移的情况。因此,设计模板的更新策略,权衡算法性能和模板更新,将会是以后的重点研究方向。

参考文献

[1] 卢湖川, 李佩霞, 王栋. 目标跟踪算法综述[J]. 模式识别与人工智能, 2018, 31(1): 61-76.

Lu H C, Li P X, Wang D. Visual object tracking: a survey[J]. Pattern Recognition and Artificial Intelligence, 2018, 31(1): 61-76.

[2] Cai Z W, Wen L Y, Lei Z, et al. Robust deformable and occluded object tracking with dynamic graph[J]. IEEE Transactions on Image Processing, 2014, 23(12): 5497-5509.

[3] ZhouY, ZhouZ, ChenK, et al. Persistent object tracking in road panoramic videos[M] ∥Lin W, Wu D, Ho A, et al. Advances in multimedia information processing——PCM 2012. Lecture notes in computer science. Heidelberg: Springer , 2012, 7674: 359- 368.

[4] NamH, HanB. Learning multi-domain convolutional neural networks for visual tracking[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 4293- 4302.

[5] YunS, ChoiJ, YooY, et al. Action-decision networks for visual tracking with deep reinforcement learning[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 1349- 1358.

[6] JungI, SonJ, BaekM, et al. Real-time MDNet[M] ∥ Ferrari V, Hebert M, Sminchisescu C, et al. Computer vision——ECCV 2018. Lecture notes in computer science. Cham: Springer, 2018, 11208: 89- 104.

[7] HowardA, SandlerM, ChuG, et al.( 2019-11-20)[2020-01-18 ]. https:∥arxiv.org/abs/1905. 02244.

[8] LiB, Yan JJ, WuW, et al. High performance visual tracking with Siamese region proposal network[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA. New York: IEEE, 2018: 18311819 .

[9] BertinettoL, ValmadreJ, Henriques JF, et al. Fully-convolutional Siamese networks for object tracking[M] ∥ Hua G, Jégou H. Computer vision——ECCV 2016 workshops. Lecture notes in computer science. Cham: Springer, 2016, 9914: 850- 865.

[10] WuY, LimJ, Yang MH. Online object tracking: a benchmark[C]∥2013 IEEE Conference on Computer Vision and Pattern Recognition, June 23-28, 2013, Portland, OR, USA. New York: IEEE, 2013: 2411- 2418.

[11] KristanM, LeonardisA, MatasJ, et al. The sixth visual object tracking VOT2018 challenge results[M] ∥ Leal-Taixé L, Roth S. Computer vision——ECCV 2018 workshops. Lecture notes in computer science. Cham: Springer, 2019, 11129: 3- 53.

[12] 杨大伟, 巩欣飞, 毛琳, 等. 重构特征联合的多域卷积神经网络跟踪算法[J]. 激光与光电子学进展, 2019, 56(19): 191501.

Yang D W, Gong X F, Mao L, et al. Multi-domain convolutional neural network tracking algorithm based on reconstructed feature combination[J]. Laser & Optoelectronics Progress, 2019, 56(19): 191501.

[13] 李勇, 杨德东, 韩亚君, 等. 融合扰动感知模型的孪生神经网络目标跟踪[J]. 光学学报, 2020, 40(4): 0415002.

Li Y, Yang D D, Han Y J, et al. Siamese neural network object tracking with distractor-aware model[J]. Acta Optica Sinica, 2020, 40(4): 0415002.

[14] 刘美菊, 曹永战, 朱树云, 等. 基于卷积神经网络的特征融合视频目标跟踪方法[J]. 激光与光电子学进展, 2020, 57(4): 041502.

Liu M J, Cao Y Z, Zhu S Y, et al. Feature fusion video target tracking method based on convolutional neural network[J]. Laser & Optoelectronics Progress, 2020, 57(4): 041502.

[15] Tan MX, ChenB, Pang RM, et al. MnasNet: platform-aware neural architecture search for mobile[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 15-20, 2019, Long Beach, CA, USA. New York: IEEE, 2019: 2815- 2823.

[16] Yang TJ, HowardA, ChenB, et al. NetAdapt: platform-aware neural network adaptation for mobile applications[M] ∥ Ferrari V, Hebert M, Sminchisescu C, et al. Computer vision——ECCV 2018. Lecture notes in computer science. Cham: Springer, 2018, 11214: 289- 304.

[17] Howard AG, Zhu ML, ChenB, et al. ( 2017-04-17)[2020-01-18 ]. https:∥arxiv.org/abs/1704. 04861.

[18] HuJ, ShenL, SunG. Squeeze-and-excitation networks[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA. New York: IEEE, 2018: 7132- 7141.

[19] Ren S Q, He K M, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

[20] 沈玉玲, 伍忠东, 赵汝进, 等. 基于模型更新与快速重检测的长时目标跟踪[J]. 光学学报, 2020, 40(3): 0315002.

Shen Y L, Wu Z D, Zhao R J, et al. Long-term object tracking based on model updating and fast re-detection[J]. Acta Optica Sinica, 2020, 40(3): 0315002.

[21] LiB, WuW, WangQ, et al. SiamRPN++: evolution of Siamese visual tracking with very deep networks[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 15-20, 2019, Long Beach, CA, USA. New York: IEEE, 2019: 4277- 4286.

王殿伟, 方浩宇, 刘颖, 姜静, 任新成, 许志杰, 覃泳睿. 一种基于改进SiameseRPN的全景视频目标跟踪算法[J]. 激光与光电子学进展, 2020, 57(24): 241008. Dianwei Wang, Haoyu Fang, Ying Liu, Jing Jiang, Xincheng Ren, Zhijie Xu, Yongrui Qin. Algorithm for Panoramic Video Tracking Based on Improved SiameseRPN[J]. Laser & Optoelectronics Progress, 2020, 57(24): 241008.

一种基于改进SiameseRPN的全景视频目标跟踪算法 下载： 1029次

1 引言

2 全景视频的目标跟踪

2.1 全景数据

图 1. 全景视频中运动目标的尺度变化

Fig. 1. Scale change of target motion in panoramic video

图 2. 七目摄像头拼接的全景图像

Fig. 2. Panoramic image stitched by seven cameras

表 1. 全景数据集的跟踪难点分布

Table 1. Distribution of tracking difficulties in panoramic data sets

2.2 深度特征

图 3. 卷积网络提取的深度特征的可视化结果。 (a) Conv 1; (b) Relu 1; (c) Pool 1; (d) Conv 3; (e) Relu 3; (f) Pool 3; (g) Conv 5; (h) Relu 5; (i)原图

Fig. 3. Visualization results of deep features in convolutional neural networks. (a) Conv 1; (b) Relu 1; (c) Pool 1; (d) Conv 3; (e) Relu 3; (f) Pool 3; (g) Conv 5; (h) Relu 5; (i) original image

3 本文算法流程框架

图 4. 本文算法的网络框架

Fig. 4. Network architecture of proposed algorithm

3.1 MobileNetV3

图 5. MobileNetV3中的卷积结构

Fig. 5. Convolution structure in MobileNetV3

图 6. Relu6、h-swish、swish的激活函数对比

Fig. 6. Comparison among Relu6, h-swish, and swish activation functions

3.2 多层融合

3.3 损失函数

图 7. 损失函数曲线

Fig. 7. Curve of loss function

图 8. SiameseRPN与改进网络的实验结果对比

Fig. 8. Comparison of experiment results by SiameseRPN and improved network

4 实验结果与分析

4.1 主观分析

图 9. 四个不同场景下不同算法的结果对比

Fig. 9. Comparison of results by different algorithms in four different scenarios

图 10. 小目标和遮挡情况下的实验结果

Fig. 10. Experimental results for small targets and target occlusion

图 11. 多个目标交叉运动的实验结果

Fig. 11. Experimental results for multi-target cross movements

图 12. 相似目标干扰的实验结果

Fig. 12. Experimental results for similar target interference

4.2 客观分析

表 2. 各算法的性能对比

Table 2. Performance comparison of all algorithms

图 13. 六种算法在全景数据集上的测试结果。(a)精确率;(b)成功率

Fig. 13. Test results of six algorithms on panoramic dataset. (a) Precision; (b) success rate

5 结论

Article Outline

相关论文

相关资讯

关于本站 Cookie 的使用提示

全站搜索

一种基于改进SiameseRPN的全景视频目标跟踪算法下载： 1029次