中国激光, 2019, 46 (11): 1109001, 网络出版: 2019-11-09   

结合分水岭和回归网络的视频时序动作选举算法 下载: 1151次

Algorithm for Video Temporal Action Proposal Combining Watershed and Regression Networks
作者单位
1 东北大学信息科学与工程学院, 辽宁 沈阳 110819
2 东北大学机器人科学与工程学院, 辽宁 沈阳 110169
摘要
针对时序动作选举任务,设计一种两段式动作候选区域选举网络。第一段将改进的分水岭算法应用于一维时序信号,通过浸水聚类产生多种不同长度的候选区域,实现动作时序边界的粗定位,进而提出一种时序金字塔结构化方法,引入动作片段的上下文信息模块,对候选区域的主体信息和上下文信息进行结构化建模,生成一个增强的全局特征。第二段利用时序坐标回归算法定位动作边界,同时加入动作/背景分类器过滤背景候选区域,得到更加精确的时序边界。整个网络以三维卷积神经网络(C3D)提取的单元级特征进行训练,挖掘了视频时域和空域的丰富语义,在提升算法精度的同时大大提升了训练效率。在两大基准数据集Thumos 14和ActivityNet上进行测试,结果表明,与已有方法相比,两段式视频时序动作选举算法达到了最优平均召回率,可有效提高动作定位的精度。
Abstract
A two-stage action-candidate regional proposal network is designed herein for a temporal action detection task. The first stage applies a modified watershed algorithm to an one-dimensional temporal signal to form candidate regions with different lengths by immersion clustering, which obtains a rough localization of action temporal boundary. Then, a temporal pyramid structural method is introduced to model the structure of action instances and their contextual information, generating an enhanced global feature. The second stage performs a temporal-coordinate regression algorithm to local the action boundary, and simultaneously a classifier for the action and boundary is added to filter the candidate regions of background for obtaining a more accurate temporal boundary. Furthermore, an unit-level feature extracted by a three-dimensional convolution neural network (C3D) is used to train the entire two-stage proposal algorithm, which contains both spatial and temporal information and considerably improves training efficiency while improving the accuracy of the algorithm. Experiments on two large-scale benchmark datasets, Thumos 14 and ActivityNet, show that the proposed approach achieves the optimal average recall rate over other state-of-the-art methods, indicating that this method can efficiently improve the precision of an action localization task.

1 引言

视频中的时序动作检测任务是当今计算机视觉领域最具挑战性的研究课题之一,具有视频监控与安全、人机交互、视频检索和医疗监控等应用[1-2]。与视频动作识别相比,时序动作检测任务更具挑战性,不仅需要预测动作类别,还要预测动作发生时精确的开始和结束时间点[2-5]

随着卷积神经网络的发展,视频动作识别的准确度得到显著提升[3]。传统的针对动作片段的时序检测方法[4]缺乏对动作上下文信息的利用,导致时序检测的精度并不理想,并且大多依赖手工特征,Thumos Challenge 2014[1]和2015[5]中最佳的方法都使用改进的密集轨迹(iDT)和Fisher矢量。近年来,一些研究将iDT特征与帧级深度网络[1]提取的外观特征相结合,然而这样的2D卷积网络只能捕获空间表征信息,不能捕获视频中对于建模动作来说非常重要的运动信息。

2D图像的目标检测任务[6-7]与视频时序动作检测任务密切相关,传统的目标检测方法大多依赖于密集滑动窗口[8]。近年提出的空间结构建模[9]是目标检测任务的关键步骤,RoI池化的引入可以以最小的额外成本对目标的空间结构建模。

在时序检测领域,基于视频片段的方法[3]通常是独立处理各片段而不考虑它们之间的时序结构。现有方法在两个关键方面受到限制:1)SCNN[10]等方法只能对固定且有限长度的时序结构建模,没有顾及到动作发生长度的多样性;2)可以对较长动作建模的循环网络[11]等方法依赖于密集的时序片段采样,计算量太大,无法实现端到端训练。

针对上述问题,本文主要进行以下工作:1)提出一个两段式候选区域选举模型。第一段选举算法首次将改进的分水岭算法应用于一维时序信号,通过聚类产生多种不同长度的候选区域,兼顾动作长度的多样性,实现动作边界的粗定位;第二段用时序回归选举网络设计两个同级结构,该结构能够同时实现动作边界的坐标回归定位及动作/背景候选区域的分类和过滤,得到精确的时序边界,实现端到端的训练。2)提出时序金字塔结构化分析方法,引入动作片段的上下文信息模块,对候选区域的主体信息和上下文信息进行结构化建模,生成一个全局表达,针对性地增强了动作片段的时序结构特征,允许对不同长度动作片段的建模。3)整个框架基于三维卷积神经网络(C3D)[4]单元级特征进行训练。C3D能够同时挖掘视频的时域和空域信息,提升时序检测的精度。相比于传统的单帧训练,单元级特征训练在大大提升时序检测速度的同时保证了精度。提出的时序动作选举算法生成的候选区域在Thumos 14和ActivityNet中达到了最优的平均召回率,在时序定位应用中具有极具竞争力的平均精度均值。

2 改进的分水岭选举算法

结合分水岭和回归网络的视频时序动作选举算法整体结构如图1所示。整个网络流程如下:1)将视频以单元级为单位(nu=16 frame)输入到视频特征提取器C3D中,提取单元级特征fu;2)将视频帧以单元级为单位输入到改进的分水岭算法中浸水聚类,得到初级候选区域p;3)将初级候选区域pfu表示,结合上下文信息模块将p扩展增强为p*,p*经过时序金字塔结构化处理,生成全局区域特征Dc;4)将Dc作为回归/分类网络的输入,训练得到候选区域精确的时序区间Pm及候选区域的动作/背景分类。

图 1. 时序检测整体结构图

Fig. 1. Whole architecture of temporal detection algorithm

下载图片 查看所有图片

2.1 C3D单元级特征处理

计算高效性对于大型视频分析任务非常重要。近期的研究[10-11]将双流网络或三维卷积网络应用于视频特征提取,虽然效率有所提升,但仍是针对单帧图片的特征提取,效率无法得到进一步提高。针对此问题,提出一种基于单元级特征训练的方法,不再以单帧为单位提取视频特征。一个包含T帧图片的视频V={ti}1T被切分为T/nu个连续视频单元,其中ti为第i帧图片,i为图片的序号,nu为一个视频单元包含的视频帧数。将一个视频单元表示为u={ti}sfnu,其中sf是视频单元起始帧,sf+ nu是视频单元结束帧。将视频单元输入视频特征提取器EV中,得到单元级特征fu=EV(u)。为同时挖掘视频的空域和时域特征,对单元帧间的运动信息建模,选用C3D作为视频特征提取器。采用文献[ 4]的网络结构,将C3D的fc6输出作为单元级特征,fc6为C3D的第6层,即全连接层的输出。

2.2 改进的分水岭选举算法

将应用于二维图像分割任务的分水岭算法改进为应用于一维时序信号聚类的时序区域选举算法。在二维图像分割领域,分水岭算法的优点是计算简单,对于较均匀的连通目标有较好的分割效果,而视频中动作发生的时间段相对于整个视频时间段来说,也是较均匀的联通目标。同时,受文献[ 12]空间动作定位任务中二元动作性分类器的启发,本文创将二元动作性分类器应用于一维时序动作定位任务,主要思想是筛选出动作可能性得分高的单元动作片段,将包含高分单元动作片段较多的时序区间汇聚为一个连通的候选区域,作为对动作时序边界的粗定位。

将二元动作性分类器[12]应用于时序动作定位任务,二元动作性分类器采用在Kinetics数据集下预训练的ResNet。利用ResNet对每个单元级片段进行动作可能性评估,将其包含动作真值的概率作为该片段的动作可能性得分。

改进的分水岭算法将视频以单元级片段(nu=16 frame)为基础单位输入二元动作性分类器中,产生连续的动作可能性信号(如图2上部曲线),将信号取负值映射为一维时序补充信号(图2下部曲线),作为分水岭算法的输入。动作可能性评分高或低的时序片段被分别映射为“盆地”或“山峰”。在此,地貌以不同注水等级γ浸水,得到一组盆地G(γ)。

基于改进的分水岭方法得到盆地G(γ)。依次从各个种子盆地出发浸水,当盆地时序区间长度Lbasin与该浸水区间总长度Loverall的比值小于阈值τ时,即 LbasinLoverall时,停止浸水。如图2所示,吸收的盆地和山峰被聚类为连通的候选区域,每个虚线框代表一个动作候选区域。

图 2. 改进的分水岭选举算法原理图

Fig. 2. Principle of improved watershed proposal algorithm

下载图片 查看所有图片

考虑到视频动作时序长度的多样性,选取多组τγ生成候选区域并集,τγ均为(0,1)之间以0.05为间隔的采样值。最后,对并集应用非极大值抑制算法,过滤掉重叠率高于0.95的候选区域,剩余的候选区域即为动作粗定位候选区域。

区别于传统的滑窗法[10]大批量随机选取候选区域,改进的分水岭选举算法依据动作可能性对时序区域进行更合理的初步定位,过滤掉一部分背景信息,节省了后续的计算成本。不同注水等级γ的聚类可得到多种长度的动作候选区域,克服了传统算法可建模动作长度单一的问题。

3 时序回归选举算法

3.1 时序金字塔结构化算法

将视频单元输入到视频特征提取器C3D,可得到单元级特征fu。而一个动作候选区域包含多个视频单元,即包含多组fu,将一个候选区域表示为p={uj}bueu,其中,u为视频单元,j为第j个视频单元,bu为起始视频单元,eu为结束视频单元,eu=bu+np,np为候选区域p包含视频单元的个数。

为更好地利用视频中的运动信息和因果语义信息,引入上下文信息模块,pl={uj}bu-nctxbupr={uj}eueu+nctx分别代表动作候选区域p之前和之后的上下文信息模块,nctx代表上下文信息模块包含的视频单元个数,此时,一个动作候选区域p={uj}bueu被扩展为p*={uj}bu-nctxbu+nctx。将原候选区域p={uj}bueu称为内部候选区域,将上下文信息模块plpr称为扩展候选区域。

时序金字塔结构化算法的设计灵感来自于spacial pyramid pooling[9]在目标识别任务中的成功应用。对于一个扩展增强过的候选区域p*,将p*划分为内部候选区域p和扩展候选区域plpr。首先分别对这3个区域进行时序金字塔池化,提取区域跨度特征dp,dl,dr,再将这3个区域跨度的特征融合到一起,得到一个全局区域金字塔特征Dc,计算公式为

Dc=Dl=1(pl)Dl=2(p)Dl=1(pr),(1)

该公式可以更详细地表示为

Dc=Dl=1{uj}bu-nctxbuplDl=2{uj}bueu×Dl=1pr={uj}eueu+nctx,(2)

式中,‖表示向量拼接,Dl=1Dl=2分别代表llevel=1和llevel=2的金字塔池化操作。 对于一个L-level的时序金字塔,在第lllevel,区域跨度特征被均匀地划分为Bl个部分。将第lllevel的第j个部分表示为[blj,elj],则它的池化特征提取公式为

djl=1elj-blj+1t=bljeljfu(3)

串联各部分 djl,得到区域跨度特征Dl=( djl|l=1,…,L;j=1,…,Bl),其中,L为池化level的总等级数,Bl为区域跨度特征被均匀划分后的第l个部分。由于内部候选区域p反映动作本身,包含更丰富的动作信息,因此,对p进行更精细的llevel=2的金字塔池化(L=2,B1=1,B2=2);而对扩展候选区域plprllevel=1的金字塔池化(L=1,B1=1)。对于一个扩展增强的动作候选区域p*,金字塔结构化算法如图3所示。

图 3. 内部区域及扩展区域的时序金字塔结构化

Fig. 3. Structure of temporal pyramid of internal and extended regions

下载图片 查看所有图片

3.2 单元级时序回归选举网络

在时序金字塔结构化模块之后连接两个同级网络结构,一个为动作/背景分类器C,另一个为时序坐标回归器R。分类器C与回归器R组成一个支持端到端多任务训练的架构,称为时序回归选举网络。网络以单元级特征为基础单位进行坐标回归,保证了网络训练的效率。单元级时序回归选举网络有两个主要优点:1)以单元级(nu=16 frame)为基础单位进行坐标回归,单元级特征网络比帧级特征网络更易于训练和学习;2)没有采用参数化坐标,而是直接学习两个坐标变量的修正值——起始坐标修正值和结束坐标修正值。

将全局区域金字塔特征Cc作为两个同级网络的输入,动作/背景分类器C的输出层是一个softmax层,输出此候选区域包含动作片段的置信分数,实现对背景候选区域的过滤。对于一个增强的候选区域p*,时序坐标回归器R以与其最相近的真值gt的时序区间为目标,回归器的输出是起始时序坐标和结束时序坐标的修正值,可表示为

Rb=bproposal-bgt,Re=eproposal-egt,(4)

式中,bproposaleproposal分别代表扩展增强的候选区域p*的起始单元级特征和终止单元级特征,bgtegt分别代表与之匹配的真值的起始单元级特征和终止单元级特征。

训练阶段收集两种训练样本。1)动作样本:将与最相近的真值gt的时间交并比(tIoU)大于0.5的候选区域标记为正样本;2)背景样本:将与真值没有任何重叠,即tIoU为0的候选区域标记为负样本。采用多任务损失函数实现分类器C和回归器R的同时训练,即

L=Lcls+λLreg,(5)

式中,Lcls是softmax分类损失函数,Lreg是时序坐标回归器R的损失函数,λ是可调节超参数。Lreg的计算公式为

Lreg=1Nposi=1N[li*=ppos]×(Rb,i-Rb,i*)+(Re,i-Re,i*),(6)

式中: li*是候选区域的标签(动作/背景);N是动作候选区域的总数;ppos是指该候选区域是动作区域;[·]是指示函数,当候选区域为正样本时,[ li*=pos]=1,否则等于0;Npos是正样本的数量;Rb,iRe,i是时序坐标回归器预测的回归修正值; Rb,i*Re,i*是时序区间真正应该修正的回归修正真值。

将改进的分水岭选举算法与时序回归选举算法相组合,分别实现对动作时序区间的粗定位和细定位,然后加入上下文信息模块、C3D单元级特征提取模块和时序金字塔结构化模块,得到一个完整的两段式时序区域选举网络,整个架构支持端到端的训练。

4 实验与分析

4.1 数据集与实验设置

Thumos 14数据集的时序动作定位子集包含来自20个类别的超过20 h的视频。此子集包含200个验证集视频和213个测试集视频。由于Thumos 14的训练集仅包含修剪的视频,本文模型在验证集上训练。

ActivityNet数据集提供了丰富的视频数据,该数据集共包含3个子集,分别是v1.1、v1.2、v1.3。其中v1.3被用作ActivityNet Challenge的竞赛数据集,包含200个类别共19994个视频。每个子集都以2∶1∶1的比例被划分为训练集、验证集和测试集。

参数设置。1)C3D单元级特征:以nu=16 frame为间隔,将视频图片输入到Sports1 m预训练的C3D模型中,采用文献[ 4]的网络结构,将fc6层输出作为视频的单元级特征fu。2)改进的分水岭选举算法:二元动作性分类器ResNet以文献[ 13]的方法在Kinetics数据集下预训练,再以nu=16 frame为间隔将视频帧输入到预训练好的ResNet,得到单元级的动作性得分,作为改进的分水岭选举算法的输入信号,经过分水岭算法聚类,得到动作发生时间不同长度的初步定位结果集合,对集合采用非极大值抑制算法,过滤掉重叠率高于0.95的候选区域,得到初级候选区域;3)时序回归选举网络训练:一个小批次样本数为128,上下文特征单元数nctx=4,λ=2,中间全连接层维数fm=1000,选用Adam优化器以学习率α=0.005进行训练。

4.2 两段式候选区域选举网络

为验证两段式时序区域选举算法“改进的分水岭选举算法和时序回归选举算法”生成的候选区域的质量,设计了两实验。

1) 从候选区域是否精准的角度,将本文算法与其他时序动作选举方法的召回率进行比较,采用2种评估方法。a)AR-AN:随着平均检索到的候选区域数量增加,平均召回率相应地变化;b)Recall-AN-tIoU:固定选取前平均数(AN ,AN)检索到的候选区域,随着tIoU的变化,召回率相应的变化。

2) 从对后续时序定位效果影响的角度,将不同选举方法产生的候选区域连接到相同的动作分类器上。根据最终定位坐标的平均精度均值(mAP),评价其产生的候选区域的质量。其中相同的分类器选用两种,一种是SVM分类器,一种是SCNN中的第三段结合时序重叠率的分类器。a)SVM分类器:利用C3D的fc6特征训练,实现21个类别的分类(20个动作类,1个背景类);b)SCNN定位器:SCNN[10]三段式时序动作检测方法中的第三阶段,是结合时序重叠率的新型分类器,由分类器的动作预测得分对候选区域进行非极大值抑制过滤,产生最终定位坐标。

4.2.1 两段式区域选举算法候选区域的精度

采用AR-AN和Recall-AN-tIoU方法下对两段式区域选举算法产生的候选区域与其他时序区域选举算法(如DAPs[14],Sparse-prop[15],SST[16],BSN[17])产生的候选区域进行比较,结果在AR-AN和Recall-AN-tIoU方法下比较,如图4所示。

图4(a)可以看出,当选定候选区域数量相同时,两段式区域选举算法产生的候选区域的平均召回率平稳,且高于DAPs、Sparse-prop、SST、BSN。其中:SST的思想类似于本文改进的分水岭选举算法,同样是将改进的二维目标检测方法应用于一维时序空间,但召回率远低于两段式区域选举算法;BSN同样注重处理时序动作的上下文信息,引入了起始边界特征和结束边界特征,但精确度略低于两段式区域选举算法。从图4(b)可以看出,在tIoU值较高的情况下,两段式区域选举算法仍可保持较高的召回率。这说明两段式区域选举算法产生的候选区域普遍更精确。

图 4. 候选区域在Thumos 14上的表现。(a) AR-AN;(b) Recall-AN-tIoU

Fig. 4. Performances of candidate regions on Thumos 14. (a) AR-AN; (b) Recall-AN-tIoU

下载图片 查看所有图片

4.2.2 两段式候选区域对时序定位的影响

将本文算法与其他先进的时序动作选举算法,包括DAPs[14]、Sparse-prop[15]、SST[16]、SCNN-prop[10]、BSN[17],在Thumos 14数据集上进行对比。将不同选举算法产生的候选区域输入到相同的动作分类器中,通过最终定位的mAP取0.5来衡量候选区域的质量。同时,为验证 “分水岭+时序回归”两个选举阶段各自的有效性,对改进的分水岭选举算法(Watershed)、时序回归选举算法(Reg)、整体两段式时序区域选举算法(Watershed+Reg)产生的候选区域的质量分别进行评估,见表1

表 1. 不同时序选举方法在Thumos 14数据集上产生的候选区域在后续定位任务中的表现

Table 1. Performances of different temporal proposal methods in subsequent localization in candidate regions on Thumos 14 %

MethodDAPs+SVMSVMSCNNlocalizer
DAPs[14]13.99.516.3
Sparse-prop[15]7.88.115.3
SST[16]15.923.0
BSN[17]20.729.4
SCNN-prop[10]7.614.019.0
Watershed4.96.715.2
Reg8.49.918.6
Watershed+Reg24.723.837.2

查看所有表

结果显示,不论后续连接SVM分类器还是SCNN定位器,两段式时序区域选举算法产生的候选区域的精度均高于其他算法。两段式时序区域选举算法产生的候选区域连接SCNN定位器后,定位精度比DAPs[14]方法高出20.9%,比Sparse-prop高出21.9%,比SST方法高出14.2% ,比BSN方法高出7.8%。其中DAPs利用C3D提取视频特征,BSN利用全局化的边界敏感网络,SST引入非常长的视频序列。注意到,相比于SCNN[10]原始的三段式架构,将前两段SCNN-prop替换为 “分水岭+时序回归”两段式选举算法后,准确率提升了18.2%。验证了两段式区域选举算法产生的候选区域具有高质量特性,也说明高质量的时序区域选举算法对时序定位任务具有促进作用。

直接将第一段改进的分水岭选举算法“Watershed”得到的候选区域输入定位器,精度就能够达到15.2%,而“Watershed+Reg”两段式组合的形式与其他方法相比则达到了最高的识别精度。这是因为第一段选举算法为第二段选举算法提供了具有动作可能性依据的时序区间,且考虑了动作长度的多样性,使得回归结果更加精准。这验证了第一段选举算法的有效性,也说明了两段式选举算法的必要性。

ActivityNet v1.3测试集的结果如表2所示,评估方法采用ActivityNet官方评估包。将两段式候选区域选举算法与SCNN[10]三段式架构的第三段相连,可以看到,与其他近期时序定位算法BSN、CDC、TCN、SCC相比,本文算法取得了很高的平均精度均值,并且在很高的阈值(0.75和0.95)下仍能取得较高的定位精度。

表 2. ActivityNet v1.3数据集中,各方法时序定位坐标在不同tIoU下的mAP

Table 2. mAP of temporal localization coordinate of each method with different tIoU on ActivityNet v1.3 dataset %

tIoU0.50.750.95Average
Method in Ref. [3]42.283.760.0514.85
BSN[17]46.4529.968.0230.03
CDC[18]45.30260.2023.80
TCN[19]23.58
SCC[20]4017.904.7021.70
Ours48.5831.748.7131.23

查看所有表

其中:CDC[18]也运用了C3D,在其结构上进行卷积和反卷积的改进,并且同样对结果进行了微调;BSN[17]利用全局化的边界敏感网络,同样提取了动作候选区域的特征,并且加入了起始和结束边界特征;TCN[19]同样引入动作的时序上下文信息,并且利用成对尺度采样特征对候选区域进行排序。这强有力地证明两段式候选区域选举算法的高精度性和有效性。

两段式候选区域选举算法产生的时序区间如图5所示。GT代表真值坐标,Watershed代表只用分水岭选举法得到的初级候选区域,Watershed+Reg代表结合时序回归的两段式区域选举算法生成的候选区域。

图 5. 两段式区域选举算法在各阶段产生的候选区域示意图

Fig. 5. Schematic of candidate regions generated in each stage of two-stage regional proposal algorithm

下载图片 查看所有图片

4.3 消融研究

为验证本文时序上下文信息模块、时序金字塔结构化模块、C3D单元级别特征训练这3个模块的有效性和必要性,对两段式时序区域选举网络的4种变体进行比较。1) w/o ctx & w/o pyramid:去掉时序上下文扩展模块和时序金字塔结构化模块,w为with的缩写,代表包含某模块,w/o为without的缩写,代表不包含某模块;2) w/ctx & w/o pyramid:保留时序上下文扩展模块,但不对内部候选区域进行特殊的llevel=2的金字塔池化;3)frame reg w/both:保留上述两个模块,但去掉C3D单元级别特征提取模块,直接将帧图片输入到网络中进行帧级别定位;4) unit reg w/both:保留所有模块。通过AR-AN图来对比这4种变体的优劣,如图6所示。

图 6. 时序上下文信息模块、时序金字塔模块、C3D单元级别特征的消融研究

Fig. 6. Ablation study oftemporal context module, temporal pyramid module, and C3D unit-level feature

下载图片 查看所有图片

可以看出,时序上下文扩展模块为时序检测任务提供了额外的语义信息,增强了候选区域的动作完整性。因此包含时序上下文模块的网络w/ctx & w/o pyramid 比w/o ctx & w/o pyramid检测精度更高。没有针对内部候选区域实施金字塔结构化处理的w/o ctx & w/o pyramid识别精度不如运用金字塔结构化处理的frame reg w/both,说明时序金字塔结构化模块的引入可以更具针对性地对动作本身(内部候选区域)及其上下文信息(扩展候选区域)建模,提升了准确度。而运用C3D单元级别特征的unit reg w/both比只利用帧级信息的网络frame reg w/both 精度更高,说明挖掘了视频时域和空域信息的C3D单元级别特征可以提升时序区间定位的准确度。

4.4 效率分析

为验证两段式区域选举算法的高效性,保持4.1节参数设置不变,将两段式区域选举算法的3种变体(Proposal-16, Proposal-32,Proposal-w/o unit)与其他方法进行运行速度(FPS)和召回率(AR-AN of 1000)上的比较。其中Proposal-16和Proposal-32分别代表以一个单元为16 frame或32 frame提取的单元级C3D特征,Proposal-w/o unit代表不使用单元级特征,只用单帧特征进行时序定位。随机抽取Thumos 14验证集中的100个视频,并在一个单个的Nvidia TITAN X GPU上进行训练,运行结果如表3所示。

表 2. ActivityNet v1.3数据集中,各方法时序定位坐标在不同tIoU下的mAP

Table 2. mAP of temporal localization coordinate of each method with different tIoU on ActivityNet v1.3 dataset %

tIoU0.50.750.95Average
Method in Ref. [3]42.283.760.0514.85
BSN[17]46.4529.968.0230.03
CDC[18]45.30260.2023.80
TCN[19]23.58
SCC[20]4017.904.7021.70
Ours48.5831.748.7131.23

查看所有表

可以看出:精度上Proposal-16、Proposal-32、Proposal-w/o unit依次降低;速度上,Proposal-32、Proposal-16、Proposal-w/o unit依次降低;Proposal-w/o unit在速度和精度上都是最低的。这说明C3D单元级别特征的引入从整体上提升了算法的效率和精度。此外,更长的单元级别特征速度更快(Proposal-32的速度高于Proposal-16),但同时降低了召回率的准确度(Proposal-32的召回率小于Proposal-16)。AR和FPS之间呈现一种此消彼长的关系,这是由于更短的单元级别特征会产生更多的特征向量,从而消耗更多的计算时间,但由于回归的基础坐标单位变小,更短的单元级别特征会提升时序坐标回归时的精确度。与其他时序动作选举方法相比,Proposal-16超越了DAPs、Sparse-prop和SST,达到了最优的召回率,并且速度比传统的DAPs方法提升了3倍。其中CDC同样利用动作边界进行微调,后续应用C3D,但速度慢于Proposal-32,这是因为相比于传统的手工特征或传统的单帧训练,单元级别特征的引入提升了训练效率。由表2可知,CDC的平均精度均值(23.80%) 远低于Proposal-16(31.23%)。因此选择C3D单元级别特征(nu=16)作为时序回归网络的输入,在大幅度提升时序定位精度的同时,保证了相对较高的处理速度。

5 结论

针对长视频中时序动作发生时间的定位任务,提出一种两段式时序区域选举算法。第一段选举算法通过改进的分水岭浸水聚类产生多种不同长度的候选区域,实现动作时序边界的粗定位。进而提出一种时序金字塔结构化分析方法,引入时序上下文信息模块,对候选区域进行结构化建模,增强了动作片段的结构特征。第二段时序回归选举网络采用多任务损失函数,实现时序坐标回归器和动作/背景分类器的同时训练,过滤掉背景区域的同时得到了更加精确的时序边界。整个两段式区域选举网络以C3D提取的单元级视频特征进行训练,挖掘了视频时域和空域的丰富语义,提升了算法的精度和训练效率。多组实验结果表明,结合分水岭和回归网络的时序动作选举算法能够有效提高视频时序动作检测的准确度。

参考文献

[1] OneataD, VerbeekJ, SchmidC. The LEAR submission at thumos 2014[M] ∥Fleet D, Pajdla T, Schiele B, et al. European conference on computer vision-ECCV 2014. Lecture notes in computer science Cham, 2014, 8692: 1- 7.

[2] 李艳荻, 徐熙平. 基于空-时域特征决策级融合的人体行为识别算法[J]. 光学学报, 2018, 38(8): 0810001.

    Li Y D, Xu X P. Humanaction recognition by decision-making level fusion based on spatial-temporal features[J]. Acta Optica Sinica, 2018, 38(8): 0810001.

[3] 李庆辉, 李艾华, 王涛, 等. 结合有序光流图和双流卷积网络的行为识别[J]. 光学学报, 2018, 38(6): 0615002.

    Li Q H, Li A H, Wang T, et al. Double-stream convolutional networks with sequential optical flow image for action recognition[J]. Acta Optica Sinica, 2018, 38(6): 0615002.

[4] TranD, BourdevL, FergusR, et al. Learning spatiotemporal features with 3D convolutional networks[C]∥2015 IEEE International Conference on Computer Vision (ICCV), December 7-13, 2015, Santiago, Chile. New York: IEEE, 2015: 4489- 4497.

[5] GorbanA, IdreesH, Jiang YG, et al. THUMOS challenge: action recognition with a large number of classes[OL]. 2015[ 2019-05-25]. http:∥www.thumos.info/.

[6] 冯小雨, 梅卫, 胡大帅. 基于改进Faster R-CNN的空中目标检测[J]. 光学学报, 2018, 38(6): 0615004.

    Feng X Y, Mei W, Hu D S. Aerial Target detection based on improved Faster R-CNN[J]. Acta Optica Sinica, 2018, 38(6): 0615004.

[7] 辛鹏, 许悦雷, 唐红, 等. 全卷积网络多层特征融合的飞机快速检测[J]. 光学学报, 2018, 38(3): 0315003.

    Xin P, Xu Y L, Tang H, et al. Fast airplane detection based on multi-layer feature fusion of fully convolutional networks[J]. Acta Optica Sinica, 2018, 38(3): 0315003.

[8] Felzenszwalb P F, Girshick R B. McAllester D, et al. Object detection with discriminatively trained part-based models[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645.

[9] LazebnikS, SchmidC, PonceJ. Beyond bags of features:spatial pyramid matching for recognizing natural scene categories[C]∥2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06), June 17-22, 2006, New York, NY, USA. New York: IEEE, 2006.

[10] ShouZ, WangD, Chang SF. Temporal action localization in untrimmed videos via multi-stage CNNs[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 1049- 1058.

[11] DonahueJ, Hendricks LA, GuadarramaS, et al. Long-term recurrent convolutional networks for visual recognition and description[C]∥2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 7-12, 2015, Boston, MA, USA. New York: IEEE, 2015: 2625- 2634.

[12] Wang LM, QiaoY, Tang XO, et al. Actionness estimation using hybrid fully convolutional networks[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 2708- 2717.

[13] Wang LM, Xiong YJ, WangZ, et al. Temporal segment networks: towards good practices for deep action recognition[M] ∥Leibe B, Matas J, Sebe N, et al. European conference on computer vision-ECCV 2016. lecture notes in computer science. Cham: Springer, 2016, 9912: 20- 36.

[14] EscorciaV, Caba HeilbronF, Niebles JC, et al. DAPs: deep action proposals for action understanding[M] ∥Leibe B, Matas J, Sebe N, et al. European conference on computer vision-ECCV 2016. lecture notes in computer science. Cham: Springer, 2016, 9907: 768- 784.

[15] Heilbron FC, Niebles JC, GhanemB. Fast temporal activity proposals for efficient detection of human actions in untrimmed videos[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 1914- 1923.

[16] BuchS, EscorciaV, Shen CQ, et al. SST: single-stream temporal action proposals[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 6373- 6382.

[17] Lin TW, ZhaoX, Su HS, et al. BSN: boundary sensitive network for temporal action proposal generation[M] ∥Ferrari V, Hebert M, Sminchisescu C, et al. European conference on computer vision-ECCV 2018. lecture notes in computer science. Cham: Springer, 2018, 11208: 3- 21.

[18] ShouZ, ChanJ, ZareianA, et al. CDC: convolutional-de-convolutional networks for precise temporal action localization in untrimmed videos[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 1417- 1426.

[19] Dai XY, SinghB, Zhang GY, et al. Temporal context network for activity localization in videos[C]∥2017 IEEE International Conference on Computer Vision (ICCV), October 22-29, 2017, Venice, Italy. New York: IEEE, 2017: 5727- 5736.

[20] Heilbron FC, BarriosW, EscorciaV, et al. SCC: semantic context cascade for efficient action detection[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 3175- 3184.

黄韵文, 王斐, 李景宏, 王国锐. 结合分水岭和回归网络的视频时序动作选举算法[J]. 中国激光, 2019, 46(11): 1109001. Yunwen Huang, Fei Wang, Jinghong Li, Guorui Wang. Algorithm for Video Temporal Action Proposal Combining Watershed and Regression Networks[J]. Chinese Journal of Lasers, 2019, 46(11): 1109001.

本文已被 1 篇论文引用
被引统计数据来源于中国光学期刊网
引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!