激光与光电子学进展, 2019, 56 (12): 121004, 网络出版: 2019-06-13  

基于三维挤压激励模块的视频分类 下载: 1008次

Video Classification Based on Three-Dimensional Squeeze Excitation Module
作者单位
青岛大学计算机科学技术学院, 山东 青岛 266071
摘要
针对视频分类中时序特征的融合问题,将二维卷积神经网络中的挤压激励(SE)网络与三维卷积残差网络相结合,提出了新的三维挤压激励网络结构模块,该模块比直接转化而来的三维挤压激励模块多了一个时间维度系数,时间维度系数记录了研究对象在时间轨迹上所进行的动作轨迹变化。新模块不仅可以记录某个时间点的特征,而且能够强化多个时间点的关联性。将具有时空纬度的挤压激励网络应用于人物的动作行为识别,检验了新模块的有效性。实验结果表明,新模块可加快损失收敛并有效提高视频分类精度。
Abstract
To address the fusion problem of time sequence features in video classification, this paper proposes a new three-dimensional (3D) squeezing excitation (SE) network structure module that is constructed by combining the SE network in a two-dimensional convolutional neural network (CNN) with a 3D convolutional residual network. The new module adds an extra time-dimension coefficient to the coefficient set of a directly transformed 3D SE module, allowing it to record the changes in the motion trajectories of the research objects on time trajectories. The proposed module can not only record the characteristics of a specific time point, but also strengthen the relevance of multiple time points. To assess the effectiveness of the module, an SE network with a spatial and temporal latitude was used to perform character-action-behavior recognition. The experimental results indicate that the module can accelerate the loss convergence and effectively improve the accuracy of video classification.

1 引言

人物动作视频分类是计算机视觉中一个重要的研究领域,随着深度学习的普及,对人物动作视频分类的研究已取得了很大的进展,其中,使用三维(3D)卷积[1]解决分类任务是常用的方法,这一方法比二维(2D)卷积多了一个时间维度,因而拥有更多的参数。人物动作分类比多尺度感知行人检测[2]更侧重于时间维度上的空间轨迹变化,且两者需要学习的参数不同。当使用具有大量参数的深度卷积神经网络[3]时,大规模数据集是非常重要的。2D卷积神经网络(CNNs),基于ImageNet[4]大型数据集,在图像处理任务中具有很强的学习能力,这是因为在ImageNet上训练得很深的网络,如残差网络[5]等,有助于卷积神经网络获得通用的特征表示,使用这些特征可以有效地提高其他任务的性能。同样,当使用3D卷积解决视频分类任务时,也需要一个大型的数据集,如Kinetics[6]。目前具有代表性的小规模动作识别视频数据集有UCF-101[7]、HMDB51[8]等,与图像识别数据集相比,当前可用于动作识别的数据集整体较小,其中Kinetics数据集是一个专注于人物动作识别的大型数据集。

2D CNNs中有很多优秀的模型结构,例如残差连接网络、密集连接网络[9]、挤压激励[10](SE)结构等,在很多提出的新模型结构中都有可能使用到其中的残差连接或密集连接。

处理视频分类任务本质上是如何在一段具有时序特点的图片中提取深度特征,卷积神经网络在空间上的学习能力很好,但在时序上的特征关联性有待加强。为此,本文基于Kinetics数据集,使用由2D残差网络转化而来的3D 残差神经网络(ResNet)[11]作为基准网络,引入优化的挤压激励模块来实现强化时间维度的特征学习,并用于视频分类。当前3D CNNs在视频分类中已有不错的表现,本文着重探讨SE模块是否会在时间轨迹上强化特征学习,不讨论网络深度对特征学习的影响。

2 使用优化后的3D SE模块提取深度特征

2.1 转化为3D卷积结构

3D卷积是视频建模的一种方法,其比标准的卷积网络多一个时间纬度,能够直接创建时空数据的层次表示,因此,比2D卷积神经网络拥有更多的参数。模型参数在基于时空方向的人体行为识别[12]中至关重要,但也使得模型很难训练。深度3D卷积网络需要预训练像Kinetics这样的大型数据集[13],这和ImageNet的预训练同等重要。

SE模块可以很好地嵌入到2D CNNs中,在提升图像分类精度的同时增加的计算量很少。该模块通过学习并获取特征通道的重要程度,以抑制卷积层中不重要的特征,将这种思想应用到3D CNNs中能提升其图像的处理性能。经过改进的3D CNNs,在空间维度和时间维度上均能学习特征通道的重要程度,并基于重要程度强化学习各维度上的重要特征,进而提高分类精度。

模型的单元结构如图1所示。将2D卷积核K(高)×K(宽)转化为3D卷积核K(时间维度)×K(高)×K(宽),2D ResNet、3D ResNet单元分别如图1(a)、(b)所示;直接将3D SE模块嵌入到3D ResNet中,得到3D SE_FC ResNet 单元如图1(c)所示,为了反映SE模块在时间维度上对特征变化的影响,优化设计了3D SE_FC ResNet网络模型,在进行自适应平均池化[14]时,改变输出时间维度系数T,把通道系数固定为32,空间尺度不变,图1(c)中,T(时间维度系数)×1(高)×1(宽)×4N(通道数)表示输出的尺度大小;通过实验对比它们在训练中的损失和测试精度的变化。

图1还给出了3D ResNet50与新模型卷积结构对比,两者均为由2D卷积转化而来的3D卷积结构,每个卷积层通过线性整流函数(RELU)[15]激活。其中,卷积层conv2_x,conv3_x,conv4_x,conv5_x的单元的个数为x=3,4,6,3,每个单元都嵌入3D SE_FC模块。3D SE_FC模块包括平均池化层、全连接层FC1、RELU激活、全连接层FC2、归一化处理Sigmoid,其中FC1、FC2的时间维度系数T分别为1、4、8,它们图片的输入大小、卷积层conv1和最后的全连接层FC层是一致的。当新模型的系数T增大时,相应的全连接层参数也会成系数倍增加,如果FC1、FC2时间输入维度为N,那么当T分别为1,4,8时,时间输出维度变为N,4N,8N,这样可以拟合更多时间维度的特征。conv2_x之前设置了卷积核为1×3×3的最大池化层,步长stride为2;第1个卷积层conv1层在空间上用空间步长stride为2的下采样输入,最后的全连接层中classes为视频类别的数量。

2.2 视频分类特征提取流程

3D SE_FC模块处理过程:1)进行1×1×1,3×3×3,1×1×1卷积;2)通过3D自适应平均池化输出T×1×1操作将空间维度和时间维度压缩,使时间维度特征融合进空间维度特征,通道数不变,这样不仅具有全局感受,而且具有时间上的联系,从而能够对每个通道的时间维度做出响应;3)融合后,通过2个FC全连接层更好地拟合空间上和时间上的相关性;4)通过Sigmoid[16]获得0~1之间的归一化权重,最后将这个权重加权到卷积层中,从而加强重要特征的学习,抑制非重要特征的学习。

实验中,输入是3(通道数)×16(时间维度)×112(高)×112(宽)。整个特征提取过程如图2所示。1) 在空间上进行步长为2的下采样作为输入,其中时间步长为1,卷积核为7×7×7;2)进行1×3×3的最大池化,为保留更多的时间维度信息,将卷积核中的时间维度设置为1;3) 经过3D SE_FC ResNet 单元的处理,得到具有固定维度的FC层,维度数和类别数相等;4) 进行分类预测,其中最大得分表示已识别的类标签。

图 1. 模型的单元结构。 (a) 2D ResNet单元;(b) 3D ResNet单元;(c) 3D SE_FC ResNet单元

Fig. 1. Unit structure of module. (a) 2D ResNet unit; (b) 3D ResNet unit; (c) 3D SE_FC ResNet unit

下载图片 查看所有图片

图 2. 特征提取过程

Fig. 2. Flow chart of feature extraction

下载图片 查看所有图片

3 实验配置

3.1 实验设计

实验以3D ResNet50作为基准网络结构,分别从新模块嵌入之前、嵌入之后、嵌入后时间维度系数T的变化以及不同视频数据集的使用4个方面进行分析。实验用到3D ResNet50、3D SE_FC ResNet50(T=1)、3D SE_FC ResNet50(T=4)、3D SE_FC ResNet50(T=8)4个网络模型,通过对比在不同数据集上训练过程中的衰减趋势和平均精度,衡量新模块在不同时间维度系数下的增益效果。实验1是在没有使用Kinetics数据集进行预训练的情况下训练模型,实验2使用3D ResNet50在Kinetics数据集上进行预训练,再将其部分模型参数迁移到3D SE_FC ResNet50中进行微调。

实验1中,分别使用3D ResNet50和嵌入SE_FC模块的3D ResNet50在UCF101、HMDB51数据集上进行训练,保存每个阶段的最优模型,并在相同实验条件下对比各阶段结果。在训练UCF101数据集时,使用kaiming初始化[17]参数,对比前100个epoch的衰减下降趋势和训练精度,再基于此模型,改变学习率为0.001并训练70个epoch,检查衰减收敛情况和训练精度变化,本训练中使用随机梯度下降法[18](SGD)优化参数函数。在HMDB51数据集进行训练时,使用在UCF101数据集上训练获得的模型作为预训练模型,本次训练使用自适应估计[19](Adam)梯度优化函数,初始学习率为0.001时训练300个epoch,并对比衰减的变化和训练精度的变化。

实验2中,使用Kinetics数据集预训练3D ResNet,接着在UCF101和HMDB51上进行微调,只在conv5_x和最后的FC层进行该步骤,SE_FC模块只嵌入conv5_x中。最后,将获得的结果与最新的视频分类方法进行对比。

3.2 视频数据集和数据预处理

UCF-101和HMDB51以及 Kinetics视频数据集是被业界公认的、在动作识别领域比较成功的数据集,现在仍然被用来作为基准。因此,选用这些数据集验证挤压激励模块的有效性。

UCF-101数据集是人类行为识别数据集中的典型代表,一个视频只包含一类人类行为,数据集包括13320个动作实例,包含运动、瑜伽、乐器等101个人类行为类别,共27 h。其中非动作帧被删除,平均持续时间大约7 s,数据集提供了3个训练、测试集的分布集合,其中70%为训练集,30%为测试集。

HMDB51数据集包括51个人类动作,总共有6849个视频剪辑,每个类别至少101个剪辑,动作分为5种类型:面部动作、面部动作与对象、身体运动、身体运动与对象、人体互动。每个视频的平均长度为3 s,数据集提供了3个训练、测试的分布集合,其中70%为训练集,30%为测试集。

Kinetics数据集关注于人类行为,而不是活动或事件。动作类包括:例如画画、喝酒、大笑、拳击等单个人物动作;例如拥抱、亲吻、握手等多人物动作;例如打开礼物、修剪草坪、洗碗等人物对象动作。有些动作是细粒度的,需要时间推理进行区分,例如不同类型的游泳。有些动作需要通过强调物体依赖性加以区分,例如演奏不同类型的管乐器。数据集有400个人类动作类,每个类有400个或更多的剪辑,每个剪辑来自一个独特的视频,共有24万个训练视频。剪辑持续10 s左右,没有未剪辑的视频。测试集由每个类的100个剪辑组成。

数据预处理过程中,将视频的大小调整为320 pixel×240 pixel。所有的视频根据帧数切割成相应的图片并保存,这些图片用于训练和测试。训练时选用16张图片进行3D卷积。

3.3 模型训练

为了在不同的参数更新方法下对比衰减的收敛趋势,实验中使用了SGD法和Adam,其中Adam梯度更新速度快于SGD法。训练中参数包括动量衰减0.001和0.9,SGD的初始学习率为0.01,衰减权重为1×10-5,Adam的初始学习率为0.001,计算梯度和平方梯度的系数为0.9和0.999,eps为1×10-8,权重衰减为0。

实验1中把在UCF101上训练得到的模型用于训练HMDB51数据,因为其数据规模太小,所以很容易过拟合。UCF101数据集是从头开始训练。视频样本使用均匀采样的方式,在同一个时间段获取的样本是等量的,即在时空上等量滑动,生成不重叠的片段,然后分别进行3D卷积,获得每个片段类的得分,最后获得最大值的类即为样本所标的标签。

实验2中把3D ResNet50在Kinetics数据集上预训练获得的模型作为预训练模型,使用SGD法分别在UCF101和HMDB51数据集上进行微调。

4 实验结果和讨论

UCF101第1、2阶段训练损失以及HMDB51训练损失如图3~5所示。由图可见,在模型训练的过程中,由2D转化而来的新模块可以提升模型的训练效率,通过调整时间维度T(1,4)可以在一定程度上增强模型的特征学习能力。训练结束后选择验证精度最高的模型进行对比,数据集UCF101和HMDB51的平均验证精度对比如表1~2所示。当新模块的时间维度系数T=4,8时,精度均超过了基准网络3D ResNet50的精度,且当T=4时精度最高,由此说明调整时间维度系数可以提高视频分类精度。为了进一步说明新模块的优势,将微调后得到的模型与其他方法对比,如表2所示,在UCF101数据集上新模块嵌入50层的3D ResNet得到的精度超过了嵌入200层的3D ResNet,同时效果也好于表中其他方法。平均每个视频分类时间对比如表3所示,由表可见,在实际视频分类应用中,新模块在提高分类精度的同时对运行效率的影响很小。后期研究将考虑使用双流卷积神经网络[20],把时间和空间分开并进行联合检测。

UCF101第1阶段训练损失如图3所示,给出了在数据集UCF101(split3)上从头开始训练的前100个epoch的衰减下降趋势图,学习率为0.01,采用SGD梯度下降法。由图3可以看到,3D ResNet50嵌入3D SE_FC(T=1,4)模块后,前期下降趋势明显快于3D ResNet,虽然最后都收敛于同一饱和状态,但是3D SE模块可以更快地进入饱和状态。

图 3. UCF101第1阶段训练损失

Fig. 3. Loss at first stage of UCF101 training

下载图片 查看所有图片

图 4. UCF101第2阶段训练损失

Fig. 4. Loss at second stage of UCF101 training

下载图片 查看所有图片

UCF101第2阶段训练损失如图4所示。这是在数据集UCF101(split3)上训练,加载前100个epoch作为预训练模型继续训练50个epoch,学习率为0.001,依然采用SGD法,由图可见,嵌入3D SE_FC(T=1)模块的3D ResNet的衰减略低于3D ResNet。

HMDB51训练损失如图5所示,这是在数据集HMDB51(split3)上训练300个epoch。使用在UCF101上所得到的训练模型作为预训练模型,学习率为0.001,计算梯度和平方梯度的系数为0.9和0.999,eps为1×10-8,权重衰减为0。梯度下降法使用了Adam方法,这样学习率可以实现动态自适应,3D SE_FC模块中的时间维度T=1,4。对比衰减变化趋势,3D SE_FC ResNet稍快于3D ResNet,并且整体上衰减略低于 3D ResNet。

图 5. HMDB51训练损失

Fig. 5. Loss of HMDB51 training

下载图片 查看所有图片

数据集UCF101平均验证精度对比如表1所示。数据集HMDB51平均验证精度对比如表2所示。表中3D ResNet50、3D ResNet101为50层和101层的原始3D卷积神经网络,3D SE_FC ResNet50为新提出的3D挤压激励卷积神经网络,时间维度系数T分别为1,4, 8。通过调整学习率继续在UCF101(split3)上进行训练,将学习率调整为0.0001,继续训练,其衰减已经处于饱和状态,对比它们预测概率最大(Top1)和预测概率最大前5名(Top5)的验证平均精度,并对比数据集HMDB51前300个epoch模型的验证平均精度。由于没有使用Kinetics预训练模型,所得到的结果精度低于使用Kinetics预训练模型所得到的模型,具体请查看文献[ 13],其中T为3D SE_FC模块中的时间维度。

表 1. 数据集UCF101的平均验证精度对比

Table 1. Average validation accuracy comparison on UCF101 dataset

MethodPretrainingdatasetAverage validationaccuracy /%
Top1Top5
3D ResNet5043.867.3
3D ResNet10143.468.8
3D SE_FC ResNet50,T=1No42.566.1
3D SE_FC ResNet50,T=444.969.6
3D SE_FC ResNet50,T=845.568.2

查看所有表

表 2. 数据集HMDB51的平均验证精度对比

Table 2. Average validation accuracy comparison on HMDB51 dataset

MethodPretrainingdatasetAverage validationaccuracy /%
Top1Top5
3D ResNet5015.643.0
3D ResNet10115.241.0
3D SE_FC ResNet50,T=1UCF10116.143.6
3D SE_FC ResNet50,T=418.746.2
3D SE_FC ResNet50,T=817.744.6

查看所有表

平均每个视频分类时间对比如表3所示,时间包括整个视频预处理时间。由表3可见,嵌入新模块后所增加的时间很少,因此,新模块对视频分类效率的影响很小。

表 3. 平均每个视频分类时间对比

Table 3. Average time comparison for each video classification

MethodTime /ms
3D ResNet50104
3D ResNet101111
3D SE_FC ResNet50,T=1112
3D SE_FC ResNet50,T=4110
3D SE_FC ResNet50,T=8114

查看所有表

Kinetics数据集预训练后,数据集HMDB51和UCF101的测试精度对比如表4所示。3D ResNet18,3D ResNet34,3D ResNet50,3D ResNet101和3D ResNet200分别为18,34,50,101,200层的原始3D卷积神经网络,3D DenseNet-121为121层的3D密集链接网络。其中SE_FC只嵌入到conv5_x中,其他层保持不变,训练只微调conv5_x和FC层。将使用Kinetics预训练的模型所得到Top1平均测试精度与其他3D模型以及其他最新方法对比,结果表明,50层的SE_FC ResNet在UCF101数据集上可以达到200层的3D ResNet所得到的精度,并且超过了50层的3D ResNet所得到的精度。

表 4. 数据集HMDB51和UCF101的测试精度对比

Table 4. Test accuracy comparison on HMDB51 and UCF101 datasets

MethodPretrainingdatasetTest accuracy /%
HMDB51UCF101
3D ResNet18Kinetics56.484.4
3D ResNet3459.187.7
3D ResNet5061.089.3
3D ResNet10161.788.9
3D ResNet20063.589.6
3D DenseNet-12159.687.6
Method in Ref. [21]-59.488.0
Method in Ref.[22]--88.6
Method in Ref. [23]--85.9
Method in Ref. [24]--88.6
Method in Ref.[25]sports 1M-82.3
3D SE_FC ResNet50,T=1(ours)Kinetics61.389.0
3D SE_FC ResNet50,T=4(ours)59.690.1
3D SE_FC ResNet50,T=8(ours)59.089.5

查看所有表

5 结束语

嵌入3D SE_FC模块可以有效提高衰减收敛的速度,同时分类精度也有一定提升,因此,3D SE_FC模块通过强化时间维度的学习可以提高训练的效率和精度,同时能在空间维度增强学习。这表明3D SE_FC模块对时间维度特征具有一定增益。但是,模型的复杂度也会增加,对于部分数据集,单纯地将其嵌入并不会提高精度,而需要更多的数据拟合模型参数。

目前,2D CNNs在图像处理的各项任务中都有很大的进展,证明了卷积神经网络在空间上具有较强的学习能力。但是,当使用3D CNNs解决视频分类任务时,如何更好地处理空间和时间上的特征,并获得更好的效果仍是需要重点考虑的。实际情况中,3D CNNs的表现不佳,相比于光流法以及其他双流相结合的方法并没有优势。因此,在时间上的深度特征学习很重要,很多方法的思路是将空间和时间分开,并结合3D CNNs分别提取空间特征和时间特征,取得了较好的效果。无论是全部分开还是通过不同的卷积核的形式,都是为了更好地整合空间维度特征和时间维度特征。由于3D CNNs在空间维度卷积网络已经有了很强的学习能力,因此在原有的3D CNNs基础上嵌入优化的3D卷积挤压激励模块,就是为了增强时间维度的学习。为了更好地整合时间维度特征,将此结构作为时间维度的放大器(并非完全的放大,其中也包括空间因素),如何进一步发挥此结构的优势是下一步研究的重点。

当前的卷积网络可以很好地学习空间维度的特征,而如何更好地学习时间维度特征仍是一个关键的问题。此外,3D卷积的学习参数远大于2D卷积,如果数据量太小很容易造成过拟合现象,因此,需要综合考虑这些问题,设计出用于视频分类的更好的3D卷积模型。

参考文献

[1] Wang KZ, Wang XL, LinL, et al.3D human activity recognition with reconfigurable convolutional neural networks[C]∥Proceedings of the 22nd ACM International Conference on Multimedia, November 3-7, 2017, Orlando, Florida, USA.New York: ACM Press, 2014: 97- 106.

[2] 刘辉, 彭力, 闻继伟. 基于改进全卷积网络的多尺度感知行人检测算法[J]. 激光与光电子学进展, 2018, 55(9): 091504.

    Liu H, Peng L, Wen J W. Multi-scale aware pedestrian detection algorithm based on improved full convolutional network[J]. Laser & Optoelectronics Progress, 2018, 55(9): 091504.

[3] KarpathyA, TodericiG, ShettyS, et al. Large-scale video classification with convolutional neural networks[C]∥2014 IEEE Conference on Computer Vision and Pattern Recognition, June 23-28, 2014, Columbus, OH, USA. New York: IEEE, 2014: 1725- 1732.

[4] DengJ, DongW, SocherR,et al. ImageNet: a large-scale hierarchical image database[C]∥2009 IEEE Conference on Computer Vision and Pattern Recognition, June 20-25, 2009, Miami, FL, USA. New York: IEEE, 2009: 248- 255.

[5] He KM, Zhang XY, Ren SQ, et al. Deep residual learning for image recognition[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 770- 778.

[6] KayW, CarreiraJ, SimonyanK, et al. The kinetics human action video dataset[EB/OL].( 2017-05-19)[2018-11-15]. https:∥arxiv.org/abs/1705. 06950.

[7] SoomroK, Zamir AR, Shah M. UCF101: a dataset of 101 human actions classes from videos in the wild[EB/OL].( 2012-12-03)[2018-11-15]. https:∥arxiv.org/abs/1212. 0402.

[8] KuehneH, JhuangH, StiefelhagenR, et al. HMDB51: a large video database for human motion recognition[M] ∥ Nagel W, Kröner D, Resch M. High Performance Computing in Science and Engineering ‘12. Berlin, Heidelberg: Springer, 2012: 571- 582.

[9] HuangG, LiuZ, Maaten L V D, et al. Densely connected convolutional networks[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 2261- 2269.

[10] HuJ, ShenL, SunG. Squeeze-and-excitation networks[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA. New York: IEEE, 2018: 7132- 7141.

[11] HaraK, KataokaH, SatohY. Learning spatio-temporal features with 3D residual networks for action recognition[C]∥2017 IEEE International Conference on Computer Vision Workshops (ICCVW), October 22-29, 2017, Venice, Italy. New York: IEEE, 2017: 3154- 3160.

[12] 徐海洋, 孔军, 蒋敏, 等. 基于时空方向主成分直方图的人体行为识别[J]. 激光与光电子学进展, 2018, 55(6): 061009.

    Xu H Y, Kong J, Jiang M, et al. Action recognition based on histogram of spatio-temporal oriented principal components[J]. Laser & Optoelectronics Progress, 2018, 55(6): 061009.

[13] HaraK, KataokaH, SatohY. Can spatiotemporal 3D CNNs retrace the history of 2D CNNs and ImageNet?[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA. New York: IEEE, 2018: 6546- 6555.

[14] LiuD, Zhou YZ, Sun XY, et al. Adaptive pooling in multi-instance learning for web video annotation[C]∥2017 IEEE International Conference on Computer Vision Workshops (ICCVW), October 22-29, 2017, Venice, Italy. New York: IEEE, 2017: 318- 327.

[15] NairV, Hinton GE. Rectified linear units improve restricted Boltzmann machines[C]∥27th International Conference on Machine Learning, 2010, Haifa, Israel. Omnipress, 2010: 807- 814.

[16] Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.

[17] He KM, Zhang XY, Ren SQ, et al. Delving deep into rectifiers: surpassing human-level performance on ImageNet classification[C]∥2015 IEEE International Conference on Computer Vision (ICCV), December 7-13, 2015, Santiago, Chile. New York: IEEE, 2015: 1026- 1034.

[18] Bordes A, Bottou L, Gallinari P. SGD-QN: careful quasi-Newton stochastic gradient descent[J]. Journal of Machine Learning Research, 2009, 10(Jul): 1737-1754.

[19] Kingma DP, Ba J. Adam: a method for stochastic optimization[EB/OL]. ( 2017-01-30)[2018-11-15]. https:∥arxiv.org/abs/1412. 6980.

[20] 刘帆, 刘鹏远, 张峻宁, 等. 基于双流卷积神经网络的RGB-D图像联合检测[J]. 激光与光电子学进展, 2018, 55(2): 021503.

    Liu F, Liu P Y, Zhang J N, et al. Joint detection of RGB-D images based on double flow convolutional neural network[J]. Laser & Optoelectronics Progress, 2018, 55(2): 021503.

[21] SzegedyC, LiuW, Jia YQ, et al. Going deeper with convolutions[C]∥2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 7-12, 2015, Boston, MA, USA. New York: IEEE, 2015: 7298594.

[22] Ng J YH, HausknechtM, VijayanarasimhanS, et al. Beyond short snippets: deep networks for video classification[C]∥2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 7-12, 2015, Boston, MA, USA. New York: IEEE, 2015: 4694- 4702.

[23] WangH, SchmidC. Action recognition with improved trajectories[C]∥2013 IEEE International Conference on Computer Vision, December 1-8, 2013, Sydney, NSW, Australia. New York: IEEE, 2013: 3551- 3558.

[24] Qiu ZF, YaoT, MeiT. Learning spatio-temporal representation with pseudo-3D residual networks[C]∥2017 IEEE International Conference on Computer Vision (ICCV), October 22-29, 2017, Venice, Italy. New York: IEEE, 2017: 5534- 5542.

[25] TranD, BourdevL, FergusR, et al. Learning spatiotemporal features with 3D convolutional networks[C]∥2015 IEEE International Conference on Computer Vision (ICCV), December 7-13, 2015, Santiago, Chile. New York: IEEE, 2015: 4489- 4497.

李宁孝, 王国栋, 王岩杰, 胡诗语, 王亮亮. 基于三维挤压激励模块的视频分类[J]. 激光与光电子学进展, 2019, 56(12): 121004. Ningxiao Li, Guodong Wang, Yanjie Wang, Shiyu Hu, Liangliang Wang. Video Classification Based on Three-Dimensional Squeeze Excitation Module[J]. Laser & Optoelectronics Progress, 2019, 56(12): 121004.

引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!