基于三维挤压激励模块的视频分类 下载: 1008次
1 引言
人物动作视频分类是计算机视觉中一个重要的研究领域,随着深度学习的普及,对人物动作视频分类的研究已取得了很大的进展,其中,使用三维(3D)卷积[1]解决分类任务是常用的方法,这一方法比二维(2D)卷积多了一个时间维度,因而拥有更多的参数。人物动作分类比多尺度感知行人检测[2]更侧重于时间维度上的空间轨迹变化,且两者需要学习的参数不同。当使用具有大量参数的深度卷积神经网络[3]时,大规模数据集是非常重要的。2D卷积神经网络(CNNs),基于ImageNet[4]大型数据集,在图像处理任务中具有很强的学习能力,这是因为在ImageNet上训练得很深的网络,如残差网络[5]等,有助于卷积神经网络获得通用的特征表示,使用这些特征可以有效地提高其他任务的性能。同样,当使用3D卷积解决视频分类任务时,也需要一个大型的数据集,如Kinetics[6]。目前具有代表性的小规模动作识别视频数据集有UCF-101[7]、HMDB51[8]等,与图像识别数据集相比,当前可用于动作识别的数据集整体较小,其中Kinetics数据集是一个专注于人物动作识别的大型数据集。
2D CNNs中有很多优秀的模型结构,例如残差连接网络、密集连接网络[9]、挤压激励[10](SE)结构等,在很多提出的新模型结构中都有可能使用到其中的残差连接或密集连接。
处理视频分类任务本质上是如何在一段具有时序特点的图片中提取深度特征,卷积神经网络在空间上的学习能力很好,但在时序上的特征关联性有待加强。为此,本文基于Kinetics数据集,使用由2D残差网络转化而来的3D 残差神经网络(ResNet)[11]作为基准网络,引入优化的挤压激励模块来实现强化时间维度的特征学习,并用于视频分类。当前3D CNNs在视频分类中已有不错的表现,本文着重探讨SE模块是否会在时间轨迹上强化特征学习,不讨论网络深度对特征学习的影响。
2 使用优化后的3D SE模块提取深度特征
2.1 转化为3D卷积结构
3D卷积是视频建模的一种方法,其比标准的卷积网络多一个时间纬度,能够直接创建时空数据的层次表示,因此,比2D卷积神经网络拥有更多的参数。模型参数在基于时空方向的人体行为识别[12]中至关重要,但也使得模型很难训练。深度3D卷积网络需要预训练像Kinetics这样的大型数据集[13],这和ImageNet的预训练同等重要。
SE模块可以很好地嵌入到2D CNNs中,在提升图像分类精度的同时增加的计算量很少。该模块通过学习并获取特征通道的重要程度,以抑制卷积层中不重要的特征,将这种思想应用到3D CNNs中能提升其图像的处理性能。经过改进的3D CNNs,在空间维度和时间维度上均能学习特征通道的重要程度,并基于重要程度强化学习各维度上的重要特征,进而提高分类精度。
模型的单元结构如
2.2 视频分类特征提取流程
3D SE_FC模块处理过程:1)进行1×1×1,3×3×3,1×1×1卷积;2)通过3D自适应平均池化输出
实验中,输入是3(通道数)×16(时间维度)×112(高)×112(宽)。整个特征提取过程如
图 1. 模型的单元结构。 (a) 2D ResNet单元;(b) 3D ResNet单元;(c) 3D SE_FC ResNet单元
Fig. 1. Unit structure of module. (a) 2D ResNet unit; (b) 3D ResNet unit; (c) 3D SE_FC ResNet unit
3 实验配置
3.1 实验设计
实验以3D ResNet50作为基准网络结构,分别从新模块嵌入之前、嵌入之后、嵌入后时间维度系数
实验1中,分别使用3D ResNet50和嵌入SE_FC模块的3D ResNet50在UCF101、HMDB51数据集上进行训练,保存每个阶段的最优模型,并在相同实验条件下对比各阶段结果。在训练UCF101数据集时,使用kaiming初始化[17]参数,对比前100个epoch的衰减下降趋势和训练精度,再基于此模型,改变学习率为0.001并训练70个epoch,检查衰减收敛情况和训练精度变化,本训练中使用随机梯度下降法[18](SGD)优化参数函数。在HMDB51数据集进行训练时,使用在UCF101数据集上训练获得的模型作为预训练模型,本次训练使用自适应估计[19](Adam)梯度优化函数,初始学习率为0.001时训练300个epoch,并对比衰减的变化和训练精度的变化。
实验2中,使用Kinetics数据集预训练3D ResNet,接着在UCF101和HMDB51上进行微调,只在conv5_
3.2 视频数据集和数据预处理
UCF-101和HMDB51以及 Kinetics视频数据集是被业界公认的、在动作识别领域比较成功的数据集,现在仍然被用来作为基准。因此,选用这些数据集验证挤压激励模块的有效性。
UCF-101数据集是人类行为识别数据集中的典型代表,一个视频只包含一类人类行为,数据集包括13320个动作实例,包含运动、瑜伽、乐器等101个人类行为类别,共27 h。其中非动作帧被删除,平均持续时间大约7 s,数据集提供了3个训练、测试集的分布集合,其中70%为训练集,30%为测试集。
HMDB51数据集包括51个人类动作,总共有6849个视频剪辑,每个类别至少101个剪辑,动作分为5种类型:面部动作、面部动作与对象、身体运动、身体运动与对象、人体互动。每个视频的平均长度为3 s,数据集提供了3个训练、测试的分布集合,其中70%为训练集,30%为测试集。
Kinetics数据集关注于人类行为,而不是活动或事件。动作类包括:例如画画、喝酒、大笑、拳击等单个人物动作;例如拥抱、亲吻、握手等多人物动作;例如打开礼物、修剪草坪、洗碗等人物对象动作。有些动作是细粒度的,需要时间推理进行区分,例如不同类型的游泳。有些动作需要通过强调物体依赖性加以区分,例如演奏不同类型的管乐器。数据集有400个人类动作类,每个类有400个或更多的剪辑,每个剪辑来自一个独特的视频,共有24万个训练视频。剪辑持续10 s左右,没有未剪辑的视频。测试集由每个类的100个剪辑组成。
数据预处理过程中,将视频的大小调整为320 pixel×240 pixel。所有的视频根据帧数切割成相应的图片并保存,这些图片用于训练和测试。训练时选用16张图片进行3D卷积。
3.3 模型训练
为了在不同的参数更新方法下对比衰减的收敛趋势,实验中使用了SGD法和Adam,其中Adam梯度更新速度快于SGD法。训练中参数包括动量衰减0.001和0.9,SGD的初始学习率为0.01,衰减权重为1×10-5,Adam的初始学习率为0.001,计算梯度和平方梯度的系数为0.9和0.999,eps为1×10-8,权重衰减为0。
实验1中把在UCF101上训练得到的模型用于训练HMDB51数据,因为其数据规模太小,所以很容易过拟合。UCF101数据集是从头开始训练。视频样本使用均匀采样的方式,在同一个时间段获取的样本是等量的,即在时空上等量滑动,生成不重叠的片段,然后分别进行3D卷积,获得每个片段类的得分,最后获得最大值的类即为样本所标的标签。
实验2中把3D ResNet50在Kinetics数据集上预训练获得的模型作为预训练模型,使用SGD法分别在UCF101和HMDB51数据集上进行微调。
4 实验结果和讨论
UCF101第1、2阶段训练损失以及HMDB51训练损失如
UCF101第1阶段训练损失如
UCF101第2阶段训练损失如
HMDB51训练损失如
数据集UCF101平均验证精度对比如
表 1. 数据集UCF101的平均验证精度对比
Table 1. Average validation accuracy comparison on UCF101 dataset
|
表 2. 数据集HMDB51的平均验证精度对比
Table 2. Average validation accuracy comparison on HMDB51 dataset
|
平均每个视频分类时间对比如
表 3. 平均每个视频分类时间对比
Table 3. Average time comparison for each video classification
|
Kinetics数据集预训练后,数据集HMDB51和UCF101的测试精度对比如
表 4. 数据集HMDB51和UCF101的测试精度对比
Table 4. Test accuracy comparison on HMDB51 and UCF101 datasets
|
5 结束语
嵌入3D SE_FC模块可以有效提高衰减收敛的速度,同时分类精度也有一定提升,因此,3D SE_FC模块通过强化时间维度的学习可以提高训练的效率和精度,同时能在空间维度增强学习。这表明3D SE_FC模块对时间维度特征具有一定增益。但是,模型的复杂度也会增加,对于部分数据集,单纯地将其嵌入并不会提高精度,而需要更多的数据拟合模型参数。
目前,2D CNNs在图像处理的各项任务中都有很大的进展,证明了卷积神经网络在空间上具有较强的学习能力。但是,当使用3D CNNs解决视频分类任务时,如何更好地处理空间和时间上的特征,并获得更好的效果仍是需要重点考虑的。实际情况中,3D CNNs的表现不佳,相比于光流法以及其他双流相结合的方法并没有优势。因此,在时间上的深度特征学习很重要,很多方法的思路是将空间和时间分开,并结合3D CNNs分别提取空间特征和时间特征,取得了较好的效果。无论是全部分开还是通过不同的卷积核的形式,都是为了更好地整合空间维度特征和时间维度特征。由于3D CNNs在空间维度卷积网络已经有了很强的学习能力,因此在原有的3D CNNs基础上嵌入优化的3D卷积挤压激励模块,就是为了增强时间维度的学习。为了更好地整合时间维度特征,将此结构作为时间维度的放大器(并非完全的放大,其中也包括空间因素),如何进一步发挥此结构的优势是下一步研究的重点。
当前的卷积网络可以很好地学习空间维度的特征,而如何更好地学习时间维度特征仍是一个关键的问题。此外,3D卷积的学习参数远大于2D卷积,如果数据量太小很容易造成过拟合现象,因此,需要综合考虑这些问题,设计出用于视频分类的更好的3D卷积模型。
[1] Wang KZ, Wang XL, LinL, et al.3D human activity recognition with reconfigurable convolutional neural networks[C]∥Proceedings of the 22nd ACM International Conference on Multimedia, November 3-7, 2017, Orlando, Florida, USA.New York: ACM Press, 2014: 97- 106.
[2] 刘辉, 彭力, 闻继伟. 基于改进全卷积网络的多尺度感知行人检测算法[J]. 激光与光电子学进展, 2018, 55(9): 091504.
[3] KarpathyA, TodericiG, ShettyS, et al. Large-scale video classification with convolutional neural networks[C]∥2014 IEEE Conference on Computer Vision and Pattern Recognition, June 23-28, 2014, Columbus, OH, USA. New York: IEEE, 2014: 1725- 1732.
[4] DengJ, DongW, SocherR,et al. ImageNet: a large-scale hierarchical image database[C]∥2009 IEEE Conference on Computer Vision and Pattern Recognition, June 20-25, 2009, Miami, FL, USA. New York: IEEE, 2009: 248- 255.
[5] He KM, Zhang XY, Ren SQ, et al. Deep residual learning for image recognition[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 770- 778.
[6] KayW, CarreiraJ, SimonyanK, et al. The kinetics human action video dataset[EB/OL].( 2017-05-19)[2018-11-15]. https:∥arxiv.org/abs/1705. 06950.
[7] SoomroK, Zamir AR, Shah M. UCF101: a dataset of 101 human actions classes from videos in the wild[EB/OL].( 2012-12-03)[2018-11-15]. https:∥arxiv.org/abs/1212. 0402.
[8] KuehneH, JhuangH, StiefelhagenR, et al. HMDB51: a large video database for human motion recognition[M] ∥ Nagel W, Kröner D, Resch M. High Performance Computing in Science and Engineering ‘12. Berlin, Heidelberg: Springer, 2012: 571- 582.
[9] HuangG, LiuZ, Maaten L V D, et al. Densely connected convolutional networks[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 2261- 2269.
[10] HuJ, ShenL, SunG. Squeeze-and-excitation networks[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA. New York: IEEE, 2018: 7132- 7141.
[11] HaraK, KataokaH, SatohY. Learning spatio-temporal features with 3D residual networks for action recognition[C]∥2017 IEEE International Conference on Computer Vision Workshops (ICCVW), October 22-29, 2017, Venice, Italy. New York: IEEE, 2017: 3154- 3160.
[12] 徐海洋, 孔军, 蒋敏, 等. 基于时空方向主成分直方图的人体行为识别[J]. 激光与光电子学进展, 2018, 55(6): 061009.
[13] HaraK, KataokaH, SatohY. Can spatiotemporal 3D CNNs retrace the history of 2D CNNs and ImageNet?[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA. New York: IEEE, 2018: 6546- 6555.
[14] LiuD, Zhou YZ, Sun XY, et al. Adaptive pooling in multi-instance learning for web video annotation[C]∥2017 IEEE International Conference on Computer Vision Workshops (ICCVW), October 22-29, 2017, Venice, Italy. New York: IEEE, 2017: 318- 327.
[15] NairV, Hinton GE. Rectified linear units improve restricted Boltzmann machines[C]∥27th International Conference on Machine Learning, 2010, Haifa, Israel. Omnipress, 2010: 807- 814.
[16] Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
[17] He KM, Zhang XY, Ren SQ, et al. Delving deep into rectifiers: surpassing human-level performance on ImageNet classification[C]∥2015 IEEE International Conference on Computer Vision (ICCV), December 7-13, 2015, Santiago, Chile. New York: IEEE, 2015: 1026- 1034.
[19] Kingma DP, Ba J. Adam: a method for stochastic optimization[EB/OL]. ( 2017-01-30)[2018-11-15]. https:∥arxiv.org/abs/1412. 6980.
[20] 刘帆, 刘鹏远, 张峻宁, 等. 基于双流卷积神经网络的RGB-D图像联合检测[J]. 激光与光电子学进展, 2018, 55(2): 021503.
[21] SzegedyC, LiuW, Jia YQ, et al. Going deeper with convolutions[C]∥2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 7-12, 2015, Boston, MA, USA. New York: IEEE, 2015: 7298594.
[22] Ng J YH, HausknechtM, VijayanarasimhanS, et al. Beyond short snippets: deep networks for video classification[C]∥2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 7-12, 2015, Boston, MA, USA. New York: IEEE, 2015: 4694- 4702.
[23] WangH, SchmidC. Action recognition with improved trajectories[C]∥2013 IEEE International Conference on Computer Vision, December 1-8, 2013, Sydney, NSW, Australia. New York: IEEE, 2013: 3551- 3558.
[24] Qiu ZF, YaoT, MeiT. Learning spatio-temporal representation with pseudo-3D residual networks[C]∥2017 IEEE International Conference on Computer Vision (ICCV), October 22-29, 2017, Venice, Italy. New York: IEEE, 2017: 5534- 5542.
[25] TranD, BourdevL, FergusR, et al. Learning spatiotemporal features with 3D convolutional networks[C]∥2015 IEEE International Conference on Computer Vision (ICCV), December 7-13, 2015, Santiago, Chile. New York: IEEE, 2015: 4489- 4497.
Article Outline
李宁孝, 王国栋, 王岩杰, 胡诗语, 王亮亮. 基于三维挤压激励模块的视频分类[J]. 激光与光电子学进展, 2019, 56(12): 121004. Ningxiao Li, Guodong Wang, Yanjie Wang, Shiyu Hu, Liangliang Wang. Video Classification Based on Three-Dimensional Squeeze Excitation Module[J]. Laser & Optoelectronics Progress, 2019, 56(12): 121004.