1 中国科学院 长春光学精密机械与物理研究所,吉林 长春 130033
2 中国科学院大学,北京 100049
针对基于人体骨架序列的动作识别存在的特征提取不充分、不全面及识别准确率不高的问题,本文提出了基于多分支特征和多尺度时空特征的动作识别模型。首先,利用多种算法的结合对原始数据进行了特征增强;其次,将多分支的特征输入形式改进为多分支的融合特征信息并分别输入到网络中,经过一定深度的网络模块后融合在一起;然后,构建多尺度的时空卷积模块作为网络的基本模块,用来提取多尺度的时空特征;最后,构建整体网络模型输出动作类别。实验结果表明,在NTU RGB-D 60数据集的两种划分标准Cross-subject和Cross-view上的识别准确率分别为89.6%和95.1%,在NTU RGB-D 120数据集的两种划分标准Cross-subject和Cross-setup上的识别准确率分别为84.1%和86.0%。与其他算法相对比,本文算法提取到了更为多样化、多尺度的动作特征,动作类别的识别准确率有一定的提升。
动作识别 多尺度特征 多分支特征 特征融合 action recognition multi-scale features multi-branch features feature fusion
1 上海理工大学 光电信息与计算机工程学院,上海 200093
2 上海宇航系统工程研究所,上海 201109
动作识别是计算机视觉基础任务之一,骨架序列包含了大部分的动作信息,因此基于骨架的动作识别算法受到很多学者关注。人体骨架在数学上是一个天然的图,所以图卷积被广泛应用于动作识别。但普通的图卷积只聚合两两节点间的低阶信息,不能建模多节点间的高阶复杂关系。针对此问题,本文提出一种多尺度超图卷积网络,在空间和时间两个维度聚合更丰富的信息,提高动作识别准确度。多尺度超图卷积网络采用编解码结构,编码器使用超图卷积模块聚合超边中多个节点间的相关信息,解码器使用超图融合模块恢复原始骨架结构,另外基于空洞卷积设计了多尺度时间图卷积模块以更好地聚合时间维度运动信息。NTU-RGB+D和Kinetics数据集上的实验结果验证了算法的有效性。
动作识别 图卷积 超图卷积 空洞卷积 action recognition graph convolution hypergraph convolution dilated convolution
红外与激光工程
2022, 51(4): 20210188
1 上海大学特种光纤与光接入网重点实验室, 上海 200444
2 美国北爱荷华大学技术系, 爱荷华州锡达福尔斯市
近年来动作识别成为计算机视觉领域的研究热点, 不同于针对视频图像进行的研究, 本文针对低分辨率红外传感器采集到的温度数据, 提出了一种基于此类红外传感器的双流卷积神经网络动作识别方法。空间和时间数据分别以原始温度值的形式同时输入改进的双流卷积神经网络中, 最终将空间流网络和时间流网络的概率矢量进行加权融合, 得到最终的动作类别。实验结果表明, 在手动采集的数据集上, 平均识别准确率可达到 98.2%, 其中弯腰、摔倒和行走动作的识别准确率均达 99%, 可以有效地对其进行识别。
动作识别 双流卷积神经网络 低分辨率红外传感器 深度学习 action recognition, two-stream CNN, low resolution
1 内蒙古科技大学机械工程学院, 内蒙古 包头 014010
2 内蒙古科技大学信息工程学院, 内蒙古 包头 014010
3 内蒙古工业大学, 内蒙古 呼和浩特 010051
提出了一种基于二维(2D)转三维(3D)骨架的实时检测双分支子网络,可实现2D骨架关键点的3D估计和2D、3D骨架特征融合的人体3D动作识别。在检测过程采用OpenPose框架实时获取视频中人体骨架的2D关键点坐标。在2D转3D骨架估计过程中,设计了一种输入为难样本且具有反馈功能的孪生网络。在3D动作识别过程中设计了一种2D、3D骨架特征双分支孪生网络,以完成3D姿态识别任务。在Human3.6M数据集上训练3D骨架估计网络,在基于欧拉变换的NTU RGB+D 60多视角增强数据集上训练骨架动作识别网络,最终得到的3D骨架动作识别交叉受试者准确率为88.2%,交叉视野准确率为95.6%。实验结果表明,该方法对3D骨架的预测精度较高,且具有实时反馈能力,可适用于实时监控中的动作识别。
图像处理 三维骨架估计 人体动作识别 多分支网络 多特征融合 激光与光电子学进展
2021, 58(24): 2410010
中国矿业大学信息与控制工程学院, 江苏 徐州 221116
针对石油化工场景下传统的人体行为识别算法只关注人员自身行为,无法识别打手机、抽烟等属于人-物交互危险行为的问题,在基于骨骼点的人体行为识别任务中引入目标检测机制,提出基于深度学习的人-物交互行为识别算法。首先,采用OpenPose算法进行姿态估计,进而利用行为识别方法获取初始行为类别;其次,针对传统方法丢失背景和语义信息的问题,使用YOLOv3算法检测感兴趣物体,获得类别和位置信息;然后,通过判断人与物体的空间位置关系来表征人-物交互关系;最后,提出决策融合策略,对人的初始行为类别、物体信息、人-物交互关系进行决策融合,得到最终的行为识别结果。以打手机和抽烟行为为例对所提算法进行验证分析,结果表明,所提算法可以对石化场景下人员的危险行为进行准确识别。
机器视觉 姿态估计 行为识别 目标检测 决策融合 激光与光电子学进展
2021, 58(22): 2215001
中国民航大学天津市智能信号与图像处理重点实验室, 天津 300300
为了更好地对人体动作的长时时域信息进行建模,提出了一种结合时序动态图和双流卷积网络的人体行为识别算法。首先,利用双向顺序池化算法来构建时序动态图,实现视频从三维空间到二维空间的映射,用来提取动作的表观和长时时序信息;然后提出了基于inceptionV3的双流卷积网络,包含表观及长时运动流和短时运动流,分别以时序动态图和堆叠的光流帧序列作为输入,且结合数据增强、模态预训练、稀疏采样等方式;最后将各支流输出的类别判定分数通过平均池化的方式进行分数融合。在UCF101和HMDB51数据集的实验结果表明:与传统双流卷积网络相比,该方法可以有效利用动作的时空信息,识别率得到较大的提升,具有有效性和鲁棒性。
图像处理 双流卷积网络 人体行为识别 时序动态图 数据增强 激光与光电子学进展
2021, 58(2): 0210007