基于视频的实时多人姿态估计方法 下载: 1447次
Real-Time Multi-Person Video-Based Pose Estimation
西安工业大学电子信息工程学院, 陕西 西安 710021
图 & 表
图 1. 对称空间变换网络结构图
Fig. 1. Structural diagram of symmetric space transformation network
下载图片 查看原文
图 2. 实时多人姿态估计模型
Fig. 2. Real-time multi-person pose estimation model
下载图片 查看原文
图 3. 姿态估计网络模型
Fig. 3. Pose estimation network model
下载图片 查看原文
图 4.
(a)、(e)、(i)、(m)为Mask R-CNN模型姿态估计结果,图4(b)、(f)、(j)、(n)为CMU-Pose模型姿态估计结果,图4(c)、(g)、(k)、(o)为RMPE模型姿态估计结果,图4(d)、(h)、(l)、(p)本文设计模型姿态估计结果。
在尺度变化场景中,人体尺度较小时[图4(a)]未能正确检测到人体关键点,人体腿部及胳膊处关键点检测均出现错误。由于图像最中间五个目标紧密连接,只成功检测到最左边边上人体关键点,且人体目标脚踝关键点检测错误,如图4所示。在目标距离较近时姿态估计出现错误,如Fig. 4.
下载图片 查看原文
图 4. 不同场景下各模型结果对比。 (a)~(d)尺度变化。(e) ~(h)密集人群;(i) ~(l)遮挡; (m) ~(p)复杂姿态
Fig. 4. Comparison of results in different scenarios for each model. (a)-(d) Scale change; (e)-(h) dense population; (i)-(l) occlusion; (m)-(p) complex pose
下载图片 查看原文
表 1算法模型及环境配置
Table1. Algorithm model and environment configuration
Model | Framework | Programminglanguage |
---|
CMU-Pose[10] | Caffe | Python3.6.2 | MaskR-CNN[11] | TensorFlow1.3.0+Keras2.2.6 | Python3.6.2 | RMPE[14] | Pytorch0.4.0 | Python3.6.2 | Proposed model | Pytorch0.4.0 | Python3.6.2 |
|
查看原文
表 2各姿态估计模型性能对比
Table2. Comparison of performance of each pose estimation model
Model | AP | AP@0.5 | AP@0.75 | APm | APl |
---|
CMU-Pose | 61.8 | 84.9 | 67.5 | 57.1 | 68.2 | Mask R-CNN | 63.1 | 87.3 | 68.7 | 57.8 | 71.4 | RMPE | 72.3 | 89.2 | 79.1 | 68.0 | 78.6 | Proposed model | 74.1 | 92.5 | 80.5 | 70.6 | 79.5 |
|
查看原文
表 3各人体检测算法参数规模对比
Table3. Comparison of parameters of each human detection algorithm
Model | Data set | Running speed /(frame·s-1) | Parametersize /MB | Calculatedamount /109 |
---|
YOLOv3[15] | MS COCO | 51 | 237 | 65.86 | Proposed model | MS COCO | 64 | 195 | 44.32 |
|
查看原文
表 4不同输入下模型AP-AR值
Table4. AP-AR values of model under different inputs
Input | AP | AP@0.5 | AP@0.75 | APm | APl | AR | AR@0.5 | AR@0.75 | ARm | ARl |
---|
256 pixel×192 pixel | 71.2 | 91.4 | 78.3 | 68.5 | 75.2 | 74.3 | 92.2 | 80.9 | 71.3 | 78.9 | 384 pixel×288 pixel | 74.1 | 92.5 | 80.5 | 70.6 | 79.5 | 76.8 | 93.2 | 82.5 | 73.0 | 82.6 |
|
查看原文
闫芬婷, 王鹏, 吕志刚, 丁哲, 乔梦雨. 基于视频的实时多人姿态估计方法[J]. 激光与光电子学进展, 2020, 57(2): 021006. Yan Fenting, Wang Peng, Lü Zhigang, Ding Zhe, Qiao Mengyu. Real-Time Multi-Person Video-Based Pose Estimation[J]. Laser & Optoelectronics Progress, 2020, 57(2): 021006.