基于二次生成对抗的人体姿态估计

张显坤; 张荣芬; 刘宇红

doi:doi:10.3788/LOP57.201509

激光与光电子学进展, 2020, 57 (20): 201509, 网络出版: 2020-10-17

基于二次生成对抗的人体姿态估计下载： 889次

Human Pose Estimation Based on Secondary Generation Adversary

论文大纲

张显坤张荣芬刘宇红 ^*

作者单位

贵州大学大数据与信息工程学院大数据与智能技术重点实验室, 贵州贵阳 550025

人体姿态估计生成对抗网络模型再训练肢体几何约束 human pose estimation generation adversarial network model retraining limb geometric constraints

AI 词云图 AI语音精读 AI语音超短摘要

注：本部分内容由 AI 自动生成，请您知悉。

摘要

针对人体姿态估计中因肢体、环境复杂性导致的估计结果不精确问题,提出了一种基于二次生成对抗的人体姿态估计方法,通过两个阶段对堆叠沙漏网络(SHN)进行生成对抗训练。首先将SHN作为第一个生成对抗网络模型的判别器,通过在线对抗数据加强训练,以提升SHN的估计性能;然后将SHN作为第二个生成对抗网络模型的生成器,将肢体几何约束作为判别器,通过第二次对抗训练再一次提升SHN的估计性能,得到最终的SHN。在公开数据集LSP和MPII上对本方法进行测试,结果表明,该方法能有效提升SHN的估计精确度。

Abstract

Aim

ing at the problem of inaccurate estimation results caused by the complexity of limbs and environment in human pose estimation, a human pose estimation method based on secondary generation adversary is proposed in this work. The stacked hourglass network (SHN) is trained for generation adversary through two stages. First, the SHN is used as a discriminator in the first generation adversarial network model, and the on-line adversarial data is used to strengthen training to improve the estimation performance of the SHN. Then, the SHN acts as a generator in the second generation adversarial network model, and the limb geometric constraints are used as the discriminator. The estimation performance of the SHN is improved again through the second adversarial training, and the final SHN is obtained. The proposed method is tested on the public data sets LSP and MPII, and the results show that it can effectively improve the estimation accuracy of the SHN.

1 引言

对图像进行识别并估计出其中的二维(2D)人体姿态,是机器视觉研究领域的基础性工作。如人体跟踪、动作认知、人机交互应用以及三维(3D)人体姿态研究中,都需要精确地估计人体姿态。由于图像中肢体的复杂性、摄像机角度等客观原因,导致图像中的人体存在不同程度的扭曲和遮挡,使姿态估计变成一项极具挑战性的任务。对于机器视觉而言,标准的深度神经网络(DNN)观察并学习肢体结构需要进行大量训练,在面对复杂的人体姿态时,估计精度不高,是人体姿态估计中的难点。

Andriluka等^[1-2]通过图像结构模型或随机部件推理模型进行姿态估计,但均采用人工提取特征的方式,缺乏有效的功能表征,不能充分利用图像信息,受制于图像的视角、外观及几何模糊性。DNN具有自主提取特征以及理解上下文特征关联的能力,使基于DNN的姿态估计得到了深入研究。Toshev等^[3]提出的DeepPose方法将DNN应用到人体姿态估计中,采用多阶段回归思路设计卷积神经网络(CNN),直接回归人体骨骼关节点的二维坐标,但该方法缺乏关节间的结构信息,对于多尺度的姿态估计泛化性能较差。Newell^[4]提出的堆叠沙漏网络(SHN)通过级联沙漏网络结构和中继监督训练,以热图(heatmap)检测的方式,学习人体关节点的图像特征及关节点间的结构信息,推理出整个图像的检测结果。但当人体图像的肢体存在重叠或遮挡时,SHN对人体的姿态估计不合理。

Luo等^[5]提出了生成对抗网络(GAN),通过生成器和判别器之间的对抗训练得到想要的模型。刘坤等^[6]使用半监督GAN实现X光图像的分类;杨晓莉等^[7]使用GAN在动态平衡中实现图像融合;张清博等^[8]基于改进的GAN改善了水下激光图像的去噪和照明。Wang等^[9]提出的快速卷积网络(A-Fast-RCNN)使用GAN生成变形输入以达到数据增强的目的,从而进行鲁棒性更强的目标检测。Peng等^[10]将姿态估计网络作为判别器,并新建一个神经网络作为生成器,引入奖励、惩罚机制,与姿态估计网络进行对抗训练,实现了在线数据增强,提升了姿态估计网络的泛化能力和精确度;Chou等^[11]将SHN作为生成器进行姿态估计,并新建一个神经网络作为判别器,生成器和判别器进行对抗训练,提高了SHN的姿态估计性能;Chen等^[12]建立了两个神经网络作为判别器,分别对多任务生成器得到的姿态关节heatmap置信度和关节点定位偏差进行判别并反馈给生成器,达到对抗训练的目的。

本文以SHN为姿态估计网络(Target Net),融合了两种基于GAN的姿态估计模型,并添加了肢体几何约束,将姿态估计网络经过两次生成对抗训练,以提升SHN的姿态估计精确度。

2 模型分析

本方法的结构如图1所示,Target Net在第一个GAN(GAN1)中作为判别器(D₁),新建神经网络作为生成器(G₁)。生成器生成的增强图像与随机增强的图像输出到判别器,并加入奖励、惩罚权衡机制,使生成器进行在线数据增强,实现对抗训练,以提升SHN姿态估计模型的性能;该姿态估计模型在第二个GAN(GAN2)中再次进行生成对抗训练,其在GAN2中作为生成器(G₂),新建一个SHN作为判别器(D₂),并在D₂中加入肢体几何约束(body geometric constraints)^[12]。将生成器生成的姿态估计heatmap特征图和带有正确heatmap标记的数据输入判别器,并加入边界参数权衡机制,通过第二次生成对抗训练得到最终的SHN姿态估计网络。

图 1. 本方法的结构示意图

Fig. 1. Structure schematic diagram of our method

下载图片查看所有图片

2.1 堆叠沙漏模型

模型中的目标优化网络:SHN^[4]通过串联多个沙漏(hourglass)网络估计人体姿态,用多阶段分辨率heatmap学习姿态关节点的坐标,对图像中每个像素对应的概率值进行估算,像素点位置越靠近关节点,其对应的概率值就越接近1,反之则越接近0;将训练后heatmap形式的feature map结果映射到原图像,得到对应关节点的坐标,从而估计人体姿态,如图2所示。

图 2. heatmap示意图

Fig. 2. Schematic diagram of heatmap

下载图片查看所有图片

图 3. 沙漏网络结构

Fig. 3. Structure of hourglass network

下载图片查看所有图片

SHN结构前后对称,形似沙漏,如图3所示。模型中的卷积模块采用残差模块(residual module)^[13],通过残差连接避免了网络层数过多产生的网络过拟合等退化问题,并利用1×1卷积核减少参数数量。其中,每个方框均为一个残差模块,在沙漏网络的前半部通过卷积及降采样(max pooling)操作得到分辨率逐渐降低的heatmap,并向沙漏网络后半部传递,逐步扩大感受野(receptive field);在沙漏网络中心得到低分辨率以及最大感受野的特征图;同时,沙漏网络上面的分支结构(shortcut)经逐步特征提取向沙漏网络后半部传递分辨率特征,然后将shortcut上的特征与主干路的低分辨率特征进行最近邻上采样(nearest neighbor upsampling)^[14],逐步恢复出一个高分辨率的heatmap。

将多个沙漏网络级联,每个沙漏网络作为一个姿态估计阶段,在每个阶段建立残差连接,避免网络退化。其输出的混合特征经过一个1×1全卷积网络分支输出混合特征和heatmap,两者合并后传输到下一个阶段,实现多阶段姿态估计,从而得到SHN,如图4所示。

图 4. SHN的级联结构图

Fig. 4. Cascade structure diagram of SHN

下载图片查看所有图片

SHN通过级联结构的沙漏网络和多阶段中间监督对整个图像的初始特征和检测结果进行评估,通过隐式学习关节点特征之间的结构关系,在最后一个沙漏网络输出最终的姿态估计结果。每个沙漏网络输出的估计结果包含M个关节点,可采用均方误差损失L_MSE对预测的heatmap( $\tilde{C}$ )与正确标记heatmap(C)进行对比,可表示为

L_{MSE} = \overset{M}{\sum_{j = 1}} {(C_{j} - {\tilde{C}}_{j})}^{2}, (1)

式中,j为第j个关节点。SHN根据姿态估计得到所有输出heatmap的L_MSE损失添加中间监督,从而在多个阶段调整姿态的预测精确度,如图5所示。

图 5. 中间监督结构

Fig. 5. Structure of intermediate supervision

下载图片查看所有图片

2.2 生成对抗模型

GAN由Luo等^[5]提出,可同时训练生成器(G)和判别器(D)两个网络模型。G接收随机噪声z生成数据分布G(z),D用于评估并判别输入的数据分布,如数据x来自真实的数据分布 $\bar{x}$ 还是由G生成的数据分布G(z)。训练过程中,G的目标是生成接近真实数据的分布以欺骗D,而D的目标是区分G生成的数据分布与真实的数据分布,并生成判别输出D(·)传回G,输入判别器的数据越逼近真实数据,D(·)越大。两者由多层感知机建立,通过反向传播(BP)机制,形成动态二元minimax博弈过程,优化函数可表示为

\min_{G} \max_{D} V (D, G) = E_{\bar{x} \in p_{data} (\bar{x})} [lo g_{e} D (\bar{x})] + E_{z \in p_{z} (z)} {lo g_{e} {1 - D [G (z)]}}, (2)

式中,E为期望,p_data( $\bar{x}$ )为真实数据的分布范围,p_z(z)为噪声的分布范围,通过最大化log_eD( $\bar{x}$ )和log_e{1-D[G(z)]}的期望值优化判别器D,通过最小化log_e{1-D[G(z)]}的期望值优化生成器G。

2.2.1 生成对抗模型1

实验中第一个生成对抗模型GAN1采用在线数据增强对抗网络,以SHN作为判别器D₁,从生成器G₁生成的增强数据中采样,在有限数据集下提升其姿态估计性能。G₁使用SHN分支结构上的桥特征作为D₁的输入,生成使D₁损失增加的hard数据,优化函数可表示为

\max_{θ_{G_{1}}} \underset{x \in Ω}{E} \underset{τ_{a} \in G_{1} (x, θ_{D_{1}})}{\underset{τ_{r} \in Γ}{E}} L_{MSE} {D [τ_{a} (x), y]} - L_{MSE} {D [τ_{r} (x), y]}, (3)

式中, $θ_{G_{1}}$ 和 $θ_{D_{1}}$ 分别为G₁和D₁中的一系列参数及变量,D(·)为判别器D₁以不同增强方式和正确标注图像作为输入时的输出,Ω为训练图像集,x为输入G₁的图像,y为正确标注的图像,Г为随机增强空间,G₁(x, $θ_{D_{1}}$ )为增强网络G₁、x和D₁的函数。数据增强分为对抗增强τ_a(x)和随机增强τ_r(x),G₁使对抗增强产生的损失大于随机增强产生的损失,从而让判别器获得更hard的数据。D₁在GAN1中一方面根据(1)式评估G₁生成样本的质量,另一方面从对抗增强的样本中训练网络,可表示为

\min_{θ_{D_{1}}} \underset{x \in Ω}{E} \underset{τ_{a} \in G (x, θ_{D_{1}})}{E} L_{MSE} {D [τ_{a} (x), y]} 。 (4)

G₁网络有两种对抗增强训练方式:对抗缩放及旋转(ASR)和对抗多特征图遮挡(AHO)。在ASR增强中,选取m种缩放尺度和n种旋转尺度,将一个batch图像输入G₁。计算m×n种增强方式的均方误差损失,并对损失进行归一化处理,生成缩放和旋转分别对应的两个归一化分布P^s和P^r作为ground truth;同时,G₁会预测出 ${\tilde{P}}^{s}$ 和 ${\tilde{P}}^{r}$ 两种分布,通过损失函数对G₁进行训练,可表示为

L_{ASR} = \overset{m}{\sum_{i = 1}} {P^{s}}_{i} lo g_{e} \frac{{P^{s}}_{i}}{{\tilde{P}}^{s}_{i}} + \overset{n}{\sum_{i = 1}} {P^{r}}_{i} lo g_{e} \frac{{P^{r}}_{i}}{{\tilde{P}}^{r}_{i}} 。 (5)

训练结果通过m和n种高斯分布进行采样后生成增强样本,如图6所示。

图 6. ASR流程

Fig. 6. Procedure of ASR

下载图片查看所有图片

在AHO增强中,G₁以D₁的上分支结构特征作为输入,在最低像素(尺寸为4 pixel×4 pixel)的特征图下生成遮挡,将图像分为w×h个网格(w=h=4),在像素增大过程中,统计一个batch图像中每个关键点落在遮挡部分的概率,得到最大概率。以一系列最大概率生成的遮挡概率分布特征 ${P^{o}}_{i, j}$ 作为ground truth,其中, ${P^{o}}_{i, j}$ 为第i行、第j列的分布特征,如图7所示,通过损失函数对G₁进行训练,可表示为

L_{AHO} = \overset{h}{\sum_{i = 1}} \overset{w}{\sum_{j = 1}} {P^{o}}_{i, j} lo g_{e} \frac{{P^{o}}_{i, j}}{{\tilde{P}}^{o}_{i, j}} 。 (6)

图 7. AHO流程

Fig. 7. Procedure of AHO

下载图片查看所有图片

对G₁、D₁两个网络进行联合对抗训练时,为了将D₁的训练状态反向传播到G₁,同时避免GAN训练时由标签缺失、无法收敛等原因导致的训练崩溃问题,引入了奖励、惩罚机制。计算由对抗增强τ_a和随机增强τ_r造成的D₁损失,若L{D[τ_a(x),y]}-L{D[τ_r(x),y]}增大,证明对抗增强有效。增大该采样的概率作为奖励,同时减少对其他采样的概率,可表示为

P_{m} = {\tilde{P}}_{m} + α {\tilde{P}}_{m}, P_{n} = {\tilde{P}}_{n} - \frac{α {\tilde{P}}_{n}}{k - 1}, \forall m \neq n, (7)

式中,P为由采样获得的ground truth分布, $\tilde{P}$ 为预测的分布,α为超参数,k为ASR或AHO的增强方式数量,m、n分别为第m、n种采样。(7)式以增加P的方式增加对该采样的概率(P_m),相对减少对其他采样的概率(P_n)。通过表1中G₁和D₁网络的批次图像分类训练和表2中的单图像训练,由交替迭代训练的方式实现第一次生成对抗训练,在有限数据集下提升SHN姿态估计网络的性能。其中, $\overset{︶}{x}$ 为对抗增强后的采样数据, $\overset{︵}{x}$ 为随机增强后的数据, ${\overset{︶}{L}}_{MSE}$ 、 ${\overset{︵}{L}}_{MSE}$ 分别为由 $\overset{︶}{x}$ 、 $\overset{︵}{x}$ 计算的均方误差, $\overset{︶}{L}$ 、 $\overset{︵}{L}$ 分别为由 $\overset{︶}{x}$ 、 $\overset{︵}{x}$ 计算得到的ASR和AHO损失。

表 1. 批次图像训练流程

Table 1. Training process of batch images

Input: a mini-batch training image set X
1.X is randomly and equally divided into X₁、X₂、X₃;2.Train D₁ using X₁;3.Train G₁、D₁ using X₂ with table 2 on ASR;4.Train G₁、D₁ using X₃ with table 2 on AHO.

查看所有表

2.2.2 生成对抗模型2

实验中的第二个生成对抗模型GAN2采用对称堆叠沙漏生成对抗网络,以第一次训练得到的SHN作为生成器G₂,以另一个SHN作为判别器D₂,第二次对抗训练以目标网络G₂作为姿态估计网络。生成器G₂的目标是从RGB(Red, Green, Blue)图像中学习并生成关节点heatmap热图的映射。引入判别器D₂后,将G₂生成的heatmap与带有正确标签的heatmap之间的误差反向传播到G₂,使G₂在学习图像中人体特征及上下文依赖关系的同时,能生成更合理的人体姿态。

表 2. 单图像训练流程

Table 2. Training process of single image

Input: image x

1.Get shortcut features from D₁;2.Get distribution P from shortcut features in G₁;3.Sample an adversarial augmentation data

\overset{︵}{x}

from P;4.Compute the loss of D₁:

{\overset{︵}{L}}_{MSE}

with

\overset{︵}{x}

;5.Random augment x to get

\overset{︵}{x}

;6.Compute the loss of D₁:

{\overset{︵}{L}}_{MSE}

with

\overset{︵}{x}

;7.Compare

\overset{︵}{L}

and

\overset{︵}{L}

with formula (5) and formula (6) to update G₁;8.Update D₁.

查看所有表

对于G₂,采用L_MSE对堆叠的沙漏网络进行中间监督,并定义对抗损失函数进行训练。假设G₂包含N个堆叠的沙漏网络,将原始沙漏网络输出的混合特征heatmap从多维矩阵中提取出来,输出M个单关节点heatmap,每个heatmap都在第l个ground truth的关节点定位下达到高斯峰值,其L_MSE可表示为

L_{MSE} = \overset{N}{\sum_{i = k}} \overset{M}{\sum_{j = l}} {(C_{kl} - {\tilde{C}}_{kl})}^{2}, (8)

式中,C_kl为第k个沙漏网络第l个关节点定位的正确标记heatmap, ${\tilde{C}}_{kl}$ 为预测的heatmap。对抗损失函数L_adv可表示为

L_{adv} = \overset{M}{\sum_{l = 1}} [{\tilde{C}}_{l} - D ({\tilde{C}}_{l} {, x)]}^{2}, (9)

式中, ${\tilde{C}}_{l}$ 为G₂最后一个沙漏网络预测的第l个关节heatmap,D(·)为判别器D₂的输出,x为输入G₂的图像,可根据(9)式计算G₂预测的heatmap和D₂重建的heatmap的损失。生成器G₂的总损失函数可表示为

L_{G} = L_{MSE} + λ_{G} L_{adv}, (10)

式中,λ_G为对抗损失权重控制的超参数。以G₂预测的heatmap和带有正确标签的heatmap作为D₂的输入,然后重建对应的两组heatmap,如图8所示。定义损失函数L_real、L_fake,输入包含正确标签的heatmap(C_j)时,D₂重建的heatmap应尽量缩小两个heatmap之间的误差L_real;输入包含预测heatmap( ${\tilde{C}}_{j}$ )时,判别器重建的heatmap应尽量扩大两者间误差L_fake,可表示为

\begin{array}{l} L_{real} = \overset{M}{\sum_{j = 1}} [C_{j} - D (C_{j} {, x)]}^{2}, \\ L_{fake} = \overset{M}{\sum_{j = 1}} {[{\tilde{C}}_{j} - D ({\tilde{C}}_{j}, x)]}^{2}, \\ L_{D} = L_{real} - k_{t} L_{fake}, (11) \end{array}

式中,k_t为权衡参数,t为第t次迭代训练,L_D为D₂的损失函数,D₂通过L_D计算输入heatmap和重建heatmap的像素,从而对D₂进行优化。

图 8. heatmap重建

Fig. 8. Reconstruction of heatmap

下载图片查看所有图片

为了使G₂网络在第二次GAN训练中生成更合理的姿态估计结果,在G₂网络中添加肢体几何约束。在SHN姿态估计结果中,可将人体姿态理解为M个关节点的定位及连接形成的肢体结构,要使预测的人体姿态更接近真实的姿态,则关节点定位应更接近真实的关节点定位,定义 $p_{\tilde{C}}^{i}$ 为

p_{\tilde{C}}^{i} = \{\begin{array}{l} 1 & d_{i} < δ \\ 0 & d_{i} \geq δ \end{array}, (12)

式中,δ为阈值参数,d_i为预测的第i个关节点与重建heatmap关节点间的归一化距离, $p_{\tilde{C}}$ 为由1和0组成的M维向量。为了使G₂网络更好地学习逼近D₂重建的D $(\tilde{C}, x)$ 热图,将 $p_{\tilde{C}}$ 的2范数引入L_D损失,可表示为

L'_{D} = L_{real} + ‖ p_{\tilde{C}} ‖_{2} - k_{t} L_{fake} 。 (13)

为了避免对抗训练中G₂或D₂太好或太坏而导致的不稳定问题,采用文献[ 15]中的边界参数均衡思想,用参数k_t权衡G₂和D₂间的对抗训练。在第t+1次迭代中,参数k_t的更新可表示为

k_{t + 1} = k_{t} + λ_{k} [ξ (L_{real} + ‖ p_{\tilde{C}} ‖_{2}) - L_{fake}], (14)

式中,ξ、λ_k为权衡自变量,k_t为L_fake的相关权重参数。当G₂生成的姿态估计结果能使L_adv足够小,表明G₂的表现比D₂更好,L_fake比ξ(L_real+ $‖ p_{\tilde{C}} ‖_{2}$ )更小,第t+1次迭代中k_t就会增大为k_t₊₁;反之,当D₂的表现比G₂更好时,k_t就会减小,避免了对抗训练中L '_D收敛过慢或过快导致的崩塌问题。通过表3中交替迭代的训练实现第二次生成对抗训练,得到最终的SHN姿态估计网络。

表 3. 第二次生成对抗的训练流程

Table 3. Training process of the secondary generation adversary

Input: image x;ground truth heatmap C
1. D₂ reconstructs heatmap: D(C,x);2. Compute L_real with formula (11);3. G₂ generates predictive heatmap: $\tilde{C}$ =G(x);4. Compute L_MSE with formula (8);5. D₂ reconstructs heatmap:D( $\tilde{C}$ ,x);6. Compute $p_{\tilde{C}}$ ;7. Compute L_fake、L '_D with formula (11)、formula (12);8. Update D₂;9. Compute L_adv、L_G with formula (9)、formula (10);10.Update G₂.

查看所有表

3 实验及结果分析

3.1 数据集

通过LSP^[16]和MPII数据集^[17]对本方法进行测试,LSP数据集包括11000张和1000张从运动场景中截取的人体姿态图像,分别用于训练和测试,每张图像有14个注释的关节点;MPII数据集包括30000张和10000张从YouTube网站视频中截取的人体姿态图像,分别用于训练和测试,每张图像有16个注释的关节点。

3.2 实验设置

因为部分训练图像中存在多个人体姿态,因此需对部分样本进行预处理,以图像中主要人体的髋部为中心进行裁剪,同时将图像的分辨率统一为256 pixel×256 pixel。

在生成对抗训练中,堆叠沙漏网络为4个沙漏网络级联的结构,以步长为2的7×7卷积层开始,输入分辨率为256 pixel×256 pixel 的图像,后接沙漏网络中的残差模块均为BN-ReLU-conv(1×1)-BN-ReLU-conv(3×3)-BN-ReLU-conv(1×1)的bottleneck结构^[18],其中,BN为批归一化,ReLU为线性整流函数,括号内为卷积层的尺寸。两个1×1卷积层分别用于降维和升维,可在保持bottleneck输入/输出维度不变的情况下减少卷积核的参数数量。同时结合最大池化层在网络前半部不断降低图像分辨率,并在后半部通过上采样恢复分辨率,最终输出分辨率为64 pixel×64 pixel 的heatmap。

在第一次生成对抗训练中,使用RMSProp^[19]优化器优化网络,训练时首先将学习率设置为2.5×10^-4对D₁单独训练,然后保持D₁不变,使用相同的学习率训练G₁网络的ASR和AHO两种图像增强方式,最后将学习率降低为5×10^-5对G₁和D₁进行联合对抗训练;在第二次生成对抗训练中,同样使用RMSProp优化器,设置学习率为2.5×10^-4对G₂和D₂进行第二次联合对抗训练。

3.3 评估指标

采用关键点正确估计百分比(PCK)评价本方法对LSP数据集^[20]的估计结果,PCK以躯干直径作为归一化参考,计算检测的关键点 ${\tilde{y}}_{i}$ 与对应ground truth关键点y_i间的归一化距离小于设定阈值的比例,可表示为

\frac{‖ y_{i} - {\tilde{y}}_{i} ‖}{‖ y_{l h ip} - y_{rs h oulder} ‖} \leq r, (15)

式中,y_lhip和y_rshoulder分别为左髋部和右肩部的ground truth坐标,r为大小在0到1之间的阈值。对MPII数据集采用正确关键点的头部归一化概率(PCKh)^[17]作为实验评估指标,与PCK不同的是,PCKh以头部长度作为归一化参考。

3.4 实验结果分析

表4和表5分别为在数据集LSP和MPII的测试集上,阈值r分别设置为0.2和0.5时,本方法与其他方法在7个主要关节点(头部head、肩部shoulder、肘部elbow、腕部wrist、髋部hip、膝部knee、踝部ankle)的PCK和PCKh(腕部等对称关节点取两者均值)。其中,文献[ 4]使用8个沙漏网络堆叠的SHN,该网络训练后的姿态估计精度较高,在LSP和MPII测试集的平均PCK和PCKh分别为93.0%和90.9%;文献[ 10]和文献[ 11]分别为本方法二次生成对抗模型中GAN1和GAN2未改进前的模型;相比其他方法,本方法将两种对抗训练模式融合并添加肢体几何约束后,使SHN的姿态估计性能得到了一定的提升,在LSP和MPII测试集的平均PCK和PCKh分别为94.8%和92.2%。

表 4. 不同方法在LSP数据集的PCK

Table 4. PCK of different methods in LSP data setunit: %

Method	Head	Shoulder	Elbow	Wrist	Hip	Knee	Ankle	Mean
Ref. [21]	97.8	92.5	87.0	83.9	91.5	90.8	89.9	90.5
Ref. [4]	98.2	94.0	91.2	87.2	93.5	94.5	92.6	93.0
Ref. [12]	98.5	94.0	89.8	87.5	93.9	94.1	93.0	93.1
Ref. [10]	98.6	95.3	92.8	90.0	94.8	95.3	94.5	94.5
Ref. [11]	98.2	94.9	92.2	89.5	94.2	95.0	94.1	94.0
Ours	98.8	95.7	92.6	90.8	94.8	96.1	95.0	94.8

查看所有表

表 5. 不同方法在MPII数据集的PCKh

Table 5. PCKh of different methods in the MPII data setunit: %

Method	Head	Shoulder	Elbow	Wrist	Hip	Knee	Ankle	Mean
Ref. [21]	97.8	95.0	88.7	84.0	88.4	82.8	79.4	88.5
Ref. [4]	98.2	96.3	91.2	87.1	90.1	87.4	83.6	90.9
Ref. [12]	98.6	96.2	90.9	86.7	89.8	87.0	83.2	90.6
Ref. [10]	98.1	96.6	92.5	88.4	90.7	87.7	83.5	91.5
Ref. [11]	98.2	96.8	92.2	88.0	91.3	89.1	84.9	91.8
Ours	98.4	97.1	93.4	88.7	92.5	90.3	85.2	92.2

查看所有表

将文献[ 4]、文献[ 10]、文献[ 11]以及本方法在MPII测试集上测试的一种heatmap估计结果进行可视化比较,从四种SHN输出的混合特征heatmap中提取出单特征关节点heatmap,并对腕部、肘部、肩部和膝部的关节点heatmap进行可视化,如图9所示。可以发现,人体的腕部、肘部、肩部和膝部均存在不同程度的遮挡。将图9中四种方法的关节点估计归一化误差(Normalized error)进行对比,如图10所示。可以发现,在面对复杂肢体结构时,本方法中SHN输出的heatmap关节点定位误差更小,估计精确性更高。

图 9. 不同方法得到的heatmaps。(a)文献[ 4];(b)文献[ 10]; (c)文献[ 11];(d)本方法

Fig. 9. Heatmaps obtained by different methods. (a) Ref. [4]; (b) Ref. [10]; (c) Ref. [11]; (d) ours

下载图片查看所有图片

表6为本方法与文献[ 11]中方法在同一GPU上将等损失函数收敛到同一比例标准时模型的迭代次数、对MPII测试集的平均处理时间、模型浮点运算次数(GFLOPs)以及模型参数数量。可以发现,相比文献[ 11]中的方法,本方法的模型使用效率有一定程度的降低,但复杂度有所增加。

图 10. 关节点估计误差对比

Fig. 10. Comparison of joint estimation errors

下载图片查看所有图片

表 6. 模型使用效率的对比

Table 6. Comparison of model efficiency

Method	Convergenceiteration times	Average processingtime /s	GFLOPs /(10⁹ times)	Number ofparameters /10⁷
Ref. [11]	19500	0.48	10.820	5.495
Ours	26600	0.73	13.702	6.738

查看所有表

4 结论

以SHN作为优化目标,将SHN与两种不同思路的GAN进行融合,并将肢体几何约束加入训练模型中。实验结果表明,相比其他的人体姿态估计网络,本方法经两次训练得到的人体姿态估计精度有一定程度的提高,在LSP和MPII测试集的平均PCK和PCKh均有所提升,估计误差有所降低。但如何在保持估计精度的前提下降低模型的大小和复杂度,提升模型的使用效率,还需进一步研究。

参考文献

[1] AndrilukaM, RothS, SchieleB. Pictorial structures revisited: people detection and articulated pose estimation[C]∥2009 IEEE Conference on Computer Vision and Pattern Recognition, June 20-25, 2009, Miami, FL, USA. New York: IEEE, 2009: 1014- 1021.

[2] LadickyL, Torr P H S, Zisserman A. Human pose estimation using a joint pixel-wise and part-wise formulation[C]∥2013 IEEE Conference on Computer Vision and Pattern Recognition, June 23-28, 2013, Portland, OR, USA. New York: IEEE, 2013: 3578- 3585.

[3] Toshev A, Szegedy C. DeepPose: human pose estimation via deep neural networks[J]. 2014 IEEE Conference on Computer Vision and Pattern Recognition, 2014: 1653-1660.

[4] NewellA, Yang KY, DengJ. Stacked hourglass networks for human pose estimation[M] ∥Leibe B, Matas J, Sebe N, et al. Computer Vision-ECCV 2016. Lecture Notes in Computer Science. Cham: Springer, 2016, 9912: 483- 499.

[5] Luo JY, XuY, Tang CW, et al. Learning inverse mapping by autoencoder based generative adversarial nets[M] ∥ Liu D, Xie S, Li Y, et al. Neural Information Processing. ICONIP 2017. Lecture Notes in Computer Science. Cham: Springer, 2017, 10635: 207- 216.

[6] 刘坤, 王典, 荣梦学. 基于半监督生成对抗网络X光图像分类算法[J]. 光学学报, 2019, 39(8): 0810003.

Liu K, Wang D, Rong M X. X-ray image classification algorithm based on semi-supervised generative adversarial networks[J]. Acta Optica Sinica, 2019, 39(8): 0810003.

[7] 杨晓莉, 蔺素珍, 禄晓飞, 等. 基于生成对抗网络的多模态图像融合[J]. 激光与光电子学进展, 2019, 56(16): 161004.

Yang X L, Lin S Z, Lu X F, et al. Multimodal image fusion based on generative adversarial networks[J]. Laser & Optoelectronics Progress, 2019, 56(16): 161004.

[8] 张清博, 张晓晖, 韩宏伟. 基于改进生成对抗网络的水下激光图像后向散射光修复方法[J]. 激光与光电子学进展, 2019, 56(4): 041004.

Zhang Q B, Zhang X H, Han H W. Backscattered light repairing method for underwater laser image based on improved generative adversarial network[J]. Laser & Optoelectronics Progress, 2019, 56(4): 041004.

[9] Wang XL, ShrivastavaA, GuptaA. A-fast-RCNN: hard positive generation via adversary for object detection[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 3039- 3048.

[10] PengX, Tang ZQ, YangF, et al. Jointly optimize data augmentation and network training: adversarial data augmentation in human pose estimation[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA. New York: IEEE, 2018: 2226- 2234.

[11] Chou CJ, Chien JT, Chen HT. Self adversarial training for human pose estimation[EB/OL]. [2020-01-02].https:∥arxiv.org/abs/1707. 02439.

[12] ChenY, Shen CH, Wei XS, et al. Adversarial PoseNet: a structure-aware convolutional network for human pose estimation[C]∥2017 IEEE International Conference on Computer Vision (ICCV), October 22-29, 2017, Venice, Italy. New York: IEEE, 2017: 1221- 1230.

[13] SzegedyC, IoffeS, VanhouckeV, et al. Inception-v4, inception-ResNet and the impact of residual connections on learning[EB/OL]. [2019-12-28].http:∥arxiv.org/abs/1602. 07261.

[14] TompsonJ, JainA, LecunY, et al. Joint training of a convolutional network and a graphical model for human pose estimation[EB/OL]. [2020-01-01].https:∥arxiv.org/abs/1406. 2984.

[15] BerthelotD, SchummT, MetzL. BEGAN: boundary equilibrium generative adversarial networks[EB/OL]. [2019-12-30].https:∥www.arxiv.org/abs/1703. 10717.

[16] JohnsonS, EveringhamM. Clustered pose and nonlinear appearance models for human pose estimation[C]∥Procedings of the British Machine Vision Conference, BMVC 2010, August 31-September 3, 2010, Aberystwyth, UK. UK: BMVA, 2010: 1- 11.

[17] AndrilukaM, PishchulinL, GehlerP, et al. 2D human pose estimation: new benchmark and state of the art analysis[C]∥2014 IEEE Conference on Computer Vision and Pattern Recognition, June 23-28, 2014, Columbus, OH, USA. New York: IEEE, 2014: 3686- 3693.

[18] Sze V, Chen Y H, Yang T J, et al. Efficient processing of deep neural networks: a tutorial and survey[J]. Proceedings of the IEEE, 2017, 105(12): 2295-2329.

[19] Tieleman T, Hinton G. Lecture 6.5-rmsprop: divide the gradient by a running average of its recent magnitude[J]. COURSERA: Neural Networks for Machine Learning, 2012, 4(2): 26-31.

[20] YangY, RamananD. Articulated pose estimation with flexible mixtures-of-parts[C]∥CVPR 2011, June 20-25, 2011, Providence, RI, USA. New York: IEEE, 2011: 1385- 1392.

[21] Wei SH, RamakrishnaV, KanadeT, et al. Convolutional pose machines[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 4724- 4732.

张显坤, 张荣芬, 刘宇红. 基于二次生成对抗的人体姿态估计[J]. 激光与光电子学进展, 2020, 57(20): 201509. Xiankun Zhang, Rongfen Zhang, Yuhong Liu. Human Pose Estimation Based on Secondary Generation Adversary[J]. Laser & Optoelectronics Progress, 2020, 57(20): 201509.

基于二次生成对抗的人体姿态估计 下载： 889次

1 引言

2 模型分析

图 1. 本方法的结构示意图

Fig. 1. Structure schematic diagram of our method

2.1 堆叠沙漏模型

图 2. heatmap示意图

Fig. 2. Schematic diagram of heatmap

图 3. 沙漏网络结构

Fig. 3. Structure of hourglass network

图 4. SHN的级联结构图

Fig. 4. Cascade structure diagram of SHN

图 5. 中间监督结构

Fig. 5. Structure of intermediate supervision

2.2 生成对抗模型

图 6. ASR流程

Fig. 6. Procedure of ASR

图 7. AHO流程

Fig. 7. Procedure of AHO

表 1. 批次图像训练流程

Table 1. Training process of batch images

表 2. 单图像训练流程

Table 2. Training process of single image

图 8. heatmap重建

Fig. 8. Reconstruction of heatmap

表 3. 第二次生成对抗的训练流程

Table 3. Training process of the secondary generation adversary

3 实验及结果分析

3.1 数据集

3.2 实验设置

3.3 评估指标

3.4 实验结果分析

表 4. 不同方法在LSP数据集的PCK

Table 4. PCK of different methods in LSP data setunit: %

表 5. 不同方法在MPII数据集的PCKh

Table 5. PCKh of different methods in the MPII data setunit: %

图 9. 不同方法得到的heatmaps。(a)文献[ 4];(b)文献[ 10]; (c)文献[ 11];(d)本方法

Fig. 9. Heatmaps obtained by different methods. (a) Ref. [4]; (b) Ref. [10]; (c) Ref. [11]; (d) ours

图 10. 关节点估计误差对比

Fig. 10. Comparison of joint estimation errors

表 6. 模型使用效率的对比

Table 6. Comparison of model efficiency

4 结论

Article Outline

相关论文

相关资讯

关于本站 Cookie 的使用提示

全站搜索

基于二次生成对抗的人体姿态估计下载： 889次