基于双分类器的自适应单双手手势识别

张政; 徐杨

doi:doi:10.3788/LOP202158.0210005

激光与光电子学进展, 2021, 58 (2): 0210005, 网络出版: 2021-01-08

基于双分类器的自适应单双手手势识别下载： 977次

Adaptive One-Hand and Two-Hand Gesture Recognition Based on Double Classifiers

论文大纲

张政 ¹徐杨 ^1,2,*

作者单位

¹ 贵州大学大数据与信息工程学院, 贵州贵阳 550025

² 贵阳铝镁设计研究院有限公司, 贵州贵阳 550009

AI 词云图 AI语音精读 AI语音超短摘要

注：本部分内容由 AI 自动生成，请您知悉。

摘要

针对传统卷积神经网络(CNN)中仅有对单手手势语义进行识别的算法和深度学习手势识别算法中CNN的收敛性差和识别精度低的问题,提出了一种基于两个分类器的自适应单双手手势识别算法以对单手和双手进行识别。该算法的核心是联合两个分类器进行单双手手势识别。首先,采用手数分类器对手势进行分割分组预测,将手势识别转化成部分手势图像识别;其次,采用自适应增强卷积神经网络(AE-CNN)进行手势识别,利用自适应模块分析出现识别误差的原因和反馈模式;最后,在迭代次数和识别结果的基础上进行参数更新。实验结果表明,手数分类器进行手势预测分组的正确概率为98.82%,AE-CNN的收敛性优于CNN和CNN+Dropout,对单手手势的识别率高达97.87%,对基于LSP数据集自建的9类单手手势和10类双手手势的整体模型识别率为97.10%,对复杂背景和不同光照强度下手势的平均识别率为94.00%,并且具有一定的鲁棒性。

Abstract

Aiming at the problem that the traditional convolutional neural network (CNN) algorithms only recognize semantics of one-hand gestures and the problems of the poor convergence and low recognition accuracy of the deep learning gesture recognition algorithm, an adaptive one-hand and two-hand gesture recognition algorithm based on double classifiers is proposed to recognize single-hand and two-hand gestures. The core of the algorithm is combining two classifiers for single-hand and two-hand gesture recognition. First, the hand number classifier is used to segment and group the gestures, and the gesture recognition is converted into partial gesture image recognition. Second, the adaptive enhanced convolutional neural network (AE-CNN) is used for gesture recognition, and the adaptive module analyzes the cause of the recognition error and feedback mode. Finally, the parameters are updated based on the number of iterations and recognition results. Experimental results show that the correct probability of the hand number classifier for gesture prediction grouping is 98.82%, the convergence of AE-CNN is better than that of CNN and CNN+Dropout, and the recognition rate of one-hand gestures is as high as 97.87%. The overall model recognition rate of 9 types of single-hand gestures and 10 types of double-hand gestures built based on LSP dataset is 97.10%, and the average recognition rate of gestures under complex backgrounds and different light intensities is 94.00%. The proposed algorithm has certain robustness.

1 引言

随着深度学习飞速发展,计算机视觉的应用深入各个行业,手势识别技术作为人机交互^[1]的重要组成得到广泛应用,例如智能家居控制、智能驾驶、机器人手势识别控制等。手势识别的方法从基于传统的可穿戴设备的方法发展到基于计算机视觉的技术,吕蕾等提出穿戴数据手套的方法,杨亚慧和谢宏^[2]提出使用Thalmic Labs公司的MYO智能手环以及2010年微软推出的Kinect的3D深度摄像头^[3]的方法,但是硬件设备使用的成本高昂,操作不便。后续学者进行了偏向于软件的研究, Zaki和Shaheen^[4]提出隐式马尔可夫模型(HMM),Liu等^[5]提出几何特征识别,Valencia 等^[6]提出基于神经网络的识别方法。

卷积神经网络(CNN)对图像的识别主要包括前向过程和反向过程。前向过程通过卷积与池化对数据进行降维和特征提取以获得较好的平移、旋转和扭曲不变性,并且CNN在识别过程中可避免复杂的预处理工作,通过局部感受视野挖掘图像的局部特征,并通过提取全局训练特征进行分类,实现卷积核的权值共享,从而可以高效率地提取数据特征,提升学习性能。反向过程将分类误差传播至隐藏层,使得卷积核和全连接层中的参量和偏置得到更新,经过多次迭代使得识别率逐步提高。

CNN具有特征提取和分类特性,已经被广泛运用到模式识别的领域中,比如人脸识别中,姚丽莎等^[7]提出结合局部特征和粒子群寻优算法优化特征,实现最优分类, 周涛等^[8]结合改进后的VGGNET模型和ResNet模型构建集成网络模型,进行面部表情分类。Rahman^[9]利用人工神经网络进行孟加拉静态手势字母的识别,但是该方法对图片的特征有较高的要求,并且平均识别率偏低。袁荣尚和罗晓曙^[10]提出融合多尺度卷积核和双通道的特征的方法,通过牺牲部分识别时间提高识别率,张勋等^[11]提出利用区域卷积自动提取手势目标特征,采用RPN(Risk Priority Number)提取候选框,以提高特征搜索效率,但是网络训练过程复杂。经典的基于CNN的手势识别算法^[12]和基于可变形的CNN识别算法^[13]存在收敛性差、识别率低的问题。

目前的研究工作对于目标手势的识别都是针对单手手势的识别,同时为了进一步提高CNN在手势识别上的收敛速度和精度,本文提出了一种融合手数分类器和自适应增强卷积神经网络(AE-CNN)的单双手手势识别算法,并将AE-CNN引入单双手手势识别中,手数分类器将双手手势分割、分组为单手手势,从而实现单双手手势的分组预测,利用AE-CNN中的自适应增强模块对初步分类结果进行特征提取,并基于识别结果和迭代次数进行残差局部自适应增强,再将以上的参量反向传播回隐藏层,进行有效训练,达到逐步提高迭代识别率的效果。本文构建基于LSP手势数据集的单手和双手手势数据集,并进行训练和测试。

2 卷积神经网络

CNN一般包括卷积层、下采样层、激活函数、全连接层、分类输出层5个部分。图像识别又分为前向过程和反向过程。

2.1 前向过程

前向过程通过卷积层和池化层进行特征提取和目标分类。卷积层中每个输入特征图对应的特征输出表达式为

\begin{array}{l} X_{j}^{(l)} = f (\sum_{i \in M_{j}} G + B_{j}), (1) \\ G = X^{(l - 1)} (i, j) * W_{0} (m, n) = \\ \sum_{m} \sum_{n} X^{(l - 1)} (i + m, j + n) W_{0} (m, n), (2) \\ f (x) = \max (0, x), (3) \end{array}

式中: $X_{j}^{(l)}$ 为第l层的第j个特征图;G为第l-1层的特征图X⁽^l^-1)与卷积核W₀(m,n)的卷积;X⁽^l^-1)为第l-1层的第i个特征图;W₀(m,n)为第l-1层的第i个特征图与第l层的第j个特征图的卷积核;m为卷积核W₀(m,n)的横坐标;n为卷积核W₀(m,n)的纵坐标;M_j为当前卷积层特征图的集合;B_j为第j个特征图对应的偏置;f(·)为激活函数。

池化层对上层的卷积输出特征进行降维和特征提取,本文采用窗口为2×2 的最大池化方式,可视化过程如图1所示,最大池化的计算表达式为

X_{j}^{(l)} = f [\max_{i \in M_{j}} (X_{i}^{(l - 1)}) + B_{j}] 。 (4)

为保留图像中的具体特征,选取窗口中的最大值作为特征值。

图 1. 最大池化示例

Fig. 1. Maximum pooling example

下载图片查看所有图片

将以上所提取到的特征图进行全连接,经过全连接层的权值变换和激活得出分类结果,全连接层的分类矩阵为

F_{o} = f (WX + B), (5)

式中:F_o为分类结果矩阵;W为全连接层的权重矩阵;X表示上一层的输出;B为偏置。

图2为n分类的第j类分类过程。

图 2. 第j 类分类过程

Fig. 2. Classification process for j^th category

下载图片查看所有图片

图2中,W_j为全连接层W中第j类的权值矩阵,含有n个ω_jk,ω_jk为权重矩阵中的向量,(j,k)为向量的坐标;X含有n个x_k,x_k为上层输出矩阵的第k个向量;b_j表示第j类偏置;y_j表示第j类分类真值,第j类分类表达式为

y_{j} = f (\overset{n}{\sum_{k = 1}} ω_{jk} x_{k} + b_{j}) 。 (6)

2.2 反向过程

CNN的每一次前向过程都会使用上次迭代后的更新参数,卷积核和全连接矩阵中的权值和偏置等参数则是由反向过程传播到隐藏层的分类误差所更新,在参数的不断更新下识别率得到提高。设步长为η,隐藏层中的权值ω和偏置b由ω₁和b₁更新为ω₂和b₂的表达式为

\begin{array}{l} ω_{2} = ω_{1} - η Δ ω, (7) \\ b_{2} = b_{1} - η Δ b, (8) \end{array}

式中:Δω和Δb分别为对应权值和偏置的变化量。

CNN中隐藏层的各个参数对输入数据学习效果的影响通过目标误差函数E(ω,b)来衡量,每次迭代通过调整隐藏层参数减小误差函数输出,使得分类结果y'_j尽可能地接近分类真值y_j,当相邻的两次误差不大于既定阈值时,判断为收敛学习达成。其中分类结果是由前向过程得到,每个分类值对应唯一的一个类别,其中最大值作为输入的识别所属类别,分类真值作为训练监督数据,存储输入数据的实际所属类别,其中真值类别值为1,其余类别为0,分类误差由分类结果和分类真值产生,E_err,_j为第j类的分类结果与真值的分类误差,即

E_{err, j} = y_{j} - y'_{j} 。 (9)

当分类结果y'_j完全接近分类真值y_j时,ω'_k和b'_j为完全拟合分类真值y'_j的偏置和权值,y'_j为

y'_{j} = f (\overset{n}{\sum_{k = 1}} ω'_{k} x_{k} + b'_{j}) 。 (10)

假设一个n分类的问题,由(6)式和(11)式可得目标函数为

E (ω, b) = \frac{1}{2} \overset{n}{\sum_{j = 1}} {(y_{j} - y'_{j})}^{2} 。 (11)

为求得单个样本代价函数的偏导,定义增强残差d= $\frac{\partial E}{\partial u}$ ,u=ωx^l+b ,其中,x^l为上一层的输出,u为第l层的输出。

根据梯度下降法和链式求导法则,偏置和权重的变化量表达式为

\begin{array}{l} Δb = \frac{\partial E (ω, b)}{\partial b} = \frac{\partial E (ω, b)}{\partial u} \cdot \frac{\partial u}{\partial b} = \frac{\partial E (ω, b)}{\partial u} = d, (12) \\ Δω = \frac{\partial E (ω, b)}{\partial ω} = \frac{\partial E (ω, b)}{\partial u} \cdot \frac{\partial u}{\partial ω} = d \cdot x, (13) \end{array}

式中:x为输入特征值。

CNN中每一层的残差均不同,则有

\begin{array}{l} d = \frac{\partial E (ω, b)}{\partial b} = \frac{\partial [\frac{1}{2} \overset{n}{\sum_{j = 1}} (y_{j} - y'_{j})^{2}]}{\partial b} = \\ f' (y_{j} - y'_{j}) = f' \cdot E_{err, j}, (14) \end{array}

式中: f'为激活函数f的导数。

3 双分类器单双手手势识别模型

本文提出双分类器,基于自适应增强卷积神经网络的单双手手势识别模型,实现对单双手手势的识别,在分析训练过程产生误差的原因和反馈的基础上采用自适应增强卷积神经网络提高识别的精度。模型的整体网络结构如图3所示,首先对图像进行预处理操作,输入手数分类器,图像识别从整体转化为局部,将双手手势预测分组为单手手势;其次在卷积神经网络的基础上引入自适应增强模块,通过分析迭代次数和分类结果进行残差自适应增强,更新隐藏层参量;最后分别训练以上两个分类器。

图 3. 二分类单双手手势识别模型结构

Fig. 3. One-hand and double-hand gesture recognition structure based on two classifiers

下载图片查看所有图片

3.1 手数分类器

手数分类器(C)主要进行将双手分为单手的分组预测,其网络结构如图4所示,C1,C2分别代表第一层和第二层卷积层,S1,S2分别代表第一层和第二层池化层,FC为全连接层。为进行后续的网络识别,该网络的输入尺寸设置为28 pixel×28 pixel,本文用两个3×3的卷积核代替一个5×5的卷积核,在取得同样的视野域的前提下,降低了卷积的计算量,该网络输入尺寸设置为28×28,经过卷积核大小为3×3、滑动步长为1、padding为0的卷积后产生32个特征图,采用窗口尺寸为2×2的最大池化方式并采用ReLU函数激活对下采样的特征图进行局部响应归一化,通过已经激活的神经元抑制邻近的神经元,以提高网络的泛化能力,经过卷积核大小为3×3、步长为2、padding为0的卷积生成64个特征图,特征图经过激活函数后,再次经过2×2窗口的最大池化,进入全连接层和Dropout层,其中Dropout层以一定的概率p忽略部分的节点神经元,使得隐藏层输出节点暂时不进行输出,即在网络进行训练、权值和偏置进行更新时,不对该部分的节点所连接的参量进行更新。然后在剩下的概率为1-p的神经元网络中进行训练,首次训练时,将p设置为0.4~0.6,根据训练集的拟合情况进行修改,如果过拟合明显,则适当地减小p的值,如果过拟合不明显,则适当地增加p的值,循环重复这个过程,可得合适的p值,从而可减少计算量和过拟合现象,提升网络的泛化能力。所使用的sigmoid核函数可表示为

ω (x_{i}, x_{j}) = \tanh (β {x^{T}}_{i} x_{j} + θ), (15)

式中:x_i, x_j为低纬度的特征向量;T为向量的转置;tanh为双曲正切函数;β,θ为核函数的核参数,β>0,θ<0。

图 4. 手数分类器网络结构

Fig. 4. Network structure of hand number classifier

下载图片查看所有图片

网络参数如表1所示。对于网络的隐藏层,计算二值图中非零像素点与最邻近的零像素点之间的距离,进行双手重心参数的提取,即在具有两种像素值的二值图中,计算非零的像素点C_i到最邻近的零像素点C_j的欧氏距离作为该非零像素点的一个灰度值,并将灰度值最大的点(距离最远的点)作为重心,如图5所示,重心O的计算式为

O = \max \{sqrt [(x_{i} - x_{j})^{2} + (y_{i} - y_{j})^{2}]\}, (16)

式中:sqrt[·]为开根号;(x_i,y_i)为非零的像素点C_i的坐标;(x_j,y_j)为最邻近的零像素点C_j的坐标。

表 1. 手数分类器网络参数

Table 1. Network parameters of hand number classifier

Name	Convolution kernel
C1	3×3(32)
S1	2×2 max pooling
C2	3×3(64)
S2	2×2 max pooling
Dropout	0.5

查看所有表

图 5. 手势重心距离计算图示

Fig. 5. Calculation of distance between centers of gavity of hand gestures

下载图片查看所有图片

图6为手势分组预测示意图。如图6(b)所示,将重心O映射回原二值图中,获得双手对应的重心,最后进行准确的手势分组预测。

R_{out} (x, y) = [l (x, y) < 0] ⋂ R_{i n} (x, y), (17)

式中:R_in(x,y)表示手势分组前双手的区域;R_out(x,y)表示手势分组后双手的区域。根据(16)式找到两个手掌的重心O₁和O₂,l(x,y)为垂直平分O₁O₂的切割线函数,l(x,y)<0表示被l分割的半平面(即单手手掌所在平面),如图6(c)所示。最后通过softmax实现手势分组预测。

图 6. 手势分组预测示意图。(a)手势二值图;(b)手势重心图;(c)手势分组预测图

Fig. 6. Diagrams of gesture grouping prediction. (a) Gesture binary graphs; (b) centers of gravity of hand gestures; (c) gesture grouping prediction maps

下载图片查看所有图片

3.2 AE-CNN手势识别分类

3.2.1 AE-CNN模型及实现

AE-CNN(A)结构以及具体参数如图7所示。

图 7. 自适应增强卷积神经网络结构

Fig. 7. Adaptive enhanced convolutional neural network structure

下载图片查看所有图片

将手数分类器C分组预测后的手势作为AE-CNN的输入,输入尺寸为28 pixel×28 pixel,该网络包含2个卷积层(分别是C3,C4)、2个池化层(分别是S3,S4)、1个全连接层(FC)和1个自适应增强模块。使用sigmoid核函数,其计算表达式如(15)式。第一层为6个尺寸为5×5的卷积核,步长为1,紧随其后的是窗口大小为2×2的池化层,池化方式为最大池化,第3层为72个尺寸为5×5的卷积核,步长为1,第4层为2×2的池化层,经过下采样输出的二维特征图进入全连接层,变为192的一维特征图,从而得到9类手势的分类结果。对于基于本网络的9类手势的分类问题,第j类手势输出的分类真值为y_j,第j类手势的分类过程如图2所示,将由全连接层输出的第j类手势的分类真值y_j输入自适应增强模块,进行特征自适应增强,以提高分类效果。自适应增强模块通过对分类结果(包括由分类误差和分类真值y_j产生的特征误差)的分析和特征提取,使用自适应增强系数对特征误差进行自适应调整,达到特征残差增强,并通过反向过程将增强残差传播到隐藏层参数中,实现卷积核与全连接层的权值和偏置的更新,以逐步改善每次迭代的分类效果。在迭代训练过程中记录并比较相邻的两次迭代的误差函数的输出差值,输出差值小于阈值即可认为训练达到收敛。

3.2.2 AE-CNN算法步骤

AE-CNN手势识别算法步骤如下:

1) 计算分类误差。将卷积神经网络前向过程的分类结果和分类真值进行比较,通过计算得出分类误差。

2) 提取分类结果特征值。分析输出层的分类结果,将两个最大值作为特征值。

3) 计算自适应增强系数。通过迭代次数和前向过程的识别结果确定自适应增强系数,如果识别正确,则将分类结果对应的分类误差值增大α₁倍,相反,则将其增大α₂倍,自适应增强系数α^[14]的表达式为

α = p [\exp (\frac{1}{g}) - \frac{e}{g}] + λ + c, (18)

式中:e为自然常数;p为乘积系数;g为当前迭代次数;λ为校正项;c为常数。用(18)式分别计算出分类正、误时的α₁和α₂,其中参数p,λ,c的设置参考文献[ 14]。

4) 识别结果特征误差值的自适应增强。设s为分类正确和错误时特征误差值E_err和增强系数α的标记,则增强表达式为

E'_{err, s} = α_{s} \cdot E_{err, s}, (19)

式中:E'_err,_s为增强函数;α_s为自适应增强系数;E_err,_s为特征误差值。

5) 计算增强残差。增强残差包括特征误差增强后的残差和剩余误差的残差,由(14)式计算。

6) 将特征残差进行增强后反馈到隐藏层。隐藏层中权值和偏置的表达式由(12)式和(13)式得到。

7) 模型更新。按照(7)式和(8)式的表达式更新隐藏层权值和偏置。

4 实验与结果分析

4.1 实验环境及数据集

本实验使用TensorFlow开源框架,系统使用的是UBUNTU 18.04版本,显卡是NVIDIA GTX 1080Ti。

本文采用基于Hand_Gesture_Dataset_LSP数据集的9类手势作为单手手势数据集,并采用自建的双手手势数据集的“Both hands”数据集和ASL数据集中的9类单手手势,如图8所示。自建数据集由摄像头在单一背景和复杂背景下对23岁和25岁的男性和女性进行拍摄得到,选取9类单手手势样本、10类部分双手手势样本,如图9所示,复杂背景手势选取医院、街道为背景进行手势拍摄,如图10(a)所示,通过随机进行左右和上下翻转、平移、亮度的调整来扩展数据集,部分扩展数据如图10(b)所示。训练和测试手数分类器网络使用“Both hands”数据集和LSP数据集均匀分布的混合数据集。使用ASL数据集训练、测试AE-CNN网络,最后测试整体模型采用的测试集是未在训练网络中使用过的、由LSP数据集和“Both hands”数据集均匀分布的2000个单双手混合测试集。

图 8. ASL的9类手势样本

Fig. 8. Nine types of gesture samples from ASL

下载图片查看所有图片

图 9. 自建单双手手势数据集样本。(a)单手手势;(b)双手手势

Fig. 9. Samples of one-hand and double-hand gesture data sets. (a) One-hand gestures; (b) double-hand gestures

下载图片查看所有图片

图 10. 数据扩展及复杂背景手势样本。(a)复杂背景手势;(b)数据扩展

Fig. 10. Data expansion and complex background gesture samples. (a) Complex background gestures; (b) data expansion

下载图片查看所有图片

表2显示各个网络的训练集和测试集的数据量,对每个手势进行预处理二值化和归一化操作,以减少训练时间。

表 2. 各分类网络的数据量

Table 2. Amount of data of classification networks

Classifier	C	A
Training set	10210	21100
Test set	1920	3960

查看所有表

4.2 实验设计

4.2.1 实验1

针对手数分类器网络,将输入手势预测分组为单手手势并进行训练,使用均匀分布的测试集测试其分组预测的准确率。

4.2.2 实验2

针对AE-CNN手势识别分类器,使用ASL数据集进行网络训练和测试,并将其与经典的CNN和CNN Dropout进行收敛性能的对比,将其与CNN进行识别率的对比。为防止训练时出现局部最优和难以收敛的情况,本实验batch size设置为50,收敛阈值设置为1×10^-4。本次实验过程中的自适应增强系数α₁、α₂及其对应的校正项θ₁、θ₂分别为

\begin{array}{l} α_{1} = \frac{5}{2} [\exp (\frac{1}{g}) - \frac{e}{g}] + θ_{1}, (20) \\ θ_{1} = \frac{21}{5} sgn (g - 1) \exp [\frac{1}{\ln (g + 4)}] + \frac{16}{g}, (21) \\ α_{2} = \frac{5}{2} [\exp (\frac{1}{g}) - \frac{e}{g}] + θ_{2}, (22) \\ θ_{2} = sgn (g - 1) [\ln (g + 4) - \frac{7}{5}] + \frac{3}{2 g} 。 (23) \end{array}

4.2.3 实验3

针对AE-CNN在识别率上的有效性,选择了三种特征提取算法,即LBP+SVM,方向梯度直方图(HOG)+SVM和PCA+HOG+SVM进行识别率对比。

4.2.4 实验4

对本文模型对单一背景手势识别的鲁棒性进行测试,模拟外界环境对手势的干扰,分别给测试图像加上均值为0、方差为0.001,0.002,0.003的高斯噪声和噪声密度为0.001,0.002,0.003的椒盐噪声进行测试,进行识别率的对比。

4.2.5 实验5

对复杂背景以及光照恶劣的情况进行模型手势识别的测试,在复杂背景和不同光照强度的手势混合测试集中,随机选取50张图片作为1组样本,分别抽取5组样本进行识别率的测试。

4.3 实验分析

手数分类器在进行手势分组预测时,将双手手势整体作为单手手势的错误分组预测的概率非常小,其对后续手势识别的影响不大。手数分类器测试分组预测正、误的概率分别为98.82%和1.18%。

图11是实验2的结果。图11(a)表明,从整体曲线的走向可以看出,随着迭代次数的增加,三种算法的收敛指数逐渐降低,并且在接近第50次迭代时逐渐达到了平稳的收敛状态。在CNN的基础上增加Dropout层相比于原始CNN的收敛速度以及收敛性能有了一定的提高。对比原始CNN和CNN+Dropout,在同样的迭代次数下,AE-CNN的收敛指数更小,不同的迭代次数下,AE-CNN的收敛指数下降得更快,收敛性更好。

图 11. CNN和AE-CNN的收敛性和误识率对比。(a)CNN, CNN+Dropout和AE-CNN的收敛曲线;(b)CNN和AE-CNN的误识率

Fig. 11. Convergence and error rate curves of CNN and AE-CNN. (a) Convergence curves of CNN, CNN+Dropout,and AE-CNN; (b) error rate curves of CNN and AE-CNN

下载图片查看所有图片

图11(b)比较了CNN、AE-CNN在不同迭代次数时的误识率,迭代次数从0开始,以5为步长进行等间距取样,取11个采样点,在不同的迭代次数下,两种算法的误识率均在下降,CNN的误识率从10%降到2%,本文算法的误识率从4%降到1%,从下降趋势来看,即使是不同的迭代次数,AE-CNN的误识率始终低于原始CNN。

表3为AE-CNN与三种算法的识别率对比结果,文献[ 15]中的局部二进制(LBP)算法在某个中心像素及其邻域上以中心像素灰度值为阈值进行对应二值化,实现特征提取,结合线性SVM分类器进行分类。图12显示了部分手势(手势0,手势2,手势5,手势9)LBP特征的像素直方图。

表 3. AE-CNN与其他算法的识别率对比

Table 3. Comparison of recognition rate between AE-CNN and other algorithms

Method	Recognition rate /%
LBP+SVM^[15]	89.73
HOG+SVM^[16]	91.81
PCA+HOG+SVM^[17]	94.35
AE-CNN	97.87

查看所有表

图 12. 部分手势(0,2,5,9)的LBP特征。(a)手势0 LBP特征;(b)手势2 LBP特征;(c)手势5 LBP特征;(d)手势9 LBP特征

Fig. 12. LBP features of hand gestures (0,2,5, and 9). (a) LBP feature of zero gesture; (b) LBP feature of two gesture; (c) LBP feature of five gesture; (d) LBP feature of nine gesture

下载图片查看所有图片

文献[ 16]中采用HOG进行特征提取,将图像化整为零并将其划分为多个局部区域,计算和统计每个区域像素的边缘和梯度直方图,结合线性SVM进行分类。图13显示部分手势提取的HOG特征。文献[ 17]中针对HOG特征向量纬度高的问题,在实验2的基础上采用主成分分析(PCA)进行降维处理,通过计算原变量的协方差矩阵特征量将多个变量转化为少数的互不相干的主成分,以降低主成分维数,并尽可能多地保持与识别相关的特征。图13显示在经过HOG和PCA降维后部分手势的重构图片。从表3可以看出,本文算法的识别率有较大的提升。

图 13. 部分手势HOG特征和HOG+PCA降维重构图

Fig. 13. HOG features of partial gestures and HOG+PCA dimensionality reduction reconstruction maps

下载图片查看所有图片

由图14可知,添加具有随机噪声幅值的高斯噪声和具有随机像素值的椒盐噪声均对图片的质量产生了影响,不同的方差对应图片中不同的高斯噪声变化范围,不同的密度对应图片中不同的椒盐噪声所占像素的百分比。在图片进行预处理时添加具有不同的方差和密度的噪声会对预处理后的二值图产生不同程度的影响,并且该影响会随着方差和密度的增大而增大。

图 14. 添加不同噪声的预处理图。(a)椒盐噪声归一化;(b)椒盐噪声二值图;(c)高斯噪声二值图;(d)高斯噪声密度分布图;(e)高斯噪声归一化

Fig. 14. Preprocessing graphs after adding different noise. (a) Normalization of salt and pepper noise; (b) binary map of salt and pepper noise; (c) binary map of Gaussian noise; (d) distribution of Gaussian noise density; (e) normalization of Gaussian noise

下载图片查看所有图片

由表4可知,通过对比未添加噪声的测试图片、添加不同方差的高斯噪声和不同噪声密度的椒盐噪声的测试图片,可以发现识别率随着方差和噪声密度的增加在一定程度上有所下降,但是依然保持在96.00%以上,本文算法在面对外界的干扰因素下依旧有一定的稳定性。

表 4. 添加高斯噪声和椒盐噪声的识别率对比

Table 4. Comparison of recognition rate between Gaussian noise and salt and pepper noise

Noise	Gaussian noise					Salt and pepper noise
Noise	0	0.001	0.002	0.003		0	0.001	0.002	0.003
Recognition rate /%	97.10	96.84	96.49	96.04		97.10	96.77	96.61	96.32

查看所有表

根据表5,对在复杂背景和不同光照下抽取的5组样本集进行测试,得到的平均识别率为94.00%,增加所抽到的样本集中不同光照下(尤其是在强光条件下)的手势图片会影响手势的识别率,但样本集识别率均维持在93.00%以上。

表 5. 复杂背景和不同光照下的样本识别率

Table 5. Recognition rate of samples under complex background and different lighting conditions

Group	Number of images with complex background	Number of images under different lighting conditions	Recognition rate /%
1	40	10	95.26
2	31	19	93.65
3	35	15	94.37
4	28	22	93.41
5	24	26	93.34

查看所有表

5 结论

提出一种结合手数分类器和自适应增强卷积神经网络的单双手手势识别算法,构建基于LSP数据集的单手和双手手势数据集,采用手数分类器对手势进行分组预测,在手数分类器的介入下,将双手手势识别转换成单手手势识别,这样可在一定程度上降低双手手势识别算法的复杂度。通过在CNN的基础上引入自适应增强模块,可增强针对迭代后分类结果的分类特征。所提算法相比于传统CNN的收敛性以及识别率均有很大的提升。相比于LBP+SVM,HOG+SVM和PCA+HOG+SVM三种特征提取的手势识别算法,所提算法的手势识别精度更高,对加噪后手势的识别率基本不变。对复杂背景和不同光照下的手势进行识别,得到的识别率也维持在一个较高的值,这说明本文算法具有一定的鲁棒性。

参考文献

[1] Vuletic T, Duffy A, Hay L, et al. Systematic literature review of hand gestures used in human computer interaction interfaces[J]. International Journal of Human-Computer Studies, 2019, 129: 74-94.

[2] 杨亚慧, 谢宏. 基于卷积神经网络的表面肌电信号手势识别[J]. 微型机与应用, 2017, 36(15): 59-61.

Yang Y H, Xie H. Research on surface EMG signal gesture recognition based on convolution neural network[J]. Microcomputer & Its Applications, 2017, 36(15): 59-61.

[3] 邓瑞, 周玲玲, 应忍冬. 基于Kinect深度信息的手势提取与识别研究[J]. 计算机应用研究, 2013, 30(4): 1263-1265, 1274.

Deng R, Zhou L L, Ying R D. Gesture extraction and recognition research based on Kinect depth data[J]. Application Research of Computers, 2013, 30(4): 1263-1265, 1274.

[4] Zaki M M, Shaheen S I. Sign language recognition using a combination of new vision based features[J]. Pattern Recognition Letters, 2011, 32(4): 572-577.

[5] LiuY, Yin YM, Zhang SJ. Hand gesture recognition based on HU moments in interaction of virtual reality[C]∥2012 4th International Conference on Intelligent Human-Machine Systems and Cybernetics, August 26-27, 2012, Nanchang, Jiangxi, China.New York: IEEE Press, 2012: 145- 148.

[6] Valencia C R. Garcia-Bermejo J G, Casanova E Z. Combined gesture-speech recognition and synthesis using neural networks[J]. IFAC Proceedings Volumes, 2008, 41(2): 2968-2973.

[7] 姚丽莎, 徐国明, 赵凤. 基于卷积神经网络局部特征融合的人脸表情识别[J]. 激光与光电子学进展, 2020, 57(4): 041513.

Yao L S, Xu G M, Zhao F. Facial expression recognition based on local feature fusion of convolutional neural network[J]. Laser & Optoelectronics Progress, 2020, 57(4): 041513.

[8] 周涛, 吕晓琪, 任国印, 谷宇, 张明, 李菁. 基于集成卷积神经网络的面部表情分类[J]. 激光与光电子学进展, 2020, 57(14): 141501.

Zhou T, Lü X Q, Ren G Y, et al. Facial expression classification based on ensemble convolutional neural network[J]. Laser & Optoelectronics Progress, 2020, 57(14): 141501.

[9] Rahman M A. Recognition of static hand gestures of alphabet in Bangla sign language[J]. IOSR Journal of Computer Engineering, 2012, 8(1): 7-13.

[10] 袁荣尚, 罗晓曙. 基于多尺度卷积神经网络模型的手势图像识别[J]. 现代电子技术, 2019, 42(24): 150-153.

Yuan R S, Luo X S. Gesture image recognition based on multi-scale convolution neural network model[J]. Modern Electronics Technique, 2019, 42(24): 150-153.

[11] 张勋, 陈亮, 朱雪婷, 等. 基于区域卷积神经网络Faster R-CNN的手势识别方法[J]. 东华大学学报(自然科学版), 2019, 45(4): 559-563.

Zhang X, Chen L, Zhu X T, et al. Gesture recognition based on region convolutional neural network of faster R-CNN[J]. Journal of Donghua University (Natural Science), 2019, 45(4): 559-563.

[12] 朱雯文, 叶西宁. 基于卷积神经网络的手势识别算法[J]. 华东理工大学学报(自然科学版), 2018, 44(2): 260-269.

Zhu W W, Ye X N. Convolution neural networks for gesture recognition[J]. Journal of East China University of Science and Technology (Natural Science Edition), 2018, 44(2): 260-269.

[13] 苏军雄, 见雪婷, 刘玮, 等. 基于可变形卷积神经网络的手势识别方法[J]. 计算机与现代化, 2018( 4): 62- 67.

Su JX, Jian XT, LiuW, et al. Gesture recognition method based on deformable convolution neural network[J]. Computer and Modernization, 2018( 4): 62- 67.

[14] 刘万军, 梁雪剑, 曲海成. 自适应增强卷积神经网络图像识别[J]. 中国图象图形学报, 2017, 22(12): 1723-1736.

Liu W J, Liang X J, Qu H C. Adaptively enhanced convolutional neural network algorithm for image recognition[J]. Journal of Image and Graphics, 2017, 22(12): 1723-1736.

[15] 白丰, 张明路, 张小俊, 等. 局部二进制特征描述算法综述[J]. 电子测量与仪器学报, 2016, 30(2): 165-178.

Bai F, Zhang M L, Zhang X J, et al. Summarization of local binary feature description algorithm[J]. Journal of Electronic Measurement and Instrumentation, 2016, 30(2): 165-178.

[16] DalalN, TriggsB. Histograms of oriented gradients for human detection[C]∥2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05), June 20-25, 2005, San Diego, CA, USA.New York: IEEE Press, 2005: 886- 893.

[17] HamedA, Belal NA, Mahar KM. Arabic sign language alphabet recognition based on HOG-PCA using microsoft kinect in complex backgrounds[C]∥2016 IEEE 6th International Conference on Advanced Computing (IACC), February 27-28, 2016, Bhimavaram, India.New York: IEEE Press, 2016: 451- 458.

张政, 徐杨. 基于双分类器的自适应单双手手势识别[J]. 激光与光电子学进展, 2021, 58(2): 0210005. Zheng Zhang, Yang Xu. Adaptive One-Hand and Two-Hand Gesture Recognition Based on Double Classifiers[J]. Laser & Optoelectronics Progress, 2021, 58(2): 0210005.

基于双分类器的自适应单双手手势识别 下载： 977次

1 引言

2 卷积神经网络

2.1 前向过程

图 1. 最大池化示例

Fig. 1. Maximum pooling example

图 2. 第j 类分类过程

Fig. 2. Classification process for jth category

2.2 反向过程

3 双分类器单双手手势识别模型

图 3. 二分类单双手手势识别模型结构

Fig. 3. One-hand and double-hand gesture recognition structure based on two classifiers

3.1 手数分类器

图 4. 手数分类器网络结构

Fig. 4. Network structure of hand number classifier

表 1. 手数分类器网络参数

Table 1. Network parameters of hand number classifier

图 5. 手势重心距离计算图示

Fig. 5. Calculation of distance between centers of gavity of hand gestures

图 6. 手势分组预测示意图。(a)手势二值图;(b)手势重心图;(c)手势分组预测图

Fig. 6. Diagrams of gesture grouping prediction. (a) Gesture binary graphs; (b) centers of gravity of hand gestures; (c) gesture grouping prediction maps

3.2 AE-CNN手势识别分类

图 7. 自适应增强卷积神经网络结构

Fig. 7. Adaptive enhanced convolutional neural network structure

4 实验与结果分析

4.1 实验环境及数据集

图 8. ASL的9类手势样本

Fig. 8. Nine types of gesture samples from ASL

图 9. 自建单双手手势数据集样本。(a)单手手势;(b)双手手势

Fig. 9. Samples of one-hand and double-hand gesture data sets. (a) One-hand gestures; (b) double-hand gestures

图 10. 数据扩展及复杂背景手势样本。(a)复杂背景手势;(b)数据扩展

Fig. 10. Data expansion and complex background gesture samples. (a) Complex background gestures; (b) data expansion

表 2. 各分类网络的数据量

Table 2. Amount of data of classification networks

4.2 实验设计

4.3 实验分析

图 11. CNN和AE-CNN的收敛性和误识率对比。(a)CNN, CNN+Dropout和AE-CNN的收敛曲线;(b)CNN和AE-CNN的误识率

Fig. 11. Convergence and error rate curves of CNN and AE-CNN. (a) Convergence curves of CNN, CNN+Dropout,and AE-CNN; (b) error rate curves of CNN and AE-CNN

表 3. AE-CNN与其他算法的识别率对比

Table 3. Comparison of recognition rate between AE-CNN and other algorithms

图 12. 部分手势(0,2,5,9)的LBP特征。(a)手势0 LBP特征;(b)手势2 LBP特征;(c)手势5 LBP特征;(d)手势9 LBP特征

Fig. 12. LBP features of hand gestures (0,2,5, and 9). (a) LBP feature of zero gesture; (b) LBP feature of two gesture; (c) LBP feature of five gesture; (d) LBP feature of nine gesture

图 13. 部分手势HOG特征和HOG+PCA降维重构图

Fig. 13. HOG features of partial gestures and HOG+PCA dimensionality reduction reconstruction maps

图 14. 添加不同噪声的预处理图。(a)椒盐噪声归一化;(b)椒盐噪声二值图;(c)高斯噪声二值图;(d)高斯噪声密度分布图;(e)高斯噪声归一化

Fig. 14. Preprocessing graphs after adding different noise. (a) Normalization of salt and pepper noise; (b) binary map of salt and pepper noise; (c) binary map of Gaussian noise; (d) distribution of Gaussian noise density; (e) normalization of Gaussian noise

表 4. 添加高斯噪声和椒盐噪声的识别率对比

Table 4. Comparison of recognition rate between Gaussian noise and salt and pepper noise

表 5. 复杂背景和不同光照下的样本识别率

Table 5. Recognition rate of samples under complex background and different lighting conditions

5 结论

Article Outline

相关论文

相关资讯

关于本站 Cookie 的使用提示

全站搜索

基于双分类器的自适应单双手手势识别下载： 977次

Fig. 2. Classification process for j^th category