融合局部特征与深度置信网络的人脸表情识别 下载: 1111次
1 引言
人脸表情识别(FER)技术是一种典型的多分类情感计算技术[1],广泛应用于图像理解、虚拟现实、医疗、人机交互等领域,是近年来机器视觉研究的热点[2]。对人脸表情识别的研究,主要集中在人脸表情的特征提取以及表情分类器的选择方面。
表情识别的关键在于如何提取出完整、稳健而富有区分性的表情特征[3]。Gabor[4]小波变换常用于提取图像纹理特征。Log-Gabor[5]滤波器相较于Gabor滤波器,具有不受光照影响的相位一致性,以及符合人类视觉系统认知的特性[6]。梯度方向直方图(HOG)特征[7]常用于描述图像边缘形状。相比传统的HOG特征,二阶HOG[8]特征包含了更多信息,因此,可以进一步提高HOG特征对于形状和表情的描述能力。特征融合可以获得丰富的特征信息[9]。文献[ 10]将面部显著区域的局部二值模式(LBP)直方图与HOG特征相融合进行表情识别。文献[ 11]提出了一种融合时空运动LBP特征与多方向融合Gabor直方图特征的表情识别方法,实验结果显示,相较于单独使用其中一种特征进行表情识别,融合特征能得到更好的识别效果。人脸表情特征融合可分为基于整体脸部特征[12]和基于局部脸部特征[13]。文献[ 13]将眉毛眼睛和嘴巴部位分割出来进行特征提取与表情分类,得到了很好的分类效果。
在分类方法选择方面,目前的表情识别研究多采用支持向量机(SVM)[14]、K最邻近规则(KNN)[15]、隐马尔可夫模型(HMM)[16]等机器学习方法。传统的机器学习方法多属于浅层学习方法,当样本数量增多、多样性增强时,浅层学习在复杂情况下的运算能力与适应能力受到限制[17]。2006年,Hinton等[18]提出了深度置信网络(DBN)模型。DBN是一种模拟人类视觉的认知过程,通过逐层训练网络,实现高维度非线性数据特征抽取与分类的深度学习方法。DBN模型作为一种有效的分类识别方法,适用于表情识别之中。文献[ 19]先提取了人脸的HOG特征,通过DBN模型进行人脸解析,再提取局部器官的Gabor特征,通过堆叠自动编码器进行表情识别;但是,该研究所采用的特征为传统的HOG与Gabor特征,没有采用改进的HOG与Gabor特征或融合特征以进一步提高识别率。文献[ 20]根据AdaBoost算法的思想,将若干个DBN作为弱分类器进行级联,组成强DBN分类器进行表情识别;但这种方法需要训练的DBN模型数量较多,计算复杂度高,在模型训练阶段耗时过长。
本文提出一种基于人脸局部器官图像,融合了Log-Gabor特征和二阶HOG特征与DBN模型的表情识别算法。该方法首先分割出眉毛眼睛部位和嘴巴部位2种局部表情图像,对局部器官图像提取Log-Gabor特征与二阶HOG特征并进行融合,然后将融合后的特征输入到DBN模型中进行训练,最后利用训练后的DBN模型进行表情识别。实验结果表明,本文方法具有很高的表情识别率。
2 Log-Gabor与二阶HOG特征
2.1 Log-Gabor特征
Gabor特征主要包含空间尺度、空间位置、方向选择等图像局部纹理信息[21]。二维Gabor滤波器定义为
式中z=(x,y)为图像上定点位置,α和β分别表示Gabor滤波器的方向和尺度(频率),kα,β为滤波器的中心频率,kα,β=kβ(cosϕ,sinϕ)T,kβ=
由Gabor滤波器的函数可知,对于偶对称Gabor滤波器:如果高斯函数的标准偏差σ大于中心频率的1/3,2个高斯函数在原点重合产生直流分量,则导致无法处理亮度变化较大的图像,同时无法构造互成正交对的滤波器;如果标准偏差σ等于中心频率的1/3,带宽大约为1倍频,则导致带宽不能任意扩展。
Log-Gabor滤波器是Gabor滤波器的一种改进。与Gabor滤波器相比:1) Log-Gabor滤波器没有直流分量,带宽可以扩展,能够处理亮度变化较大的图像;2) Log-Gabor滤波器的传递函数在高频端有一个延长的尾巴,更适合对自然图像进行编码,克服了传统Gabor函数在低频表示过度而在高频表示不足的缺点。二维Log-Gabor滤波器定义为
式中f1=fcosγ+gsinγ,g1=-fsinγ+gcosγ,f0为滤波器的中心频率,γ为滤波器的方向角度,k控制f1方向的带宽,δ控制g1方向的带宽。
为了获得人脸表情图片的Log-Gabor特征,需要将人脸表情图片与Log-Gabor滤波器进行卷积。若一幅图像的灰度值为I(x,y),那么经过Log-Gabor滤波器后的结果为F(x,y)=I(x,y)*Lμ,ν(x,y),其中Lμ,ν(x,y)表示μ尺度、ν方向的Log-Gabor滤波器,F(x,y)为Log-Gabor滤波器滤波后的结果,*为卷积运算。
图 1. 人脸局部表情图像的Log-Gabor幅值特征
Fig. 1. Log-Gabor magnitude features of local facial expression image
2.2 二阶HOG特征
HOG特征通过计算图像单元的梯度方向直方图,能够有效地描述图像的边缘和形状。二阶HOG特征在HOG特征的基础之上,通过计算图像内多个单元直方图元素之间的相互关系,对一阶直方图特征提取二阶统计特征,从而提高了特征对于人脸表情的描述的区分能力。二阶HOG的具体步骤如下。
1) 采用一阶梯度算子
式中I(x,y)为图像在点(x,y)处的灰度值,g(x,y)为梯度幅值,φ(x,y)为梯度方向。
2) 将图像分为m×n个大小相同的单元,并统计每个单元的梯度方向直方图。
3) 取相邻若干个图像单元组成p×q个图像块,将图像块内的所有直方图元素进行相互之间的成对组合,并采用调和平均值计算一种成对关系值[22],获得图像块的成对关系向量。
4) 对得到的图像块成对关系向量进行L2范数归一化,减少光照影响。将归一化后的向量按顺序串联起来,从而得到整个图像的二阶HOG特征。
对一幅人脸表情图像提取眉毛眼睛部位得到128 pixel×48 pixel的局部图像,将局部图像划分为16 pixel×16 pixel的单元,取相邻2×2个单元组成一个图像块,图像块之间重叠2个单元,对其中一个图像块内的梯度直方图元素进行成对组合,得到该图像块的二阶HOG特征,如
3 融合局部特征与DBN的人脸表情识别
3.1 DBN模型
DBN是一种深度学习网络,由多层受限玻尔兹曼机(RBM)和一层反向传播(BP)神经网络堆叠而成。RBM是DBN的关键组成部分。RBM是一种具有二分结构的无向图模型,由可视层v和隐含层h组成,每层内部无连接,可视层与隐含层之间全连接,连接权重为w。可视层与隐含层单元都为二元值,即0或1。
对于可视层与隐含层的所有结点,RBM的能量函数定义为
式中θ=
式中Z(θ)=
式中σ(x)=1/(1+e-x)。当隐含层节点状态已知时,可视层节点的激活概率为
RBM采用迭代训练的方法,训练出可以拟合给定训练数据的参数θ。通过计算在训练集上的极大对数似然函数,可以得到参数θ。通过对比散度(CD)算法[23],可以得到参数θ的更新规则:
式中ε为学习率,<·>data表示数据的分布期望,<·>recon表示通过CD算法得到的分布期望。
DBN模型的训练过程主要分为预训练和微调。第一步通过无监督贪婪的方式自底向上逐层训练RBM,下层RBM隐含层的输出作为向上一层RBM的可视层输入。逐层训练后的RBM可以从高维数据中提取出更有区别度的低维数特征。第二步通过有监督的方式采用BP神经网络对数据进行分类,同时将误差自顶向下传播,对RBM网络进行微调,使RBM整个网络的参数达到最优。典型的DBN结构如
3.2 融合局部特征与DBN的人脸表情识别方法
1) 从人脸表情图像中切割出眉毛眼睛部位和嘴巴部位的表情图像。
2) 对局部人脸表情图像分别提取描述纹理的Log-Gabor特征与描述边缘和形状的二阶HOG特征。
3) 采用串联方式将这2种特征进行融合,形成融合局部表情特征向量。
4) 采用融合后的表情特征训练DBN模型。
5) 利用训练后的DBN模型进行表情分类。
4 实验与结果分析
4.1 数据库预处理与特征提取
选用日本女性人脸表情(JAFFE)库、Cohn-Kanade(CK)表情库和Extended Cohn-Kanade(CK+)表情库进行实验,实验样本图像如
JAFFE表情库中包含10人的213张表情图像,实验随机选取每人每种表情1~2张共105张作为训练图像,余下的108张作为测试图像。CK表情库中包含97人的486个表情序列共8795张表情图像,从CK表情库中选取20个人的表情图像,选取每人每种表情图像2~3张,共303张表情图像,实验随机选取每人每种表情图像1~2张,共150张
图 4. 融合局部特征与DBN的人脸表情识别流程
Fig. 4. Flowchart of facial expression recognition based on fusion of local features and DBN
作为训练表情,余下的153张图片作为测试图像。CK+表情库包含123人的593个表情序列共10708张表情图像,选取带标签的327个表情序列中每个序列的最后一张峰值表情图像作为实验图像,包含愤怒45张、厌恶59张、恐惧25张、高兴69张、悲伤28张、惊讶83张,以及轻视18张。随机选取每种表情图像的1/2共计163张作为训练图像,余下的164张作为测试图像。每次实验重复3次取平均值。
图 5. 样本图像。(a) JAFFE表情库;(b) CK表情库;(c) CK+表情库
Fig. 5. Sample images. (a) JAFFE database; (b) CK database; (c) CK+ database
对3种表情库进行预处理,首先提取出大小为128 pixel×128 pixel的纯脸图像,其中CK+表情库中的彩色图像需要转化为灰度图像。然后在纯脸图像的基础上根据人脸“三庭五等”的结构,切割出大小为128 pixel×48 pixel的眉毛眼睛部位局部图像,以及大小为80 pixel×32 pixel的嘴巴部位局部图像,如
对预处理提取到的2种局部表情图像,分别提取5尺度8方向的Log-Gabor幅值特征,并将2种局部图像的Log-Gabor特征按顺序进行串联。将预处理得到的2种局部表情图像,分别划分为16 pixel×16 pixel的单元,每个图像块由相邻2×2个单元组成,图像块之间重叠2个单元,分别提取出两种局部图像的二阶HOG特征,并按顺序进行串联。将Log-Gabor特征与二阶HOG特征进行串联,得到融合之后的局部特征。
图 6. 表情库图像预处理示例。(a) JAFFE表情库;(b) CK表情库;(c) CK+表情库
Fig. 6. Examples of facial expression database image preprocessing. (a) JAFFE database; (b) CK database; (c) CK+ database
4.2 DBN参数设置
RBM预训练的学习率设置为0.05,每层RBM的迭代次数为10,BP神经网络的学习率设置为0.05,迭代次数设置为1000。采用批训练的方式提高训练速度,批训练样本数设置为100。DBN网络结构的深度对表情检测效果有着重要的影响,本文通过实验的方式确定DBN模型网络中RBM的层数,由于实验所用的表情数据库样本数较小,所以DBN模型所需的RBM层数较少,分别设置DBN模型中RBM层数为1~4,RBM隐含层节点数设置为50。实验的硬件环境为3.7 GHz Intel Core i7 CPU,16 GB RAM计算机,软件环境为Matlab R2014a。不同RBM网络层数的DBN模型表情识别率如
图 7. 不同RBM层数的DBN模型的表情识别率
Fig. 7. Expression recognition rate of DBN with different RBM layers
表 1. 不同层数RBM的DBN模型训练与识别时间
Table 1. Training and recognition time of DBN with different RBM layers
|
由
4.3 与其他方法对比
为了验证本文方法对于表情分类识别的有效性,在局部表情图像中分别提取Gabor特征、Log-Gabor特征、HOG特征、二阶HOG特征,然后再采用DBN模型在JAFFE表情库、CK表情库和CK+表情库分别进行表情识别,不同特征的识别率对比结果如
表 2. 不同特征的识别率
Table 2. Recognition rate based on different features
|
由
为了验证DBN模型对于表情分类识别的有效性,将本文方法同KNN与SVM算法进行对比。对局部图像提取Log-Gabor特征与二阶HOG特征并进行特征融合,之后采用不同的分类方法在JAFFE表情库、CK表情库与CK+表情库分别进行表情识别。SVM采用广泛使用的LIBSVM工具包,选用C-SVC类型,核函数采用径向基核函数(RBF),Gamma参数为0.5,惩罚因子C=10。对比实验结果如
表 3. 不同算法的识别率
Table 3. Recognition rate of different algorithms%
|
由
将本文方法同近年来学者们所提出的其他方法,比如局部定向数字(LDN)特征+SVM[26]、HOG+bagging极限学习机(ELM)[27]、LBP+多任务稀疏学习算法(MTSL)[28]、复合局部二值模式(CLBP)+SVM[29]、保持全局和局部多样性的特征提取算法(GLDPE)[30]以及HOG+DBN+Gabor+堆自动编码器(SAE)[19]等方法,在JAFFE表情库、CK表情库和CK+表情库的识别结果进行对比,对比结果如
表 4. JAFFE表情库上不同方法识别率对比
Table 4. Comparison of recognition rate of different methods on JAFFE database
|
表 5. CK表情库上不同方法识别率对比
Table 5. Comparison of recognition rate of different methods on CK database
|
表 6. CK+表情库上不同方法识别率对比
Table 6. Comparison of recognition rate of different methods on CK+ database
|
由
5 结论
采用融合局部特征与DBN模型进行表情识别。从表情图像中提取眉毛眼睛部位与嘴巴部位作为局部表情图像,有效地减少了冗余信息。提取局部表情图像的Log-Gabor特征与二阶HOG特征,并相融合,融合后的特征同时包含了纹理特征与形状、边缘特征,具有更加丰富的表情信息。DBN模型通过深层学习网络,能够更好地提取到更深层次的特征,进一步提高了识别率。将本文方法应用在JAFFE表情库、CK表情库以及CK+表情库上,识别率分别达到96.30%、97.39%与95.73%,证明了本文方法对于表情识别的有效性。在今后的研究中,应进一步探索如何优化模型,使其得以应用于存在部分遮挡的人脸表情识别中。
[1] ChenJ, TakiguchiT, ArikiY. Facial expression recognition with multithreaded cascade of rotation-invariant HOG[C]. International Conference on Affective Computing and Intelligent Interaction, IEEE, 2015: 636- 642.
[2] NegriP, AcevedoD, MejailM, et al. Facial expression recognition: A comparison between static and dynamic approaches[C]. International Conference on Pattern Recognition Systems, 2016: 1- 6.
[3] 刘帅师, 田彦涛, 万川. 基于Gabor多方向特征融合与分块直方图的人脸表情识别方法[J]. 自动化学报, 2011, 37(12): 1455-1463.
[4] 叶珍, 白璘, 粘永健. 基于Gabor特征与局部保护降维的高光谱图像分类算法[J]. 光学学报, 2016, 36(10): 1028003.
[5] 刘元, 吴小俊. 基于Log-Gabor滤波与黎曼流形学习的图像识别算法[J]. 模式识别与人工智能, 2015, 28(10): 946-952.
[6] 苑玮琦, 范永刚, 柯丽. 相位一致性和对数Gabor滤波器相结合的掌纹识别方法[J]. 光学学报, 2010, 30(1): 147-152.
[7] 刘斌, 赵兴, 胡春海, 等. 面向颜色深度图像手脸近距遮挡的手势识别[J]. 激光与光电子学进展, 2016, 53(6): 061001.
[8] CaoH, YamaguchiK, Naito, et al. Pedestrian recognition using second-order HOG feature[C]. 9th Asian Conference on Computer Vision (ACCV 2009), 2009: 628- 634.
[9] 张世辉, 何欢, 孔令富. 融合多特征基于图割实现视频遮挡区域检测[J]. 光学学报, 2015, 35(4): 0415001.
[13] 胡敏, 江河, 王晓华, 等. 精确局部特征描述的表情识别[J]. 中国图象图形学报, 2014, 19(11): 1613-1622.
[14] LiY, Mavadati SM, Mahoor MH, et al. A unified probabilistic framework for measuring the intensity of spontaneous facial action units[C]. IEEE International Conference and Workshops on Automatic Face and Gesture Recognition, 2013: 1- 7.
[15] WangQ, JiaK, LiuP. Design and implementation of remote facial expression recognition surveillance system based on PCA and KNN algorithms[C]. International Conference on Intelligent Information Hiding and Multimedia Signal Processing.2016: 314- 317.
[17] 刘大伟, 韩玲, 韩晓勇. 基于深度学习的高分辨率遥感影像分类研究[J]. 光学学报, 2016, 36(4): 0428001.
[19] LvY, FengZ, XuC. Facial expression recognition via deep learning[C]. International Conference on Smart Computing, IEEE, 2015: 303- 308.
[20] LiuP, HanS, MengZ, et al. Facial expression recognition via a boosted deep belief network[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2014: 1805- 1812.
[21] 夏军, 裴东, 王全州, 等. 融合Gabor特征的局部自适应三值微分模式的人脸识别[J]. 激光与光电子学进展, 2016, 53(11): 111004.
[22] 张毅, 廖巧珍, 罗元. 融合二阶HOG与CS-LBP的头部姿态估计[J]. 智能系统学报, 2015, 10(5): 741-746.
[24] Happy SL, RoutrayA. Robust facial expression classification using shape and appearance features[C]. Eighth International Conference on Advances in Pattern Recognition, 2015: 1- 5.
[30] 李雅倩, 李颖杰, 李海滨, 等. 融合全局与局部多样性特征的人脸表情识别[J]. 光学学报, 2014, 34(5): 0515001.
[31] GhimireD, JeongS, YoonS, et al. Facial expression recognition based on region specific appearance and geometric features[C]. Tenth International Conference on Digital Information Management, IEEE, 2016: 142- 147.
Article Outline
王琳琳, 刘敬浩, 付晓梅. 融合局部特征与深度置信网络的人脸表情识别[J]. 激光与光电子学进展, 2018, 55(1): 011002. Wang Linlin, Liu Jinghao, Fu Xiaomei. Facial Expression Recognition Based on Fusion of Local Features and Deep Belief Network[J]. Laser & Optoelectronics Progress, 2018, 55(1): 011002.