一种基于特征融合的卷积神经网络人脸识别算法 下载: 1626次
1 引言
人脸识别如今已广泛应用于医疗应用、安全访问控制、机场检查等领域。人脸特征提取是人脸识别最重要的步骤,有效地提取人脸特征是提高人脸识别精度的关键。近几年,由于卷积神经网络对图像分类具有很强的优势[1],已经成功应用于人脸识别,但是其在提取特征时忽略了人脸的局部特征,故融合全局特征和局部特征进行人脸识别成为新的研究方向。
目前全局特征提取方法主要有主成分分析(PCA) [2]、支持向量鉴别分析(SVDA) [3]、独立成分分析 (ICA) [4]、线性判别分析 (LDA) [5]和离散余弦变换(DCT) [6-7]等。局部特征提取方法主要有局部二值模式(LBP) [8]、局部相位量化(LPQ)[9]、梯度方向直方图(HOG)[10]、局部矢量模式 (LDP) [11] 和Gabor小波[12-13]等。其中,针对 LBP的相关研究较多,由于LBP可以很好地描述人脸图像的局部特征,所以近年来得到了广泛应用。文献[ 14]在YaleB人脸库上应用LBP进行人脸识别,得到了87.65%的识别率。文献[ 15]采用Boosting LBP方法和LBP方法对FRGC 2.0数据库进行实验,分别得到了84.17%和82.72%的识别率。文献[ 16]提出了一种基于广义距离的局部二值模式(GDLBP),该方法将LBP与局部矢量模式(LVP)相结合,可显著提高识别精度。文献[ 17]使用多尺度块局部二值模式和PCA结合的方法在ORL、JAFFE和INDIAN数据库上进行人脸识别,识别精度得到大幅提高。DCT是一种常用的图像压缩方法,能够很好地描述图像的全局特征,被广泛应用于图像识别领域。在文献[ 18]中提出一种利用支持向量机(SVM)与DCT结合进行人脸识别提升识别准确率的方法。文献[ 19]对经过卷积神经网络(CNN)的卷积层生成的特征映射进行DCT,将人脸识别准确率提升至96.81%。文献[ 20]提出了一种将DCT、Fisher线性判别和径向基函数(RBF)神经网络结合的人脸识别算法,该算法在提升识别精度的同时也缩短了训练时间。经过国内外科研工作者的研究,LBP 人脸识别与 DCT 人脸识别技术均得到迅速发展,但是之前的研究仅利用 LBP 和 DCT 其中一种方式进行人脸特征提取,得到的人脸识别率较低;或者融合LBP和 DCT提取特征后,利用其他模型实现图像分类。这些研究没有充分利用两者特征融合结合卷积神经网络去处理人脸分类别。
为了弥补使用单一特征在人脸特征提取上的不足,本文提出一种基于特征融合的卷积神经网络人脸识别算法。由于人脸信息主要集中在低频DCT系数中,故选取部分低频DCT系数作为人脸的全局特征。而LBP主要描述人脸图像纹理细节,故将其作为人脸的局部特征。最后,将全局特征和局部特征进行融合,输入卷积神经网络进行训练和特征分类。研究结果表明,该算法可以显著提高人脸识别的精确度。
2 基本原理
2.1 LBP
LBP算子是一种局部纹理描述算子,能够很好地描述图像的细节特征以进行有效分类。其主要原理是使用二进制编码函数对3×3局部邻域中的像素进行编码,具体算法是将图像的中心像素值与其邻域像素值进行比较,如果邻域像素值大于中心像素值,则该点记为二进制值1,反之则记为二进制值0。邻域内的8个像素值生成8位二进制值,连接这些二进制值并计算等效的十进制值,则为中心像素点的 LBP值,如
LBP值计算形式为
式中:ac为中心像素的灰度值;ai为周围邻域点的像素值;s为阈值函数;fLBP(mc,nc)为中心像素的LBP值。
2.2 DCT
DCT是一种常用的数据压缩方法。其表达式为
逆变换为
式中:u=0,1,…,N-1;v=0,1,…,N-1;F(u,v)为变换结果,也称为DCT系数。
c(u)和c(v)定义为
图 2. 人脸图像的DCT变换及重构。(a)原图(128×128) ;(b) DCT能量分布图;(c)提取DCT系数重构图(24×24);(d)提取DCT系数重构图(48×48)
Fig. 2. DCT transform and reconstruction of face image. (a) Original image (128×128); (b) DCT energy distribution map; (c) face image reconstructed with coefficients 24×24; (d) face image reconstructed with coefficients 48×48
2.3 CNN
卷积神经网络模型是一种监督学习的网络模型,是深度学习中一种有效的自主学习特征的方法,广泛应用于图像分类、目标检测、语义分割等领域[21-23]。其基本操作包括卷积、池化、全连接等。卷积层的主要特点是训练较少的参数以提取输入数据的特征信息。
卷积的计算公式表示为
式中:Mi是输入矩阵;Li,j是卷积核矩阵;pj表示偏置矩阵项;Cj是输出矩阵;f(·)为激活函数,一般为maxout[24]或者修正线性单元(ReLU)[25]。本文采用ReLU做为激活函数。
池化层的作用主要是通过缩小特征图的大小从而减少参数数量。池化层不仅可以减少参数数量,同时也可以一定程度上防止特征过拟合。最小池化、平均池化和最大池化是最为常用的池化模型。平均池化是指取输入特征图对应区域中平均值作为输出数值,最小池化是指取输入特征图对应区域中最小值作为输出数值,而最大池化是选取输入特征图对应区域中最大值作为输出数值。
本文采用的卷积神经网络结构如
2.4 基于特征融合的卷积神经网络人脸识别
为了提高人脸识别率,本文提出一种基于特征融合的卷积神经网络人脸识别算法。
本文算法具体步骤如下:
1) 对原始图像通过预处理操作获得大小为128×128的人脸图像集。
2) 对原始人脸图像进行离散余弦变换,提取部分低频系数作为人脸图像的全局特征。
3) 提取原始人脸图像的LBP特征作为人脸图像的局部特征。
4) 对由第2)步和第3)步得到的特征进行加权融合,具体加权公式为
式中:a1为DCT特征的加权系数,a2为LBP特征的加权系数,且a1+a2=1;S为加权后的图像。不同的加权系数a1、a2使得加权后的图像显示特征的程度不一样。
5) 将融合特征作为卷积神经网络的输入进行训练和特征分类。
3 实验
3.1 人脸数据库
为了验证本文算法的有效性,采用ORL和CAS-PEAL数据库进行实验。ORL人脸库共包括40人,每人10幅正面人脸图像,且每个人的人脸图像均存在光照和表情的变化。随机选取每人8幅人脸图像作为本次实验的训练集,其余人脸图像作为测试集。其中,某个样本的人脸图像如
CAS-PEAL人脸库共包括1040人,每人22幅正面人脸图像,且每个人的人脸图像都存在表情、光照、姿态的变化。随机选取每人16幅人脸图像作为本次实验的训练集,其余的人脸图像作为测试集。其中,某个样本的人脸图像如
3.2 实验结果和分析
本文算法模型是基于TensorFlow深度学习框架搭建而成。实验硬件配置为NVIDIA GTX-1060TiGPU,8G RAM。软件环境为Windows 7系统,利用 Spyder编译工具进行Python编程。为了验证算法的有效性,选择在ORL人脸库和CAS-PEAL人脸库上对本文算法进行实验研究,首先比较提取不同DCT系数以及对全局特征和局部特征赋予不同系数对人脸识别准确率的影响,结果如
表 1. 基于ORL人脸库的识别率
Table 1. Recognition rate based on ORL face database
|
表 2. 基于CAS-PEAL人脸库的识别率
Table 2. Recognition rate based on CAS-PEAL face database
|
对于DCT系数提取,由上文分析可知,当人脸图像经过DCT后,左上角低频系数包含了人脸图像的主要特征信息,所以提取不同数量的DCT系数会对人脸识别的结果产生影响。如果DCT系数过少,会导致人脸图像信息丢失,影响提取人脸特征的效果。相反,过多的DCT系数会存在冗余信息,同样降低人脸特征提取的效果。
对于全局特征与局部特征系数的选择,两者所占权重系数比例不同,它们所包含的信息对识别率的贡献率也不同。全局特征对人脸特征表征能力强,故赋予较高的权值。而局部特征对人脸特征表征能力稍弱,故赋予较低的权值。由
同时,本文比较了在相同样本、相同实验环境的情况下,仅使用卷积神经网络、卷积神经网络与DCT单独结合、卷积神经网络与LBP单独结合和本文算法的识别结果,如
表 3. 四种算法的识别率对比
Table 3. Recognition rate comparison of four algorithms
|
4 结论
本文提出一种特征加权融合结合卷积神经网络进行人脸识别的算法。LBP 特征能够很好地描述人脸图像的细节,因此采用LBP特征描述人脸的局部特征。DCT能将人脸图像的主要特征信息集中在低频系数中,因此提取人脸图像的部分低频系数描述人脸的全局特征。再将全局特征与局部特征进行加权融合,从而获得人脸特征的完整描述。最后将融合后的人脸图像输入卷积神经网络进行训练分类。在ORL数据库和CAS-PEAL数据库上的实验结果表明,相对于单独使用卷积神经网络、卷积神经网络与DCT单独结合、卷积神经网络与LBP单独结合等算法,本文算法的人脸识别精度得到显著提升。这说明将人脸的全局特征和局部特征进行融合后再提取人脸特征,能够利用人脸多方面信息进行识别,弥补了仅使用一种特征进行人脸识别的缺点,提升了人脸识别的识别精度。
[1] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.
[2] Chen X W, Huang T. Facial expression recognition: a clustering-based approach[J]. Pattern Recognition Letters, 2003, 24(9/10): 1295-1302.
[3] Ying ZL, Cai LB. Support vector discriminant analysis on local binary patterns for facial expression recognition[C]∥2009 2nd International Congress on Image and Signal Processing, October 17-19, 2009. Tianjin, China. IEEE, 2009: 1- 4.
[4] Buciu I, Kotropoulos C, Pitas I. Comparison of ICA approaches for facial expression recognition[J]. Signal, Image and Video Processing, 2009, 3(4): 345-361.
[5] Li M, Yuan B Z. 2D-LDA: a statistical linear discriminant analysis for image matrix[J]. Pattern Recognition Letters, 2005, 26(5): 527-532.
[6] JiangB, Yang GS, Zhang HL. Comparative study of dimension reduction and recognition algorithms of DCT and 2DPCA[C]∥2008 International Conference on Machine Learning and Cybernetics, July 12-15, 2008. Kunming, China. IEEE, 2008: 407- 410.
[7] Wang MH, JiangH, LiY. Face recognition based on DWT/DCT and SVM[C]∥2010 International Conference on Computer Application and System Modeling (ICCASM 2010), October 22-24, 2010. Taiyuan, China. IEEE, 2010: 507- 510.
[8] Ojala T, Pietikainen M, Maenpaa T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7): 971-987.
[9] AhonenT, RahtuE, OjansivuV, et al. Recognition of blurred faces using Local Phase Quantization[C]∥2008 19th International Conference on Pattern Recognition, December 8-11, 2008. Tampa, FL, USA. IEEE, 2008: 1- 4.
[10] Xu XM, Quan CQ, Ren FJ. Facial expression recognition based on Gabor Wavelet transform and Histogram of Oriented Gradients[C]∥2015 IEEE International Conference on Mechatronics and Automation (ICMA), August 2-5, 2015. Beijing, China. IEEE, 2015: 2117- 2122.
[11] Fan K C, Hung T Y. A novel local pattern descriptor: local vector pattern in high-order derivative space for face recognition[J]. IEEE Transactions on Image Processing, 2014, 23(7): 2877-2891.
[12] Liu WF, Wang ZF. Facial expression recognition based on fusion of multiple Gabor features[C]∥18th International Conference on Pattern Recognition (ICPR'06), Hong Kong, China. IEEE, 2006: 536- 539.
[13] Wu TF, Bartlett MS, Movellan JR. Facial expression recognition using Gabor motion energy filters[C]∥2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition - Workshops, June 13-18, 2010. San Francisco, CA, USA. IEEE, 2010: 42- 47.
[14] ChenD, CaoX, WenF, et al. Blessing of dimensionality: high-dimensional feature and its efficient compression for face verification[C]∥ IEEE Conference on Computer Vision & Pattern Recognition. IEEE, 2013.
[15] Liao SC, Zhu XX, LeiZ, et al. Learning multi-scale block local binary patterns for face recognition[M]∥Advances in Biometrics. Berlin, Heidelberg: Springer Berlin Heidelberg, :828- 837.
[16] ChakrabortyS, Singh SK, ChakrabortyP. Performance enhancement of local vector pattern with generalized distance local binary pattern for face recognition[C]∥2015 IEEE UP Section Conference on Electrical Computer and Electronics (UPCON), December 4-6, 2015. Allahabad, India. IEEE, 2015.
[17] Girish GN, Shrinivasa N N C L, Das P K. Face recognition using MB-LBP and PCA: a comparative study[C]∥2014 International Conference on Computer Communication and Informatics, January 3-5, 2014. Coimbatore, India. IEEE, 2014.
[18] Wang MH, JiangH, LiY. Face recognition based on DWT/DCT and SVM[C]∥2010 International Conference on Computer Application and System Modeling (ICCASM 2010), October 22-24, 2010. Taiyuan, China. IEEE, 2010: 507- 510.
[19] GhoshA, ChellappaR. Deep feature extraction in the DCT domain[C]∥2016 23rd International Conference on Pattern Recognition (ICPR), December 4-8, 2016. Cancun. IEEE, 2016.
[20] Er M J, Chen W, Wu S. High-speed face recognition based on discrete cosine transform and RBF neural networks[J]. IEEE Transactions on Neural Networks, 2005, 16(3): 679-691.
[21] 许路, 赵海涛, 孙韶媛. 基于深层卷积神经网络的单目红外图像深度估计[J]. 光学学报, 2016, 36(7): 0715002.
[22] 刘玉珍, 蒋政权, 马飞, 等. 基于超图和卷积神经网络的高光谱图像分类[J]. 激光与光电子学进展, 2019, 56(11): 111007.
[23] 欧攀, 张正, 路奎, 等. 基于卷积神经网络的遥感图像目标检测[J]. 激光与光电子学进展, 2019, 56(5): 051002.
[24] GoodfellowI, Warde-FarleyD, MirzaM, et al. Maxout networks[J]. International Conferenceon Machine, 2013( 1): 1219- 1327.
[25] NairV, Hinton G E. Rectified linear units improve restricted Boltzmann machines vinod nair[C]∥ Proceedings of the 27th International Conference on Machine Learning (ICML-10), June 21-24, 2010, Haifa, Israel. Omnipress, 2010.
王嘉欣, 雷志春. 一种基于特征融合的卷积神经网络人脸识别算法[J]. 激光与光电子学进展, 2020, 57(10): 101508. Jiaxin Wang, Zhichun Lei. A Convolutional Neural Network Based on Feature Fusion for Face Recognition[J]. Laser & Optoelectronics Progress, 2020, 57(10): 101508.