激光与光电子学进展, 2020, 57 (10): 101508, 网络出版: 2020-05-08   

一种基于特征融合的卷积神经网络人脸识别算法 下载: 1626次

A Convolutional Neural Network Based on Feature Fusion for Face Recognition
作者单位
天津大学微电子学院, 天津 300354
摘要
卷积神经网络已成功应用于人脸识别,但是其提取的人脸特征忽略了局部特征。为了提取更加全面的人脸特征,提出一种将人脸特征融合与卷积神经网络结合进行人脸识别的算法。该方法将人脸图像经离散余弦变换后所获得的低频系数和人脸图像的局部二值模式特征分别作为人脸的全局特征和局部特征,再将两者加权融合后得到的图像输入卷积神经网络进行训练分类。在ORL和CAS-PEAL人脸数据库进行实验和数据分析,结果表明,该方法可以明显地提升人脸识别精度。
Abstract
Convolutional neural network has been successfully applied to face recognition, but the extracted features ignore the local features of the face. In order to extract more comprehensive facial features, a convolutional neural network based on feature fusion for face recognition is proposed. This method takes the low frequency coefficients of the face images obtained by performing discrete cosine transform as global feature of the face. Besides, extracting local binary pattern features of original face images as local features of the face. Likewise, the image obtained by weighted fusion of global and local features is fed into the convolutional neural network for training. Experimental results in ORL and CAS-PEAL database show that the proposed method can improve the accuracy of face recognition.

1 引言

人脸识别如今已广泛应用于医疗应用、安全访问控制、机场检查等领域。人脸特征提取是人脸识别最重要的步骤,有效地提取人脸特征是提高人脸识别精度的关键。近几年,由于卷积神经网络对图像分类具有很强的优势[1],已经成功应用于人脸识别,但是其在提取特征时忽略了人脸的局部特征,故融合全局特征和局部特征进行人脸识别成为新的研究方向。

目前全局特征提取方法主要有主成分分析(PCA) [2]、支持向量鉴别分析(SVDA) [3]、独立成分分析 (ICA) [4]、线性判别分析 (LDA) [5]和离散余弦变换(DCT) [6-7]等。局部特征提取方法主要有局部二值模式(LBP) [8]、局部相位量化(LPQ)[9]、梯度方向直方图(HOG)[10]、局部矢量模式 (LDP) [11] 和Gabor小波[12-13]等。其中,针对 LBP的相关研究较多,由于LBP可以很好地描述人脸图像的局部特征,所以近年来得到了广泛应用。文献[ 14]在YaleB人脸库上应用LBP进行人脸识别,得到了87.65%的识别率。文献[ 15]采用Boosting LBP方法和LBP方法对FRGC 2.0数据库进行实验,分别得到了84.17%和82.72%的识别率。文献[ 16]提出了一种基于广义距离的局部二值模式(GDLBP),该方法将LBP与局部矢量模式(LVP)相结合,可显著提高识别精度。文献[ 17]使用多尺度块局部二值模式和PCA结合的方法在ORL、JAFFE和INDIAN数据库上进行人脸识别,识别精度得到大幅提高。DCT是一种常用的图像压缩方法,能够很好地描述图像的全局特征,被广泛应用于图像识别领域。在文献[ 18]中提出一种利用支持向量机(SVM)与DCT结合进行人脸识别提升识别准确率的方法。文献[ 19]对经过卷积神经网络(CNN)的卷积层生成的特征映射进行DCT,将人脸识别准确率提升至96.81%。文献[ 20]提出了一种将DCT、Fisher线性判别和径向基函数(RBF)神经网络结合的人脸识别算法,该算法在提升识别精度的同时也缩短了训练时间。经过国内外科研工作者的研究,LBP 人脸识别与 DCT 人脸识别技术均得到迅速发展,但是之前的研究仅利用 LBP 和 DCT 其中一种方式进行人脸特征提取,得到的人脸识别率较低;或者融合LBP和 DCT提取特征后,利用其他模型实现图像分类。这些研究没有充分利用两者特征融合结合卷积神经网络去处理人脸分类别。

为了弥补使用单一特征在人脸特征提取上的不足,本文提出一种基于特征融合的卷积神经网络人脸识别算法。由于人脸信息主要集中在低频DCT系数中,故选取部分低频DCT系数作为人脸的全局特征。而LBP主要描述人脸图像纹理细节,故将其作为人脸的局部特征。最后,将全局特征和局部特征进行融合,输入卷积神经网络进行训练和特征分类。研究结果表明,该算法可以显著提高人脸识别的精确度。

2 基本原理

2.1 LBP

LBP算子是一种局部纹理描述算子,能够很好地描述图像的细节特征以进行有效分类。其主要原理是使用二进制编码函数对3×3局部邻域中的像素进行编码,具体算法是将图像的中心像素值与其邻域像素值进行比较,如果邻域像素值大于中心像素值,则该点记为二进制值1,反之则记为二进制值0。邻域内的8个像素值生成8位二进制值,连接这些二进制值并计算等效的十进制值,则为中心像素点的 LBP值,如图1所示,二进制码为11011011,LBP值为219。

图 1. 基本LBP算子

Fig. 1. Basic LBP operators

下载图片 查看所有图片

LBP值计算形式为

fLBP(mc,nc)=i=07s(ai-ac)·2i,(1)s(x)=1,x>00,x<0,(2)

式中:ac为中心像素的灰度值;ai为周围邻域点的像素值;s为阈值函数;fLBP(mc,nc)为中心像素的LBP值。

2.2 DCT

DCT是一种常用的数据压缩方法。其表达式为

F(u,v)=c(u)c(v)f(x,y)·x=0N-1y=0N-1cos(2x+1)π2Nucos(2y+1)π2Nv(3)

逆变换为

f(x,y)=x=0N-1y=0N-1c(u)c(v)F(u,v)·cos(2x+1)π2Nucos(2y+1)π2Nv,(4)

式中:u=0,1,…,N-1;v=0,1,…,N-1;F(u,v)为变换结果,也称为DCT系数。

c(u)和c(v)定义为

c(u)=1N,u=02N,u0,(5)c(v)=1N,v=02N,v0(6)

图2(b)为对图2(a)进行DCT后得到的能量分布图。由图2(b)可知,人脸图像经过DCT后,其能量主要分布在图像的低频部分,故图像的低频包含了图像的主要特征信息。因此通过提取DCT低频系数,可以进行图像重构,如图2(c)和(d)所示,分别提取24×24、48×48数量的DCT系数重构的人脸图像。可以看出,只需要提取部分低频系数,就能重构得到新图像,且新图像与原始图像非常相近。虽然两者存在一定误差,但图像的主要特征信息被保存下来。故在人脸识别中,可以提取适当的DCT系数作为人脸的全局特征。

图 2. 人脸图像的DCT变换及重构。(a)原图(128×128) ;(b) DCT能量分布图;(c)提取DCT系数重构图(24×24);(d)提取DCT系数重构图(48×48)

Fig. 2. DCT transform and reconstruction of face image. (a) Original image (128×128); (b) DCT energy distribution map; (c) face image reconstructed with coefficients 24×24; (d) face image reconstructed with coefficients 48×48

下载图片 查看所有图片

2.3 CNN

卷积神经网络模型是一种监督学习的网络模型,是深度学习中一种有效的自主学习特征的方法,广泛应用于图像分类、目标检测、语义分割等领域[21-23]。其基本操作包括卷积、池化、全连接等。卷积层的主要特点是训练较少的参数以提取输入数据的特征信息。

卷积的计算公式表示为

Cj=fi=1NMi*Li,j+pj,(7)

式中:Mi是输入矩阵;Li,j是卷积核矩阵;pj表示偏置矩阵项;Cj是输出矩阵;f(·)为激活函数,一般为maxout[24]或者修正线性单元(ReLU)[25]。本文采用ReLU做为激活函数。

池化层的作用主要是通过缩小特征图的大小从而减少参数数量。池化层不仅可以减少参数数量,同时也可以一定程度上防止特征过拟合。最小池化、平均池化和最大池化是最为常用的池化模型。平均池化是指取输入特征图对应区域中平均值作为输出数值,最小池化是指取输入特征图对应区域中最小值作为输出数值,而最大池化是选取输入特征图对应区域中最大值作为输出数值。图3所示为最大池化操作,池化规模为2×2,步长为2。

图 3. 最大池化示例

Fig. 3. Maximum pooling example

下载图片 查看所有图片

本文采用的卷积神经网络结构如图4所示。由图4可知,该卷积神经网络共四层卷积层且每个卷积层之后均紧跟一层池化层,对卷积后的特征进行下采样。在卷积层中,第一层和第二层均使用大小为5×5的卷积核,而第三层和第四层均采用大小为3×3的卷积核。在池化层中,池化方式均采用最大池化,其规模大小为2×2。然后,将池化层产生的二维特征数据输入全连接层转变为一维特征数据。最后,利用Softmax对特征进行分类。

图 4. 卷积神经网络结构

Fig. 4. CNN structure

下载图片 查看所有图片

2.4 基于特征融合的卷积神经网络人脸识别

为了提高人脸识别率,本文提出一种基于特征融合的卷积神经网络人脸识别算法。图5所示为本文算法结构图,该算法主要包含以下三个部分:提取人脸图像的全局特征和局部特征、对全局特征和局部特征进行加权融合、利用卷积神经网络进行训练和特征分类。

图 5. 算法结构图

Fig. 5. Flow chart of proposed model

下载图片 查看所有图片

本文算法具体步骤如下:

1) 对原始图像通过预处理操作获得大小为128×128的人脸图像集。

2) 对原始人脸图像进行离散余弦变换,提取部分低频系数作为人脸图像的全局特征。

3) 提取原始人脸图像的LBP特征作为人脸图像的局部特征。

4) 对由第2)步和第3)步得到的特征进行加权融合,具体加权公式为

S=a1×wDCT+a2×wLBP,(8)

式中:a1为DCT特征的加权系数,a2为LBP特征的加权系数,且a1+a2=1;S为加权后的图像。不同的加权系数a1a2使得加权后的图像显示特征的程度不一样。

5) 将融合特征作为卷积神经网络的输入进行训练和特征分类。

3 实验

3.1 人脸数据库

为了验证本文算法的有效性,采用ORL和CAS-PEAL数据库进行实验。ORL人脸库共包括40人,每人10幅正面人脸图像,且每个人的人脸图像均存在光照和表情的变化。随机选取每人8幅人脸图像作为本次实验的训练集,其余人脸图像作为测试集。其中,某个样本的人脸图像如图6所示。

CAS-PEAL人脸库共包括1040人,每人22幅正面人脸图像,且每个人的人脸图像都存在表情、光照、姿态的变化。随机选取每人16幅人脸图像作为本次实验的训练集,其余的人脸图像作为测试集。其中,某个样本的人脸图像如图7所示。

3.2 实验结果和分析

本文算法模型是基于TensorFlow深度学习框架搭建而成。实验硬件配置为NVIDIA GTX-1060TiGPU,8G RAM。软件环境为Windows 7系统,利用 Spyder编译工具进行Python编程。为了验证算法的有效性,选择在ORL人脸库和CAS-PEAL人脸库上对本文算法进行实验研究,首先比较提取不同DCT系数以及对全局特征和局部特征赋予不同系数对人脸识别准确率的影响,结果如表1、2所示。其中,a1是全局特征的加权系数,a2是局部特征的加权系数。

图 6. ORL人脸数据库部分样本

Fig. 6. Part samples of ORL face database

下载图片 查看所有图片

图 7. CAS-PEAL人脸数据库部分样本

Fig. 7. Part samples of CAS-PEAL face database

下载图片 查看所有图片

表 1. 基于ORL人脸库的识别率

Table 1. Recognition rate based on ORL face database

DCT coefficienta1=0.9,a2=0.1a1=0.85,a2=0.15a1=0.8,a2=0.2a1=0.7,a2=0.3a1=0.6,a2=0.4a1=0.5,a2=0.5
8×816×1624×2432×3240×4048×4856×5664×640.931250.959380.962500.981250.968750.971880.921870.925000.950000.946880.962500.984380.975000.943750.956250.968750.915630.946870.943750.968750.953130.934380.965630.915620.931250.968750.971880.975000.953130.978120.937500.906250.968750.962500.931250.971870.956250.953120.943760.959380.943750.921870.940630.968170.954690.959380.950000.95469

查看所有表

表 2. 基于CAS-PEAL人脸库的识别率

Table 2. Recognition rate based on CAS-PEAL face database

DCT coefficienta1=0.9,a2=0.1a1=0.85,a2=0.15a1=0.8,a2=0.2a1=0.7,a2=0.3a1=0.6,a2=0.4a1=0.5,a2=0.5
8×816×1624×2432×3240×4048×4856×5664×640.903650.943580.961810.968750.932290.945310.967010.967470.976250.982920.974380.983120.975620.963130.970210.967500.960940.923610.909720.975410.945420.970210.964410.940970.957710.947050.949170.971250.957920.967710.952290.968750.969380.973540.954860.973540.966250.943580.959200.927920.955730.955210.936040.969580.956580.966870.954180.94531

查看所有表

对于DCT系数提取,由上文分析可知,当人脸图像经过DCT后,左上角低频系数包含了人脸图像的主要特征信息,所以提取不同数量的DCT系数会对人脸识别的结果产生影响。如果DCT系数过少,会导致人脸图像信息丢失,影响提取人脸特征的效果。相反,过多的DCT系数会存在冗余信息,同样降低人脸特征提取的效果。

对于全局特征与局部特征系数的选择,两者所占权重系数比例不同,它们所包含的信息对识别率的贡献率也不同。全局特征对人脸特征表征能力强,故赋予较高的权值。而局部特征对人脸特征表征能力稍弱,故赋予较低的权值。由表1、2可知,当DCT系数为32×32,人脸全局特征与人脸局部特征所占权重系数分别为0.85和0.15时,基于ORL人脸库和CAS-PEAL人脸库的识别率均达到最高,分别为0.98438和0.98312。

同时,本文比较了在相同样本、相同实验环境的情况下,仅使用卷积神经网络、卷积神经网络与DCT单独结合、卷积神经网络与LBP单独结合和本文算法的识别结果,如表3所示。其中,四种算法中卷积神经网络结构均是相同的。由表3可知,LBP算子与DCT系数融合进行人脸识别得到的识别率高于单独使用这两个特征的情况。这是由于单独使用局部特征或者全局特征,缺乏对人脸特征的完整描述。而本文算法实现了全局特征和局部特征的相互补充,获得了人脸特征的完整描述,从而提高了人脸识别精度。

表 3. 四种算法的识别率对比

Table 3. Recognition rate comparison of four algorithms

DatabaseAlgorithm
CNNDCT-CNNLBP-CNNLBP-DCT-CNN
ORLCAS-PEAL0.865630.923330.953130.976870.912500.937500.984380.98312

查看所有表

4 结论

本文提出一种特征加权融合结合卷积神经网络进行人脸识别的算法。LBP 特征能够很好地描述人脸图像的细节,因此采用LBP特征描述人脸的局部特征。DCT能将人脸图像的主要特征信息集中在低频系数中,因此提取人脸图像的部分低频系数描述人脸的全局特征。再将全局特征与局部特征进行加权融合,从而获得人脸特征的完整描述。最后将融合后的人脸图像输入卷积神经网络进行训练分类。在ORL数据库和CAS-PEAL数据库上的实验结果表明,相对于单独使用卷积神经网络、卷积神经网络与DCT单独结合、卷积神经网络与LBP单独结合等算法,本文算法的人脸识别精度得到显著提升。这说明将人脸的全局特征和局部特征进行融合后再提取人脸特征,能够利用人脸多方面信息进行识别,弥补了仅使用一种特征进行人脸识别的缺点,提升了人脸识别的识别精度。

参考文献

[1] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.

[2] Chen X W, Huang T. Facial expression recognition: a clustering-based approach[J]. Pattern Recognition Letters, 2003, 24(9/10): 1295-1302.

[3] Ying ZL, Cai LB. Support vector discriminant analysis on local binary patterns for facial expression recognition[C]∥2009 2nd International Congress on Image and Signal Processing, October 17-19, 2009. Tianjin, China. IEEE, 2009: 1- 4.

[4] Buciu I, Kotropoulos C, Pitas I. Comparison of ICA approaches for facial expression recognition[J]. Signal, Image and Video Processing, 2009, 3(4): 345-361.

[5] Li M, Yuan B Z. 2D-LDA: a statistical linear discriminant analysis for image matrix[J]. Pattern Recognition Letters, 2005, 26(5): 527-532.

[6] JiangB, Yang GS, Zhang HL. Comparative study of dimension reduction and recognition algorithms of DCT and 2DPCA[C]∥2008 International Conference on Machine Learning and Cybernetics, July 12-15, 2008. Kunming, China. IEEE, 2008: 407- 410.

[7] Wang MH, JiangH, LiY. Face recognition based on DWT/DCT and SVM[C]∥2010 International Conference on Computer Application and System Modeling (ICCASM 2010), October 22-24, 2010. Taiyuan, China. IEEE, 2010: 507- 510.

[8] Ojala T, Pietikainen M, Maenpaa T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7): 971-987.

[9] AhonenT, RahtuE, OjansivuV, et al. Recognition of blurred faces using Local Phase Quantization[C]∥2008 19th International Conference on Pattern Recognition, December 8-11, 2008. Tampa, FL, USA. IEEE, 2008: 1- 4.

[10] Xu XM, Quan CQ, Ren FJ. Facial expression recognition based on Gabor Wavelet transform and Histogram of Oriented Gradients[C]∥2015 IEEE International Conference on Mechatronics and Automation (ICMA), August 2-5, 2015. Beijing, China. IEEE, 2015: 2117- 2122.

[11] Fan K C, Hung T Y. A novel local pattern descriptor: local vector pattern in high-order derivative space for face recognition[J]. IEEE Transactions on Image Processing, 2014, 23(7): 2877-2891.

[12] Liu WF, Wang ZF. Facial expression recognition based on fusion of multiple Gabor features[C]∥18th International Conference on Pattern Recognition (ICPR'06), Hong Kong, China. IEEE, 2006: 536- 539.

[13] Wu TF, Bartlett MS, Movellan JR. Facial expression recognition using Gabor motion energy filters[C]∥2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition - Workshops, June 13-18, 2010. San Francisco, CA, USA. IEEE, 2010: 42- 47.

[14] ChenD, CaoX, WenF, et al. Blessing of dimensionality: high-dimensional feature and its efficient compression for face verification[C]∥ IEEE Conference on Computer Vision & Pattern Recognition. IEEE, 2013.

[15] Liao SC, Zhu XX, LeiZ, et al. Learning multi-scale block local binary patterns for face recognition[M]∥Advances in Biometrics. Berlin, Heidelberg: Springer Berlin Heidelberg, :828- 837.

[16] ChakrabortyS, Singh SK, ChakrabortyP. Performance enhancement of local vector pattern with generalized distance local binary pattern for face recognition[C]∥2015 IEEE UP Section Conference on Electrical Computer and Electronics (UPCON), December 4-6, 2015. Allahabad, India. IEEE, 2015.

[17] Girish GN, Shrinivasa N N C L, Das P K. Face recognition using MB-LBP and PCA: a comparative study[C]∥2014 International Conference on Computer Communication and Informatics, January 3-5, 2014. Coimbatore, India. IEEE, 2014.

[18] Wang MH, JiangH, LiY. Face recognition based on DWT/DCT and SVM[C]∥2010 International Conference on Computer Application and System Modeling (ICCASM 2010), October 22-24, 2010. Taiyuan, China. IEEE, 2010: 507- 510.

[19] GhoshA, ChellappaR. Deep feature extraction in the DCT domain[C]∥2016 23rd International Conference on Pattern Recognition (ICPR), December 4-8, 2016. Cancun. IEEE, 2016.

[20] Er M J, Chen W, Wu S. High-speed face recognition based on discrete cosine transform and RBF neural networks[J]. IEEE Transactions on Neural Networks, 2005, 16(3): 679-691.

[21] 许路, 赵海涛, 孙韶媛. 基于深层卷积神经网络的单目红外图像深度估计[J]. 光学学报, 2016, 36(7): 0715002.

    Xu L, Zhao H T, Sun S Y. Monocular infrared image depth estimation based on deep convolutional neural networks[J]. Acta Optica Sinica, 2016, 36(7): 0715002.

[22] 刘玉珍, 蒋政权, 马飞, 等. 基于超图和卷积神经网络的高光谱图像分类[J]. 激光与光电子学进展, 2019, 56(11): 111007.

    Liu Y Z, Jiang Z Q, Ma F, et al. Hyperspectral image classification based on hypergraph and convolutional neural network[J]. Laser & Optoelectronics Progress, 2019, 56(11): 111007.

[23] 欧攀, 张正, 路奎, 等. 基于卷积神经网络的遥感图像目标检测[J]. 激光与光电子学进展, 2019, 56(5): 051002.

    Ou P, Zhang Z, Lu K, et al. Object detectionin of remote sensing images based on convolutional neural networks[J]. Laser & Optoelectronics Progress, 2019, 56(5): 051002.

[24] GoodfellowI, Warde-FarleyD, MirzaM, et al. Maxout networks[J]. International Conferenceon Machine, 2013( 1): 1219- 1327.

[25] NairV, Hinton G E. Rectified linear units improve restricted Boltzmann machines vinod nair[C]∥ Proceedings of the 27th International Conference on Machine Learning (ICML-10), June 21-24, 2010, Haifa, Israel. Omnipress, 2010.

王嘉欣, 雷志春. 一种基于特征融合的卷积神经网络人脸识别算法[J]. 激光与光电子学进展, 2020, 57(10): 101508. Jiaxin Wang, Zhichun Lei. A Convolutional Neural Network Based on Feature Fusion for Face Recognition[J]. Laser & Optoelectronics Progress, 2020, 57(10): 101508.

本文已被 8 篇论文引用
被引统计数据来源于中国光学期刊网
引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!