面向人脸表情分析的人脸图像正脸化方法
1 引 言
随着人脸识别技术的广泛应用以及人机交互的不断发展,人脸表情分析逐渐受到人们的关注。人脸表情分析可以应用在医疗、人机交互、通信和安全等领域,极大地推动人类社会的发展。尽管人脸表情分析发展潜力很大,但存在不少挑战,如人脸头部姿态的变化会引起人脸信息的不对称,简单的图像变换不能使模型提取对姿态鲁棒的特征。针对这样的问题,可以通过正脸化技术来解决。正脸化是指对图像中的人脸进行正脸视图合成的过程,通过正脸化技术将无约束的人脸图像转化为有约束的、面向正前方的人脸,这可以大大提升人脸身份识别技术的性能[1]。
正脸化方法大致可分为3类:基于关键点的方法、基于3D的方法和基于生成对抗网络(GAN)的方法。Vonikakis等[2]提出了一个面向表情分析的关键点正脸化方法,通过各个视角的人脸关键点坐标信息和正脸的关键点坐标信息进行映射求解,仅将人脸关键点信息正脸化,本文对关键点的正脸化部分就是基于这种方法改进的。Hassner等[3]提出了一种基于关键点和3D相结合的简单方法,该方法通过人脸坐标点寻找2D图像与标准3D人脸模型相映射后,将图像信息投影回参考坐标系来产生正面图像。Zhou等[4]提出了一种反传统的无监督人脸旋转方案,该方法结合了3D和GAN,通过单张图像和3D人脸建模渲染图像,可以产生包括正脸的不同视角的图像。3类方法各自都有优缺点[5]:基于关键点方法的正面生成方法简单快速、计算量小,但是会产生局部的畸变;基于3D的方法可以处理偏转角度较大的问题,但是3D人脸的图像渲染与传统方法相比需要一定的计算量;基于深度学习的方法可以取得最好的效果,前提是需要高质量的多视图训练数据,并且在实际应用时需要花费大量的时间进行前向推理过程。
目前的人脸表情分析总体架构主要包括3个阶段[6]:预处理、特征提取和具体任务。人脸表情分析的图像预处理部分通常的操作与传统深度学习的图像数据处理步骤基本一致,主要是进行简单的裁剪和对齐操作,缺乏正脸化的处理步骤。深度学习的模型也有能力通过训练,拟合出正脸化特征,但是需要花费额外的参数和数据,并且得到的模型也并不是完全可靠的。在实时的人脸表情分析任务中,在预处理阶段处理完成正脸化操作,可以减轻后续阶段的处理负担。
本文提出了一种基于关键点的人脸图像正脸化方法,旨在通过对人脸表情图像快速有效地进行预处理,使人脸图像数据标准化,同时剔除人脸图像中一些影响表情分析的噪声信息,从而改善现有人脸识别方法的性能。实验结果表明,本文的处理方法对数据集的人脸图像数据有增强效果,可以明显提升深度学习网络模型的性能。
1 正脸化方法
本文方法的流程如图1所示,主要分为关键点正脸化、人脸粗对齐、人脸变形和人脸信息处理4个主要步骤。
1.1 关键点正脸化
人脸关键点属于人脸表情的几何特征,本文借助原图像的人脸关键点信息和正脸化后的关键点信息,通过几何特征来指导图像信息的像素变化来实现正脸化。关键点正脸化部分由Vonikakis的方法改进而来,原方法旨在对关键点正脸化即可,在此基础上本文需要将正脸化的关键点与原图像相关联。与Vonikakis的原方法不同,本文关键点正脸化需要满足以下要求:
1)正脸化的关键点信息需要保留原图人脸器官的特征;
2)对原图中受头部姿态遮挡的正脸关键点信息需要进行预测以保证人脸表情的准确性;
3)需要保证正脸化后的关键点信息位置与原关键点信息位置差距不会过大,否则在后续的变形过程中会导致较大的变形痕迹,影响图像的整体质量。
关键点确定选用的是流行的68点人脸关键点,包括下颏、眉毛、眼睛、鼻子和嘴巴,可以使用Dlib库[7]对图像中的关键点信息进行检测。区别于原方法,在关键点正脸化的过程中尽量保证正脸化的所有关键点信息不会产生过大的偏移。为了使正脸变形部分更准确,本文人脸变形部分在鼻子区域加了3个点,方便后续的对齐和变形,这3个点由相邻几个点取平均得到,如图2所示。
关键点正脸化过程实际上是根据现有人脸的关键点正脸化映射公式计算新的人脸的正脸化关键点坐标,具体计算可表述为下列最小二乘法的求解
式中:
式中:
借鉴原方法,使用Radboud等[8]、Karolinska等[9]、CAS-PEAL等[10] 、Multi-PIE等[11]数据集的关键点坐标数据来填充式(2)求解。这些数据集中包括了不同视角的关键点坐标信息,用来填充矩阵
在填充矩阵
式中:
通过上述过程和公式可以求得正脸化权重
式中:
图3为一些图像的原图、原关键点坐标和正脸化后关键点坐标的可视化显示,为了直观演示,各部位关键点之间用线段相连。
在新的人脸关键点正脸化过程中,本文会对关键点进行约束,每个器官(如眼睛、鼻子和嘴巴等)的关键点在整个人脸中需要保持相对固定的位置。如图4所示,将女性和男性的平均脸进行处理,使用Vonikakis的原方法和本文改进的方法进行关键点正脸化后,再进行本文后续变形等操作,与原方法得到的人脸有明显区别,本文方法得到的人脸会更自然。
1.2 人脸粗对齐
与传统的人脸图像的对齐不同,本文粗对齐的目的是在对图像进行变形操作前,将原图像依据原关键点和正脸化关键点之间的关系作仿射变换,尽可能地减少后续变形操作的范围和影响。
经过关键点正脸化后,可以得到一组原图标准化坐标系下的正脸坐标
与式(3)不同的是在旋转尺度上没有还原,相当于水平方向的对齐已经在关键点正脸化操作中完成,不需要再对其作旋转变换。
这样就有了两组在原图上的关键点坐标,一组是与原图对应的关键点坐标
式中:
通过最小化式(7)可以得出这3个变换参数。将原图进行变换后,使得变换后的关键点坐标与
得到的原图通过上述变换可以得到粗对齐的关键点坐标信息
1.3 人脸变形
经过粗对齐后,本文关注的两组关键点坐标信息就变成了粗对齐后的关键点坐标信息
本文使用基于线性移动最小二乘法[12]的仿射变换图像变形方法。
设
式中:
式(9)可以计算控制顶点
式(10)计算每个点
仿射变换的矩阵
将计算得到的所有参数后代入式(8)中,就可以得到每个顶点变换后的位置。
如图6(a)、6(b)、6(c)、6(d)分别是原图、粗对齐图、经过图像变形后得到的结果和用关键点信息求得凸包进行裁剪得到的结果。
1.4 人脸信息处理
在对人脸信息进行图像处理之前,引入左右脸的信息比a对原图像进行分类,选择原图关键点坐标
式中:
按照信息比a来近似估计头部姿态偏转的角度大小,将图像分为三类:一类为a≤1.0,即所有图像;一类为a≥0.5,即信息少的半脸和信息多的半脸比值大于等于0.5,这类人脸一般是偏转角度较小的人脸图像;还有一类a<0.5,这类是偏转角度较大的人脸。
由于本文属于基于关键点的方法,在变形过程中对遮挡部位使用插值的方法填充像素,并没有进行像素的估计。人脸表情分析较身份验证而言,并没有对局部的信息非常敏感,所以考虑对图像进行对称、融合、先平滑后增强的操作。
图7(a)、(b)分别为人脸原图和变形图,从原图转换为变形图的过程不通过对称原理对信息缺失部分补齐像素,而是根据信息比a按信息量高的半张脸翻转拼接。如果排除关键点检测部分的误差,本文在关键点正脸化、粗对齐、图像变形过程中保持着人脸结构的高度对齐,所以图像对称非常简单,直接对信息较多的一侧人脸图像翻转后拼接即可,如图7(c)所示。
为解决可能存在的伪像问题,可以使用图像融合方法,将人脸信息较多的一部分通过对称原理直接进行融合,如图7(d)所示。图像融合式为
式中:
在面对小角度的人脸图像时,可以通过中心–周围框架[13]的图像增强方法使得图像变清晰,凸显人脸肤色强度,减少光照角度的影响。
2 实 验
本文实验将依照上述方法处理数据,并结合一些传统方法进行对比实验,对数据进行了9种操作,包括简单裁剪、传统对齐、变形(图7(b))、对称(图7(c))、融合(图7(d))、变形增强、对称增强、融合增强以及Hassner的方法。以上除了简单裁剪、传统对齐和Hassner的方法,其余方法均为人脸信息处理步骤中对变形图像的进一步加工处理,方便探究人脸信息处理步骤的有效性。目前有关人脸表情的高质量的实验室人脸数据集并不是非常多,且本文探究快速有效的人脸图像正脸化处理方法,所以基于深度学习的正脸化处理方法(如GAN)不在对比范围内。本文使用经典的卷积神经网络VGG16[14]网络模型和ResNet50[15]网络模型训练并预测处理过的数据,通过模型预测的准确率评估数据集正脸化预处理对模型性能的影响。
2.1 数据集
本文选取两个公共的野外数据集作为数据源,以充分发挥预处理对数据的增强能力,下面是选取的两个数据集的介绍。
RAF-DB[16]数据集共有29672张面部图像,数据来源于互联网,包含成千上万张人脸,15339张图片由人工标注,共有7种表情,即惊讶、恐惧、厌恶、开心、悲伤、愤怒和中性表情。
ExpW[17]数据集共有91793张面部图像,数据来源于谷歌图片,图片被人工标注为7种表情,包括愤怒、厌恶、恐惧、开心、悲伤、惊讶和中性表情。但是该数据集中并不是每张图片都来自现实的人脸,会包含一些动漫人物或是与人脸相似的物体图片,并且标注的表情略带歧义,所以该数据集的基准准确率较RAF-DB会低很多。
本文选取上述数据集中人工标注的人脸图像,将所有图像按数据集的表情标签分类归并,过滤了一部分检测器无法检测到人脸和人脸关键点的人脸图像,按照7∶3的比例分为训练集和验证集,具体如表1所示。由于本文实验是为了检验预处理方法的有效性,故没有划分相应的测试集来检验网络模型的好坏。
2.2 实验设计
本文设计了表2所示的实验,首先将数据集按照表中实验设计划分,然后对每个数据集进行相应的操作。
表 2. 实验设计
Table 2. Experimental design
|
按照表2中的设计分批次进行实验,每一批对应不同的实验场景。每批实验的网络模型超参数保持一致,训练过程中模型每迭代一次就预测一次验证集的数据,其中验证集结果不会影响模型训练过程,记录每次迭代在验证集中的分类准确率,将其中最高的准确率记为Best_Acc,将后半部分的准确率求平均记为Mean_Acc。
2.3 实验结果
第1批实验,如表3和图8所示,是对RAF-DB数据集所有人脸图像作处理后训练VGG16网络模型的结果。本批实验中,使用图像融合处理后的正脸化人脸图像训练得到的模型结果最好,其预测的最高精度比简单裁剪高4.5%,比传统对齐高4.6%,同时其平均准确率也是最高的,比简单裁剪高4.9%,比传统对齐高5.7%。综上,图像融合后的正脸化图像可以综合人脸信息,适用于信息比差异较大的人脸数据集(野外数据集)。
表 3. 第1批实验:综合场景下的准确率
Table 3. Batch 1 experiments: accuracy in combined scenarios
|
在第2批实验中,当按照信息比小于0.5对RAF-DB数据集进行划分时,需要调整模型的参数并且适当延长数据集训练轮数来保证模型的验证损失达到最小,并进行对比分析。如表4和图9所示,这批实验是对RAF-DB数据集中信息比小于0.5的人脸图像即偏转角度较大的人脸图像作处理后训练VGG16网络模型的结果。本文方法中对称处理后得到的模型可以达到最高的准确率,比传统对齐方法高13.5%,平均准确率也是对称方法最高,比传统对齐方法高16.7%。在人脸偏转较大的情况下,对称方法可以解决大角度偏转下人脸正脸化后的伪像问题,适用于偏转角度较大的人脸数据集。
表 4. 第2批实验:大偏转角度场景下的准确率
Table 4. Batch 2 experiments: accuracy in scenarios with large deflection angles
|
第3批实验,如表5和图10所示,是对RAF-DB数据集中信息比大于等于0.5的人脸图像,即偏转角度较小的人脸图像作处理后训练VGG16网络模型的结果。使用变形的增强人脸图像和对称的增强人脸图像训练模型,其模型预测达到了最好的准确率,比传统对齐方法高6.6%。在平均准确率上变形增强方法的准确率更好,比传统对齐方法高7.7%。综上,针对偏转角度较小的数据,本文方法也可以提高人脸数据的质量。其中,变形增强后正脸化的效果最好,该方法可以在人脸信息较全面的情况下提高人脸像素质量,适用于偏转角度较小的人脸数据集。
表 5. 第3批实验:小偏转角度场景下的准确率
Table 5. Batch 3 experiments: accuracy in scenarios with small deflection angles
|
第4批实验,如表6和图11所示,是对RAF-DB数据集中信息比大于等于0.5的人脸图像,即偏转角度较小的人脸图像作处理后训练ResNet50网络模型的结果。这批实验中变形操作的人脸可以达到最高的准确率,比传统对齐方法高3.8%。在平均准确率方面,变形人脸和融合人脸都有很好的表现,比传统对齐方法高3.7%。同样操作的数据在不同的模型训练下,本文方法也比传统处理方法优秀。不同的模型可能有不同层次的特征提取方式,但是本文方法可以使模型得到的特征更规范,从而让不同的模型都可以有一定的提升效果。
表 6. 第4批实验:其他模型场景下的准确率
Table 6. Batch 4 experiments: accuracy in other model scenarios
|
第5批实验,如表7和图12所示,是对ExpW数据集中信息比大于等于0.5的人脸图像,即偏转角度较小的人脸图像作处理后训练VGG16网络模型的结果。这批实验中融合人脸图像的最高准确率和平均准确率最高,比传统对齐方法分别提高了4.7%和3.5%。虽然不同的数据集在人脸分类上有不同的注释方式、注释歧义,本文方法依然可以在不同数据集上表现出比传统方法更好的性能,可以看出本文方法确实能使人脸信息规范化,使模型有更好的分类能力。
表 7. 第5批实验:其他数据集场景下的准确率
Table 7. Batch 5 experiments: accuracy in other dataset scenarios
|
除了上述具体实验,本文还探究了综合场景下更具体细化的操作对模型准确率的影响以及迁移学习下本文相关操作对模型准确率的影响。
图13所示为综合场景即第1批实验的实验环境下各种操作的最高准确率排序,其中使用融合方法的模型准确率最高,用于对比的3种传统方法准确率最低。平滑加增强操作的模型准确率高低各异,可能原因是在这种综合场景下,偏转角度有大有小,使得这些方法对偏转较大的人脸图像平滑了过多的人脸信息。综合来说,本文处理过程中的人脸图像信息比传统方法的信息更加规范可靠。
图 13. 综合场景下各种操作最高准确率排序
Fig. 13. Ranking of the highest accuracy of various operations in a combined scenario
如表8所示,使用RAF-DB数据集所有人脸图像,通过迁移学习的方法,对PyTorch官网上ResNet34预训练模型使用处理后的数据作训练,得到验证集的最高准确率,其中粗对齐操作可以达到最高的准确率。粗对齐后续操作的人脸数据在预训练模型的初始参数下提升效果不明显,但通过上述实验已证明本文的逐步操作方法是切实有效的,也就是说后续操作是有能力超越这个准确率的,但需要调整超参数。
表 8. 预训练模型重新训练得到的最高准确率
Table 8. The highest accuracy obtained by retraining the pre-trained model
|
3 结 论
针对当前面向人脸表情分析的处理过于简单、无法有效地去除噪声信息以及由头部姿态变化引起的数据类别参差不齐等问题,本文提出了一种基于关键点的人脸图像正脸化快速预处理方法。通过对关键点的正脸化得出正脸化关键点,指导图像进行正脸化,之后对变化的图像信息作处理,这整个流程作为数据的预处理,可以产生不同程度的正脸化人脸图像,为深度学习算法提供标准规范的数据。其中,本文的变形、融合以及后续增强操作可用于偏转小的人脸,对称操作可用于偏转大的人脸,这些操作能有效提高模型的准确率。不同场景下的实验表明,本文的正脸化预处理能有效提高人脸的信息质量,提升网络模型对人脸表情分析任务的准确率,可以将处理后的人脸图像数据运用到各种表情分析任务中。
[1] BANERJEE S, BROGAN J, KRIZAJ J, et al. To frontalize not to frontalize: do we really need elabate preprocessing to improve face recognition[C]Proceedings of 2018 IEEE Winter Conference on Applications of Computer Vision . Lake Tahoe: IEEE, 2018: 20 − 29.
[2] VONIKAKIS V, WINKLER S. Identityinvariant facial lmark frontalization f facial expression analysis[C]Proceedings of 2020 IEEE International Conference on Image Processing . Abu Dhabi: IEEE, 2020: 2281 − 2285.
[3] HASSNER T, HAREL S, PAZ E, et al. Effective face frontalization in unconstrained images[C]Proceedings of 2015 IEEE Conference on Computer Vision Pattern Recognition. Boston: IEEE, 2015: 4295 4304.
[4] ZHOU H, LIU J H, LIU Z W, et al. Rotaterender: unsupervised photealistic face rotation from singleview images[C]Proceedings of 2020 IEEECVF Conference on Computer Vision Pattern Recognition. Seattle: IEEE, 2020: 5910 5919.
[5] NING X, NAN F Z, XU S H, , et al. Multi-view frontal face image generation: a survey[J]. Concurrency and Computation: Practice and Experience, 2020: e6147.
[6] CORNEANU C A, SIMÓN M O, COHN J F, , et al. Survey on RGB, 3D, thermal, and multimodal approaches for facial expression recognition: history, trends, and affect-related applications[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(8): 1548-1568.
[7] KAZEMI V, SULLIVAN J. One millisecond face alignment with an ensemble of regression trees[C]Proceedings of 2014 IEEE Conference on Computer Vision Pattern Recognition. Columbus: IEEE, 2014: 1867 1874.
[8] LANGNER O, DOTSCH R, BIJLSTRA G, , et al. Presentation and validation of the Radboud faces database[J]. Cognition and Emotion, 2010, 24(8): 1377-1388.
[9] GOELEVEN E, DE RAEDT R, LEYMAN L, , et al. The Karolinska directed emotional faces: a validation study[J]. Cognition and Emotion, 2008, 22(6): 1094-1118.
[10] GAO W, CAO B, SHAN S G, , et al. The CAS-PEAL large-scale Chinese face database and baseline evaluations[J]. IEEE Transactions on Systems, Man, and Cybernetics-Part A: Systems and Humans, 2008, 38(1): 149-161.
[11] SIM T, BAKER S, BSAT M. The CMU pose, illumination, expression (PIE) database[C]Proceedings of the Fifth IEEE International Conference on Automatic Face Gesture Recognition. Washington: IEEE, 2002: 53 58.
[12] SCHAEFER S, MCPHAIL T, WARREN J. Image defmation using moving least squares[C]Proceedings of ACM SIGGRAPH 2006. Boston: ACM, 2006: 533 540.
[13] VONIKAKIS V, WINKLER S. A center-surround framework for spatial image processing[J]. Electronic Imaging, 2016, 28(6): art00005.
[14] SIMONYAN K, ZISSERMAN A. Very deep convolutional wks f largescale image recognition[C]Proceedings of the 3rd International Conference on Learning Representations. San Diego: ICLR, 2015.
[15] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning f image recognition[C]Proceedings of 2016 IEEE Conference on Computer Vision Pattern Recognition. Las Vegas: IEEE, 2016: 770 778.
[16] LI S, DENG W H. Reliable crowdsourcing and deep locality-preserving learning for unconstrained facial expression recognition[J]. IEEE Transactions on Image Processing, 2019, 28(1): 356-370.
[17] ZHANG Z P, LUO P, LOY C C, , et al. From facial expression recognition to interpersonal relation prediction[J]. International Journal of Computer Vision, 2018, 126(5): 550-569.
张学典, 陈钟军, 秦晓飞. 面向人脸表情分析的人脸图像正脸化方法[J]. 光学仪器, 2023, 45(1): 8. Xuedian ZHANG, Zhongjun CHEN, Xiaofei QIN. Face image frontalization method for face expression analysis[J]. Optical Instruments, 2023, 45(1): 8.