基于注意力机制ResNet轻量网络的面部表情识别

赵晓; 杨晨; 王若男; 李玥辰

doi:doi:10.37188/CJLCD.2023-0046

液晶与显示, 2023, 38 (11): 1503, 网络出版: 2023-11-29

基于注意力机制ResNet轻量网络的面部表情识别

Facial expression recognition based on attention mechanism ResNet lightweight network

论文大纲

赵晓杨晨 ^*王若男李玥辰

作者单位

陕西科技大学电子信息与人工智能学院，陕西西安710021

ResNet轻量网络多尺度空间特征融合面部表情识别注意力机制 lightweight resnet network multi-scale spatial feature fusion facial expression recognition attention mechanism

摘要

针对ResNet18网络模型在面部表情识别时存在网络模型大、准确率低等问题，提出了一种基于注意力机制ResNet轻量网络模型（Multi-Scale CBAM Lightweight ResNet，MCLResNet），能够以较少的参数量、较高的准确率实现面部表情的识别。首先，采用ResNet18作为主干网络提取特征，引入分组卷积减少ResNet18的参数量；利用倒残差结构增加网络深度，优化了图像特征提取效果。其次，将CBAM（Convolutional Block Attention Module）通道注意力模块中的共享全连接层替换为1×3的卷积模块，有效减少了通道信息的丢失；在CBAM空间注意力模块中添加多尺度卷积模块获得了不同尺度的空间特征信息。最后，将多尺度空间特征融合的CBAM模块（Multi-Scale CBAM，MSCBAM）添加到轻量的ResNet模型中，有效增加了网络模型的特征表达能力，另外在引入MSCBAM的网络模型输出层增加一层全连接层，以此增加模型在输出时的非线性表示。该模型在FER2013和CK+数据集上的实验结果表明，本文提出的模型参数量相比ResNet18下降82.58%，并且有较好的识别准确率。

Abstract

Aiming at the problems of large network model and low accuracy of ResNet18 network model in facial expression recognition, a Lightweight ResNet based on multi-scale CBAM (Convolutional Block Attention Module) attention mechanism (MCLResNet) is proposed, which can realize facial expression recognition with less parameters and higher accuracy. Firstly, ResNet18 is used as the backbone network to extract features, and group convolution is introduced to reduce the parameters quantity of ResNet18. The inverted residual structure is used to increase the network depth and optimized the effect of image feature extraction. Secondly,the shared fully connected layer in the channel attention module of CBAM is replaced with a 1×3 convolution module,^{which effectively reduces the loss of channel information. The multi-scale convolution module is added to the CBAM spatial attention module to obtain spatial feature information at different scales. Finally, multi-scale CBAM module (MSCBAM) is added to the lightweight ResNet model, which effectively increases the feature expression ability of the network model. In addition, a fully connected layer is added to the output layer of the network model introduced into MSCBAM, so as to increase the nonlinear representation of the model at the output. The experimental results of the model on FER2013dataset and CK+ dataset show that the parameters quantity of the model proposed in this paper is reduced by 82.58% compared with ResNet18,and the recognition accuracy is better.}

1 引言

面部表情是人类交流和传达情感的普遍信号之一，能够直观表达人类对外界事物的情绪反馈。社会心理学家Mehrabian的研究表明^［1］，在日常人际交往过程中，声音和语言信息分别占到了38%和7%，而面部表情传递的信息占总信息量的55%。面部表情识别在计算机视觉领域和深度学习领域已经被广泛研究，这些研究对理解人类的面部表情以及揭示人类情感的语义信息具有重大意义，同时在人机交互、医疗卫生、驾驶员疲劳驾驶监控等领域也具有重大意义^［2］。

面部表情识别是一个热门的研究方向，其主要的研究方法就是特征提取^［3-4］。传统的人工提取方法包括：局部二值模式^［5］（Local Binary Patter，LBP）、词袋模型^［6］（Bag of Words，BOW）、方向梯度直方图（Histogram of Oriented Gradients，HOG）^［7］与尺度不变特征变换（Scale-Invariant Feature Transform，SIFT）^［8-9］等。这些方法不仅实现困难，且很难提取到高维特征，导致耗费时间长及识别准确率低的问题。因此，当今研究者使用卷积神经网络的方法用于面部表情的特征提取，如AlexNet^［10］、VGG^［11］、GooleNet^［12］、残差整流增强卷积神经网络^［13］等已经用于面部表情特征提取，并取得较好的效果。虽然神经网络模型会随着深度增加，特征学习能力增强，但伴随着梯度消失、梯度爆炸以及模型退化等问题，导致模型在识别和分类任务上准确率下降的问题。He Kaiming等人提出了ResNet^［12］网络模型，在卷积神经网络中引入残差的思想，解决了网络深度增加导致梯度消失的问题，但是ResNet网络模型仍存在参数量大和识别准确率低的问题。

针对ResNet网络模型存在的问题，结合面部表情识别的特征提取的基本需求，本文提出了一种注意力机制ResNet轻量网络（MCLResNet）用于面部表情识别。先采用ResNet18作为主干网络提取特征，引入分组卷积减少ResNet18的参数量；利用倒残差结构增加网络深度，优化了图像特征提取的效果。再将改进的CBAM模块（Multi-Scale CBAM，MSCBAM）添加到轻量的ResNet模型中，有效增加了网络模型的特征表达能力，再引入MSCBAM的网络模型输出层增加一层全连接层，以此增加模型在输出时的非线性表示。本文在FER2013和CK+面部表情数据集上进行了多组对比实验，实验结果表明，MCLResNet比其他网络模型参数量少且保持较好的识别准确率。

2 本文方法

2.1　注意力机制ResNet轻量网络模型整体构架

针对ResNet网络模型在面部表情识别中存在面部表情特征表示不足及模型参数量大的问题，本文提出了一种用于面部表情识别的注意力机制ResNet网络模型（MCLResNet）。

首先，MCLResNet在图像预处理阶段，通过随机水平翻转、随机旋转10°~15°、随机增加对比度、随机擦除方法等对面部表情数据进行增强，增强了模型的鲁棒性且丰富了数据集，将预处理后的图像作为模型的输入。其次，经过输入层后的中间特征图作为输入，通过4组两种不同残差块连接的隐藏层得到高维的特征图。最后，高维特征图经过输出层，输出层中的两层全连接层能够较好地拟合高维特征图得到面部表情分类的一维向量。

模型的整体架构图如1所示。该网络结构可以分为输入层、隐藏层及输出层3部分。输入层由一个3×3的卷积层组成。隐藏层由4个BasicBlock和4个BasicBlock1组成，两个基础块中含有跳连接和改进的CBAM形成两种不同的残差块，两种残差块交叉连接组成网络的核心部分。输出层由一个平均池化层和两个全连接层组成。

图 1. MCLResNet网络构架

Fig. 1. MCLResNet network architecture

下载图片查看所有图片

隐藏层的核心部分BasicBlock和BasicBlock1的结构分别如图2（a）和2（b）所示。BasicBlock使用ResNet原始的基础结构块同时在两次卷积之后添加一个MSCBAM注意力模块，下采样部分使用一个3×3的卷积，且步长为2；BasicBlock1使用一个倒残差结构并结合分组卷积，在减少参数量的同时可以增加网络模型的深度，获得更好的特征表达能力。实验证明，升维系数r=2时，模型的参数量以及准确率达到最优。

图 2. 隐藏层的核心部分。（a）BasicBlock结构；（b）BasicBlock1结构。

Fig. 2. Core part of the hidden layer.（a）Structure of BasicBlock；（b）Structure of BasicBlock 1.

下载图片查看所有图片

2.2　MCLResNet模型结构

本文针对网络模型在面部表情识别中存在参数量大、识别准确率低等问题，提出了一种基于注意力机制ResNet轻量网络模型。先将面部表情图像通过随机增强对比度、随机剪切、随机旋转10°~15°、随机缩放等进行数据增强；再经过4组交叉连接的BasicBlock和BasicBlock1提取面部表情特征，两个基础块中的卷积为分组卷积且引入了通道混洗操作，另外在两个基础块中添加MSCBAM注意力模块；最后输出层增加的一层全连接层较好地增加了一维输出特征的非线性关系，使模型精度得到提升。网络整体结构图如图3所示。

图 3. 网络整体结构图

Fig. 3. Overall network structure diagram

下载图片查看所有图片

Hinton等人首次提到了分组卷积，分组卷积实现了让网络模型在两个内存有效的GPU上运行。随着GPU内存的增加，网络模型不再受内存的限制。基于分组卷积的特点，很多研究者引入分组卷积思想的模型用于实现数据的并行处理，以此减少模型的参数量，增加模型训练的高效性。本文将分组卷积引入到如图2所示的BasicBlock和BasicBlock1两个残差块的卷积层和跳连接中，降低了MCLResNet网络模型的参数量。分组卷积结构如图4所示。在卷积核数量一定时，分组卷积相比普通卷积降低了计算复杂度和计算次数。

图 4. （a）普通卷积；（b）分组卷积。

Fig. 4. （a）Ordinary convolution；（b）Grouped convolution.

下载图片查看所有图片

尽管分组卷积能够减少模型参数量，提高模型训练的高效性，但是分组卷积的弊端是不同分组的通道间无法进行信息交互，限制了模型的表征能力。针对这一问题，本文引入通道混洗操作增强不同组通道之间的信息交互^［14］。通道混洗操作如图5所示。通道混洗是将不同分组的通道重新排列得到新的特征图，再将新的特征图作为下一次卷积的输入，实现了不同分组的通道信息交互，增强了特征的表征能力，提高了整个网络的面部表情识别精度。

图 5. 通道混洗

Fig. 5. Channel shuffle

下载图片查看所有图片

在引入分组卷积和通道混洗结构的基础上，为了进一步增强模型的特征提取能力，本文引入了倒残差结构加深网络模型层数^［15］。倒残差结构如图6所示，该结构呈现两头小中间大的形状（梭型），梭型相比漏斗型先升维再降维的过程，避免了部分的特征信息丢失^［16］。在倒残差结构中，先使用1×1的卷积核实现升维，再通过3×3的卷积核提取特征，最后使用1×1的卷积核实现降维。倒残差结构的引入减少了特征提取过程中特征信息丢失的问题，加深了网络模型的深度，提高了模型提取特征的能力。

图 6. 倒残差结构

Fig. 6. Inverted residual structure

下载图片查看所有图片

2.3　多尺度空间特征融合的CBAM（MSCBAM）

CBAM^［17］中的通道注意力生成通道注意力特征图时要经过全连接层进行映射特征到一维特征图，在生成通道注意力时要经过压缩和扩展处理，压缩时会损失较多的通道信息^［18］。针对这一问题，本文提出了改进的CBAM模块的通道注意力。

改进后的CBAM通道注意力模块如图7所示。改进后的CBAM通道注意力模块将原有的全连接层改为一个1×3的带状卷积，既减少了全连接层带来参数量大的问题，又增强了相邻通道之间的相关性，得到最佳的通道特征图。

图 7. 改进后的通道注意力模块

Fig. 7. Improved channel attention module

下载图片查看所有图片

CBAM的空间注意力模块仅能得到单一特征的空间特征图。为了得到多种尺度融合的空间特征图，在CBAM空间注意力模块中引入了不同大小的卷积核，得到融合不同尺度的空间特征图。改进后的CBAM空间注意力模块如图8所示，改进后的CBAM空间注意力模块中添加了3×3、5×5、7×7、9×9的卷积核用于得到不同尺度的特征图，再将得到的不同尺度特征图通过最大池化和平均池化获取各自对应的空间特征图并将得到的4个特征图进行融合，最后将融合后的特征图通过Sigmoid函数进行激活得到多尺度融合的空间特征图。改进后的空间注意力机制输出实例如公式（1）所示：

图 8. 改进后的空间注意力模块

Fig. 8. Improved spatial attention module

下载图片查看所有图片

\begin{array}{l} M s (F) = σ (C o n v ([A v g p o o l (C o n v_{3 \times 3} (F)), M a x p o o l (C o n v_{3 \times 3} (F))]) + \\ C o n v ([A v g p o o l (C o n v_{5 \times 5} (F)), M a x p o o l (C o n v_{5 \times 5} (F))]) + \\ C o n v ([A v g p o o l (C o n v_{7 \times 7} (F)), M a x p o o l (C o n v_{7 \times 7} (F))]) + \\ C o n v ([A v g p o o l (C o n v_{9 \times 9} (F)), M a x p o o l (C o n v_{9 \times 9} (F))])), \end{array}

（1）

其中： $M s \in R^{1 \times H \times W}$ 表示输出的空间注意力图， $σ$ 表示Sigmoid函数，AvgPool表示平均池化，Maxpool表示最大池化，Conv表示卷积操作，Conv的脚标表示卷积操作使用的卷积核大小。

3 实验结果与分析

3.1　实验数据集及数据增强

本文在模型训练和模型验证所用的数据集为FER2013数据集^［19］和CK+数据集^［20］。FER2013数据集是人脸表情识别最通用的数据集，由35 886张人脸表情图片组成，其中，训练集28 708张、验证集3 589张、测试集3 589张，每一张图像大小为48×48的灰度图像组成。7种表情对应的标签如下：anger 0，disgust 1，fear 2，happy 3，sad 4，surprised 5，normal 6。CK+数据集包含123个对象的327个被标记的表情图片序列，共分为anger、contempt、disgust、fear、surprised、happy和sad 7种表情，表情对应标签如下：anger 0、contempt 1、disgust 2、fear 3、happy 4、sad 5、surprised 6。图9列举了FER2013数据集和CK+数据集的部分样例图。

图 9. FER2013和CK+数据集样例图

Fig. 9. Samples of FER2013 and CK+ datasets

下载图片查看所有图片

为了解决因为数据分布失衡和数据量小而导致模型训练时出现过拟合等问题，本文使用数据增强等方法对数据集样本进行扩充，主要采用随机水平翻转、随机旋转、随机增加对比度、随机擦除等方法对数据集进行扩充。针对CK+中一副anger原图经过上述方法扩充后的样例如图10所示。其他图像也采用了类似方法进行扩充，在此不再一一列举。

图 10. 数据增强样例图

Fig. 10. Sample diagram of data enhancement

下载图片查看所有图片

3.2　实验环境

本文实验配置如下：Windows10系统，CPU为主频3.19 Hz的 Intel Core i9-12900K，内存为64G，GPU为NVIDIA GeForce RTX 3080（12G）×2。本实验基于Pytorch深度学习框以及Pycharm进行模型训练和测试，实验参数设置是：Batch Size为128，学习率取0.1，优化器为随机梯度下降（SGD），冲量为0.9，损失函数为交叉熵损失函数，学习率下降算法使用余弦退火算法。

3.3　实验结果及分析

3.3.1　消融实验

为了验证MCLResNet网络各个模块的有效性，对每一个模块进行消融实验。其中Baseline表示引入分组卷积且增加一层全连接层的ResNet18网络模型；BasicBlock1如图2所示；MSCBAM是多尺度空间融合的CBAM；Better-Down表示使用3×3，步长为2的卷积替换原有的1×1卷积。

该实验在扩展的FER2013和CK+数据集上验证，实验过程是在网络模型中逐步添加模块或者修改相应的模块。表1的实验结果表明，在不同的数据集上所提模型具有良好的泛化性，替换或添加的模块明显提高了整体模型的识别准确率。

表 1. 消融实验

Table 1. Ablation experiments

Base- line	Basic- Block1	MS- CBAM	Better_ Down	FER2013/%	Ck+/%	参数量/M
+	-	-	-	66.40	91.63	5.848
+	+	-	-	66.98	92.97	3.043
+	+	+	-	67.35	93.84	7.623
+	+	+	+	68.58	95.81	7.718

查看所有表

3.3.2　确定BasicBlock1升维系数r的对比实验

为了选取BasicBlock1的升维系数r，在FER2013数据集上验证了不同的r对模型大小和识别准确的影响。具体实验参数如图11所示。①表示本文所提方法不含MSCBAM。②表示本文所提方法含MSCBAM。

图 11. （a）升维系数和准确率之间的关系图；（b）升维系数和模型参数量之间的关系。

Fig. 11. （a）Relationship between the ascending coefficient and the accuracy rate；（b）Relationship between the ascending coefficient and the number of model parameters.

下载图片查看所有图片

图11例举了r=2、4、8三个值对本文提出方法的模型参数量大小和准确率的影响。实验数据表明，r值为2时，①和②的模型参数量分别为3.043M和7.318M，尽管②比①的参数量大，但模型的准确率提升了1.6%；模型同为①，r=2和r=4时，r为4的模型比r为2的模型参数量增加了0.293M，但模型精度仅提升了0.03%；模型同为①，r=4和r=8时，r为8的模型比r为4的模型大小增加了0.708，但模型精度仅提升了0.16%。本文旨在设计一个轻量的网络模型，即由图11表明本文选取r=2为BasicBlock1的升维系数。

3.3.3　与其他网络的对照实验

为了验证本文所提模型的准确性和有效性，与其他的网络模型进行对照实验，如AlexNet、VGG19、Zhang^［21］、ResNet18及MobileNetV2。这些网络模型及本文所提网络模型在FER2013数据集、CK+数据集上的识别准确率以及所对应的参数量如表2所示。

表 2. 与其他网络的对照实验结果

Table 2. Results of controlled experiments with other networks

模型名称	FER2013/%	CK+/%	参数量/M
AlexNet	67.51	87.59	60.92
VGG19	68.53	92.18	77.23
Zhang	68.80	98.49	-
Resnet18	69.75	90.31	42.83
ResNet18+Better_Down	70.10	91.16	49.33
MobileNetV2	62.50	94.65	8.65
ours	68.58	95.81	7.72

查看所有表

模型参数量方面，本文提出的模型参数量相比于其他常见的网络模型参数量明显下降。与本文的主干网络ResNet18相比，本文模型的参数量为ResNet18网络参数量的17.42%；与MobileNetV2的参数量相比下降了1.33M。在FER2013数据集识别准确率方面，本文所提出的模型相比AlexNet、VGG19和MobileNetV2的识别准确率分别高1.07%、0.05%、6.08%；但相比ResNet18，Zhang及ResNet18+Better_Down的方法识别准确率略低。在CK+数据集识别准确率方面，本文所提出的模型识别准确率较AlexNet、VGG19、MobileNetV2和ResNet18等模型的识别准确率分别高8.22%、3.63%、1.16%、5.5%。

4 结论

本文基于面部表情识别提出了一种注意力机制ResNet轻量网络模型（MCLResNet），其参数量为改进前ResNet18的参数量的17.42%。首先，所提模型中引入了分组卷积和倒残差结构，减少了模型的参数量，增加了网络深度，通过减小模型大小提升了模型训练速度；在不同的分组通道中引入通道混洗操作用以增强特征图层与层之间的信息交互；改进了ResNet18中跳连接中的卷积核大小，降低了特征信息的丢失。其次，改进的CBAM注意力模块（MSCBAM）在模型训练过程中提供了多尺度融合的中间特征图，增加了模型的精度。最后，本文提出的MCLResNet模型在FER2013数据集和CK+数据集上的测试准确率体现了模型良好的泛化性。尽管本文所提出模型及其他模型在CK+数据集上表现良好，但在FER2013数据集上准确率较低，其原因一方面是数据集存在部分标注错误，另一方面是FER2013数据集的复杂多样（正脸、左侧脸、右侧脸等）。解决数据集多样性带来的准确率低的问题是后期工作改进的一个方向。

参考文献

[1] MEHRABIANA. Communication without words [M]//MORTENSEN C D. Communication Theory. 2nd ed. New York: Routledge, 2008: 193-200.

[2] 刘博雯, 帅建伟, 曹玉萍. 面部表情识别技术在精神疾病诊疗中的应用[J]. 中华行为医学与脑科学杂志, 2021, 30(10): 955-960.

LIU B W, SHUAI J W, CAO Y P. Application of facial expression recognition technology in diagnosis and treatment of psychiatry[J]. Chinese Journal of Behavioral Medicine and Brain Science, 2021, 30(10): 955-960.

[3] FANX J, WANGQ F, KEJ J, et al. Adversarially adaptive normalization for single domain generalization [C]//Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 8204-8213. 10.1109/cvpr46437.2021.00811

[4] ALIK, HUGHESC E. Facial expression recognition by using a disentangled identity-invariant expression representation [C]. 2020 25th International Conference on Pattern Recognition (ICPR). Milan: IEEE, 2021: 9460-9467. 10.1109/icpr48806.2021.9412172

[5] OJALA T, PIETIKAINEN M, MAENPAA T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7): 971-987.

[6] SIKKAK, WUT F, SUSSKINDJ, et al. Exploring bag of words architectures in the facial expression domain [C]//Proceedings of the European Conference on Computer Vision. Florence: Springer, 2012: 250-259. 10.1007/978-3-642-33868-7_25

[7] DALALN, TRIGGSB. Histograms of oriented gradients for human detection [C]. 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego: IEEE, 2005: 886-893. 10.1109/cvpr.2005.4

[8] LOWED G. Object recognition from local scale-invariant features [C]//Proceedings of the Seventh IEEE International Conference on Computer Vision. Kerkyra: IEEE, 1999: 1150-1157. 10.1109/iccv.1999.790410

[9] 刘洋, 韩广良, 史春蕾. 基于SIFT算法的多表情人脸识别[J]. 液晶与显示, 2016, 31(12): 1156-1160.

LIU Y, HAN G L, SHI C L. Recognition of expression-variant faces based on SIFT method[J]. Chinese Journal of Liquid Crystals and Displays, 2016, 31(12): 1156-1160.

[10] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.

[11] 陈津徽, 张元良, 尹泽睿. 基于改进的VGG19网络的面部表情识别[J]. 电脑知识与技术, 2020, 16(29): 187-188.

CHEN J H, ZHANG Y L, YIN Z R. Facial expression recognition based on improved VGG19 network[J]. Computer Knowledge and Technology, 2020, 16(29): 187-188.

[12] HEK M, ZHANGX Y, RENS Q, et al. Deep residual learning for image recognition [C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas: IEEE, 2016: 770-778. 10.1109/cvpr.2016.90

[13] 陈斌, 朱晋宁, 东一舟. 基于残差整流增强卷积神经网络的表情识别[J]. 液晶与显示, 2020, 35(12): 1299-1308.

CHEN B, ZHU J N, DONG Y Z. Expression recognition based on residual rectifier enhanced convolution neural network[J]. Chinese Journal of Liquid Crystals and Display, 2020, 35(12): 1299-1308.

[14] WANGL, HED. Image super-resolution reconstruction algorithm based on channel shuffle [C]. 2021 Asia-Pacific Conference on Communications Technology and Computer Science (ACCTCS). Shenyang: IEEE, 2021: 225-229. 10.1109/acctcs52002.2021.00051

[15] SANDLERM, HOWARDA, ZHUM L, et al. MobileNetV2: Inverted residuals and linear bottlenecks [C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 4510-4520. 10.1109/cvpr.2018.00474

[16] HOWARDA G, ZHUM L, CHENB, et al. MobileNets: efficient convolutional neural networks for mobile vision applications [EB/OL]. (2017-04-14)[2019-06-23]. https://arXiv.org/abs/1704.04861. 10.48550/arXiv.1704.04861

[17] WOOS, PARKJ, LEEJ Y, et al. CBAM: convolutional block attention module [C]//Proceedings of the 15th European Conference on Computer Vision. Munich: Springer, 2018: 3-19. 10.1007/978-3-030-01234-2_1

[18] 付国栋, 黄进, 杨涛, 等. 改进CBAM的轻量级注意力模型[J]. 计算机工程与应用, 2021, 57(20): 150-156.

FU G D, HUANG J, YANG T, et al. Improved lightweight attention model based on CBAM[J]. Computer Engineering and Applications, 2021, 57(20): 150-156.

[19] ZHENG W M, ZHOU X Y, ZOU C R, et al. Facial expression recognition using kernel canonical correlation analysis (KCCA)[J]. IEEE Transactions on Neural Networks, 2006, 17(1): 233-238.

[20] LUCEYP, COHNJ F, KANADET, et al. The extended Cohn-Kanade dataset (CK+): A complete dataset for action unit and emotion-specified expression [C]//Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops. San Francisco: IEEE, 2010: 94-101. 10.1109/cvprw.2010.5543262

[21] 张鹏, 孔韦韦, 滕金保. 基于多尺度特征注意力机制的人脸表情识别[J]. 计算机工程与应用, 2022, 58(1): 182-189.

ZHANG P, KONG W W, TENG J B. Facial expression recognition based on multi-scale feature attention mechanism[J]. Computer Engineering and Applications, 2022, 58(1): 182-189.

1 引言

2 本文方法

2.1　注意力机制ResNet轻量网络模型整体构架

2.2　MCLResNet模型结构

2.3　多尺度空间特征融合的CBAM（MSCBAM）

3.3.2　确定BasicBlock1升维系数r的对比实验

3.3.3　与其他网络的对照实验

4 结论

赵晓, 杨晨, 王若男, 李玥辰. 基于注意力机制ResNet轻量网络的面部表情识别[J]. 液晶与显示, 2023, 38(11): 1503. Xiao ZHAO, Chen YANG, Ruo-nan WANG, Yue-chen LI. Facial expression recognition based on attention mechanism ResNet lightweight network[J]. Chinese Journal of Liquid Crystals and Displays, 2023, 38(11): 1503.

基于注意力机制ResNet轻量网络的面部表情识别

1 引 言

2 本文方法

2.1 注意力机制ResNet轻量网络模型整体构架

图 1. MCLResNet网络构架

Fig. 1. MCLResNet network architecture

图 2. 隐藏层的核心部分。（a）BasicBlock结构；（b）BasicBlock1结构。

Fig. 2. Core part of the hidden layer.（a）Structure of BasicBlock；（b）Structure of BasicBlock 1.

2.2 MCLResNet模型结构

图 3. 网络整体结构图

Fig. 3. Overall network structure diagram

图 4. （a）普通卷积；（b）分组卷积。

Fig. 4. （a）Ordinary convolution；（b）Grouped convolution.

图 5. 通道混洗

Fig. 5. Channel shuffle

图 6. 倒残差结构

Fig. 6. Inverted residual structure

2.3 多尺度空间特征融合的CBAM（MSCBAM）

图 7. 改进后的通道注意力模块

Fig. 7. Improved channel attention module

图 8. 改进后的空间注意力模块

Fig. 8. Improved spatial attention module

3 实验结果与分析

3.1 实验数据集及数据增强

图 9. FER2013和CK+数据集样例图

Fig. 9. Samples of FER2013 and CK+ datasets

图 10. 数据增强样例图

Fig. 10. Sample diagram of data enhancement

3.2 实验环境

3.3 实验结果及分析

3.3.1 消融实验

表 1. 消融实验

Table 1. Ablation experiments

3.3.2 确定BasicBlock1升维系数r的对比实验

图 11. （a）升维系数和准确率之间的关系图；（b）升维系数和模型参数量之间的关系。

Fig. 11. （a）Relationship between the ascending coefficient and the accuracy rate；（b）Relationship between the ascending coefficient and the number of model parameters.

3.3.3 与其他网络的对照实验

表 2. 与其他网络的对照实验结果

Table 2. Results of controlled experiments with other networks

4 结 论

Article Outline

相关论文

相关资讯

关于本站 Cookie 的使用提示

全站搜索

1 引言

2.1　注意力机制ResNet轻量网络模型整体构架

2.2　MCLResNet模型结构

2.3　多尺度空间特征融合的CBAM（MSCBAM）

3.1　实验数据集及数据增强

3.2　实验环境

3.3　实验结果及分析

3.3.1　消融实验

3.3.2　确定BasicBlock1升维系数r的对比实验

3.3.3　与其他网络的对照实验

4 结论