基于嵌入注意力机制层级LSTM的音视频情感识别 下载: 1570次
Hierarchical LSTM-Based Audio and Video Emotion Recognition With Embedded Attention Mechanism
中南林业科技大学计算机与信息工程学院, 湖南 长沙 410004
图 & 表
图 1. 音视频情感识别系统流程图
Fig. 1. Flow chart of audio and video emotion recognition system
下载图片 查看原文
图 2. 递归神经元结构
Fig. 2. Structure of recursive neuron
下载图片 查看原文
图 3. 注意力机制原理图
Fig. 3. Schematic of attention mechanism
下载图片 查看原文
图 4. 嵌入注意力机制的栈式LSTM模型示意图
Fig. 4. Schematic of stacking LSTM model with attention mechanism
下载图片 查看原文
图 5. 视频情感识别系统图
Fig. 5. Diagram of video emotion recognition system
下载图片 查看原文
图 6. LSTM层数和识别率的关系
Fig. 6. Relationship between LSTM layers and recognition rate
下载图片 查看原文
图 7. 不同特征融合算法的性能比较
Fig. 7. Performance comparison of different feature fusion algorithms
下载图片 查看原文
表 1语音情感识别实验的识别率对比
Table1. Comparison of recognition rate in speech emotion recognition experiment
Network | RML | AFEW6.0 | eNTERFACE'05 |
---|
SVM[23] | 0.6020 | 0.3790 | 0.4831 | Random forest[24] | 0.6528 | 0.3508 | 0.4711 | LSTM+CNN[25] | 0.8546 | | 0.4915 | CNN | 0.8363 | | 0.4691 | CNN+LSTM | 0.8446 | 0.4217 | 0.4952 | Proposed network | 0.9011 | 0.5473 | 0.5932 |
|
查看原文
表 2层级注意力机制的识别率对比
Table2. Recognition rate comparison of hierarchical attention mechanism
Dataset | 3-layer LSTM |
---|
Ordinary | Add attentionmechanism |
---|
RML | 0.8661 | 0.8873 | AFEW6.0 | 0.4633 | 0.4965 | eNTERFACE'05 | 0.5315 | 0.5739 |
|
查看原文
表 3惩罚项情况下的识别率对比
Table3. Recognition rate comparison under penalty items
Dataset | Ordinary | Add penalty |
---|
RML | 0.8873 | 0.9011 | AFEW6.0 | 0.4965 | 0.5473 | eNTERFACE'05 | 0.5739 | 0.5932 |
|
查看原文
表 4面部表情的识别率
Table4. Recognition rate of facial expression
Video sequencefeature | RML | AFEW6.0 | eNTERFACE'05 |
---|
EF-A | 0.8653 | 0.5074 | 0.7458 | EF-B | 0.8812 | 0.5185 | 0.7974 | EF-C | 0.8232 | 0.4713 | 0.7515 | EF-VGG | 0.8346 | 0.4882 | 0.7627 |
|
查看原文
表 5三种数据集的权重设置
Table5. Weight settings on three datasets
Dataset | Facial expressionrecognition | Speech expressionrecognition |
---|
RML | 0.60 | 0.40 | AFEW6.0 | 0.75 | 0.25 | eNTERFACE'05 | 0.80 | 0.20 |
|
查看原文
刘天宝, 张凌涛, 于文涛, 魏东川, 范轶军. 基于嵌入注意力机制层级LSTM的音视频情感识别[J]. 激光与光电子学进展, 2021, 58(2): 0210017. Tianbao Liu, Lingtao Zhang, Wentao Yu, Dongchuan Wei, Yijun Fan. Hierarchical LSTM-Based Audio and Video Emotion Recognition With Embedded Attention Mechanism[J]. Laser & Optoelectronics Progress, 2021, 58(2): 0210017.