激光与光电子学进展, 2021, 58 (2): 0210017, 网络出版: 2021-01-11   

基于嵌入注意力机制层级LSTM的音视频情感识别 下载: 1570次

Hierarchical LSTM-Based Audio and Video Emotion Recognition With Embedded Attention Mechanism
作者单位
中南林业科技大学计算机与信息工程学院, 湖南 长沙 410004
图 & 表

图 1. 音视频情感识别系统流程图

Fig. 1. Flow chart of audio and video emotion recognition system

下载图片 查看原文

图 2. 递归神经元结构

Fig. 2. Structure of recursive neuron

下载图片 查看原文

图 3. 注意力机制原理图

Fig. 3. Schematic of attention mechanism

下载图片 查看原文

图 4. 嵌入注意力机制的栈式LSTM模型示意图

Fig. 4. Schematic of stacking LSTM model with attention mechanism

下载图片 查看原文

图 5. 视频情感识别系统图

Fig. 5. Diagram of video emotion recognition system

下载图片 查看原文

图 6. LSTM层数和识别率的关系

Fig. 6. Relationship between LSTM layers and recognition rate

下载图片 查看原文

图 7. 不同特征融合算法的性能比较

Fig. 7. Performance comparison of different feature fusion algorithms

下载图片 查看原文

表 1语音情感识别实验的识别率对比

Table1. Comparison of recognition rate in speech emotion recognition experiment

NetworkRMLAFEW6.0eNTERFACE'05
SVM[23]0.60200.37900.4831
Random forest[24]0.65280.35080.4711
LSTM+CNN[25]0.85460.4915
CNN0.83630.4691
CNN+LSTM0.84460.42170.4952
Proposed network0.90110.54730.5932

查看原文

表 2层级注意力机制的识别率对比

Table2. Recognition rate comparison of hierarchical attention mechanism

Dataset3-layer LSTM
OrdinaryAdd attentionmechanism
RML0.86610.8873
AFEW6.00.46330.4965
eNTERFACE'050.53150.5739

查看原文

表 3惩罚项情况下的识别率对比

Table3. Recognition rate comparison under penalty items

DatasetOrdinaryAdd penalty
RML0.88730.9011
AFEW6.00.49650.5473
eNTERFACE'050.57390.5932

查看原文

表 4面部表情的识别率

Table4. Recognition rate of facial expression

Video sequencefeatureRMLAFEW6.0eNTERFACE'05
EF-A0.86530.50740.7458
EF-B0.88120.51850.7974
EF-C0.82320.47130.7515
EF-VGG0.83460.48820.7627

查看原文

表 5三种数据集的权重设置

Table5. Weight settings on three datasets

DatasetFacial expressionrecognitionSpeech expressionrecognition
RML0.600.40
AFEW6.00.750.25
eNTERFACE'050.800.20

查看原文

刘天宝, 张凌涛, 于文涛, 魏东川, 范轶军. 基于嵌入注意力机制层级LSTM的音视频情感识别[J]. 激光与光电子学进展, 2021, 58(2): 0210017. Tianbao Liu, Lingtao Zhang, Wentao Yu, Dongchuan Wei, Yijun Fan. Hierarchical LSTM-Based Audio and Video Emotion Recognition With Embedded Attention Mechanism[J]. Laser & Optoelectronics Progress, 2021, 58(2): 0210017.

本文已被 3 篇论文引用
被引统计数据来源于中国光学期刊网
引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!