基于嵌入注意力机制层级LSTM的音视频情感识别

刘天宝; 张凌涛; 于文涛; 魏东川; 范轶军

doi:doi:10.3788/LOP202158.0210017

激光与光电子学进展, 2021, 58 (2): 0210017, 网络出版: 2021-01-11

基于嵌入注意力机制层级LSTM的音视频情感识别下载： 1570次

Hierarchical LSTM-Based Audio and Video Emotion Recognition With Embedded Attention Mechanism

刘天宝张凌涛 ^*于文涛魏东川范轶军

作者单位

中南林业科技大学计算机与信息工程学院, 湖南长沙 410004

图 & 表

图 1. 音视频情感识别系统流程图

Fig. 1. Flow chart of audio and video emotion recognition system

下载图片查看原文

图 2. 递归神经元结构

Fig. 2. Structure of recursive neuron

下载图片查看原文

图 3. 注意力机制原理图

Fig. 3. Schematic of attention mechanism

下载图片查看原文

图 4. 嵌入注意力机制的栈式LSTM模型示意图

Fig. 4. Schematic of stacking LSTM model with attention mechanism

下载图片查看原文

图 5. 视频情感识别系统图

Fig. 5. Diagram of video emotion recognition system

下载图片查看原文

图 6. LSTM层数和识别率的关系

Fig. 6. Relationship between LSTM layers and recognition rate

下载图片查看原文

图 7. 不同特征融合算法的性能比较

Fig. 7. Performance comparison of different feature fusion algorithms

下载图片查看原文

表 1语音情感识别实验的识别率对比

Table1. Comparison of recognition rate in speech emotion recognition experiment

Network	RML	AFEW6.0	eNTERFACE'05
SVM^[23]	0.6020	0.3790	0.4831
Random forest^[24]	0.6528	0.3508	0.4711
LSTM+CNN^[25]	0.8546		0.4915
CNN	0.8363		0.4691
CNN+LSTM	0.8446	0.4217	0.4952
Proposed network	0.9011	0.5473	0.5932

查看原文

表 2层级注意力机制的识别率对比

Table2. Recognition rate comparison of hierarchical attention mechanism

Dataset	3-layer LSTM
Dataset	Ordinary	Add attentionmechanism
RML	0.8661	0.8873
AFEW6.0	0.4633	0.4965
eNTERFACE'05	0.5315	0.5739

查看原文

表 3惩罚项情况下的识别率对比

Table3. Recognition rate comparison under penalty items

Dataset	Ordinary	Add penalty
RML	0.8873	0.9011
AFEW6.0	0.4965	0.5473
eNTERFACE'05	0.5739	0.5932

查看原文

表 4面部表情的识别率

Table4. Recognition rate of facial expression

Video sequencefeature	RML	AFEW6.0	eNTERFACE'05
EF-A	0.8653	0.5074	0.7458
EF-B	0.8812	0.5185	0.7974
EF-C	0.8232	0.4713	0.7515
EF-VGG	0.8346	0.4882	0.7627

查看原文

表 5三种数据集的权重设置

Table5. Weight settings on three datasets

Dataset	Facial expressionrecognition	Speech expressionrecognition
RML	0.60	0.40
AFEW6.0	0.75	0.25
eNTERFACE'05	0.80	0.20

查看原文

刘天宝, 张凌涛, 于文涛, 魏东川, 范轶军. 基于嵌入注意力机制层级LSTM的音视频情感识别[J]. 激光与光电子学进展, 2021, 58(2): 0210017. Tianbao Liu, Lingtao Zhang, Wentao Yu, Dongchuan Wei, Yijun Fan. Hierarchical LSTM-Based Audio and Video Emotion Recognition With Embedded Attention Mechanism[J]. Laser & Optoelectronics Progress, 2021, 58(2): 0210017.

基于嵌入注意力机制层级LSTM的音视频情感识别下载： 1570次

图 1. 音视频情感识别系统流程图

Fig. 1. Flow chart of audio and video emotion recognition system

图 2. 递归神经元结构

Fig. 2. Structure of recursive neuron

图 3. 注意力机制原理图

Fig. 3. Schematic of attention mechanism

图 4. 嵌入注意力机制的栈式LSTM模型示意图

Fig. 4. Schematic of stacking LSTM model with attention mechanism

图 5. 视频情感识别系统图

Fig. 5. Diagram of video emotion recognition system

图 6. LSTM层数和识别率的关系

Fig. 6. Relationship between LSTM layers and recognition rate

图 7. 不同特征融合算法的性能比较

Fig. 7. Performance comparison of different feature fusion algorithms

表 1语音情感识别实验的识别率对比

Table1. Comparison of recognition rate in speech emotion recognition experiment

表 2层级注意力机制的识别率对比

Table2. Recognition rate comparison of hierarchical attention mechanism

表 3惩罚项情况下的识别率对比

Table3. Recognition rate comparison under penalty items

表 4面部表情的识别率

Table4. Recognition rate of facial expression

表 5三种数据集的权重设置

Table5. Weight settings on three datasets

关于本站 Cookie 的使用提示

全站搜索

基于嵌入注意力机制层级LSTM的音视频情感识别 下载： 1570次

图 1. 音视频情感识别系统流程图

Fig. 1. Flow chart of audio and video emotion recognition system

图 2. 递归神经元结构

Fig. 2. Structure of recursive neuron

图 3. 注意力机制原理图

Fig. 3. Schematic of attention mechanism

图 4. 嵌入注意力机制的栈式LSTM模型示意图

Fig. 4. Schematic of stacking LSTM model with attention mechanism

图 5. 视频情感识别系统图

Fig. 5. Diagram of video emotion recognition system

图 6. LSTM层数和识别率的关系

Fig. 6. Relationship between LSTM layers and recognition rate

图 7. 不同特征融合算法的性能比较

Fig. 7. Performance comparison of different feature fusion algorithms

表 1语音情感识别实验的识别率对比

Table1. Comparison of recognition rate in speech emotion recognition experiment

表 2层级注意力机制的识别率对比

Table2. Recognition rate comparison of hierarchical attention mechanism

表 3惩罚项情况下的识别率对比

Table3. Recognition rate comparison under penalty items

表 4面部表情的识别率

Table4. Recognition rate of facial expression

表 5三种数据集的权重设置

Table5. Weight settings on three datasets

相关论文

相关资讯

关于本站 Cookie 的使用提示

全站搜索

基于嵌入注意力机制层级LSTM的音视频情感识别下载： 1570次