Emotion recognition based on visual and auditory information

Xijian Fan; Xubing Yang; Li Zhang; Qiaolin Ye; Ning Ye

doi:10.13232/j.cnki.jnju.2021.02.016

PDF(939 KB)

Journal of Nanjing University(Natural Sciences) ›› 2021, Vol. 57 ›› Issue (2) : 309-317. DOI: 10.13232/j.cnki.jnju.2021.02.016

Emotion recognition based on visual and auditory information

Author information +

History +

HeighLight

Speech signals and facial expressions are the two main ways when people express their emotions. They are also considered to be the two main modals of emotional expression，i.e.，auditory modality and visual modality. Most of the current methods of emotion recognition research rely on the use of single⁃modal information，but single modal based methods have the disadvantages of incomplete information and vulnerability to noise interference. To address the problems of emotion recognition based on single modal，this paper proposes a bi⁃modal based emotion recognition method that combines auditory modality and visual modal information. Firstly，the Convolutional Neural Network and the pre⁃trained facial expression model are used respectively. The corresponding sound features and visual features are extracted from the speech signal and the visual signal. The extracted two types of features are information fusion and compression，and the relevant information between the modes is fully mined. Finally，the recurrent neural network is used to recognize emotion recognition on the fused auditory visual bimodal features. The method can effectively capture the intrinsic association information between the auditory modality and the visual modality，thereby improve the emotion recognition performance. In this paper，the proposed bimodal identification method is validated by RECOLA dataset. The experimental results show that the model recognition effect based on bimodal is better than a single image or voice recognition model.

Key words

affective recognition / feature fusion / Convolutional Neural Network / Long Shot⁃Term Memory

Cite this article

EndNote

Ris (Procite)

Bibtex

Download Citations

Xijian Fan, Xubing Yang, Li Zhang, et al. Emotion recognition based on visual and auditory information[J]. Journal of Nanjing University(Natural Sciences), 2021, 57(2): 309-317 https://doi.org/10.13232/j.cnki.jnju.2021.02.016

情感在日常生活中扮演重要角色，不同的情感状态影响人们的学习、记忆和决策等，对不同情感的识别在远程教育、医疗、辅助驾驶以及人机交互领域均有广阔的应用前景，因此近年来受到研究者的高度关注，成为研究的热点^［1-2］.然而，情感识别依然是一项挑战性的任务，因为情感的持续时间长短不一且不同个人表达和感知情绪的方式各异，有效地提升情感识别的鲁棒性和准确性是研究者追求的目标^［3］.

语音信号和面部表情是人们表达情感的主要途径，也被认为是情感表达的两个主要模态，即听觉模态和视觉模态.大部分情感识别的研究都集中于单独利用两个模态中的一个，即单模态，但是单模态情感识别存在信息不全面、容易受噪声干扰等缺点^［4］.近年来，越来越多的研究者尝试综合运用两个模态的信息进行情感分析和判断，语音模态信息和视觉模态信息既能互相关联又能互相补充，可以为情感判断提供更加准确可靠的信息，提高情感识别性能.大多主流的基于听觉和视觉双模态的方法分别提取手工的（hand⁃crafted）声学和面部表情特征来进行信息融合，获得语音表情联合特征再进行情感分类.听觉模态的声学特征有梅尔倒谱系数、对数频率能量系数、线性预测系数等^［5］，视觉模态的手工特征主要有Gabar^［6］，LBP^［7］，HOG^［8］等.随着深度学习技术的出现^［9］，研究者也用先进的深度学习模型如卷积神经网络（Convolutional Neural Networks，CNN）、长短周期记忆单元的循环神经网络（Long Short⁃Term Memory Recurrent Neural Network，LSTM⁃RNN）等来提取视觉或听觉的相关特征^［10-12］.深度特征可以减少人工的干预，实现端对端的训练，而且提取的特征能在识别任务中突出目标本质的差异性，忽略无关的差异性，从而提高目标识别的准确性^［9］.

以上这些方法仅仅采用单一模态特征进行情感识别，未能有效利用多个模态间情感信息的互补性.Tzirakis et al^［13］首次对基于听觉和视觉双模态的情感识别进行了探索，利用CNN分别提取语音和表情特征并进行有效的融合，在RECOLA数据集上取得了很好的识别效果.然而，如果不能捕捉有效的表情特性，忽略潜在的与情感有关的表情信息，就有可能引入与表情完全无关的特征信息.为了解决此问题，本文引入迁移学习的思想，首先在大规模表情数据集中学习丰富的面部表情先验，将学习到的表情先验用于指导后续的特征提取，从而使网络更能捕捉丰富有效的表情信息；然后将提取的表情特征通过LSTM与声音特征融合，构建更加有效和鲁棒的双模态情感识别模型.

本文的具体贡献如下：（1）针对基于双模态特征的融合问题，分别利用CNN模型和预先训练好的面部表情模型从语音信号和视觉信号中提取相应的声音特征或视觉特征进行信息融合和压缩，充分挖掘模态间的相关信息，进而获得更具鲁棒性和判别性的联合特征；（2）针对情感识别的长周期时间窗口问题，通过建立LSTM⁃RNN框架，对融合后的视觉听觉双模态特征进行情感识别分析，LSTM中的不同cell层能捕捉对情感信息具有良好表征能力的隐藏信息，达到提高情感分类性能的目的.在开源数据集RECOLA^［14］上进行验证和分析，实验结果证明基于双模态信息的情感识别模型在识别性能上要明显优于基于单模态的模型.

1 相关工作

1.1　常见的情感模型

本文进行的情感识别任务是一种有监督的机器学习方法，因此需要建立合适的情感模型为数据集打上标签.常用的情感表示模型主要分为离散情感模型和维度情感模型.离散情感模型认为人类的大脑中存在几种能被普遍识别和理解的通用情绪，其中应用最广泛的是Ekman^［15］提出的六类基本情感理论，即高兴（Happiness）、生气（Anger）、厌恶（Disgust）、恐惧（Fear）、吃惊（Surprise）和悲伤（Sadness）.该情感模型简单且容易识别，已成为很多表情识别工作的基础模型.然而，近年来发现在日常生活中人类表达的情绪远比基本情绪更加微妙和复杂，离散模型的表达能力有限，无法区分情感的细微差别，也无法描述情感的演变过程；另外，情感的构成复杂，人类往往同时表现多种情绪，离散模型很难刻画处理这类多情感共同存在的场景，因此维度情感开始逐渐受到关注.目前，最常用的是Arousal⁃Valence（兴奋度⁃愉悦度）模型^［16］（图1）.它将情感定义在两个维度上：纵坐标表示情感状态的兴奋程度，从低兴奋度逐渐过渡到高兴奋度；横坐标表示情感状态的愉悦程度，从低愉悦度逐渐过渡到高愉悦度.这使得日常生活中微妙和复杂的情绪能在二维空间中通过Arousal与Valence的组合连续地表示出来.鉴于维度情感模型的优越性，本研究探索的是针对维度模型的识别方法.

Fig.1 Arousal⁃Valence space

图1 Arousal⁃Valence空间

Full size|PPT slide

1.2　基于单一模态特征的情感识别

1.2.1　基于视觉模态的识别

传统的基于视觉模态（如面部表情）主要基于面部几何特征（geometric）或基于面部纹理特征（appearance），如Gabor^［6］，LBP^［7］，HOG^［8］等.目前依赖图像数据的情感识别主要使用CNN，并在不同数据集上得到了可观的准确度^［17］.例如，Lopes et al^［18］使用CNN对32×32的图像进行基本表情分类.Tang^［19］结合CNN与支持向量机，也取得了很好的表情识别效果.Cai et al^［20］采用CNN与自定义的损失函数，有效地提高了表情识别的准确性.CNN善于提取一定区域内的特征信息，因此常用于视觉模态的特征提取.

1.2.2　基于听觉模态的识别

传统的声学特征主要有梅尔倒谱系数（Mel⁃Frequency Cepstral Coefficients，MFCC）、线性预测系数（Perceptual Linear Prediction，PLP）以及超音段特征等^［21-22］.Schuller et al^［23］提出两种方法：一种使用高斯混合模型并利用原始的音高与能量轮廓，分类得出的全局统计框架；另一种使用隐马尔可夫模型处理瞬时特征而不是全局的统计量.Sun et al^［24］采用扩展后的日内瓦最小声学参数（Geneva Minimalistic Acoustic Parameter Set，eGeMAPS）作为声学特征来学习支持向量回归机.近年来，循环神经网络（RNN）^［25］被广泛用于处理序列数据，其在处理某单个数据时会因为在序列中其他数据的不同而给出不同的结果.声音信号符合这种序列结构，所以在基于声音的情绪识别中很多研究者使用了RNN.长短期记忆（LSTM）是一种特殊的RNN模型.普通的RNN在两个有关联的数据间隔过大时学习能力会明显下降，然而LSTM计算过程中的序列范围是任意的、自学习的，所以在输入较长时间范围的数据时关联的性能更好，解决了普通RNN的梯度消失与梯度爆炸问题^［26-27］.Wöllmer et al^［28］使用LSTM来分类SEMAINE数据集中Arousal和Valence的高低，但单一使用声音信号的平均准确率仅为63.7%.

1.3　基于视觉和听觉双模态的情感识别

Tzirakis et al^［13］在2017年首次提出基于视觉和听觉模态的情感识别方法，将图像与声音信号同时作为识别的输入数据，图像部分使用ResNet50来提取特征信息，声音部分使用一维的卷积网络，并分别与LSTM连接.该方法虽然有效结合了两种模态的信息，但未能捕捉与情感紧密相关的表情和声音特性.本文在此基础上采用迁移学习思想，提出一种基于表情和声音双模态融合的情感识别方法，从现有的表情数据中提取信息作为表情声音先验知识用以指导双模态联合特征的训练，能有效挖掘联合特征中的与情感相关的信息，提高预测性能.

2 视觉和听觉双模态的维度情感识别

2.1　基于视觉的表情特征提取

利用迁移学习的思想，在现有的表情数据集中训练情感表示模型，获得表情先验知识，可以有效地挖掘低阶的表情纹理信息和高阶的语义信息，再用获得的表情先验指导本文模型的训练.本文使用FER2013^［29］挖掘表情相关信息，采用的神经网络结构含有三层卷积层，包含两层最大池化层、一层平均池化层、三层全连接层.

模型的输入接收48×48的灰度图像.每个卷积层有64个卷积核，卷积核大小为5×5，步长值为1，边缘填充两个0像素.每个池化层（最大池化层与平均池化层）的单元大小、步长、补充单位个数都设置成将原始的图片的长和宽都缩减一半，以降低总的参数量与计算量.输入数据经过最后一个池化层并由二维数据变换成一维数据后，其特征维度为2304，提取的特征会依次传递给两个全连接、批量正则化和Dropout层，输出的维度分别为256与128.最后，数据经过输出维度为7的全连接层与Softmax函数，输出模型预测的七种表情的概率.针对FER2013中的图像数据，本文采用下列几种预处理操作：零均值化、白化、全局对比度正则化以及数据增强.

FER2013训练好的模型中的卷积部分被保留下来作为特征提取器.具体地，将卷积网络的输出作为特征，并将这些图像特征传给两个含有256个单元的长短期记忆层以及分类层来预测一段图像序列上的Arousal与Valence值，模型结构如图2所示.

Fig.2 Architecture of image model on RECOLA dataset

图2 RECOLA数据集上的图像模型结构

Full size|PPT slide

由于在RECOLA上的图像识别模型中使用了FER2013模型中的卷积部分，为了保证数据特征的一致性，对RECOLA数据集的每一帧图像也采用FER2013数据集上相同的预处理操作，即先将检测到的每帧人脸图像裁剪至48×48大小并转换成灰度值图像，然后经过零均值化、白化、全局对比度正则化等操作.

整个图像中较小的部分中实验参与者的身体和周围的背景也被包括在内，因此需要对整个录像中的每一帧进行人脸检测.本文尝试了两种人脸检测的方法：第一种是使用OpenCV与Haar Cascades函数，但在RECOLA数据集中的检测效果与效率都不理想；第二种是基于RNN的人脸检测，检测模型由Github用户YYuanAnyVision实现，由于可以使用GPU加速，检测效率得到相当程度的提高，同时检测准确率（肉眼估测）也比使用OpenCV更好.

由于本文中的人脸检测的对象是一段录像，相邻帧都是连续的，差异一般不大，所以为了克服人脸检测中的错判与漏检，可以使用上一帧的检测坐标作为这一帧的检测坐标.若某一帧上没有检测出人脸，可以直接将上一帧的人脸检测坐标作为这一帧的坐标；若某一帧中人脸检测出错，比如将人的脖子、肩膀检测成人脸，可以对比每一帧与上一帧的图像相似度，如果相似度低于一定阈值，则将上一帧的人脸检测坐标作为这一帧的坐标.本文使用结构相似性度量（Structural Similarity Index，SSIM）来衡量图像的相似度，SSIM分别从亮度和对比度来确定图像的相似度^［30］.本文选取的阈值为0.1，即SSIM小于0.1，就将上一帧的人脸检测坐标作为这一帧的坐标.

使用相关系数（

ρ_{c}

）来评估模型预测值与数据集的拟合程度，相关系数越大说明两者之间的相关性越强，模型拟合得越好.模型训练的目标是使相关信息最大化，则损失函数为：

L_{c} = 1 - ρ_{c} = 1 - \frac{2 σ_{x y}^{2}}{σ_{x}^{2} + σ_{y}^{2} + {(μ_{x} + μ_{y})}^{2}}

(1)

其中，

μ_{x} = E (x)

，

μ_{y} = E (y)

，

σ_{x}^{2} = v a r (x)

，

σ_{y}^{2} = v a r (y)

，这里E为期望，var为方差.

由于同时对每一段图像上的Arousal与Valence值进行分类，所以总的损失函数为模型分别在Arousal与Valence上的损失函数的平均值，即：

L_{c} = L_{c}^{a} + L_{c}^{v}

(2)

2.2　基于听觉的声音特征提取

构建CNN框架来提取声音特征.为了使整个声音数据维度与图像保持一致，对声音使用每秒16000帧的固定帧率进行抽样，使图像的每一帧（0.04 s）与640个声音帧相对应.

基于听觉的模型结构如图3所示.数据首先经过一个Dropout层，该Dropout层的参数p设置为0.5，过滤其中随机一半的数据以抑制模型的过拟合.过滤后的数据被传递给两个一维卷积层与一维最大池化层的组合.一维卷积层的原理与应用在图像上的二维卷积层类似，只是其中的每个卷积核是一个固定大小的“窗口”，并在一个数列上滑动进行卷积操作，这里的情境下该数列即为0.04 s内表示640个声音帧的640个浮点数值.声音识别模型使用的两个一维卷积层的窗口大小分别为20与40.一维最大池化层与一维卷积层类似，由一个固定大小的“窗口”在该列数据上滑动并实现最大池化.模型中两个一维卷积层后接的一维最大池化层的窗口大小分别为2与10，并使声音数据数列的长度减半，以降低参数的个数与计算量.

Fig.3 Architecture of voice feature extraction model

图3 声音特征提取模型

Full size|PPT slide

经过最后一个池化层后数据维度为1280，即该模型的卷积部分会提取1280个声音特征量.这些声音特征量会传递给两个含有256个单元的长短期记忆层以及输出维度为2的分类层，来拟合一段图像序列上的Arousal与Valence值.

2.3　表情特征和音频特征融合

为了同时利用视觉与听觉信息来进行情绪识别，在图像识别模型与声音识别模型分别训练好后，可以分别固定它们的卷积部分作为图像与声音的特征提取器.双模态融合识别模型的框架如图4所示，图像识别模型中的卷积层对每一帧图片提取2304个图像特征量，声音识别模型中的卷积层对0.04 s内的声音数据提取1280个声音特征量.视觉与听觉联合模型这两种不同类型的特征量拼接起来，并传递给两个含有256个单元的长短期记忆层以及输出维度为2的全连接层，来拟合一个图像声音序列所对应的Arousal与Valence值.

Fig. 4 Architecture of image⁃voice joint model

图4 基于视觉与听觉的双模态融合识别模型

Full size|PPT slide

3 实验与结果

RECOLA数据集^［14］是常用的含有语音和视觉数据的用于情感识别的数据集，提供46个不同的实验参与者的录音录像、图像声音特征、一些特定时间的事件以及一些其他的元数据.数据集中的声音模块含有原始的录音、说话的起始时间与结束时间、声音活动的预测概率与声音上的一些特征.数据集中的图像模块含有原始的录像、每一帧图像在录像中对应的时间、人脸检测的预测概率与图像上的特征.原始录像由Logitech网络摄像头拍摄，尺寸为1080×720像素，YUV颜色模式，固定FPS每秒25帧.数据集中的标注由六位标注员（三位男性，三位女性）使用ANNEMO网络标注工具完成.原始数据分别提供给不同的标注员，并被标注情感（Arousal与Valence）与笑声的类型（不出声的笑、普通的笑、说话以及带着说话的笑）.该数据集还提供一些其他的信息，如生理信号、年龄、性别、母语等信息，但本文实验只使用原始的录音录像数据与情感标注.数据集中每个录像与录音的时长均为5 min，被分为三个部分：训练集（16个参与者）、验证集（15个参与者）和测试集（15个参与者）.

实验对所有用来比较的方法都引入数据集后期处理操作，分别对数据集进行中值滤波、中心化、尺度拉伸等.如果发现该数据经过处理操作可以使模型性能在验证集上得到提升，就将同样的设定应用于测试集中.所有实验都采用相关系数（

ρ_{c}

）来衡量模型的预测性能.

3.1　视觉识别模型性能验证

使用RECOLA数据集对基于视觉的模型进行验证，表1 ^{［13，31-34］}展示了本文的视觉模型在RECOLA数据集上的Valence和Arousal维度的相关性预测结果，其中Tzirakis et al^［13］的方法和本文的方法使用原图像数据，其他方法都使用手工几何特征和外观特征.可以看出，本文提出的采用迁移学习思想构建的面部特征提取模型性能不仅优于传统方法，也优于使用CNN直接提取面部特征的方法.同时，本文方法在Arousal和Valence维度上的表现都远好于其他方法，其视觉模型更容易预测Valence维度的情感.

Table 1 Recognition of arousal and valence by the visual networks on RECOLA dataset

表1 视觉特征提取模型在RECOLA数据集上的Arousal和Valence识别结果

模型	视觉特征	Arousal	Valence
本文方法	原图像	0.493 (0.425)	0.722 (0.678)
Baseline^[31]	纹理特征	0.343 (0.483)	0.486 (0.474)
Baseline^[31]	几何特征	0.272 (0.379)	0.507 (0.612)
RVM^[32]	纹理特征	- (0.615)	- (0.530)
RVM^[32]	几何特征	- (0.467)	- (0.571)
Weber et al^[33]	纹理特征	- (0.594)	- (0.506)
Weber et al^[33]	几何特征	- (0.476)	- (0.683)
Han et al^[34]	纹理+几何	0.265 (0.292)	0.394 (0.592)
Tzirakis et al^[13]	原图像	0.435 (0.371)	0.620 (0.637)

注：括号中的值为使用了数据后期处理后的识别结果；“-”表示原始文献中没有给出预测结果

3.2　听觉识别模型性能验证

将本文的听觉特征提取模型在RECOLA数据集上进行实验，选取参加AVEC 2016挑战的部分方法^［28］作为对比，实验结果如表2 ^{［13，31，33-35］}所示.可以看出，本文的方法无论是在Arousal还是Valence维度上都优于使用eGeMAPS特征的Baseline方法和使用深度特征的方法；同时，各模型在Valence维度上的预测结果也优于Arousal维度，从侧面证明Arousal维度的预测更困难.从实验结果可推断，深度学习框架通过端到端的方式能够自发学习与情感相关的蕴含丰富情感信息的特征.

Table 2 Recognition of arousal and valence by the speech networks on RECOLA dataset

表2 听觉特征提取模型在RECOLA数据集上的Arou⁃sal和Valence识别结果

模型	听觉特征	Arousal	Valence
本文方法	原信号	0.720 (0.763)	0.376 (0.430)
Baseline^[31]	eGeMAPS	0.648 (0.796)	0.375 (0.455)
RVM^[33]	eGeMAPS	- (0.750)	- (0.396)
Brady et al^[35]	MFCC	- (0.846)	- (0.450)
Weber et al^[33]	eGeMAPS	- (0.793)	- (0.456)
Han et al^[34]	13 LLDs	-0.666 (0.755)	0.364 (0.476)
Tzirakis et al^[13]	原信号	0.715 (0.786)	0.369 (0.428)

注：括号中的值为使用了数据后期处理后的识别结果；“-”表示原始文献中没有给出预测结果

3.3　视觉和听觉融合模型性能验证

目前只有三篇文献提及运用视觉和听觉双模态模型来识别情感，并都在RECOLA数据集上进行了相关实验，这三个模型分别为Output⁃Associative Relevance Vector Machine Staircase Regression （OA RVM⁃SR）^［32］、Han et al^［34］提出的强度模型以及Tzirakis et al^［13］提出的CNN⁃LSTM混合模型.为了验证本文方法的有效性，将本文方法的预测结果与以上三种模型进行对比.为了公平对比，本文采用与其他文献相同的数据集分配策略划分数据集，使用训练和验证数据集用于训练，评测结果如表3 ^{［13，32，34］}所示.可以看出：（1）本文的双模态融合模型要比单一的听觉或视觉模型的情感预测性能更好；（2）无论在Arousal还是Valence维度上，本文的视觉和听觉双模态融合模型的识别表现都优于其他三种方法，特别是在Valence维度.与OARVM⁃SR模型和强度模型相比，本文方法直接使用原信号和图像，而不是使用手工提取的几何和纹理特征，所以消除了特征提取方法对识别结果的影响.

Table 3 Recognition of arousal and valence by the bimodal networks on RECOLA dataset

表3 视觉听觉融合模型在RECOLA数据集上的Arousal和Valence识别结果

模型	听觉特征	视觉特征	Arousal	Valence
本文模型	原信号	原图像	0.801 (0.775)	0.743 (0.721)
OARVM⁃SR^[36]	eGeMAPS	几何	0.770 (0.855)	0.545 (0.642)
强度模型^[34]	ComParE	纹理	0.610 (0.728)	0.463 (0.544)
CNN⁃LSTM 混合^[13]	原信号	原图像	0.789 (0.731)	0.691 (0.502)

注：括号中的值为使用了数据后期处理的识别结果

通过实验也可以发现某些因素会降低模型对情感预测的效果，如面部图像本身质量较差或面部未能较好呈现，特征提取器提取面部情绪特征时会出错，从而导致相关系数很低.实验中还发现相关系数较低的图像序列均发现含有人脸不全、人脸朝向较偏以及人脸检测错误的情况（图5）.

Fig.5 Face frame with high (left) and low (right) correlation coefficient

图5 高相关系数（左）和低相关系数（右）对应的人脸图像

Full size|PPT slide

4 结论

本文提出一种融合听觉模态和视觉模态信息的双模态情感识别模型，利用卷积神经网络和预先训练好的面部表情模型分别从语音信号和视觉信号中提取相应的声音特征和视觉特征，将提取的两类特征进行信息融合，充分挖掘模态间的相关信息，利用长短期记忆循环神经网络对融合后的听觉视觉双模态特征进行情感识别.该方法能有效地捕捉听觉模态和视觉模态之间的内在关联信息，进而提高情感识别性能.在RECOLA数据集上的实验结果证明基于双模态的模型识别效果要优于单个的图像或声音识别模型.未来的工作将探索生理信号模态与情感的内在联系，研究各个模态对情感识别的影响.

References

List( Publishing order | Descend order by publishing year | Descend order by cited within ) Chart analysis

彭先霖，张海曦，胡琦瑶. 基于多任务深度卷积神经网络的人脸/面瘫表情识别方法. 西北大学学报(自然科学版)，2019，49(2)：187-192.

Peng

X L

， Zhang

H X

， Hu

Q Y

. Facial/paralysis expression recognition based on multitask learning of deep convolution neural network. Journal of Northwest University (Natural Science Edition)，2019，49(2)：187-192.

Cited in this article [1]

2	Mumenthaler C， Sander D， Manstead A S R. Emotion recognition in simulated social interactions. IEEE Transactions on Affective Computing，2018，11(2)：308-312. Cited in this article [1]

3	Zhang T， Zheng W M， Cui Z，et al. Spatial–temporal recurrent neural network for emotion recognition. IEEE Transactions on Cybernetics，2019，49(3)：839-847. Cited in this article [1]

4	D'Mello S K， Kory J. A review and meta⁃analysis of multimodal affect detection systems. ACM Computing Surveys，2015，47(3)：43. Cited in this article [1]

5	Poria S， Cambria E， Bajpai R，et al. A review of affective computing：from unimodal analysis to multimodal fusion. Information Fusion，2017，37：98-125. Cited in this article [1]

6	Lades M， Vorbruggen J C， Buhmann J，et al. Distortion invariant object recognition in the dynamic link architecture. IEEE Transactions on Computers，1993，42(3)：300-311. Cited in this article [2]

7	Ahonen T， Hadid A， Pietikainen M. Face description with local binary patterns：application to face recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence，2006，28(12)：2037-2041. Cited in this article [2]

8	Dalal N， Triggs B. Histograms of oriented gradients for human detection∥Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego，CA，USA：IEEE，2005：886-893. Cited in this article [2]

9	LeCun Y， Bengio Y， Hinton G. Deep learning. Nature，2015，521(7553)：436-444. Cited in this article [2]

10	Tzirakis P， Zhang J H， Schuller B W. End⁃to⁃end speech emotion recognition using deep neural networks∥2018 IEEE International Conference on Acoustics，Speech and Signal Processing. Calgary，Canada：IEEE，2018：5089-5093. Cited in this article [1]

11	Chao L L， Tao J H， Yang M H，et al. Long short term memory recurrent neural network based multimodal dimensional emotion recognition∥Proceedings of the 5^th International Workshop on Audio/Visual Emotion Challenge. New York，NY，USA：ACM，2015：65-72.

12	Poria S， Chaturvedi I， Cambria E，et al. Convolutional MKL based multimodal emotion recognition and sentiment analysis∥2016 IEEE 16^th international conference on data mining. Barcelona，Spain：IEEE，2016：439-448. Cited in this article [1]

13	Tzirakis P， Trigeorgis G， Nicolaou M A，et al. End⁃ to⁃end multimodal emotion recognition using deep neural networks. IEEE Journal of Selected Topics in Signal Processing，2017，11(8)：1301-1309. Cited in this article [10]

14	Ringeval F， Sonderegger A， Sauer J，et al. Introducing the RECOLA multimodal corpus of remote collaborative and affective interactions∥IEEE International Conference and Workshops on Automatic Face and Gesture Recognition. Shanghai，China：IEEE，2013：1-8. Cited in this article [2]

15	Ekman P. An argument for basic emotions. Cognition and Emotion. 1992，6(3-4)：169-200. Cited in this article [1]

16	Russell J A. A circumplex model of affect. Journal of Personality and Social Psychology，1980，39(6)：1161-1178. Cited in this article [1]

17	Ayadi M， Kamel M S， Karray F. Survey on speech emotion recognition：features，classification schemes，and databases. Pattern Recognition，2011，44(3)：572-587. Cited in this article [1]

18	Lopes A T， De Aguiar E， Souza A F，et al. Facial expression recognition with convolutional neural networks：coping with few data and the training sample order. Pattern Recognition，2017，61：610-628. Cited in this article [1]

19	Tang Y C. Deep learning using linear support vector machines. 2013,arXiv： 1306. 0239v4. Cited in this article [1]

20	Cai J， Meng Z B， Khan A S，et al. Island loss for learning discriminative features in facial expression recognition∥2018 13^th IEEE International Conference on Automatic Face & Gesture Recognition. Xi'an，China：IEEE，2018：302-309. Cited in this article [1]

21	黄程韦，赵艳，金赟等. 实用语音情感的特征分析与识别的研究. 电子与信息学报，2011，33(1)：112-116. Huang C W， Zhao Y， Jin Y，et al. A study on feature analysis and recognition of practical speech emotion. Journal of Electronics & Information Technology，2011，33(1)：112-116. Cited in this article [1]

22	陈闯， Chellali R，邢尹. 改进遗传算法优化BP神经网络的语音情感识别. 计算机应用研究，2019，36(2)：344-346，361. Chen C， Chellali R， Xing Y. Speech emotion recognition based on improved genetic algorithm optimized BP neural network. Application Research of Computers，2019，36(2)：344-346，361. Cited in this article [1]

23	Schuller B， Rigoll G， Lang M. Hidden markov model-based speech emotion recognition∥2003 International Conference on Multimedia and Expo. Baltimore，MD，USA：IEEE，2003：401-404. Cited in this article [1]

24	Sun B， Cao S M， Li L D，et al. Exploring multimodal visual features for continuous affect recognition∥Proceedings of the 6^th International Workshop on Audio/Visual Emotion Challenge. New York，NY，USA：ACM，2016：83-88. Cited in this article [1]

25	Hochreiter S， Schmidhuber J. Long short⁃term memory. Neural Computation，1997，9(8)：1735-1780. Cited in this article [1]

26	Sak H， Senior A， Beaufays F. Long short⁃term memory recurrent neural network architectures for large scale acoustic modeling. 2014,arXiv：1402. 1128. Cited in this article [1]

27	Li X G， Wu X H. Constructing long short⁃term memory based deep recurrent neural networks for large vocabulary speech recognition. 2015,arXiv：1410.4281. Cited in this article [1]

28	Wöllmer M， Kaiser M， Eyben F，et al. LSTM⁃Modeling of continuous emotions in an audiovisual affect recognition framework. Image and Vision Computing，2013，31(2)：153-163. Cited in this article [2]

29	Goodfellow I J， Erhan D， Carrier P L，et al. Challenges in representation learning：a report on three machine learning contests. Neural Networks，2015，64：59-63. Cited in this article [1]

30	Wang Z， Bovik A C， Sheikh H R，et al. Image quality assessment：from error visibility to structural similarity. IEEE Transactions on Image Processing，2004，13(4)：600-612. Cited in this article [1]

31	Valstar M， Gratch J， Schuller B，et al. Avec 2016：Depression，mood，and emotion recognition workshop and challenge∥Proceedings of the 6^th International Workshop on Audio/Visual Emotion Challenge. New York，NY，USA：ACM，2016：3-10. Cited in this article [5]

32	Huang Z C， Stasak B， Dang T，et al. Staircase regression in OA RVM，data selection and gender dependency in AVEC 2016∥Proceedings of the 6^th International Workshop on Audio/Visual Emotion Challenge. New York，NY，USA：ACM，2016：19-26. Cited in this article [4]

33	Weber R， Barrielle V， Soladié C，et al. High⁃level geometry⁃based features of video modality for emotion prediction∥Proceedings of the 6^th International Workshop on Audio/Visual Emotion Challenge. New York，NY，USA：ACM，2016：51-58. Cited in this article [5]

34	Han J， Zhang Z X， Cummins N，et al. Strength modelling for real⁃worldautomatic continuous affect recognition from audiovisual signals. Image and Vision Computing，2017，65：76-86. Cited in this article [6]

35	Brady K， Gwon Y， Khorrami P，et al. Multi⁃modal audio ，video and physiological sensor learning for continuous emotion prediction∥Proceedings of the 6^th International Workshop on Audio/Visual Emotion Challenge. New York，NY，USA：ACM，2016：97-104. Cited in this article [2]

PDF(939 KB)

52338

Accesses

Citation

Detail

Sections

Recommended

HeighLight
Key words
Cite this article
1 相关工作
1.1　常见的情感模型
Fig.1 Arousal⁃Valence space
1.2　基于单一模态特征的情感识别
1.2.1　基于视觉模态的识别
1.2.2　基于听觉模态的识别
1.3　基于视觉和听觉双模态的情感识别
2 视觉和听觉双模态的维度情感识别
2.1　基于视觉的表情特征提取
Fig.2 Architecture of image model on RECOLA dataset
2.2　基于听觉的声音特征提取
Fig.3 Architecture of voice feature extraction model
2.3　表情特征和音频特征融合
Fig. 4 Architecture of image⁃voice joint model
3 实验与结果
3.1　视觉识别模型性能验证
Table 1 Recognition of arousal and valence by the visual networks on RECOLA dataset
3.2　听觉识别模型性能验证
Table 2 Recognition of arousal and valence by the speech networks on RECOLA dataset
3.3　视觉和听觉融合模型性能验证
Table 3 Recognition of arousal and valence by the bimodal networks on RECOLA dataset
Fig.5 Face frame with high (left) and low (right) correlation coefficient
4 结论
References

Received	Published
2020-12-04	2021-03-23
Issue Date
2021-03-23

Please choose a citation manager

Content to export