南京大学学报(自然科学版), 2019, 55(5): 765-773 doi: 10.13232/j.cnki.jnju.2019.05.008

跨语言语料库的语音情感识别对比研究

钟琪, 冯亚琴, 王蔚,

南京师范大学教育科学学院机器学习与认知实验室,南京,210097

Comparison of speech emotion recognition in cross language corpus

Zhong Qi, Yaqin Fen, Wang Wei,

MLC Lab, School of Educational Science, Nanjing Normal University, Nanjing, 210097, China

通讯作者: E⁃mail:wangwei5@njnu.edu.cn

收稿日期: 2019-06-14   网络出版日期: 2019-09-22

基金资助: 国家社会科学基金.  BCA150054

Received: 2019-06-14   Online: 2019-09-22

摘要

情感感知具有普遍性和差异性,不同语言表达的情感有不同的情感特征,但也存在相似的情感特征.选择IEMOCAP英语情感数据库、CASIA汉语情感数据库、EMO⁃BD德语情感数据库,以中性、生气、快乐、悲伤四种情感为研究对象,了解在单语言语料库、混合语言语料库、跨语料库的语音情感识别情况.使用支持向量机(Support Vector Machine,SVM)、卷积神经网络(Convolutional Neural Networks,CNN)和长短时记忆网络(Long⁃Short Term Memory,LSTM)为分类器进行训练,对情感进行识别.从实验结果可以看出,不同语料库的语音情感的识别模式存在相似性,也存在相似的语言情感特性.还发现英文的中性情感和中文的悲伤情感具有良好的模型泛化性,英文的悲伤情感和中文的中性情感有较好的适应性.

关键词: 跨语料库 ; 语音情感 ; 深度学习 ; 分类器 ; 迁移学习

Abstract

Emotional recognition has universality and difference. Different language emotional databases have different emotional characteristics,and they also have similar emotional characteristics. This paper chooses IEMOCAP English emotion database,CASIA Chinese emotion database and EMO⁃BD German emotion database,and takes neutral,angry,happy and sad emotions as research objects to understand the situation of speech emotion recognition in single language corpus,mixed language corpus and cross⁃language corpus. Support Vector Machine (SVM),Convolutional Neural Network (CNN) and Long⁃Short Term Memory (LSTM) Network are used as classifiers to recognize emotions. The results show that there are similarities and cultural characteristics in speech emotion recognition patterns of different emotion corpora. It is found that English neutral emotion and Chinese sad emotion have good generalization of models,while English sad emotion and Chinese neutral emotion have better adaptability.

Keywords: cross⁃corpus ; speech emotion ; deep learning ; classifier ; transfer learning

PDF (1264KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

钟琪, 冯亚琴, 王蔚. 跨语言语料库的语音情感识别对比研究. 南京大学学报(自然科学版)[J], 2019, 55(5): 765-773 doi:10.13232/j.cnki.jnju.2019.05.008

Zhong Qi, Yaqin Fen, Wang Wei. Comparison of speech emotion recognition in cross language corpus. Journal of nanjing University[J], 2019, 55(5): 765-773 doi:10.13232/j.cnki.jnju.2019.05.008

语音识别是人工智能一个重要的研究方向,其中语音情感识别在人机交互语领域有重要的作用.不同语料库的语音情感往往存在差异性,但也包含情感的相似性.单个语言的情感探究无法对不同的语言情感进行比较研究.在跨语料库的语音情感识别中,研究者们主要关注的是提高情感识别率算法,对不同的语音情感相似性和差异性的研究较少.因此本研究对不同语料库的语音情感识别进行探究.

跨语料库的语音情感计算可以比较不同语言之间的情感的相似性和差异性,目前国内外已有学者进行过相应研究[1,2].Schuller et al从效价度和唤醒度对六个数据库进行了跨语料库的情感识别研究[3],并提出将多个数据库和分类器结合来提高跨库语音情感识别的准确率[4].Abdelwahab and Busso[5]提出使用模型自适应的方法来提高跨库语音情感识别.Mao et al[6]提出领域自适应算法以减少训练和测试数据集之间的固有不匹配,提高跨库情感识别结果.这些方法在跨库语音情感识别率上有较好的提高,但是对不同语料库之间情感分析较少.

对不同语言的情感识别研究成果丰富,主要是通过不同的语音数据库进行人工情感判断的方法来探究不同语言的情感识别差异[7,8,9].Paulmann and Uskul[10]录制中文和英文的情感数据库进行情感识别探究,发现中国参与者的跨语言情感识别好于英国参与者.Koeda et al[11]探究英语、德语、印地语和阿拉伯语情感识别,得到情感存在相似混淆模式和特征差异性.Sauter et al[12]发现负面的情感比积极的情感更容易在跨语言的条件下被识别.但以前的研究大都基于人工听语音来分辨情感,费时费力.机器学习和深度学习技术的发展带来了更为便捷的方法,如高斯混合模型(Gaussian Mixture Mode,GMM)[13,14]、支持向量机(Support Vector Machine,SVM)[15,16]、卷积神经网络(Convolutional Neural Networks,CNN)[17,18]、循环神经网络(Recurrent Neural Network,RNN)[19,20]等都能更方便快速地进行语音情感识别.

本研究探索不同语言在情感识别上的差异性和相似性,在不同语料库进行语音特征提取来进行情感识别的实验.为避免机器学习模型对于情感识别结果的影响,采用SVM,CNN和改进RNN模型三个分类器.通过单语言数据库情感识别、混合语言语料库情感识别、跨语料库情感识别三个实验来对情感识别率进行语言因素的影响,对比分析单语言情感识别、混合语言情感识别和跨语料库情感识别的特点.

1 方 法

1.1 特征提取

语音情感特征是语音情感识别的基础组成部分.本文主要研究基于声学特征的语音情感特征,将语音信号进行数字化.首先需要将音频转化为计算机语言能够识别的数字信号,利用开源工具Opensmile[21]工具包提取eGeMAPS特征集的语音特征,即提取帧水平上的低层次声学特征,包括能量、基频、跨零率、梅尔倒谱系数等常见的帧级特征及其相邻特征的相对变化量.在将语音数据进行归一化的基础上应用不同的统计函数,最终得到88维的声学特征.

1.2 分类器

本实验主要采用SVM,CNN,LSTM(长短时记忆网络,Long⁃Short Term Memory)来进行实验.这三个分类器在语音识别中使用广泛,结果较好.下面详细介绍三个分类器.

SVM能自动寻找出那些对情感分类有较好区分能力的支持向量,构造出的分类器可以最大化类与类的间隔,因而有较好的适应能力和较高的分准率[22].本研究的SVM实验中采用Linear SVC.

CNN通过卷积实现对语音特征局部信息的抽取,再通过聚合加强模型对特征的鲁棒性[17].本研究的实验使用两个卷积层加上两个全连接层,经过softmax激活层后得到四类预测结果.随机打乱数据样本,使用十折交叉方式进行训练与测试.每十个样本计算一次梯度下降,更新一次权重.

RNN可以使信息从当前步传递到下一步,允许信息持久化,但当相关信息和当前预测位置的间隔不断增大时会丧失学习连接如此远的信息的能力.LSTM解决了RNN模型存在的梯度消失的问题,使其能够建模信号的长时依赖关系[23],但由于这种技术的普适性非常高,带来的可能的变化也非常多.本研究的实验主要通过两个LSTM层加上一个全连接层,经过softmax激活层后得到四类预测结果.同样使用十折交叉方式进行训练与测试.每十个样本计算一次梯度下降,更新一次权重.

1.3 实验流程

对语音数据进行归一化处理,以满足不同模式的单语言语料库、混合语言语料库、跨语料库的情感评价的需求.

第一个实验是进行单语言的情感测试,分别放入不同的分类器进行训练和测试,得到该分类器模型下情感的识别率,了解单语言中的情感特点.

第二个实验是进行混合语言语音情感的实验.将不同的语料库进行混合得到新的语料库.不同语言的语料库组合训练可以抑制跨语言效应,增加训练模型的泛化性,其基础是情感的表达和识别具有普遍性,为进一步研究跨语料库的语音情感识别提供实验依据.

第三个实验是进行跨语言的语音情感的实验.利用迁移学习的方法,选择一个语料库进行模型的训练和建立,创建以该语料库为基础的语音情感识别模型,再选取另一个语料库,利用模型迁移的方法对新的语料库情感进行判断.该方法可以很好地体现训练语料库的语音情感表达的特点,测试语料库的测试结果则有利于探究测试语料库和与训练语料库的语音情感的相似性和差异性.

2 实 验

2.1 语料库准备

本文探究中文、英语、德语的语音情感,因此需要选择对应的语料库.下面详细介绍不同的语料库.

IEMOCAP:交互情绪二元动作捕捉数据库(The Interactive Emotional Dyadic Motion Capture database),是由南加利福利亚大学录制的情感数据库,包含视频、音频和语音文本、面部表情四类情感数据[24].由十名专业演员(五男五女)进行情感表达.为了平衡不同情感类别的数据,将快乐和兴奋合并成快乐类别.本实验选取快乐、生气、悲伤和中性四类情感构成最终的语音情感识别数据库,共包含5531句语料.

CASIA:由中国科学院自动化研究所录制的汉语情感语料库[25],共包括四个专业发音人、六种情感(生气、快乐、害怕、悲伤、惊讶和中性).每种情感有50句语料,即对相同的文本赋予不同的情感阅读.

EMO⁃BD:情感语音柏林数据库(The Berlin Database of Emotional Speech),由柏林工业大学传播科学研究所收集[26],被许多研究人员认为是用于语音情感识别分析的标准数据集.由十名演员(五男五女)对十个语句(五长五短)进行七种情感(快乐、生气、焦虑、害怕、无聊、厌恶和中性)的模拟得到,共包含535句语料.语料文本的选取遵从语义中性、无情感倾向的原则,且为日常口语化风格,没有过多的书面语修饰.

上述三个语料库情感的包容性存在差异,因此本研究选择四种共有的情感作为判别情绪,分别为中性、生气、快乐、悲伤.

2.2 单语言情感识别结果

首先在单语言语料库内部进行情感识别,了解不同语料库语言情感识别的特点.识别结果如表1所示.

表1   单语言语料库总体情感识别率

Table 1  Emotional recognition rate of single language corpus

IEMOCAPCASIAEMO⁃BD
Average0.5630.590.756
SVM0.580.740.76
CNN0.550.520.69
LSTM0.560.510.82

新窗口打开| 下载CSV


从总体的准确识别率可以看到,EMO⁃BD的准确率最高,说明德语的情感表达较明显,容易被识别.再看不同的分类器,在IEMOCAP中分类器对结果的影响并不明显,都在0.56左右;对CASIA和EMO⁃BD则存在较为明显的影响.由此可知,分类器对于情感识别的结果的影响是不能忽视的.

在每个语料库内,每种情感的识别率结果如表2所示,表中黑体字表示最高识别率.

表2   单语言语料库单个情感识别率

Table 2  Single emotion recognition rate in single language corpus

IEMOCAPCASIAEMO⁃BD
SVMCNNLSTMSVMCNNLSTMSVMCNNLSTM
neutral0.60.610.520.710.560.560.890.710.9
angry0.640.550.630.790.470.620.850.690.85
happiness0.430.430.50.690.360.280.440.460.55
sad0.690.640.670.790.650.590.940.950.98

新窗口打开| 下载CSV


表2可以看到,不同的情感中悲伤的基本识别率最高(除CASIA在LSTM的训练下,生气的识别率比悲伤高0.03),快乐的识别率在所有实验结果中都最低.说明情感识别确实存在普遍性,悲伤容易识别,而对快乐的识别都存在较大误判.在IEMOCAP和CASIA中,生气的识别准确率仅次于悲伤,在EMO⁃BD中,中性的识别率位于第二.由此可知,情感的识别率与实验的方法存在一定的关系,因此下文的实验依旧保持同时使用三个分类器的方法.

2.3 混合语言情感识别结果

为提高模型的泛化性,对不同的分类器选择两两语料库进行组合训练和三种语料库的全混合实验,具体结果如表3所示,表中黑体字表示最高识别率.

表3   混合语言语料库总体情感识别率

Table 3  Emotional recognition rate of mixed language corpus

CASIA+IEMOCAPEMO⁃BD+IEMOCAPCASIA+EMO⁃BDCASIA+IEMOCAP+EMO⁃BD
Average0.44690.40010.43550.4327
SVM0.67190.76180.73440.6956
CNN0.34530.22150.3050.3146
LSTM0.32340.2170.2670.288

新窗口打开| 下载CSV


首先从识别准确率的结果可以看到,SVM分类器的训练结果最好(0.67~0.76),而其他两个分类器训练的准确率明显低很多,只有0.21~0.35.对EMO⁃BD和IEMOCAP语料库混合之后的语料库的情感识别率较差,但其他三种混合方式的情感识别率都相对较好.

在每个混合语言语料库实验中,每种情感的识别率结果如表4所示,表中黑体字表示最高识别率.由表4可知,对混合语言语料库进行训练时使用SVM,则每一种情感的识别率都与单语言语料库的实验结果一致,悲伤的识别率最高,而快乐的识别率最低.但是在进行混合语言语料库情感识别的实验中,生气以及部分中性情感的识别率超过了悲伤,悲伤的识别率急剧下降,是四种情感中识别率最差的,甚至低于偶然概率(0.25).因此简单地进行语料库混合不能很好地体现情感特点.

表4   混合语言语料库单个情感识别率

Table 4  Single emotional recognition rate of mixed language corpus

CASIA+IEMOCAPEMO⁃BD+IEMOCAPCASIA+EMO⁃BDCASIA+IEMOCAP+EMO⁃BD
SVMCNNLSTMSVMCNNLSTMSVMCNNLSTMSVMCNNLSTM
neutral0.620.410.360.770.340.430.790.310.250.670.320.25
angry0.720.450.440.760.170.130.780.430.360.770.440.42
happiness0.60.340.250.680.190.210.520.230.210.560.250.18
sad0.740.180.240.850.190.110.840.20.210.770.210.27

新窗口打开| 下载CSV


2.4 跨语言情感识别结果

利用迁移学习进行跨语料库的语音情感识别,测试集和训练集分别来自不同的语料库,了解不同语言语音情感的泛化性和适应性.跨语言情感识别率结果如表5所示,表中黑体字表示跨语料库的语音情感识别率结果高于该语料库内的语音情感识别率.

表5   跨语料库总体情感识别率

Table 5  Emotional recognition rate of cross⁃corpus

分类器基础语料库迁移语料库
IEMOCAPCASIAEMO⁃BD
SVMIEMOCAP0.58020.4950.4749
CASIA0.43210.74250.53392
EMO⁃BD0.461030.493750.75811
CNNIEMOCAP0.54660.510.59
CASIA0.43190.518750.46018
EMO⁃BD0.42340.378750.6932
LSTMIEMOCAP0.56370.49750.5516
CASIA0.44080.513750.45723
EMO⁃BD0.43660.441250.823

新窗口打开| 下载CSV


表5可以看到,以IEMOCAP为基础训练的模型,将别的语料迁移到它上面训练得到的情感识别率最高(0.47~0.59).以EMO⁃BD为基础训练的模型,虽然在以自身为训练集和测试集时有最好的训练结果(0.69~0.82),但是将别的语料库迁移到它上面训练的时候并没有得到较好的结果.对于以CASIA为基础训练的模型进行迁移学习之后发现,EMO⁃BD作为测试集在该模型上进行迁移学习的情感识别率高于IEMOCAP,并且在三个分类器模型上都得到一样的结果.

从每个情感的识别率来看迁移学习的结果对不同语料库语音情感识别率的影响,如图1图3所示.

图1

图1   以IEMOCAP为训练模型的跨语料库单个情感识别率

Fig.1   Single emotional recognition rate of cross⁃corpus using IEMOCAP as training mode


图2

图2   以CASIA为训练模型的跨语料库单个情感识别率

Fig.2   Single emotional recognition rate of cross⁃corpus using CASIA as training model


图3

图3   以EMO⁃BD为训练模型的跨语料库单个情感识别率

Fig.3   Single emotional recognition rate of cross⁃corpus using EMO⁃BD as training model


在以IEMOCAP为训练集时,迁移学习情感识别率最高的都是中性的情感(中性识别率0.62~0.91,其他情感的识别率0.28~0.71).在CASIA的测试中,快乐和悲伤的识别率较差,在EMO⁃BD的测试中,生气的识别率最差.所以IEMOCAP的中性情感在三类分类器的训练下有较好的泛化性,但CASIA中的快乐和悲伤以及EMO⁃BD中的生气的适应性较差.在以CASIA为训练集时,单个情感识别率最好的是悲伤(识别率0.85~0.94),中性情感识别率最差(识别率0.25~0.47),所以CASIA的悲伤情感在三类分类器的训练下具有较好的泛化性能,中性情感的泛化性较低.在以EMO⁃BD为训练集时,在CASIA上中性情感的识别率较好(识别率0.53~0.64),在IMEOCAP测试中悲伤和愤怒的识别率较好(识别率0.43~0.59),快乐的识别率最低(0.17~0.34),所以EMO⁃BD情感模型的泛化性存在训练集的差异.

在使用IEMOCAP为测试集时,悲伤的识别率最高(0.59~0.88),说明IEMOCAP的悲伤情感具有良好的适应性.而中性和快乐的适应性最差,中性情感难以适应CASIA模型,快乐情感难以适应EMO⁃BD模型.

在使用CASIA为测试集时,可以发现中性情感的识别率始终最好(0.53~0.85),具有较好的适应性.而快乐和悲伤的识别率较低,说明快乐和悲伤的适应性较差,且使用不同的分类器,测试的结果也会不同.

在EMO⁃BD为测试集时,中性情感能较好地适应IEMOCAP的情感模型(0.7~0.91),悲伤情感能够较好地适应CASIA的情感模型(0.86~0.94).但是对愤怒的识别率和适应性都较差,得不到好的结果.

从上述的实验结果可知,IEMOCAP的中性情感、CASIA的悲伤情感泛化性较好,能较好地识别不同语言的语音情感.IEMOCAP的悲伤情感、CASIA的中性情感有较好的适应性,能很好地适应不同的模型.EMO⁃BD自身的情感识别率较好,但情感泛化性和适应性较差.快乐情感在所有实验中的识别率都较差.

2.5 结果与讨论

从上述三个实验中可以发现,分类器的选择会影响情感识别的结果,不同语言的情感识别率也存在明显差异,其中,EMO⁃BD数据库训练的结果最好,德语的语音情感容易识别,其他的研究者也得到了相似结果[8].在其他情感中,快乐的识别率最差,因为快乐在面部表情中具有更好的处理优势[27],微笑的感知显著性使快乐在面部表情中具有高度的独特性[28],反而在声音特征上没有那么明显.每个语言的悲伤情感的识别结果都是最好的,相关研究也发现许多负面情绪,如愤怒、恐惧和悲伤(即悲伤或绝望)都可以通过声音来最有效地传达.从生理学的角度来看,传达者对这种负面情绪的表达往往是特定的、具有高信号值的信息,但这些信息通常不能建立在联合视觉注意的距离上[29],却在语音上能够被更好地捕捉到.Pell et al[11]发现在声学特征上悲伤的表达具有显著一致性,使得该情感表达稳定且易于识别.这一点在本研究的实验中也得到了证实,悲伤的识别率通常较好.跨语料库的情感识别实验表现了语音情感识别存在的语言依赖性,但直接应用不同语言的情感数据库进行情感识别必然导致较大的误差.

3 总 结

在全球化的影响下,不同语言的交流也日益频繁,语言对于情感识别的影响也不容忽视.本文基于不同的语料库对语音情感的普遍性和差异性进行了探究,进行了单语言、混合语言、跨语言三个实验,比较不同语言下自身语音情感识别率的差异、混合语言情感模型的识别、跨语言的语音情感的泛化性和适应性.实验结果表明,分类器对识别率的影响确实存在;德语数据库的语音情感的识别率最高;简单地混合不同语言不能建立良好的情感模型,利用迁移学习的方法可以找到泛化性较好的情感和适应性较好的情感.未来的工作将进一步探讨在更多数据集上的跨语料库的语音情感的识别结果,得到更多语言情感的相似性和差异性.

参考文献

宋鹏郑文明赵力 .

基于特征迁移学习方法的跨库语音情感识别

清华大学学报(自然科学版),201656(11):1179-1183.

[本文引用: 1]

Song P Zheng W M Zhao L .

Cross⁃corpus speech emotion recognition based on a feature transfer learning method

Journal of Tsinghua University (Natural Science Edition)201656(11):1179-1183.

[本文引用: 1]

Shah M Chakrabarti C Spanias A .

Within and cross⁃corpus speech emotion recognition using latent topic model⁃based features

EURASIP Journal on AudioSpeechand Music Processing 20152015(1):4.

[本文引用: 1]

Schuller B Vlasenko B Eyben F et al .

Cross⁃corpus acoustic emotion recognition:variances and strategies

IEEE Transactions on Affective Computing,20101(2):119-131.

[本文引用: 1]

Schuller B Zhang Z X Weninger F et al .

Using multiple databases for training in emotion recognition:to unite or to vote?∥Proceedings of the 12th Annual Conference of the International Speech Communication Association

Florence,Italy,20111553-1556.

[本文引用: 1]

Abdelwahab M Busso C .

Supervised domain adaptation for emotion recognition from speech∥2015 IEEE International Conference on Acoustics,Speech and Signal Processing

Brisbane,AustraliaIEEE20155058-5062.

[本文引用: 1]

Mao Q R Xue W T Rao Q R et al .

Domain adaptation for speech emotion recognition by sharing priors between related source and target classes∥2016 IEEE International Conference on Acoustics,Speech and Signal Processing

Shanghai,ChinaIEEE20162608-2612.

[本文引用: 1]

李爱军邵鹏飞党建武 .

情感表达的跨文化多模态感知研究

清华大学学报(自然科学版),200949(S1):1393-1401.

[本文引用: 1]

Li A J Shao P F Dang J W .

Intercultural multimodal perception of emotional expressions

Journal of Tsinghua University (Natural Science Edition)200949(S1):1393-1401.

[本文引用: 1]

Scherer K R Banse R Wallbott H G .

Emotion inferences from vocal expression correlate across languages and cultures

Journal of Cross⁃Cultural Psychology,200132(1):76-92.

[本文引用: 2]

Pell M D Paulmann S Dara C et al .

Factors in the recognition of vocally expressed emotions:a comparison of four languages

Journal of Phonetics,200937(4):417-435.

[本文引用: 1]

Paulmann S Uskul A K .

Cross⁃cultural emotional prosody recognition:evidence from Chinese and British listeners

Cognition and Emotion,201428(2):230-244.

[本文引用: 1]

Koeda M Belin P Hama T et al .

Cross⁃cultural differences in the processing of non⁃verbal affec⁃tive vocalizations by Japanese and Canadian listeners

Frontiers in Psychology,20134105.

[本文引用: 2]

Sauter D A Eisner F Ekman P et al .

Cross⁃cultural recognition of basic emotions through nonverbal emotional vocalizations

Proceedings of the National Academy of Sciences of the United States of America,2010107(6):2408-2412.

[本文引用: 1]

Lanjewar R B Mathurkar S Patel N .

Implementation and comparison of speech emotion recognition system using Gaussian Mixture Model (GMM) and K⁃Nearest Neighbor (K⁃NN) techni⁃ques

Procedia Computer Science,20154950-57.

[本文引用: 1]

孙红进 .

基于GMM的语音情感信息识别

信息技术,2008(12):138-140.

[本文引用: 1]

Sun H J .

Emotion recognition of speech based on GMM

Information Technology2008(12):138-140.

[本文引用: 1]

Chen Y L Zhang Z .

Research on text sentiment analysis based on CNNs and SVM∥2018 13th IEEE Conference on Industrial Electronics and Applications (ICIEA)

Wuhan,ChinaIEEE20182731-2734.

[本文引用: 1]

任浩叶亮李月 .

基于多级SVM分类的语音情感识别算法

计算机应用研究,201734(6):1682-1684.

[本文引用: 1]

Ren H Ye L Li Y ,et al .

Speech emotion recognition algorithm based on multi⁃layer SVM classification

Application Research of Computers201734(6):1682-1684.

[本文引用: 1]

Zhao J F Xia M Chen L J .

Learning deep features to recognise speech emotion using merged deep CNN

IET Signal Processing,201812(6):713-721.

[本文引用: 2]

薄洪健马琳孔祥浩 .

基于卷积神经网络学习的语音情感特征降维方法研究

高技术通讯,201727(11-12):889-898.

[本文引用: 1]

Bo H J Ma L Kong X H ,et al .

Research on a dimension reduction method of speech emotional feature based on convolution neural network

Chinese High Technology Letters201727(11-12):889-898.

[本文引用: 1]

Chao L L Tao J H Yang M H et al .

Long short term memory recurrent neural network based encoding method for emotion recognition in video∥IEEE International Conference on Acoustics,Speech and Signal Processing

Shanghai,ChinaIEEE20162752-2756.

[本文引用: 1]

刘畅张一珂张鹏远 .

基于改进主题分布特征的神经网络语言模型

电子与信息学报,201840(1):219-225.

[本文引用: 1]

Liu C Zhang Y K Zhang P Y ,et al .

Neural network language modeling using an improved topic distribution feature

Journal of Electronics and Information Technology201840(1):219-225.

[本文引用: 1]

Eyben F Wöllmer M Schuller B .

Opensmile:The munich versatile and fast open⁃source audio feature extractor∥Proceedings of the 18th ACM International Conference on Multimedia

.Firenze,ItalyACM20101459-1462.

[本文引用: 1]

Milton A Roy S S Selvi S T .

SVM scheme for speech emotion recognition using MFCC feature

International Journal of Computer Applications,201369(9):34-39.

[本文引用: 1]

Wollmer M Schuller B Eyben F et al .

Combining long short⁃term memory and dynamic Bayesian networks for incremental emotion⁃sensitive artificial listening

IEEE Journal of Selected Topics in Signal Processing,20104(5):867-881.

[本文引用: 1]

Busso C Bulut M Lee C C et al .

IEMOCAP:interactive emotional dyadic motion capture database

Language Resources and Evaluation,200842(4):335-359.

[本文引用: 1]

Pan S F Tao J H Li Y .

The CASIA audio emotion recognition method for audio/visual emotion challenge 2011∥Proceedings of the 4th International Conference on Affective Computing and Intelligent Interaction

.Memphis,TN,USAACM2011388-395.

[本文引用: 1]

Burkhardt F Paeschke A Rolfes M et al .

A database of German emotional speech∥Proceedings of Interspeech 2005

Lisbon,Portugal,20051517-1520.

[本文引用: 1]

Juth P Lundqvist D Karlsson A et al .

Looking for foes and friends:perceptual and emotional factors when finding a face in the crowd

Emotion,20055(4):379-395.

[本文引用: 1]

Shimamura A P Ross J G Bennett H D .

Memory for facial expressions:the power of a smile

Psychonomic Bulletin & Review,200613(2):217-222.

[本文引用: 1]

Scherer K R .

The role of culture in emotion⁃antecedent appraisal

Journal of Personality & Social Psychology,199773(5):902-922.

[本文引用: 1]

/