融合韵律与动态倒谱特征的语音疲劳度检测

doi:10.13232/j.cnki.jnju.2021.04.021

融合韵律与动态倒谱特征的语音疲劳度检测

吴礼福^,¹^,², 徐行¹

1.南京信息工程大学电子与信息工程学院，南京，210044

2.江苏省大气环境与装备技术协同创新中心，南京，210044

Speech fatigue detection combining prosodic and dynamic cepstral features

Wu Lifu^,¹^,², Xu Hang¹

1.School of Electronic & Information Engineering，Nanjing University of Information Science & Technology，Nanjing，210044，China

2.Jiangsu Collaborative Innovation Center of Atmospheric Environment and Equipment Technology，Nanjing，210044，China

通讯作者: E⁃mail：wulifu@nuist.edu.cn

收稿日期: 2021-01-27 网络出版日期: 2021-07-30

基金资助:

国家自然科学基金. 12074192

Received: 2021-01-27 Online: 2021-07-30

摘要

通过语音实现疲劳度检测具有操作简单、无创伤和实时性等优点.为了提高语音疲劳度检测的性能，将韵律特征与动态倒谱特征相融合，采用高斯混合模型作为分类器进行语音疲劳度检测.分别考察了梅尔频率倒谱系数、滑动差分倒谱特征以及韵律特征的检测性能.实验结果表明，在单特征时，梅尔频率倒谱系数比滑动差分倒谱特征和韵律特征的检测性能好，对于融合特征，检测性能均比单特征好，将三个特征融合后，检测正确率可达91%.

关键词： 疲劳度，梅尔频率倒谱系数，滑动差分倒谱，韵 ; 律，高斯混合模型，融 ; 合

Abstract

Fatigue detection through speech has the advantages of simple operation，non⁃invasive and real⁃time. In order to improve the performance of speech fatigue detection，this paper combines prosodic features with dynamic cepstral features，uses Gaussian mixture model as the classifier to perform voice fatigue detection. The detection performance of Mel frequency cepstral coefficient，shifted delta cepstral feature and prosodic feature is investigated respectively. The experimental results show that the detection performance of Mel frequency cepstral coefficient is better than that of shifted delta cepstral feature and prosodic feature in single feature. For fusion feature，the detection performance is better than that of single feature. If the three features are fused，the detection accuracy can reach 91%.

Keywords： fatigue ; mel frequency cepstral coefficient ; shifted delta cepstral ; prosody ; gaussian mixture model ; fusion

PDF (795KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

吴礼福, 徐行. 融合韵律与动态倒谱特征的语音疲劳度检测. 南京大学学报（自然科学）[J], 2021, 57(4): 709-714 doi:10.13232/j.cnki.jnju.2021.04.021

Wu Lifu, Xu Hang. Speech fatigue detection combining prosodic and dynamic cepstral features. Journal of nanjing University[J], 2021, 57(4): 709-714 doi:10.13232/j.cnki.jnju.2021.04.021

疲劳状态能够反映人的生理心理变化过程，疲劳会导致人体机能下降，诱发疾病甚至引发安全事故.人在说话时，不仅可以传递语言文字信息，还可以传递人的精神状态信息.通过语音分析实现疲劳度检测，是一种非常便捷的方式，比如疲劳驾驶中，若通过说话便可以对驾驶员疲劳状态实时监控，则可有效降低事故风险.翁时锋和庄力可^［1］提出一种反馈式疲劳检测系统，通过采集语音信号判断驾驶员当前状态，李响等^［2］通过语音心理声学分析实现驾驶疲劳检测，有效地提高行车安全.因此，语音疲劳度检测具有重要的现实需求.

在疲劳度检测中，语音信号的特征选取尤为重要.常用的语音特征有描述声道特性的倒谱特征，包括梅尔频率倒谱系数（Mel Frequency Cepstral Coefficient，MFCC）.MFCC能够反映语音信号的静态特性，它是由梅尔频率与赫兹频率之间的非线性关系计算得到的频谱特征，陈枢茜^［3］通过提取MFCC特征，利用支持向量机和集成方法AdaBoost构造分类器，进行语音疲劳度检测.除了声道特征，语音中还包括韵律特征，如基音频率、能量、共振峰等随时间的变化规律.赵强^［4］通过提取韵律特征，用TensorFlow框架搭建神经网络，对语音疲劳度分类.

为了改善语音疲劳度检测的效果，本文考察了MFCC、滑动差分倒谱（Shifted Delta Cepstral，SDC）特征以及韵律特征的检测性能.SDC特征是差分倒谱系数的扩展，考虑了前后多帧差分倒谱的影响，已被用于语种识别^［5］，通过提取SDC特征可对六个语种进行识别^［6］，Kshirod and Utpal^［7］使用MFCC⁃SDC进行说话人识别，Murali Krishna et al^［8］使用MFCC⁃SDC来识别说话人不同的情绪状态，识别结果均比单特征好.但是SDC特征尚未用于语音疲劳度检测研究.据此，本文首先对语音信号预处理，然后分别提取了MFCC、SDC以及韵律特征，送入分类器中训练识别，并依据各特征参数特性进一步考察了三类特征相互融合后的检测性能.

另一方面，用于疲劳度检测的语音数据库目前较少，本文实际录制了不同疲劳状态的语音数据库，包含15位测试者，共有480条语音.这些数据对于采用复杂的分类器结构远远不足，会使模型训练泛化性能不足，即发生过学习，因此本文采用高斯混合模型（Gaussian Mixture Model，GMM）作为分类器进行语音疲劳度检测.

1 特征提取

1.1　梅尔频率倒谱系数

MFCC可以看作是对语音信号声道特性的一种描述，与人的听觉系统相符合，常用于语音识别^［9-11］.对于给定的线性频率f，用公式（1）计算Mel频率f_Mel：

f_{M e l} = 2595 \times l g (1 + \frac{f}{700})

(1)

语音信号经过预处理确保高频信号部分不失真^［11］，分帧加窗来平滑语音信号，减少信号的不连续性，之后进行快速傅里叶变换（Fast Fourier Transform，FFT）得到语音信号频谱，通过Mel频率滤波器提取频谱、Mel滤波器组和频谱包络^［12］，对Mel频谱取对数得到对数频谱，最后通过离散余弦变换即可得到MFCC，图1给出了MFCC完整的提取步骤.

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 梅尔频率倒谱系数提取流程

Fig.1 The flow chart of Mel frequency cepstrum coeffi⁃ cient extraction

1.2　滑动差分倒谱

SDC特征是由若干块跨多帧语音的差分倒谱构成的特征向量，使一帧特征能够包含其前后多帧语音的声学信息^［13］，对于长时语音较适用，反映语音信号的动态特性，与MFCC相比抗噪性能较好.图2描述了SDC特征向量的提取过程.

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 滑动差分倒谱特征提取流程

Fig.2 The flow chart of shifted delta cepstral feature extraction

SDC系数取决于N，d，P，k四个参数，参数N表示用于计算每帧MFCC的倒谱系数的数量，每一帧都由一个系数向量表示，如式（2）所示，式中 $c_{i}$ 表示第i个MFCC系数：

c (t) = [c_{0} c_{1} \dots c_{i} \dots c {}_{N - 1}]

(2)

d表示计算差分倒谱的时移，不同差分倒谱时移之间的间隔由P给出，k确定一个SDC特征向量中包含的差分倒谱块数^［14］.对于给定的时间t，计算得到这k个系数：

Δ c (t, i) = c (t + i \times P + d) - c (t + i \times P - d)

(3)

最后得到k维的SDC系数向量：

S D C (t) = [Δ c (t, 0) Δ c (t, 1) \dots Δ c (t, k - 1)]

(4)

公式（4）表示的SDC特征向量是由多个连续差分倒谱连接扩展而成，每一帧差分倒谱系数由N个扩展到k×N个^［15］.SDC系数能够从长时语音样本或动态变化的样本中捕获语音信号特征，解决了传统的倒谱特征仅刻画短时特性的局限性.

1.3　韵律特征

韵律特征又称为超音段特征，主要体现语音的语调、停顿、节奏，常用的韵律特征包括音高、音强、时长等^［16］.音高和音强在说话人识别中具有鲁棒性，特别是在处理噪声和不匹配信道时.研究表明韵律特征与语音疲劳度检测相关，如音高、强度、共振峰等.一般通过分析基音频率曲线的陡峭程度与持续时间来检测疲劳度，对于精神状态，说话人音调较高，语气较强；对于疲劳状态，说话人音调较低，语气较弱.

本文在疲劳度检测中选取了基音频率与强度作为韵律特征，使用自相关函数法提取基音频率，对于一帧的语音信号 $x_{i} (n)$ ，短时自相关函数 $F_{i} (m)$ 为：

F_{i} (m) = \sum_{n = 1}^{M - m} x_{i} (n) x_{i} (n + m)

(5)

式中， $x_{i} (n)$ 表示第i帧语音信号，M表示帧长，m表示时延.对于周期信号，当时延m为基音周期，语音信号的短时自相关函数为最大值时，基音周期的倒数就是基音频率.

对于强度特征，它反映声音的强弱，一般而言，声音强则精神，声音弱则疲劳，由每一帧语音信号的均方根表示：

V_{r m s} (n) = \sqrt[]{\frac{1}{L} \sum_{i = i_{s} (n)}^{i = i_{e} (n)} x {(i)}^{2}}

(6)

式中，L为帧长， $x (i)$ 为第i帧语音信号， $i_{s} (n)$ 为起始帧， $i_{e} (n)$ 为结束帧.

2 高斯混合模型

高斯混合模型被广泛应用于与文本无关的说话人识别^［17］.它将概率密度函数（Probability Density Function，PDF）表示为基本函数乘以加权量的线性组合，混合度为M的高斯混合模型具有如下一般形式：

p (X| λ) = \sum_{i = 1}^{M} w_{i} b_{i} (X) i = 1,2, \dots, M

(7)

式中，X表示一个D维向量， $w_{i}$ 表示混合模型的加权系数且它们之和为1. $b_{i} (X)$ 表示高斯分量，每个高斯分量是D维的概率密度函数：

\begin{array}{l} b_{i} (X) = \\ \frac{1}{{(2 π)}^{d / 2} {|\sum_{i}|}^{1 / 2}} e x p \{- \frac{1}{2} {(x - μ_{i})}^{T} \sum_{}^{- 1} (x - μ_{i})\} \end{array}

(8)

式中， $\sum_{i}$ 表示协方差矩阵， $μ_{i}$ 表示均值向量，高斯混合模型可由均值向量、协方差矩阵表示：

λ = \{w_{i}, μ_{i}, \sum_{i}\} i = 1,2, \dots, M

(9)

高斯混合模型需要估计均值以及协方差，常用K均值（K⁃means）聚类和期望最大（Expectation Maximization，EM）算法.K⁃means聚类是通过最小化点与质心之间的均方根误差，将事件分成K组.首先，假设给定类数K，随机确定数据集初始划分，然后每划分一个点，映射到距离最小的质心，逐次迭代，估计每个类的新平均值以及计算误差的平方和，直至误差平方和小于某一阈值时结束.

EM算法是一个常用的迭代优化算法，先用K⁃means聚类作为它的初始化，提高收敛性，然后进行GMM参数估计.实验中EM算法对所有协方差矩阵的对角项加上0.0001使得协方差矩阵规范化，逆矩阵计算更加稳定.对识别系统中每个疲劳状态进行GMM训练后，采用最大似然准则作为判决准则，即测试语音在四种疲劳状态模型下概率得分最高的就是该语音所对应的疲劳状态类型.

3 实验与讨论

3.1　实验条件

疲劳语料库包含四种不同的疲劳状态，分别对应为精神（睡眠充足），一般精神（强制12 h睡眠），轻度疲劳（强制24 h睡眠），重度疲劳（强制36 h睡眠）四种状态，每位测试者每种状态录制八条语音，故每位测试者32条语音，共录制480条语音.每位测试者的说话文本分为八种，分别由简单到复杂的语句组成，第一种到第三种是简单元音发音三次，第四种到第七种是日常用语四句，第八种代表约200字的文本段朗读.这种设计既便于对比不同状态下的发音差异，同时又避免因为测试者能够记住文本内容而影响了疲劳状态下的发音，使测试结果尽量无偏.

实验中先采用单阈值端点检测方法移除静音，然后进行预处理，提取特征参数，包括13维MFCC、13维SDC、基频和强度，SDC参数设置为N=13，d=1，P=3，k=1，每条语音的采样率均为44100 Hz，帧长取1024，帧移取512，均采用汉明窗，GMM模型选取混合度为64.实验中先将语音划分为四类，每一类120条语音，分别对应四种疲劳状态（A，B，C，D），将每个状态的120条语音同时用作训练集和测试集，然后用提取的特征参数进行训练测试，利用期望最大算法为每种语音建立GMM模型^［18］，实验步骤流程如图３所示.

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 模型训练框图

Fig.3 Block diagram of model training

3.2　实验结果

实验中，先分别对各种特征进行训练测试，然后通过矢量拼接方法将各特征参数相互融合，为方便起见，强度（Intensity）用I表示，基音频率（Fundamental Frequency）用F表示，融合组合分别为MFCC+SDC，MFCC+I+F以及MFCC+SDC+I+F，四种疲劳状态的识别效果见图4.

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 四种疲劳状态识别效果

Fig.4 Identification effects of four fatigue states

从图4中可以看出，对于单特征，MFCC在A，C，D状态识别效果最好，均在75%以上，SDC在C状态识别效果最好，达到84%，在C和D状态识别效果高于韵律特征，A和B状态识别效果低于韵律特征，可见SDC对于轻度疲劳与重度疲劳状态识别较为明显.特征融合中识别效果总体上均高于单特征.

表１显示，单特征中，MFCC识别率为80.2%，高于SDC的识别率62.5%以及I+F的54.8%，识别效果最好.特征融合中，MFCC的静态特性与SDC的动态特性以及韵律特征中基频、强度融合，有效地提高了系统的识别性能，MFCC+SDC与MFCC+I+F分别比MFCC识别率提高了1.5%和1.0%，三个特征全部融合后，MFCC+SDC+I+F识别率达到91.0%，比双特征融合效果提升近10%.

表1 在不同的特征参数下识别效果对比

Table 1 Comparison of recognition effects under different feature parameters

特征参数	A	B	C	D	识别率
MFCC	111	88	94	93	80.2%
SDC	60	47	101	90	62.5%
I+F	79	62	68	54	54.8%
MFCC+SDC	106	93	94	99	81.7%
MFCC+I+F	109	91	95	95	81.2%
MFCC+SDC+I+F	111	117	110	99	91.0%

新窗口打开| 下载CSV

由前述结果可知，频谱特征是有效的特征参数，因为语音的感知过程与人类的听觉系统具有频谱分析功能是密切相关的.因此，从疲劳语料库中选取了两条不同疲劳状态的语音进行了频谱分析，语音信号频谱图如图5所示．

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 不同疲劳状态的语音频谱

Fig.5 Voice spectrum of different fatigue states

从图5可知，在0~1500 Hz，精神状态语音频谱峰值的频率和振幅明显高于疲劳状态语音频谱峰值的频率和振幅，且精神状态的语音振幅总体上明显大于疲劳状态的语音振幅，由此可见，从频谱分析语音的疲劳状态也是可行的，后续的研究工作将围绕此类问题展开.

4 结论

本文通过提取语音动态倒谱特征与韵律特征，包括MFCC、SDC、强度和基音频率，将它们互相融合组成特征矩阵作为语音疲劳度检测特征，采用GMM分类器进行疲劳度分类识别.实验结果表明，相比于单特征检测，特征融合检测效果均高于单特征，动态倒谱特征与韵律特征融合能够获得更好的语音疲劳度检测效果.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

翁时锋,庄力可.

反馈式疲劳检测系统

浙江专利CN101968918A,2011-02-09.