基于多维注意力机制的单通道语音增强方法

doi:10.13232/j.cnki.jnju.2023.04.013

基于多维注意力机制的单通道语音增强方法

姚瑶¹, 杨吉斌^,¹, 张雄伟^,¹, 陈乐乐¹, 范君怡²

1.陆军工程大学指挥控制工程学院，南京，210007

2.中国科学院声学研究所东海研究站，上海，201815

Single⁃channel speech enhancement based on multi⁃dimensional attention mechanism

Yao Yao¹, Yang Jibin^,¹, Zhang Xiongwei^,¹, Chen Lele¹, Fan Junyi²

1.School of Command and Control Engineering，Army Engineering University，Nanjing, 210007，China

2.Shanghai Acoustics Laboratory，Chinese Academy of Sciences，Shanghai，201815, China

通讯作者: E⁃mail：yjbice@sina.com，E⁃mail：xwzhang9898@163.com

收稿日期: 2023-06-05

基金资助:

国家自然科学基金. 62071484
陆军工程大学基础前沿项目. KYZYJKQTZQ23001

Received: 2023-06-05

摘要

基于深度学习的单通道语音增强技术能有效改善语音增强的质量，但在低信噪比环境下，语音增强的效果不能令人满意.为了改善低信噪比下单通道语音增强的质量，提出一种多维注意力机制（Multi⁃Dimensional Attention Mechanism，MDAM），通过将通道注意力和全局、局部时间注意力进行级联，充分挖掘深度神经网络各通道间语音特征的长短时相关性.在此基础上，设计了基于多维注意力机制的时域语音增强网络MDAM⁃Net，采用跳跃连接的编解码结构获取深层语音特征，并采用MDAM充分关注干净语音特征在网络通道间、时间方向上全局与局部范围的变化差异，可以更好地建模语音特征的上下文联系.仿真实验的结果表明，在保持较低模型参数量条件下，MDAM⁃Net在VoiceBank⁃DEMAND公开数据集上增强语音的PESQ（Perceptual Evaluation of Speech Quality）评分可以达到3.25.在低信噪比条件下，增强语音质量显著优于已有的单通道语音增强模型.

关键词： 单通道语音增强 ; 多维注意力 ; 通道注意力 ; Transformer

Abstract

In recent years，deep learning⁃based single⁃channel speech enhancement technology effectively improves the quality of speech enhancement. However，in low signal⁃to⁃noise ratio environments，the enhanced speech effect is still not satisfactory. In order to improve the quality of single⁃channel speech enhancement in low signal⁃to⁃noise ratio，a multi⁃dimensional attention mechanism (MDAM) is proposed，which fully explores the long⁃term and short⁃term correlations between speech features among various channels in deep neural networks by cascading channel attention and global and local temporal attention. Based on this，MDAM⁃Net is designed which is a time⁃domain speech enhancement network based on multi⁃dimensional attention mechanism. This network adopts a skip⁃connection encoder⁃decoder structure to obtain deep speech features，and uses MDAM to fully pay attention to the global and local variations of clean speech features in channel and temporal directions，which betterly model the contextual relationships of speech features. Simulation experiment results show that under the condition of keeping a relatively low model parameter volume，the PESQ (Perceptual Evaluation of Speech Quality） score of the enhanced speech by MDAM⁃Net on the VoiceBank⁃DEMAND public dataset reaches 3.25. Under low signal⁃to⁃noise ratio conditions，the enhanced speech quality is significantly better than existing single⁃channel speech enhancement models.

Keywords： single⁃channel speech enhancement ; multi⁃dimensional attention ; channel attention ; Transformer

PDF (1494KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

姚瑶, 杨吉斌, 张雄伟, 陈乐乐, 范君怡. 基于多维注意力机制的单通道语音增强方法. 南京大学学报（自然科学）[J], 2023, 59(4): 669-679 doi:10.13232/j.cnki.jnju.2023.04.013

Yao Yao, Yang Jibin, Zhang Xiongwei, Chen Lele, Fan Junyi. Single⁃channel speech enhancement based on multi⁃dimensional attention mechanism. Journal of nanjing University[J], 2023, 59(4): 669-679 doi:10.13232/j.cnki.jnju.2023.04.013

单通道语音增强能抑制并衰减背景噪声，提高语音信号的可懂度和感知质量^［1］.近年来，基于深度神经网络的语音增强技术快速发展，能有效实现带噪语音向干净语音的映射，提升单通道语音增强的效果^［2-3］.然而，在低信噪比条件下，带噪语音中的语音功率接近甚至低于噪声功率，不论是时域还是频域的映射模型，在估计干净语音分量时都面临更大的困难^［4-5］，低信噪比条件下单通道增强语音的质量依然无法令人满意.

已有研究表明，语音信号同时具有短时相关性和长时相关性，可以用于低信噪比条件下的干净语音建模.循环神经网络（Recurrent Neural Network，RNN）虽然可以建模语音的长时相关性，但训练时间长，计算资源消耗高，制约了增强语音质量的进一步提升^［6］.卷积神经网络（Convolutional Neural Network，CNN）的感受野有限，对语音的长时相关性建模较差^［7-8］，虽然利用膨胀卷积可以扩大其感受野，但膨胀卷积提取的信息不连续，对语音局部信息的提取不充分.

受人类感知注意力的机理启发，近年来，注意力机制广泛应用于自动语音识别（Automatic Speech Recognition，ASR）、语音增强等处理任务^［9］.Transformer是一种典型注意力机制的实现结构，可以对重要语音特征赋予更高的关注权重.Kim et al^［10］提出一种具有高斯加权的Transformer，遵循语音信号相关的时间分布特性，其注意力权值随着目标信息帧与上下文信息帧之间的距离增大而衰减，但其前馈网络采用全连接层，位置感知较差.Giri et al^［11］将自注意力机制引入带有跳跃连接的U⁃Net架构，利用自注意力机制关注语音长时相关性.Pandey and Wang^［12］同样采用自注意力机制，同时结合密集卷积网络，促进梯度流动，并有效降低网络参数数量.然而，现有的语音增强方法对语音特征的关注维度较单一，往往只关注时间维度或频率维度的语音特征，忽视了网络通道维度上语音特征间的联系^［10-12］.

为了充分关注网络通道间语音特征的分布，通道注意力机制^［13］被引入语音增强网络.Tolooshams et al^［14］提出具有通道注意力的密集连接的U⁃Net网络，同时关注通道与时间维度全局语音特征，改善了增强的性能，但没有关注语音局部细节特征的差异.Park et al^［15］提出多视图注意力网络MANNER，并联通道注意力与时间注意力，从带噪语音中提取语音特征表示，然而其在每一层编解码网络中都采用大规模的注意力模块，网络结构复杂.为了充分利用各个维度的注意力机制，本文改进了传统的Transformer结构，提出一种由通道注意力、时间维度全局注意力和局部注意力构成的多维注意力机制（Multi⁃Dimensional Attention Mechanism，MDAM），基于此设计并实现了单通道语音增强模型MDAM⁃Net.实验结果表明，该模型在参数较少时也能有效地提升低信噪比下的语音增强质量.本文的主要贡献：

（1）提出一种多维注意力机制，将通道注意力模块、全局注意力模块、局部注意力模块级联，同时关注网络通道维度上不同通道特征、时间维度上全局特征和局部特征的差异与联系.

（2）在传统的Transformer上，设计了一种改进的注意力编码器（Transformer with Improved Encoder，TransformerIE），在获取语音长短时相关性与重要特征的同时，优化全局、局部关注机制的位置感知能力.

（3）设计了具有跳跃连接的U形编解码器的多维注意力时域语音增强网络MDAM⁃Net，在保持较低参数量的条件下，显著提高了增强语音的客观质量与可懂度，在低信噪比条件下，增强语音质量优于对比的其他同类型网络增强语音.

1 多维注意力机制MDAM

多维注意力机制MDAM由通道注意力、全局注意力、局部注意力构成，如图1所示.带噪语音经过深度编码器之后得到深层语音特征进入MDAM，其中C表示通道数，T表示时间帧长度.语音特征图进入MDAM模块后首先输入通道注意力中，在通道维度上赋予特征不同的重要性.随后，MDAM沿时间维度对特征图进行分块，并依次输入全局注意力与局部注意力.全局注意力关注特征块间的重要性差异，有利于获得语音的长时相关性；局部注意力则是对各块内特征的重要性进行区分，有利于获得细粒度差异.经过通道注意力、全局注意力与局部注意力后，得到不同维度上语音重要特征的注意力权重.最后，MDAM通过掩码模块将注意力权重与原始输入特征相乘，得到输出的有效语音特征.

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 多维注意力机制MDAM的示意图

Fig.1 The diagram of Multi⁃Dimensional Attention Mechanism

1.1　通道注意力

通道注意力通过全连接交互所有通道特征^［16］的方式来关注通道维度，每个通道都可以看作一个特征映射，隐式地包含时间维度的语音信息.通道注意力结构如图2所示.

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 通道注意力

Fig.2 Channel attention

为了获得通道维度聚合的特征，将平均池化（AvgPool）和最大池化应用于输入特征 $X \in R^{C \times T}$ .每个池化输出分别通过全连接层后，再经过Sigmoid激活层得到通道注意力权重 $α_{c} \in R^{C \times 1}$ ，其中，C为通道数，1表示时间帧数为1.如式（1）所示：

α_{c} = σ (F C (A v g P o o l (X)) + F C (M a x P o o l (X)))

（1）

其中，FC表示全连接层， $σ$ 表示 $S i g m o i d$ 激活.通道注意力根据不同的输入语音，自适应地调整不同通道的权重，使重要的特征映射能获得更高的权重，不重要的特征映射获得的权重更低.通道注意力权重可调整深层特征，形成经过加权后的注意力特征.

1.2　TransformerIE网络

全局注意力与局部注意力采用TransformerIE注意力机制提取时间维度上的全局特征与局部特征.TransformerIE（图3b）对传统Transformer编码器（图3a）进行改进，仅包括多头注意力和前馈网络两个部分，不采用绝对位置编码，因为绝对位置编码不利于声学序列的位置与信号相关性建模^［17］.为了使编码器更适用于声学序列的位置感知，TransformerIE将前馈网络第一层改为双向长短时记忆网络（Bi⁃Long Short⁃Term Memory，Bi⁃LSTM），其前馈网络由Bi⁃LSTM，ReLU和线性层级联构成.

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 TransformerIE与传统Transformer的结构对比

Fig.3 The structure of classical Transformer and TransformerIE

TransformerIE中，多头注意力机制对语音特征的关注起到重要的作用，如图4所示.

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 多头注意力结构图

Fig.4 The structure of multi⁃head attention

多头注意力模块中输入的特征 $X \in R^{k \times d}$ 通过可h个可学习的线性变换，获得由查询 $Q$ 、键 $K$ 和值 $V$ 构成的多组不同的映射，如图4a所示.第 $i$ 组映射计算 $Q_{i}$ 与 $K_{i}$ 的点积，并除以常数 $\sqrt[]{d}$ ，经过 $s o f t m a x$ 映射后得到值 $V_{i}$ 的权重，如图4b所示.第 $i$ 组映射的输出即第 $i$ 头部的注意力，是权重和值的点积.所有头部的注意力被串联并再次线性投影，获得方程中的最终输出，然后进行层归一化和残差连接处理.

Q_{i} = X W_{i}^{Q}, K_{i} = X W_{i}^{K}, V_{i} = X W_{i}^{V}

（2）

\begin{array}{l} h e a d_{i} = \\ A t t e n t i o n (Q_{i}, K_{i}, V_{i}) = s o f t m a x (\frac{Q_{i} K_{i}^{T}}{\sqrt[]{d}}) V_{i} \end{array}

（3）

\begin{array}{l} M u l t i H e a d (Q, K, V) = \\ C o n c a t (h e a d_{1}, \dots, h e a d_{h}) W^{o} \end{array}

（4）

M i d = L a y e r N o r m (X + M u l t i h e a d)

（5）

其中， $Q_{i}, K_{i}, V_{i} \in R^{k \times \frac{d}{h}}, i = 1,2, \dots, h$ ， $W_{i}^{Q}, W_{i}^{K},$

$W_{i}^{V} \in R^{d \times d / h}$ 表示第 $i$ 组查询中键和值的线性变换矩阵，k和d分别表示输入特征的个数与维度.

最后，多头注意力块的输出通过改进的前馈网络，包括双向长短时记忆网络Bi⁃LSTM、ReLU激活与层归一化处理，如式（6）和式（7）所示：

\begin{array}{l} F F N (M i d) = \\ R e L U (B i - L S T M (M i d)) W_{1} + b_{1} \end{array}

（6）

O u t p u t = L a y e r N o r m (M i d + F F N (M i d))

（7）

其中， $F F N (\cdot)$ 表示前馈网络的输出， $W_{1} \in R^{d_{f f} \times d},$

b_{1} \in R^{d}

，其中，

d_{f f} = h \times d

1.3　全局注意力与局部注意力

全局注意力模块首先将输入特征进行组归一化并经过1D卷积以获得清晰的特征表示，将处理后的输入特征 $X \in R^{C \times T}$ 以移动大小为 $H$ 、块长度为 $F$ 的大小分割成总数为 $N$ 的重叠块，将重叠块连接为三维的特征 $X_{s e g} \in R^{C \times N \times F}$ .特征块的总数 $N$ 为：

N = [\frac{T - F}{F - H} + 1]

（8）

其中， $T$ 为时间帧长度， $H$ 为切块的移动重叠长度， $F$ 为块长度.

如图5所示，分割之后的特征为 $X_{s e g} \in R^{C \times N \times F}$ 时，全局注意力模块在输入特征的第二维上使用TransformerIE注意力对分割的所有块进行关注，通过全局的视野赋予重要特征更高的权级，构建语音特征长时相关性联系.

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 全局注意力

Fig.5 Global attention

局部注意力模块在输入特征的最后一维上执行，如图6所示.与全局关注模块不同，局部关注模块对每一块内的特征使用TransformerIE进行关注，加强局部细粒度语音特征的关注，为局部特征赋予不同的重要性权重.在TransformerIE之后进一步采用2D卷积与ReLU激活提取语音特征，最后，将分割的特征块经过重叠组合，还原特征大小，完成对局部语音的关注.

图6

新窗口打开| 下载原图ZIP| 生成PPT

图6 局部注意力

Fig.6 Local attention

为了加强特征表示，在局部关注模块之后设计了掩码模块，如图7所示.掩码模块利用输入特征 $X \in R^{C \times T}$ 分两路送入1D卷积，并分别进入 $T a n h$ 与 $S i g m o i d$ 函数进行非线性运算，得到的特征图进行点积之后，输入1D卷积并用 $R e L U$ 激活得到特征掩码；将特征掩码与输入该模块的特征图逐元素相乘，加强特征的重要性区域表示；最后，将经过掩码模块的特征张量输入解码器，还原语音特征，重构增强后的语音波形.

图7

新窗口打开| 下载原图ZIP| 生成PPT

图7 掩码模块

Fig.7 Mask module

2 基于多维注意力机制的语音增强

2.1　MDAM⁃Net框架

语音增强过程中，假设时域干净的语音信号为 $s$ ，加性背景噪声信号为 $n$ ，带噪语音信号如式（9）所示：

y (t) = s (t) + n (t), 0 \leq t \leq T - 1

（9）

其中， $y, s, n \in R^{T \times 1}$ ， $T$ 表示时间帧长度.语音增强的目标是找到一个增强函数 $F$ ，如式（10）和式（11）所示，使其尽可能接近干净语音信号 $s$ ：

m i n d (\hat{s} (t), s (t))

（10）

s . t . \hat{s} (t) = F (y (t))

（11）

本文设计了语音增强网络MDAM⁃Net，采用带有跳跃连接的编解码器，具有通道、全局与局部关注的多维注意力机制，如图8所示.

图8

新窗口打开| 下载原图ZIP| 生成PPT

图8 MDAM⁃Net的网络结构

Fig.8 The structure of MDAM⁃Net

带噪语音信号经过上采样等预处理后，以时域波形的形式输入增强网络，MDAM⁃Net采用具有跳跃连接的编解码结构提取深层特征.在 $L$ 层编解码器中，第i层编码器首先对输入语音特征序列进行1D卷积，隐藏通道数为 $H$ 时，其卷积后的通道数为 $2^{i - 1}$ $H$ ；然后使用ReLU激活，再使用1D卷积扩大通道数为 $2^{i}$ $H$ ；最后，由GLU操作将输出通道恢复到 $2^{i - 1}$ $H$ 以避免信息损失，提高模型学习效率.编码器采用 $l$ 层MDAM机制对编码器的输出进行多维度充分关注.解码器第i层将 $2^{i - 1}$ $H$ 的通道数作为输入，进行1D卷积后的通道数为 $2^{i}$ $H$ ；然后，通过GLU操作后得到的通道数为 $2^{i - 1}$ $H$ ；最后，使用转置卷积，并伴随ReLU激活，输出 $2^{i - 2}$ $H$ 的通道数.对于最后一层，没有ReLU激活，输出单个通道.第i层编码器的输出连接第i层解码器输入，避免梯度消失.

网络模型参数设置中，步长设置为4，编解码网络中卷积核大小设置为8，编解码层数 $L$ 设置为4，隐藏通道数 $H$ 设为48；TransformerIE中注意力层数 $h$ 设置为4，MDAM模块层数 $l$ 设为4；MDAM⁃Net网络模型的具体参数如表1所示.

表1 MDAM⁃Net网络模型的参数

Table 1 The parameters of the MDAM⁃Net

	输入	参数	输出
网络结构	（通道数× 样点个数）	（卷积核大小，步长，输出通道数）	（通道数× 样点个数）
上采样层	1×64000	—	1×256084
第一层编码层	1×256084	8,4,48	48×64020
第二层编码层	48×64020	8,4,96	96×16004
第三层编码层	96×16004	8,4,192	192×4000
第四层编码层	192×4000	8,4,384	384×999
MDAM×4	384×999	MDAM×4	384×999
第四层解码层	384×999	8,4,192	192×4000
第三层解码层	192×4000	8,4,96	96×16004
第二层解码层	96×16004	8,4,48	48×64020
第一层解码层	48×64020	8,4,1	1×256084
下采样层	1×256084	—	1×64000

新窗口打开| 下载CSV

2.2　损失函数

网络中使用时域损失函数 $l o s s_t$ 和频域损失函数 $l o s s_f$ 训练模型^［18］.

时域损失函数 $l o s s_t$ 定义为干净语音信号与增强语音信号之间的均方误差（Mean Squared Error， $M S E$ ），如式（12）所示：

l o s s_t = \frac{1}{T} \sum_{t = 0}^{T - 1} {(s_{t} - {\hat{s}}_{t})}^{2}

（12）

其中， $s_{t}$ 和 ${\hat{s}}_{t}$ 分别表示干净语音信号和增强语音信号， $T$ 表示时间帧长度.

频域损失函数 $l o s s_f$ 定义为干净语音信号与增强语音信号幅度谱分量之间的平均绝对误差（Mean Absolute Error， $M A E$ ），如式（13）所示：

\begin{array}{l} l o s s_f = \\ \frac{1}{T \cdot F} \sum_{t = 0}^{T - 1} \sum_{f = 0}^{F - 1} [\begin{array}{l} (|S_{r} (t, f)| + |S_{i} (t, f)|) - \\ (|{\hat{S}}_{r} (t, f)| + |{\hat{S}}_{i} (t, f)|) \end{array}] \end{array}

（13）

其中， $S (t, f)$ 和 $\hat{S} (t, f)$ 分别表示干净语音信号和增强语音信号的幅度谱， $r$ 和 $i$ 分别表示复数变量的实部和虚部， $T$ 和 $F$ 分别表示时间帧长度和频率段数.

语音增强实验结合了上述两种类型的损失函数，具体定义如式（14）所示：

l o s s_s u m = (1 - α) l o s s_t + α \cdot l o s s_f

（14）

其中， $α$ 是一个超参数，实验中设置为0.2.

3 实验与分析

3.1　实验设置

实验在VoiceBank⁃DEMAND公开数据集^［19］上进行验证.

3.1.1 训练集

干净语音由Voice Bank corpus语料库^［20］中28名说话人（14名男性，14名女性）的干净语音构成，每位说话者大约有400句话可供选择.噪声包含八种来自Demand数据库^［21］的真实噪声记录以及两种人为生成的噪声，八种真实噪声包括家庭噪声（厨房内）、办公室噪声（会议室内）、三种公共空间噪声（自助餐厅、餐厅、地铁站）、两种交通噪声（汽车和地铁）和一种街道噪声（交通十字路口），两种人为生成的噪声分别是白噪声和训练集、测试集中均未见过的语音.训练集中以0，5，10和15 dB的四种不同信噪比合成带噪语音，共11572条.

3.1.2 测试集

干净语音由Voice Bank corpus语料库^［20］中一个男性和一个女性说话人的语音构成，噪声来自Demand数据库^［21］的其他五种训练噪声，这些噪声包括一个家庭噪声（客厅）、一个办公室噪声（办公空间）、一个交通工具噪声（公共汽车）和两个街道噪声（露天自助餐厅和公共广场）.测试集使用四个略高的信噪比2.5，7.5，12.5和17.5 dB的合成带噪语音，一共824条.

3.1.3 评价指标

采用五项客观指标来评价模型性能.语音质量感知（Perceptual Evaluation of Speech Quality，PESQ）^［22］评估语音总体感知质量，评分范围为-0.5~4.5.短时客观可理解性（Short⁃Time Objective Intelligibility，STOI）^［23］评估语音可懂度，评分范围为0~1.三种基于平均意见得分（Mean Opinion Score，MOS）的测量方法^［24］分别是测量语音信号失真的平均意见得分（CSIG）、测量背景噪声干扰的平均意见得分（CBAK）和评估语音整体质量的平均意见得分（COVL），这三种MOS的评分范围都是1~5.五项客观指标的评分都与语音综合质量呈正相关.

3.1.4 训练设置

MDAM⁃Net的训练轮数为600，训练批次大小为16；使用Adam优化器，步长为 $3 e - 4$ ，动量为 $β_{1} = 0.9$ ，分母动量为 $β_{2} = 0.999$ .实验在Ubuntu20.04系统平台上进行，包括Xeon Gold 5118 （2.3 GHz）的CPU与GeForceRTX 2080Ti的GPU.

3.2　实验结果与分析

3.2.1　消融实验

在VoiceBank⁃DEMAND公开数据集上，以U⁃Net为基线模型，对MDAM⁃Net中注意力模块进行消融实验，如表2所示.

表2 MDAM⁃Net注意力模块的消融实验

Table 2 Ablation experiments of the MDAM⁃Net attention module

模型	PESQ	STOI	CSIG	CBAK	COVL
U⁃Net	2.50	0.93	3.62	3.25	3.10
U⁃Net+Channel Attention	2.56	0.93	3.75	3.28	3.15
U⁃Net+global Attention	2.81	0.94	3.83	3.18	3.31
U⁃Net+local Attention	2.63	0.94	3.79	3.21	3.41
U⁃Net+MDAM	3.13	0.95	4.33	3.51	3.63
MDAM⁃Net	3.25	0.95	4.53	3.66	3.93

新窗口打开| 下载CSV

由表可见，在基线模型中分别加入通道注意力、全局注意力和局部注意力机制后，与基线模型相比，增加各机制后的模型的PESQ分别提升0.06，0.31和0.13，STOI，CSIG，CBAK和COVL指标也分别得到了一定的提升.由通道注意力、全局注意力和局部注意力级联构成的MDAM机制能够在基线模型U⁃Net上将PESQ提升0.63.在基线模型上增加四层MDAM模块构成的MDAM⁃Net，其增强性能达到最优，与基线模型U⁃Net相比，PESQ提升0.75，STOI，CSIG，CBAK和COVL分别提升0.02，0.91，0.41和0.83，语音增强性能得到显著提高.

3.2.2　对比实验

在VoiceBank⁃DEMAND公开数据集上训练MDAM⁃Net网络并与近年最新的增强模型进行对比，实验结果如表3所示.

表3 MDAM⁃Net与近几年模型的增强性能对比

Table 3 The enhanced performance comparison between MDAM⁃Net and recent models

模型	处理域	PESQ	STOI	CSIG	CBAK	COVL	参数（MB）
Noisy	—	1.97	0.91	3.34	2.44	2.63
SEGAN,2017^[25]	T	2.16	0.93	3.48	2.94	2.80	43.2
Wave⁃U⁃Net,2018^[8]	T	2.40	—	3.52	3.24	2.96	38.1
MMSE⁃GAN,2018^[26]	F	2.53	0.93	3.80	3.12	3.14	—
MetricGAN,2019^[27]	F	2.86	—	3.99	3.18	3.42	—
PHASEN,2020^[28]	F	2.99	—	4.21	3.55	3.62	—
DeepMMSE,2020^[29]	F	2.95	0.94	4.28	3.46	3.64	—
DEMUCS,2020^[30]	T	3.07	0.95	4.31	3.40	3.63	130.5
TSTNN,2021^[31]	T	2.96	0.95	4.33	3.53	3.67	3.5
CleanUNet,2022^[32]	T	2.90	0.95	4.33	3.42	3.64	46.1
MANNER,2022^[15]	T	3.21	0.95	4.53	3.65	3.91	24.1
MDAM⁃Net	T	3.25	0.95	4.53	3.66	3.93	16.9

新窗口打开| 下载CSV

由表可见，MDAM⁃Net模型各项评价指标均优于近年的增强模型.其中，Wave⁃U⁃Net，DEMUCS，CleanUNet与MANNER均采用具有跳跃连接的编解码结构.MDAM⁃Net比Wave⁃U⁃Net的PESQ得分提高了0.85.与CleanUNet相比，MDAM⁃Net的PESQ得分提高0.35，CSIG，CBAK，COVL分别提升0.20，0.24，0.29.和DEMUCS，MANNER相比，MDAM⁃Net模型的参数内存量减少了113.6和7.2 MB，同时五项指标得分都得到了提升.以上实验结果证明，MDAM⁃Net通过多维度注意力网络结构可以高效关注干净语音特征，降低网络复杂度.

绘制带噪语音、干净语音和不同模型的增强结果的波形图与语谱图进行直观对比，图9是MDAM⁃Net与不同模型在VoiceBank⁃DEMAND测试集中的增强语音对比结果.从波形图（图9a~e）左边的椭圆可以看出，Wave⁃U⁃Net存在部分噪声，MDAM⁃Net在无声段的噪声抑制效果较好.从波形图（图9a~e）右边的椭圆可以看出，MDAM⁃Net增强的语音在细节处的波动更接近干净语音，而DEMUCS增强的信号存在较明显的波形失真.从语谱图（图9f~j）的椭圆框中可以看到，Wave⁃U⁃Net与DEMUCS的谐波结构都存在较大缺失，而MDAM⁃Net在去除背景噪声能量的同时，增强后的语音谐波结构依然完整.

图9

新窗口打开| 下载原图ZIP| 生成PPT

图9 MDAM⁃Net与不同模型增强效果的对比

Fig.9 The enhanced performance comparison between MDAM⁃Net and different models

3.2.3　低信噪比条件下的增强性能

使用VoiceBank⁃DEMAND测试集中的客厅、办公空间、公共汽车、露天自助餐厅和公共广场五种训练集中的语音与测试集中的干净语音重新合成-7.5，-2.5，2.5和7.5 dB的带噪语音各410条，对多种增强模型在不同信噪比下的增强性能进一步做测试，结果如表4所示.由表可见，MDAM⁃Net在信噪比为-7.5 dB时，PESQ和STOI达到2.18和0.88，与Wave⁃U⁃Net和DEMUCS模型相比，PESQ分别提高0.57和0.47，STOI分别提高0.12和0.06.在-2.5，2.5，7.5 dB的不同信噪比条件下，MDAM⁃Net增强网络的PESQ与STOI的得分都保持在较好的水平.

表4 不同语音增强模型在低信噪比下的性能对比

Table 4 Performance comparison between different speech enhancement models under low signal⁃to⁃noise ratio

	Noisy		Wave⁃U⁃Net^[8]		DEMUCS^[30]		TU⁃Net^[33]		MDAM⁃Net
	PESQ	STOI	PESQ	STOI	PESQ	STOI	PESQ	STOI	PESQ	STOI
7.5 dB	2.20	0.90	2.78	0.94	3.08	0.96	3.28	0.96	3.55	0.97
2.5 dB	1.73	0.83	2.43	0.93	2.73	0.92	3.01	0.95	3.03	0.95
-2.5 dB	1.41	0.75	1.99	0.88	2.06	0.89	2.21	0.91	2.56	0.92
-7.5 dB	1.24	0.62	1.61	0.76	1.71	0.82	1.90	0.86	2.18	0.88

新窗口打开| 下载CSV

图10a~d是信噪比为-7.5 dB的带噪语音、干净语音、DEMUCS增强语音与MDAM⁃Net增强语音的波形图与语谱图，图中颜色越深表示信号能量越大.由图可见，MDAM⁃Net增强语音和带噪语音的语谱图相比，极大地抑制了背景噪声.从波形图的椭圆形区域可以看出，DEMUCS仍然存在较多的噪声残留，而MDAM⁃Net增强的语音明显优于DEMUCS.从语谱图的椭圆形区域可以看出，DEMUCS增强语音的声纹存在较大破坏，而MDAM⁃Net增强语音的声纹更完整并接近干净语音.综上，MDAM⁃Net能够改善较低信噪比条件下的语音质量.

图10

新窗口打开| 下载原图ZIP| 生成PPT

图10 信噪比为-7.5 dB时的语音增强效果对比

Fig.10 Enhancement results with a signal⁃to⁃noise ratio (SNR) of -7.5 dB

4 结论

本文提出一种多维注意力机制MDAM，由通道注意力、全局注意力、局部注意力模块构成，能对语音特征进行充分全面的关注.通道关注模块在通道维度上加强语音特征间的联系，赋予重要通道更高的关注优先级.全局与局部关注模块采用改进的TransformerIE注意力，全局关注模块能建立语音长时相关性，局部关注模块能有效地提取短时语音细节特征.在此基础上，设计了多维注意力机制的语音增强网络MDAM⁃Net，采用跳跃连接的编解码器有效提取语音深层特征，融合多维注意力机制提高了语音增强性能.对比近年的语音增强网络，MDAM⁃Net具有较好的语音增强性能，同时具有较低的参数，改善了低信噪比下语音的客观感知质量.本文提出的方法适用于时域端到端的语音增强，但在向实际应用场景部署时，网络规模轻量化、实时性设计仍有待优化，将该方法向实时应用推广是今后研究的重点.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Sun

Z Y

， Li

Y D

， Jiang

H J

，et al.

A supervised speech enhancement method for smartphone⁃based binaural hearing aids

IEEE Transactions on Biomedical Circuits and Systems，2020，14(5)：951-960.