单通道语音增强能抑制并衰减背景噪声,提高语音信号的可懂度和感知质量[1 ] .近年来,基于深度神经网络的语音增强技术快速发展,能有效实现带噪语音向干净语音的映射,提升单通道语音增强的效果[2 -3 ] .然而,在低信噪比条件下,带噪语音中的语音功率接近甚至低于噪声功率,不论是时域还是频域的映射模型,在估计干净语音分量时都面临更大的困难[4 -5 ] ,低信噪比条件下单通道增强语音的质量依然无法令人满意.
已有研究表明,语音信号同时具有短时相关性和长时相关性,可以用于低信噪比条件下的干净语音建模.循环神经网络(Recurrent Neural Network,RNN)虽然可以建模语音的长时相关性,但训练时间长,计算资源消耗高,制约了增强语音质量的进一步提升[6 ] .卷积神经网络(Convolutional Neural Network,CNN)的感受野有限,对语音的长时相关性建模较差[7 -8 ] ,虽然利用膨胀卷积可以扩大其感受野,但膨胀卷积提取的信息不连续,对语音局部信息的提取不充分.
受人类感知注意力的机理启发,近年来,注意力机制广泛应用于自动语音识别(Automatic Speech Recognition,ASR)、语音增强等处理任务[9 ] .Transformer是一种典型注意力机制的实现结构,可以对重要语音特征赋予更高的关注权重.Kim et al[10 ] 提出一种具有高斯加权的Transformer,遵循语音信号相关的时间分布特性,其注意力权值随着目标信息帧与上下文信息帧之间的距离增大而衰减,但其前馈网络采用全连接层,位置感知较差.Giri et al[11 ] 将自注意力机制引入带有跳跃连接的U⁃Net架构,利用自注意力机制关注语音长时相关性.Pandey and Wang[12 ] 同样采用自注意力机制,同时结合密集卷积网络,促进梯度流动,并有效降低网络参数数量.然而,现有的语音增强方法对语音特征的关注维度较单一,往往只关注时间维度或频率维度的语音特征,忽视了网络通道维度上语音特征间的联系[10 -12 ] .
为了充分关注网络通道间语音特征的分布,通道注意力机制[13 ] 被引入语音增强网络.Tolooshams et al[14 ] 提出具有通道注意力的密集连接的U⁃Net网络,同时关注通道与时间维度全局语音特征,改善了增强的性能,但没有关注语音局部细节特征的差异.Park et al[15 ] 提出多视图注意力网络MANNER,并联通道注意力与时间注意力,从带噪语音中提取语音特征表示,然而其在每一层编解码网络中都采用大规模的注意力模块,网络结构复杂.为了充分利用各个维度的注意力机制,本文改进了传统的Transformer结构,提出一种由通道注意力、时间维度全局注意力和局部注意力构成的多维注意力机制(Multi⁃Dimensional Attention Mechanism,MDAM),基于此设计并实现了单通道语音增强模型MDAM⁃Net.实验结果表明,该模型在参数较少时也能有效地提升低信噪比下的语音增强质量.本文的主要贡献:
(1)提出一种多维注意力机制,将通道注意力模块、全局注意力模块、局部注意力模块级联,同时关注网络通道维度上不同通道特征、时间维度上全局特征和局部特征的差异与联系.
(2)在传统的Transformer上,设计了一种改进的注意力编码器(Transformer with Improved Encoder,TransformerIE),在获取语音长短时相关性与重要特征的同时,优化全局、局部关注机制的位置感知能力.
(3)设计了具有跳跃连接的U形编解码器的多维注意力时域语音增强网络MDAM⁃Net,在保持较低参数量的条件下,显著提高了增强语音的客观质量与可懂度,在低信噪比条件下,增强语音质量优于对比的其他同类型网络增强语音.
1 多维注意力机制MDAM
多维注意力机制MDAM由通道注意力、全局注意力、局部注意力构成,如图1 所示.带噪语音经过深度编码器之后得到深层语音特征进入MDAM,其中C 表示通道数,T 表示时间帧长度.语音特征图进入MDAM模块后首先输入通道注意力中,在通道维度上赋予特征不同的重要性.随后,MDAM沿时间维度对特征图进行分块,并依次输入全局注意力与局部注意力.全局注意力关注特征块间的重要性差异,有利于获得语音的长时相关性;局部注意力则是对各块内特征的重要性进行区分,有利于获得细粒度差异.经过通道注意力、全局注意力与局部注意力后,得到不同维度上语音重要特征的注意力权重.最后,MDAM通过掩码模块将注意力权重与原始输入特征相乘,得到输出的有效语音特征.
图1
图1
多维注意力机制MDAM的示意图
Fig.1
The diagram of Multi⁃Dimensional Attention Mechanism
1.1 通道注意力
通道注意力通过全连接交互所有通道特征[16 ] 的方式来关注通道维度,每个通道都可以看作一个特征映射,隐式地包含时间维度的语音信息.通道注意力结构如图2 所示.
图2
图2
通道注意力
Fig.2
Channel attention
为了获得通道维度聚合的特征,将平均池化(AvgPool)和最大池化应用于输入特征X ∈ R C × T . 每个池化输出分别通过全连接层后,再经过Sigmoid激活层得到通道注意力权重α c ∈ R C × 1 ,其中,C 为通道数,1表示时间帧数为1.如式(1)所示:
α c = σ F C A v g P o o l X + F C M a x P o o l X (1)
其中,FC 表示全连接层,σ 表示S i g m o i d 激活.通道注意力根据不同的输入语音,自适应地调整不同通道的权重,使重要的特征映射能获得更高的权重,不重要的特征映射获得的权重更低.通道注意力权重可调整深层特征,形成经过加权后的注意力特征.
1.2 TransformerIE网络
全局注意力与局部注意力采用TransformerIE注意力机制提取时间维度上的全局特征与局部特征.TransformerIE(图3 b)对传统Transformer编码器(图3 a)进行改进,仅包括多头注意力和前馈网络两个部分,不采用绝对位置编码,因为绝对位置编码不利于声学序列的位置与信号相关性建模[17 ] .为了使编码器更适用于声学序列的位置感知,TransformerIE将前馈网络第一层改为双向长短时记忆网络(Bi⁃Long Short⁃Term Memory,Bi⁃LSTM),其前馈网络由Bi⁃LSTM,ReLU和线性层级联构成.
图3
图3
TransformerIE与传统Transformer的结构对比
Fig.3
The structure of classical Transformer and TransformerIE
TransformerIE中,多头注意力机制对语音特征的关注起到重要的作用,如图4 所示.
图4
图4
多头注意力结构图
Fig.4
The structure of multi⁃head attention
多头注意力模块中输入的特征X ∈ R k × d 通过可h 个可学习的线性变换,获得由查询Q 、键K 和值V 构成的多组不同的映射,如图4 a所示.第i 组映射计算Q i 与K i 的点积,并除以常数d ,经过s o f t m a x 映射后得到值V i 的权重,如图4 b所示.第i 组映射的输出即第i 头部的注意力,是权重和值的点积.所有头部的注意力被串联并再次线性投影,获得方程中的最终输出,然后进行层归一化和残差连接处理.
Q i = X W i Q , K i = X W i K , V i = X W i V (2)
h e a d i = A t t e n t i o n Q i , K i , V i = s o f t m a x Q i K i T d V i (3)
M u l t i H e a d Q , K , V = C o n c a t h e a d 1 , … , h e a d h W o (4)
M i d = L a y e r N o r m X + M u l t i h e a d (5)
其中,Q i , K i , V i ∈ R k × d h , i = 1,2 , … , h ,W i Q , W i K ,
W i V ∈ R d × d / h 表示第i 组查询中键和值的线性变换矩阵,k 和d 分别表示输入特征的个数与维度.
最后,多头注意力块的输出通过改进的前馈网络,包括双向长短时记忆网络Bi⁃LSTM、ReLU激活与层归一化处理,如式(6)和式(7)所示:
F F N M i d = R e L U B i - L S T M M i d W 1 + b 1 (6)
O u t p u t = L a y e r N o r m M i d + F F N M i d (7)
其中,F F N · 表示前馈网络的输出,W 1 ∈ R d f f × d ,
b 1 ∈ R d ,其中,d f f = h × d .
1.3 全局注意力与局部注意力
全局注意力模块首先将输入特征进行组归一化并经过1D卷积以获得清晰的特征表示,将处理后的输入特征X ∈ R C × T 以移动大小为H 、块长度为F 的大小分割成总数为N 的重叠块,将重叠块连接为三维的特征X s e g ∈ R C × N × F . 特征块的总数N 为:
N = T - F F - H + 1 (8)
其中,T 为时间帧长度,H 为切块的移动重叠长度,F 为块长度.
如图5 所示,分割之后的特征为X s e g ∈ R C × N × F 时,全局注意力模块在输入特征的第二维上使用TransformerIE注意力对分割的所有块进行关注,通过全局的视野赋予重要特征更高的权级,构建语音特征长时相关性联系.
图5
图5
全局注意力
Fig.5
Global attention
局部注意力模块在输入特征的最后一维上执行,如图6 所示.与全局关注模块不同,局部关注模块对每一块内的特征使用TransformerIE进行关注,加强局部细粒度语音特征的关注,为局部特征赋予不同的重要性权重.在TransformerIE之后进一步采用2D卷积与ReLU激活提取语音特征,最后,将分割的特征块经过重叠组合,还原特征大小,完成对局部语音的关注.
图6
图6
局部注意力
Fig.6
Local attention
为了加强特征表示,在局部关注模块之后设计了掩码模块,如图7 所示.掩码模块利用输入特征X ∈ R C × T 分两路送入1D卷积,并分别进入T a n h 与S i g m o i d 函数进行非线性运算,得到的特征图进行点积之后,输入1D卷积并用R e L U 激活得到特征掩码;将特征掩码与输入该模块的特征图逐元素相乘,加强特征的重要性区域表示;最后,将经过掩码模块的特征张量输入解码器,还原语音特征,重构增强后的语音波形.
图7
图7
掩码模块
Fig.7
Mask module
2 基于多维注意力机制的语音增强
2.1 MDAM⁃Net框架
语音增强过程中,假设时域干净的语音信号为s ,加性背景噪声信号为n ,带噪语音信号如式(9)所示:
y t = s t + n t , 0 ≤ t ≤ T - 1 (9)
其中,y , s , n ∈ R T × 1 ,T 表示时间帧长度.语音增强的目标是找到一个增强函数F ,如式(10)和式(11)所示,使其尽可能接近干净语音信号s :
m i n d s ^ t , s t (10)
s . t . s ^ t = F y t (11)
本文设计了语音增强网络MDAM⁃Net,采用带有跳跃连接的编解码器,具有通道、全局与局部关注的多维注意力机制,如图8 所示.
图8
图8
MDAM⁃Net的网络结构
Fig.8
The structure of MDAM⁃Net
带噪语音信号经过上采样等预处理后,以时域波形的形式输入增强网络,MDAM⁃Net采用具有跳跃连接的编解码结构提取深层特征.在L 层编解码器中,第i 层编码器首先对输入语音特征序列进行1D卷积,隐藏通道数为H 时,其卷积后的通道数为2 i - 1 H ;然后使用ReLU激活,再使用1D卷积扩大通道数为2 i H ;最后,由GLU操作将输出通道恢复到2 i - 1 H 以避免信息损失,提高模型学习效率.编码器采用l 层MDAM机制对编码器的输出进行多维度充分关注.解码器第i 层将2 i - 1 H 的通道数作为输入,进行1D卷积后的通道数为2 i H ;然后,通过GLU操作后得到的通道数为2 i - 1 H ;最后,使用转置卷积,并伴随ReLU激活,输出2 i - 2 H 的通道数.对于最后一层,没有ReLU激活,输出单个通道.第i 层编码器的输出连接第i 层解码器输入,避免梯度消失.
网络模型参数设置中,步长设置为4,编解码网络中卷积核大小设置为8,编解码层数L 设置为4,隐藏通道数H 设为48;TransformerIE中注意力层数h 设置为4,MDAM模块层数l 设为4;MDAM⁃Net网络模型的具体参数如表1 所示.
2.2 损失函数
网络中使用时域损失函数l o s s _ t 和频域损失函数l o s s _ f 训练模型[18 ] .
时域损失函数l o s s _ t 定义为干净语音信号与增强语音信号之间的均方误差(Mean Squared Error,M S E ),如式(12)所示:
l o s s _ t = 1 T ∑ t = 0 T - 1 s t - s ^ t 2 (12)
其中,s t 和s ^ t 分别表示干净语音信号和增强语音信号,T 表示时间帧长度.
频域损失函数l o s s _ f 定义为干净语音信号与增强语音信号幅度谱分量之间的平均绝对误差(Mean Absolute Error,M A E ),如式(13)所示:
l o s s _ f = 1 T ⋅ F ∑ t = 0 T - 1 ∑ f = 0 F - 1 S r t , f + S i t , f - S ^ r t , f + S ^ i t , f (13)
其中,S t , f 和S ^ t , f 分别表示干净语音信号和增强语音信号的幅度谱,r 和i 分别表示复数变量的实部和虚部,T 和F 分别表示时间帧长度和频率段数.
语音增强实验结合了上述两种类型的损失函数,具体定义如式(14)所示:
l o s s _ s u m = 1 - α l o s s _ t + α ⋅ l o s s _ f (14)
3 实验与分析
3.1 实验设置
实验在VoiceBank⁃DEMAND公开数据集[19 ] 上进行验证.
3.1.1 训练集
干净语音由Voice Bank corpus语料库[20 ] 中28名说话人(14名男性,14名女性)的干净语音构成,每位说话者大约有400句话可供选择.噪声包含八种来自Demand数据库[21 ] 的真实噪声记录以及两种人为生成的噪声,八种真实噪声包括家庭噪声(厨房内)、办公室噪声(会议室内)、三种公共空间噪声(自助餐厅、餐厅、地铁站)、两种交通噪声(汽车和地铁)和一种街道噪声(交通十字路口),两种人为生成的噪声分别是白噪声和训练集、测试集中均未见过的语音.训练集中以0,5,10和15 dB的四种不同信噪比合成带噪语音,共11572条.
3.1.2 测试集
干净语音由Voice Bank corpus语料库[20 ] 中一个男性和一个女性说话人的语音构成,噪声来自Demand数据库[21 ] 的其他五种训练噪声,这些噪声包括一个家庭噪声(客厅)、一个办公室噪声(办公空间)、一个交通工具噪声(公共汽车)和两个街道噪声(露天自助餐厅和公共广场).测试集使用四个略高的信噪比2.5,7.5,12.5和17.5 dB的合成带噪语音,一共824条.
3.1.3 评价指标
采用五项客观指标来评价模型性能.语音质量感知(Perceptual Evaluation of Speech Quality,PESQ)[22 ] 评估语音总体感知质量,评分范围为-0.5~4.5.短时客观可理解性(Short⁃Time Objective Intelligibility,STOI)[23 ] 评估语音可懂度,评分范围为0~1.三种基于平均意见得分(Mean Opinion Score,MOS)的测量方法[24 ] 分别是测量语音信号失真的平均意见得分(CSIG)、测量背景噪声干扰的平均意见得分(CBAK)和评估语音整体质量的平均意见得分(COVL),这三种MOS的评分范围都是1~5.五项客观指标的评分都与语音综合质量呈正相关.
3.1.4 训练设置
MDAM⁃Net的训练轮数为600,训练批次大小为16;使用Adam优化器,步长为3 e - 4 ,动量为β 1 = 0.9 ,分母动量为β 2 = 0.999 . 实验在Ubuntu20.04系统平台上进行,包括Xeon Gold 5118 (2.3 GHz)的CPU与GeForceRTX 2080Ti的GPU.
3.2 实验结果与分析
3.2.1 消融实验
在VoiceBank⁃DEMAND公开数据集上,以U⁃Net为基线模型,对MDAM⁃Net中注意力模块进行消融实验,如表2 所示.
由表可见,在基线模型中分别加入通道注意力、全局注意力和局部注意力机制后,与基线模型相比,增加各机制后的模型的PESQ分别提升0.06,0.31和0.13,STOI,CSIG,CBAK和COVL指标也分别得到了一定的提升.由通道注意力、全局注意力和局部注意力级联构成的MDAM机制能够在基线模型U⁃Net上将PESQ提升0.63.在基线模型上增加四层MDAM模块构成的MDAM⁃Net,其增强性能达到最优,与基线模型U⁃Net相比,PESQ提升0.75,STOI,CSIG,CBAK和COVL分别提升0.02,0.91,0.41和0.83,语音增强性能得到显著提高.
3.2.2 对比实验
在VoiceBank⁃DEMAND公开数据集上训练MDAM⁃Net网络并与近年最新的增强模型进行对比,实验结果如表3 所示.
由表可见,MDAM⁃Net模型各项评价指标均优于近年的增强模型.其中,Wave⁃U⁃Net,DEMUCS,CleanUNet与MANNER均采用具有跳跃连接的编解码结构.MDAM⁃Net比Wave⁃U⁃Net的PESQ得分提高了0.85.与CleanUNet相比,MDAM⁃Net的PESQ得分提高0.35,CSIG,CBAK,COVL分别提升0.20,0.24,0.29.和DEMUCS,MANNER相比,MDAM⁃Net模型的参数内存量减少了113.6和7.2 MB,同时五项指标得分都得到了提升.以上实验结果证明,MDAM⁃Net通过多维度注意力网络结构可以高效关注干净语音特征,降低网络复杂度.
绘制带噪语音、干净语音和不同模型的增强结果的波形图与语谱图进行直观对比,图9 是MDAM⁃Net与不同模型在VoiceBank⁃DEMAND测试集中的增强语音对比结果.从波形图(图9 a~e)左边的椭圆可以看出,Wave⁃U⁃Net存在部分噪声,MDAM⁃Net在无声段的噪声抑制效果较好.从波形图(图9 a~e)右边的椭圆可以看出,MDAM⁃Net增强的语音在细节处的波动更接近干净语音,而DEMUCS增强的信号存在较明显的波形失真.从语谱图(图9 f~j)的椭圆框中可以看到,Wave⁃U⁃Net与DEMUCS的谐波结构都存在较大缺失,而MDAM⁃Net在去除背景噪声能量的同时,增强后的语音谐波结构依然完整.
图9
图9
MDAM⁃Net与不同模型增强效果的对比
Fig.9
The enhanced performance comparison between MDAM⁃Net and different models
3.2.3 低信噪比条件下的增强性能
使用VoiceBank⁃DEMAND测试集中的客厅、办公空间、公共汽车、露天自助餐厅和公共广场五种训练集中的语音与测试集中的干净语音重新合成-7.5,-2.5,2.5和7.5 dB的带噪语音各410条,对多种增强模型在不同信噪比下的增强性能进一步做测试,结果如表4 所示.由表可见,MDAM⁃Net在信噪比为-7.5 dB时,PESQ和STOI达到2.18和0.88,与Wave⁃U⁃Net和DEMUCS模型相比,PESQ分别提高0.57和0.47,STOI分别提高0.12和0.06.在-2.5,2.5,7.5 dB的不同信噪比条件下,MDAM⁃Net增强网络的PESQ与STOI的得分都保持在较好的水平.
图10 a~d是信噪比为-7.5 dB的带噪语音、干净语音、DEMUCS增强语音与MDAM⁃Net增强语音的波形图与语谱图,图中颜色越深表示信号能量越大.由图可见,MDAM⁃Net增强语音和带噪语音的语谱图相比,极大地抑制了背景噪声.从波形图的椭圆形区域可以看出,DEMUCS仍然存在较多的噪声残留,而MDAM⁃Net增强的语音明显优于DEMUCS.从语谱图的椭圆形区域可以看出,DEMUCS增强语音的声纹存在较大破坏,而MDAM⁃Net增强语音的声纹更完整并接近干净语音.综上,MDAM⁃Net能够改善较低信噪比条件下的语音质量.
图10
图10
信噪比为-7.5 dB时的语音增强效果对比
Fig.10
Enhancement results with a signal⁃to⁃noise ratio (SNR) of -7.5 dB
4 结论
本文提出一种多维注意力机制MDAM,由通道注意力、全局注意力、局部注意力模块构成,能对语音特征进行充分全面的关注.通道关注模块在通道维度上加强语音特征间的联系,赋予重要通道更高的关注优先级.全局与局部关注模块采用改进的TransformerIE注意力,全局关注模块能建立语音长时相关性,局部关注模块能有效地提取短时语音细节特征.在此基础上,设计了多维注意力机制的语音增强网络MDAM⁃Net,采用跳跃连接的编解码器有效提取语音深层特征,融合多维注意力机制提高了语音增强性能.对比近年的语音增强网络,MDAM⁃Net具有较好的语音增强性能,同时具有较低的参数,改善了低信噪比下语音的客观感知质量.本文提出的方法适用于时域端到端的语音增强,但在向实际应用场景部署时,网络规模轻量化、实时性设计仍有待优化,将该方法向实时应用推广是今后研究的重点.
参考文献
View Option
[1]
Sun Z Y , Li Y D , Jiang H J ,et al . A supervised speech enhancement method for smartphone⁃based binaural hearing aids
IEEE Transactions on Biomedical Circuits and Systems ,2020 ,14 (5 ):951 -960 .
[本文引用: 1]
[2]
徐勇 . 基于深层神经网络的语音增强方法研究
博士学位论文 . 合肥 :中国科学技术大学 ,2015 .
[本文引用: 1]
Xu Y . Research on deep neural network based speech enhancement . Ph.D. Dissertation. Hefei :University of Science and Technology of China ,2015 .
[本文引用: 1]
[3]
魏泉水 . 基于深度神经网络的语音增强算法研究 . 硕士学位论文. 南京 :南京大学 ,2016 .
[本文引用: 1]
Wei Q S . Research on speech enhancement algorithm based on deep neural network . Master Dissertation. Nanjing :Nanjing University ,2016 .
[本文引用: 1]
[4]
叶文政 . 基于深度学习的极低信噪比语音增强方法 . 硕士学位论文. 成都 :电子科技大学 ,2021 .
[本文引用: 1]
Ye W Z . Extremely low signal⁃to⁃noise ratio speech enhancement method based on deep learning
Master Dissertation . Chengdu :University of Electronic Science and Technology of China ,2021 .
[本文引用: 1]
[5]
Hao X , Su X D , Wang Z Y ,et al . UNetGAN:A robust speech enhancement approach in time domain for extremely low signal⁃to⁃noise ratio condition
∥The 20th Annual Conference of the International Speech Communication Association . Graz,Austria :ISCA ,2019 :1786 -1790 .
[本文引用: 1]
[6]
Weninger F , Hershey J R , Le Roux J ,et al . Discriminatively trained recurrent neural networks for single⁃channel speech separation
∥2014 IEEE Global Conference on Signal and Information Processing . Atlanta,GA,USA :IEEE ,2014 :577 -581 .
[本文引用: 1]
[7]
Pandey A , Wang D L . TCNN:Temporal convolutional neural network for real⁃time speech enhancement in the time domain
∥2019 IEEE International Conference on Acoustics,Speech and Signal Processing . Brighton,UK :IEEE ,2019 :6875 -6879 .
[本文引用: 1]
[8]
Macartney C , Weyde T . Improved speech enhance⁃ment with the wave⁃U⁃Net
2018 ,arXiv:.
[本文引用: 3]
[9]
Vaswani A , Shazeer N , Parmar N ,et al . Attention is all you need
∥Proceedings of the 31st International Conference on Neural Information Processing Systems . Long Beach,CA,USA :Curran Associates Inc. ,2017 :6000 -6010 .
[本文引用: 1]
[10]
Kim J , El⁃Khamy M , Lee J . T⁃GSA:Transformer with gaussian⁃weighted self⁃attention for speech enhancement
//2020 IEEE International Conference on Acoustics,Speech and Signal Processing . Barcelona,Spain :IEEE ,2020 :6649 -6653 .
[本文引用: 2]
[11]
Giri R , Isik U , Krishnaswamy A . Attention Wave⁃U⁃Net for speech enhancement
∥2019 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics . New Paltz,NY,USA :IEEE ,2019 :249 -253 .
[本文引用: 1]
[12]
Pandey A , Wang D L . Dense CNN with self⁃attention for time⁃domain speech enhancement
IEEE/ACM Transactions on Audio,Speech,and Language Processing ,2021 (29 ):1270 -1279 .
[本文引用: 2]
[13]
Woo S , Park J , Lee J Y ,et al . CBAM:Convolutional block attention module
∥Proceedings of the 15th European Conference on Computer Vision . Springer Berlin Heidelberg ,2018 :3 -19 .
[本文引用: 1]
[14]
Tolooshams B , Giri R , Song A H ,et al . Channel⁃attention dense U⁃Net for multichannel speech enhancement
∥2020 IEEE International Conference on Acoustics,Speech and Signal Processing . Barcelona,Spain :IEEE ,2020 :836 -840 .
[本文引用: 1]
[15]
Park H J , Kang B H , Shin W ,et al . MANNER:Multi⁃view attention network for noise erasure
∥2022 IEEE International Conference on Acoustics,Speech and Signal Processing . Singapore :IEEE ,2022 :7842 -7846 .
[本文引用: 2]
[16]
Hu J , Shen L , Sun G . Squeeze⁃and⁃excitation networks
∥Proceedings of the IEEE/CVF Confe⁃rence on Computer Vision and Pattern Recognition . Salt Lake City,UT,USA :IEEE ,2018 :7132 -7141 .
[本文引用: 1]
[17]
Sperber M , Niehues J , Neubig G ,et al . Self⁃attentional acoustic models
∥The 19th Annual Conference of the International Speech Communi⁃cation Association . Hyderabad,India :ISCA ,2018 :3723 -3727 .
[本文引用: 1]
[18]
Pandey A , Wang D L . On cross⁃corpus genera⁃lization of deep learning based speech enhancement
IEEE/ACM Transactions on Audio,Speech,and Language Processing ,2020 (28 ):2489 -2499 .
[本文引用: 1]
[19]
Valentini-Botinhao C , Wang X , Takaki S ,et al . Investigating RNN⁃based speech enhancement methods for noise⁃robust text⁃to⁃speech
∥The 9th ISCA Speech Synthesis Workshop . Sunnyvale,CA,USA :ISCA ,2016 :146 -152 .
[本文引用: 1]
[20]
Veaux C , Yamagishi J , King S . The voice bank corpus:Design,collection and data analysis of a large regional accent speech database
∥2013 International Conference Oriental COCOSDA Held Jointly with 2013 Conference on Asian Spoken Language Research and Evaluation . Gurgaon,India :IEEE ,2013 :1 -4 .
[本文引用: 2]
[21]
Thiemann J , Ito N , Vincent E . The diverse environments multi⁃channel acoustic noise database:A database of multichannel environmental noise recordings
The Journal of the Acoustical Society of America ,2013 ,133 (S5 ):3591 .
[本文引用: 2]
[22]
Rix A W , Beerends J G , Hollier M P ,et al . Perceptual evaluation of speech quality (PESQ):A new method for speecn quality assessment of telephone networks and codecs
∥Proceedings of the 26th International Conference on Acoustics,Speech,and Signal Processing . Salt Lake City,Utah,USA :IEEE ,2001 :749 -752 .
[本文引用: 1]
[23]
Taal C H , Hendriks R C , Heusdens R ,et al . An algorithm for intelligibility prediction of time–frequency weighted noisy speech
IEEE Transactions on Audio,Speech,and Language Processing ,2011 ,19 (7 ):2125 -2136 .
[本文引用: 1]
[24]
Hu Y , Loizou P C . Evaluation of objective quality measures for speech enhancement
IEEE Tran⁃sactions on Audio ,Speech,and Language Processing,2008 ,16 (1 ):229 -238 .
[本文引用: 1]
[25]
Pascual S , Bonafonte A , Serrà J . SEGAN:Speech enhancement generative adversarial network
∥The 18th Annual Conference of the International Speech Communication Association . Stockholm,Sweden :ISCA ,2017 :3642 -3646 .
[本文引用: 1]
[26]
Soni M H , Shah N , Patil H A . Time⁃frequency masking⁃based speech enhancement using generative adversarial network
∥2018 IEEE International Conference on Acoustics,Speech and Signal Processing . Calgary,AB,Canada :IEEE ,2018 :5039 -5043 .
[本文引用: 1]
[27]
Fu S W , Liao C F , Tsao Y ,et al . MetricGAN:Generative adversarial networks based black⁃box metric scores optimization for speech enhancement
∥The 36th International Conference on Machine Learning . Long Beach,CA,USA :PMLR ,2019 :2031 -2041 .
[本文引用: 1]
[28]
Yin D C , Luo C , Xiong Z W ,et al . PHASEN:A phase⁃and⁃harmonics⁃aware speech enhancement network
∥Proceedings of the 34th AAAI Conference on Artificial Intelligence . New York,NY,USA :AAAI ,2020 :9458 -9465 .
[本文引用: 1]
[29]
Zhang Q Q , Nicolson A , Wang M J ,et al . DeepMMSE:A deep learning approach to MMSE⁃based noise power spectral density estimation
IEEE/ACM Transactions on Audio,Speech,and Language Processing ,2020 (28 ):1404 -1415 .
[本文引用: 1]
[30]
Defossez A , Synnaeve G , Adi Y . Real time speech enhancement in the waveform domain
∥The 21st Annual Conference of the International Speech Communication Association . Shanghai,China :ISCA ,2020 :3291 -3295 .
[本文引用: 2]
[31]
Wang K , He B B , Zhu W P . TSTNN:Two⁃stage transformer based neural network for speech enhancement in the time domain
∥IEEE International Conference on Acoustics,Speech and Signal Processing . Toronto,Canada :IEEE ,2021 :7098 -7102 .
[本文引用: 1]
[32]
Kong Z F , Ping W , Dantrey A ,et al . Speech denoising in the waveform domain with self⁃attention
∥2022 IEEE International Conference on Acoustics,Speech and Signal Processing . Singapore :IEEE ,2022 :7867 -7871 .
[本文引用: 1]
[33]
范君怡 ,杨吉斌 ,张雄伟 ,等 . U⁃net网络中融合多头注意力机制的单通道语音增强
声学学报 ,2022 ,47 (6 ):703 -716 .
[本文引用: 1]
Fan J Y , Yang J B , Zhang X W ,et al . Monaural speech enhancement using U⁃net fused with multi⁃head self⁃attention
Acta Acustica ,2022 ,47 (6 ):703 -716 .
[本文引用: 1]
A supervised speech enhancement method for smartphone?based binaural hearing aids
1
2020
... 单通道语音增强能抑制并衰减背景噪声,提高语音信号的可懂度和感知质量[1 ] .近年来,基于深度神经网络的语音增强技术快速发展,能有效实现带噪语音向干净语音的映射,提升单通道语音增强的效果[2 -3 ] .然而,在低信噪比条件下,带噪语音中的语音功率接近甚至低于噪声功率,不论是时域还是频域的映射模型,在估计干净语音分量时都面临更大的困难[4 -5 ] ,低信噪比条件下单通道增强语音的质量依然无法令人满意. ...
基于深层神经网络的语音增强方法研究
1
2015
... 单通道语音增强能抑制并衰减背景噪声,提高语音信号的可懂度和感知质量[1 ] .近年来,基于深度神经网络的语音增强技术快速发展,能有效实现带噪语音向干净语音的映射,提升单通道语音增强的效果[2 -3 ] .然而,在低信噪比条件下,带噪语音中的语音功率接近甚至低于噪声功率,不论是时域还是频域的映射模型,在估计干净语音分量时都面临更大的困难[4 -5 ] ,低信噪比条件下单通道增强语音的质量依然无法令人满意. ...
1
2015
... 单通道语音增强能抑制并衰减背景噪声,提高语音信号的可懂度和感知质量[1 ] .近年来,基于深度神经网络的语音增强技术快速发展,能有效实现带噪语音向干净语音的映射,提升单通道语音增强的效果[2 -3 ] .然而,在低信噪比条件下,带噪语音中的语音功率接近甚至低于噪声功率,不论是时域还是频域的映射模型,在估计干净语音分量时都面临更大的困难[4 -5 ] ,低信噪比条件下单通道增强语音的质量依然无法令人满意. ...
1
2016
... 单通道语音增强能抑制并衰减背景噪声,提高语音信号的可懂度和感知质量[1 ] .近年来,基于深度神经网络的语音增强技术快速发展,能有效实现带噪语音向干净语音的映射,提升单通道语音增强的效果[2 -3 ] .然而,在低信噪比条件下,带噪语音中的语音功率接近甚至低于噪声功率,不论是时域还是频域的映射模型,在估计干净语音分量时都面临更大的困难[4 -5 ] ,低信噪比条件下单通道增强语音的质量依然无法令人满意. ...
1
2016
... 单通道语音增强能抑制并衰减背景噪声,提高语音信号的可懂度和感知质量[1 ] .近年来,基于深度神经网络的语音增强技术快速发展,能有效实现带噪语音向干净语音的映射,提升单通道语音增强的效果[2 -3 ] .然而,在低信噪比条件下,带噪语音中的语音功率接近甚至低于噪声功率,不论是时域还是频域的映射模型,在估计干净语音分量时都面临更大的困难[4 -5 ] ,低信噪比条件下单通道增强语音的质量依然无法令人满意. ...
1
2021
... 单通道语音增强能抑制并衰减背景噪声,提高语音信号的可懂度和感知质量[1 ] .近年来,基于深度神经网络的语音增强技术快速发展,能有效实现带噪语音向干净语音的映射,提升单通道语音增强的效果[2 -3 ] .然而,在低信噪比条件下,带噪语音中的语音功率接近甚至低于噪声功率,不论是时域还是频域的映射模型,在估计干净语音分量时都面临更大的困难[4 -5 ] ,低信噪比条件下单通道增强语音的质量依然无法令人满意. ...
Extremely low signal?to?noise ratio speech enhancement method based on deep learning
1
2021
... 单通道语音增强能抑制并衰减背景噪声,提高语音信号的可懂度和感知质量[1 ] .近年来,基于深度神经网络的语音增强技术快速发展,能有效实现带噪语音向干净语音的映射,提升单通道语音增强的效果[2 -3 ] .然而,在低信噪比条件下,带噪语音中的语音功率接近甚至低于噪声功率,不论是时域还是频域的映射模型,在估计干净语音分量时都面临更大的困难[4 -5 ] ,低信噪比条件下单通道增强语音的质量依然无法令人满意. ...
UNetGAN:A robust speech enhancement approach in time domain for extremely low signal?to?noise ratio condition
1
2019
... 单通道语音增强能抑制并衰减背景噪声,提高语音信号的可懂度和感知质量[1 ] .近年来,基于深度神经网络的语音增强技术快速发展,能有效实现带噪语音向干净语音的映射,提升单通道语音增强的效果[2 -3 ] .然而,在低信噪比条件下,带噪语音中的语音功率接近甚至低于噪声功率,不论是时域还是频域的映射模型,在估计干净语音分量时都面临更大的困难[4 -5 ] ,低信噪比条件下单通道增强语音的质量依然无法令人满意. ...
Discriminatively trained recurrent neural networks for single?channel speech separation
1
2014
... 已有研究表明,语音信号同时具有短时相关性和长时相关性,可以用于低信噪比条件下的干净语音建模.循环神经网络(Recurrent Neural Network,RNN)虽然可以建模语音的长时相关性,但训练时间长,计算资源消耗高,制约了增强语音质量的进一步提升[6 ] .卷积神经网络(Convolutional Neural Network,CNN)的感受野有限,对语音的长时相关性建模较差[7 -8 ] ,虽然利用膨胀卷积可以扩大其感受野,但膨胀卷积提取的信息不连续,对语音局部信息的提取不充分. ...
TCNN:Temporal convolutional neural network for real?time speech enhancement in the time domain
1
2019
... 已有研究表明,语音信号同时具有短时相关性和长时相关性,可以用于低信噪比条件下的干净语音建模.循环神经网络(Recurrent Neural Network,RNN)虽然可以建模语音的长时相关性,但训练时间长,计算资源消耗高,制约了增强语音质量的进一步提升[6 ] .卷积神经网络(Convolutional Neural Network,CNN)的感受野有限,对语音的长时相关性建模较差[7 -8 ] ,虽然利用膨胀卷积可以扩大其感受野,但膨胀卷积提取的信息不连续,对语音局部信息的提取不充分. ...
Improved speech enhance?ment with the wave?U?Net
3
2018
... 已有研究表明,语音信号同时具有短时相关性和长时相关性,可以用于低信噪比条件下的干净语音建模.循环神经网络(Recurrent Neural Network,RNN)虽然可以建模语音的长时相关性,但训练时间长,计算资源消耗高,制约了增强语音质量的进一步提升[6 ] .卷积神经网络(Convolutional Neural Network,CNN)的感受野有限,对语音的长时相关性建模较差[7 -8 ] ,虽然利用膨胀卷积可以扩大其感受野,但膨胀卷积提取的信息不连续,对语音局部信息的提取不充分. ...
... The enhanced performance comparison between MDAM⁃Net and recent models
Table 3 模型 处理域 PESQ STOI CSIG CBAK COVL 参数(MB) Noisy — 1.97 0.91 3.34 2.44 2.63 SEGAN,2017[25 ] T 2.16 0.93 3.48 2.94 2.80 43.2 Wave⁃U⁃Net,2018[8 ] T 2.40 — 3.52 3.24 2.96 38.1 MMSE⁃GAN,2018[26 ] F 2.53 0.93 3.80 3.12 3.14 — MetricGAN,2019[27 ] F 2.86 — 3.99 3.18 3.42 — PHASEN,2020[28 ] F 2.99 — 4.21 3.55 3.62 — DeepMMSE,2020[29 ] F 2.95 0.94 4.28 3.46 3.64 — DEMUCS,2020[30 ] T 3.07 0.95 4.31 3.40 3.63 130.5 TSTNN,2021[31 ] T 2.96 0.95 4.33 3.53 3.67 3.5 CleanUNet,2022[32 ] T 2.90 0.95 4.33 3.42 3.64 46.1 MANNER,2022[15 ] T 3.21 0.95 4.53 3.65 3.91 24.1 MDAM⁃Net T 3.25 0.95 4.53 3.66 3.93 16.9
由表可见,MDAM⁃Net模型各项评价指标均优于近年的增强模型.其中,Wave⁃U⁃Net,DEMUCS,CleanUNet与MANNER均采用具有跳跃连接的编解码结构.MDAM⁃Net比Wave⁃U⁃Net的PESQ得分提高了0.85.与CleanUNet相比,MDAM⁃Net的PESQ得分提高0.35,CSIG,CBAK,COVL分别提升0.20,0.24,0.29.和DEMUCS,MANNER相比,MDAM⁃Net模型的参数内存量减少了113.6和7.2 MB,同时五项指标得分都得到了提升.以上实验结果证明,MDAM⁃Net通过多维度注意力网络结构可以高效关注干净语音特征,降低网络复杂度. ...
... Performance comparison between different speech enhancement models under low signal⁃to⁃noise ratio
Table 4 Noisy Wave⁃U⁃Net[8 ] DEMUCS[30 ] TU⁃Net[33 ] MDAM⁃Net PESQ STOI PESQ STOI PESQ STOI PESQ STOI PESQ STOI 7.5 dB 2.20 0.90 2.78 0.94 3.08 0.96 3.28 0.96 3.55 0.97 2.5 dB 1.73 0.83 2.43 0.93 2.73 0.92 3.01 0.95 3.03 0.95 -2.5 dB 1.41 0.75 1.99 0.88 2.06 0.89 2.21 0.91 2.56 0.92 -7.5 dB 1.24 0.62 1.61 0.76 1.71 0.82 1.90 0.86 2.18 0.88
图10 a~d是信噪比为-7.5 dB的带噪语音、干净语音、DEMUCS增强语音与MDAM⁃Net增强语音的波形图与语谱图,图中颜色越深表示信号能量越大.由图可见,MDAM⁃Net增强语音和带噪语音的语谱图相比,极大地抑制了背景噪声.从波形图的椭圆形区域可以看出,DEMUCS仍然存在较多的噪声残留,而MDAM⁃Net增强的语音明显优于DEMUCS.从语谱图的椭圆形区域可以看出,DEMUCS增强语音的声纹存在较大破坏,而MDAM⁃Net增强语音的声纹更完整并接近干净语音.综上,MDAM⁃Net能够改善较低信噪比条件下的语音质量. ...
Attention is all you need
1
2017
... 受人类感知注意力的机理启发,近年来,注意力机制广泛应用于自动语音识别(Automatic Speech Recognition,ASR)、语音增强等处理任务[9 ] .Transformer是一种典型注意力机制的实现结构,可以对重要语音特征赋予更高的关注权重.Kim et al[10 ] 提出一种具有高斯加权的Transformer,遵循语音信号相关的时间分布特性,其注意力权值随着目标信息帧与上下文信息帧之间的距离增大而衰减,但其前馈网络采用全连接层,位置感知较差.Giri et al[11 ] 将自注意力机制引入带有跳跃连接的U⁃Net架构,利用自注意力机制关注语音长时相关性.Pandey and Wang[12 ] 同样采用自注意力机制,同时结合密集卷积网络,促进梯度流动,并有效降低网络参数数量.然而,现有的语音增强方法对语音特征的关注维度较单一,往往只关注时间维度或频率维度的语音特征,忽视了网络通道维度上语音特征间的联系[10 -12 ] . ...
T?GSA:Transformer with gaussian?weighted self?attention for speech enhancement
2
2020
... 受人类感知注意力的机理启发,近年来,注意力机制广泛应用于自动语音识别(Automatic Speech Recognition,ASR)、语音增强等处理任务[9 ] .Transformer是一种典型注意力机制的实现结构,可以对重要语音特征赋予更高的关注权重.Kim et al[10 ] 提出一种具有高斯加权的Transformer,遵循语音信号相关的时间分布特性,其注意力权值随着目标信息帧与上下文信息帧之间的距离增大而衰减,但其前馈网络采用全连接层,位置感知较差.Giri et al[11 ] 将自注意力机制引入带有跳跃连接的U⁃Net架构,利用自注意力机制关注语音长时相关性.Pandey and Wang[12 ] 同样采用自注意力机制,同时结合密集卷积网络,促进梯度流动,并有效降低网络参数数量.然而,现有的语音增强方法对语音特征的关注维度较单一,往往只关注时间维度或频率维度的语音特征,忽视了网络通道维度上语音特征间的联系[10 -12 ] . ...
... [10 -12 ]. ...
Attention Wave?U?Net for speech enhancement
1
2019
... 受人类感知注意力的机理启发,近年来,注意力机制广泛应用于自动语音识别(Automatic Speech Recognition,ASR)、语音增强等处理任务[9 ] .Transformer是一种典型注意力机制的实现结构,可以对重要语音特征赋予更高的关注权重.Kim et al[10 ] 提出一种具有高斯加权的Transformer,遵循语音信号相关的时间分布特性,其注意力权值随着目标信息帧与上下文信息帧之间的距离增大而衰减,但其前馈网络采用全连接层,位置感知较差.Giri et al[11 ] 将自注意力机制引入带有跳跃连接的U⁃Net架构,利用自注意力机制关注语音长时相关性.Pandey and Wang[12 ] 同样采用自注意力机制,同时结合密集卷积网络,促进梯度流动,并有效降低网络参数数量.然而,现有的语音增强方法对语音特征的关注维度较单一,往往只关注时间维度或频率维度的语音特征,忽视了网络通道维度上语音特征间的联系[10 -12 ] . ...
Dense CNN with self?attention for time?domain speech enhancement
2
2021
... 受人类感知注意力的机理启发,近年来,注意力机制广泛应用于自动语音识别(Automatic Speech Recognition,ASR)、语音增强等处理任务[9 ] .Transformer是一种典型注意力机制的实现结构,可以对重要语音特征赋予更高的关注权重.Kim et al[10 ] 提出一种具有高斯加权的Transformer,遵循语音信号相关的时间分布特性,其注意力权值随着目标信息帧与上下文信息帧之间的距离增大而衰减,但其前馈网络采用全连接层,位置感知较差.Giri et al[11 ] 将自注意力机制引入带有跳跃连接的U⁃Net架构,利用自注意力机制关注语音长时相关性.Pandey and Wang[12 ] 同样采用自注意力机制,同时结合密集卷积网络,促进梯度流动,并有效降低网络参数数量.然而,现有的语音增强方法对语音特征的关注维度较单一,往往只关注时间维度或频率维度的语音特征,忽视了网络通道维度上语音特征间的联系[10 -12 ] . ...
... -12 ]. ...
CBAM:Convolutional block attention module
1
2018
... 为了充分关注网络通道间语音特征的分布,通道注意力机制[13 ] 被引入语音增强网络.Tolooshams et al[14 ] 提出具有通道注意力的密集连接的U⁃Net网络,同时关注通道与时间维度全局语音特征,改善了增强的性能,但没有关注语音局部细节特征的差异.Park et al[15 ] 提出多视图注意力网络MANNER,并联通道注意力与时间注意力,从带噪语音中提取语音特征表示,然而其在每一层编解码网络中都采用大规模的注意力模块,网络结构复杂.为了充分利用各个维度的注意力机制,本文改进了传统的Transformer结构,提出一种由通道注意力、时间维度全局注意力和局部注意力构成的多维注意力机制(Multi⁃Dimensional Attention Mechanism,MDAM),基于此设计并实现了单通道语音增强模型MDAM⁃Net.实验结果表明,该模型在参数较少时也能有效地提升低信噪比下的语音增强质量.本文的主要贡献: ...
Channel?attention dense U?Net for multichannel speech enhancement
1
2020
... 为了充分关注网络通道间语音特征的分布,通道注意力机制[13 ] 被引入语音增强网络.Tolooshams et al[14 ] 提出具有通道注意力的密集连接的U⁃Net网络,同时关注通道与时间维度全局语音特征,改善了增强的性能,但没有关注语音局部细节特征的差异.Park et al[15 ] 提出多视图注意力网络MANNER,并联通道注意力与时间注意力,从带噪语音中提取语音特征表示,然而其在每一层编解码网络中都采用大规模的注意力模块,网络结构复杂.为了充分利用各个维度的注意力机制,本文改进了传统的Transformer结构,提出一种由通道注意力、时间维度全局注意力和局部注意力构成的多维注意力机制(Multi⁃Dimensional Attention Mechanism,MDAM),基于此设计并实现了单通道语音增强模型MDAM⁃Net.实验结果表明,该模型在参数较少时也能有效地提升低信噪比下的语音增强质量.本文的主要贡献: ...
MANNER:Multi?view attention network for noise erasure
2
2022
... 为了充分关注网络通道间语音特征的分布,通道注意力机制[13 ] 被引入语音增强网络.Tolooshams et al[14 ] 提出具有通道注意力的密集连接的U⁃Net网络,同时关注通道与时间维度全局语音特征,改善了增强的性能,但没有关注语音局部细节特征的差异.Park et al[15 ] 提出多视图注意力网络MANNER,并联通道注意力与时间注意力,从带噪语音中提取语音特征表示,然而其在每一层编解码网络中都采用大规模的注意力模块,网络结构复杂.为了充分利用各个维度的注意力机制,本文改进了传统的Transformer结构,提出一种由通道注意力、时间维度全局注意力和局部注意力构成的多维注意力机制(Multi⁃Dimensional Attention Mechanism,MDAM),基于此设计并实现了单通道语音增强模型MDAM⁃Net.实验结果表明,该模型在参数较少时也能有效地提升低信噪比下的语音增强质量.本文的主要贡献: ...
... The enhanced performance comparison between MDAM⁃Net and recent models
Table 3 模型 处理域 PESQ STOI CSIG CBAK COVL 参数(MB) Noisy — 1.97 0.91 3.34 2.44 2.63 SEGAN,2017[25 ] T 2.16 0.93 3.48 2.94 2.80 43.2 Wave⁃U⁃Net,2018[8 ] T 2.40 — 3.52 3.24 2.96 38.1 MMSE⁃GAN,2018[26 ] F 2.53 0.93 3.80 3.12 3.14 — MetricGAN,2019[27 ] F 2.86 — 3.99 3.18 3.42 — PHASEN,2020[28 ] F 2.99 — 4.21 3.55 3.62 — DeepMMSE,2020[29 ] F 2.95 0.94 4.28 3.46 3.64 — DEMUCS,2020[30 ] T 3.07 0.95 4.31 3.40 3.63 130.5 TSTNN,2021[31 ] T 2.96 0.95 4.33 3.53 3.67 3.5 CleanUNet,2022[32 ] T 2.90 0.95 4.33 3.42 3.64 46.1 MANNER,2022[15 ] T 3.21 0.95 4.53 3.65 3.91 24.1 MDAM⁃Net T 3.25 0.95 4.53 3.66 3.93 16.9
由表可见,MDAM⁃Net模型各项评价指标均优于近年的增强模型.其中,Wave⁃U⁃Net,DEMUCS,CleanUNet与MANNER均采用具有跳跃连接的编解码结构.MDAM⁃Net比Wave⁃U⁃Net的PESQ得分提高了0.85.与CleanUNet相比,MDAM⁃Net的PESQ得分提高0.35,CSIG,CBAK,COVL分别提升0.20,0.24,0.29.和DEMUCS,MANNER相比,MDAM⁃Net模型的参数内存量减少了113.6和7.2 MB,同时五项指标得分都得到了提升.以上实验结果证明,MDAM⁃Net通过多维度注意力网络结构可以高效关注干净语音特征,降低网络复杂度. ...
Squeeze?and?excitation networks
1
2018
... 通道注意力通过全连接交互所有通道特征[16 ] 的方式来关注通道维度,每个通道都可以看作一个特征映射,隐式地包含时间维度的语音信息.通道注意力结构如图2 所示. ...
Self?attentional acoustic models
1
2018
... 全局注意力与局部注意力采用TransformerIE注意力机制提取时间维度上的全局特征与局部特征.TransformerIE(图3 b)对传统Transformer编码器(图3 a)进行改进,仅包括多头注意力和前馈网络两个部分,不采用绝对位置编码,因为绝对位置编码不利于声学序列的位置与信号相关性建模[17 ] .为了使编码器更适用于声学序列的位置感知,TransformerIE将前馈网络第一层改为双向长短时记忆网络(Bi⁃Long Short⁃Term Memory,Bi⁃LSTM),其前馈网络由Bi⁃LSTM,ReLU和线性层级联构成. ...
On cross?corpus genera?lization of deep learning based speech enhancement
1
2020
... 网络中使用时域损失函数l o s s _ t 和频域损失函数l o s s _ f 训练模型[18 ] . ...
Investigating RNN?based speech enhancement methods for noise?robust text?to?speech
1
2016
... 实验在VoiceBank⁃DEMAND公开数据集[19 ] 上进行验证. ...
The voice bank corpus:Design,collection and data analysis of a large regional accent speech database
2
2013
... 干净语音由Voice Bank corpus语料库[20 ] 中28名说话人(14名男性,14名女性)的干净语音构成,每位说话者大约有400句话可供选择.噪声包含八种来自Demand数据库[21 ] 的真实噪声记录以及两种人为生成的噪声,八种真实噪声包括家庭噪声(厨房内)、办公室噪声(会议室内)、三种公共空间噪声(自助餐厅、餐厅、地铁站)、两种交通噪声(汽车和地铁)和一种街道噪声(交通十字路口),两种人为生成的噪声分别是白噪声和训练集、测试集中均未见过的语音.训练集中以0,5,10和15 dB的四种不同信噪比合成带噪语音,共11572条. ...
... 干净语音由Voice Bank corpus语料库[20 ] 中一个男性和一个女性说话人的语音构成,噪声来自Demand数据库[21 ] 的其他五种训练噪声,这些噪声包括一个家庭噪声(客厅)、一个办公室噪声(办公空间)、一个交通工具噪声(公共汽车)和两个街道噪声(露天自助餐厅和公共广场).测试集使用四个略高的信噪比2.5,7.5,12.5和17.5 dB的合成带噪语音,一共824条. ...
The diverse environments multi?channel acoustic noise database:A database of multichannel environmental noise recordings
2
2013
... 干净语音由Voice Bank corpus语料库[20 ] 中28名说话人(14名男性,14名女性)的干净语音构成,每位说话者大约有400句话可供选择.噪声包含八种来自Demand数据库[21 ] 的真实噪声记录以及两种人为生成的噪声,八种真实噪声包括家庭噪声(厨房内)、办公室噪声(会议室内)、三种公共空间噪声(自助餐厅、餐厅、地铁站)、两种交通噪声(汽车和地铁)和一种街道噪声(交通十字路口),两种人为生成的噪声分别是白噪声和训练集、测试集中均未见过的语音.训练集中以0,5,10和15 dB的四种不同信噪比合成带噪语音,共11572条. ...
... 干净语音由Voice Bank corpus语料库[20 ] 中一个男性和一个女性说话人的语音构成,噪声来自Demand数据库[21 ] 的其他五种训练噪声,这些噪声包括一个家庭噪声(客厅)、一个办公室噪声(办公空间)、一个交通工具噪声(公共汽车)和两个街道噪声(露天自助餐厅和公共广场).测试集使用四个略高的信噪比2.5,7.5,12.5和17.5 dB的合成带噪语音,一共824条. ...
Perceptual evaluation of speech quality (PESQ):A new method for speecn quality assessment of telephone networks and codecs
1
2001
... 采用五项客观指标来评价模型性能.语音质量感知(Perceptual Evaluation of Speech Quality,PESQ)[22 ] 评估语音总体感知质量,评分范围为-0.5~4.5.短时客观可理解性(Short⁃Time Objective Intelligibility,STOI)[23 ] 评估语音可懂度,评分范围为0~1.三种基于平均意见得分(Mean Opinion Score,MOS)的测量方法[24 ] 分别是测量语音信号失真的平均意见得分(CSIG)、测量背景噪声干扰的平均意见得分(CBAK)和评估语音整体质量的平均意见得分(COVL),这三种MOS的评分范围都是1~5.五项客观指标的评分都与语音综合质量呈正相关. ...
An algorithm for intelligibility prediction of time–frequency weighted noisy speech
1
2011
... 采用五项客观指标来评价模型性能.语音质量感知(Perceptual Evaluation of Speech Quality,PESQ)[22 ] 评估语音总体感知质量,评分范围为-0.5~4.5.短时客观可理解性(Short⁃Time Objective Intelligibility,STOI)[23 ] 评估语音可懂度,评分范围为0~1.三种基于平均意见得分(Mean Opinion Score,MOS)的测量方法[24 ] 分别是测量语音信号失真的平均意见得分(CSIG)、测量背景噪声干扰的平均意见得分(CBAK)和评估语音整体质量的平均意见得分(COVL),这三种MOS的评分范围都是1~5.五项客观指标的评分都与语音综合质量呈正相关. ...
Evaluation of objective quality measures for speech enhancement
1
2008
... 采用五项客观指标来评价模型性能.语音质量感知(Perceptual Evaluation of Speech Quality,PESQ)[22 ] 评估语音总体感知质量,评分范围为-0.5~4.5.短时客观可理解性(Short⁃Time Objective Intelligibility,STOI)[23 ] 评估语音可懂度,评分范围为0~1.三种基于平均意见得分(Mean Opinion Score,MOS)的测量方法[24 ] 分别是测量语音信号失真的平均意见得分(CSIG)、测量背景噪声干扰的平均意见得分(CBAK)和评估语音整体质量的平均意见得分(COVL),这三种MOS的评分范围都是1~5.五项客观指标的评分都与语音综合质量呈正相关. ...
SEGAN:Speech enhancement generative adversarial network
1
2017
... The enhanced performance comparison between MDAM⁃Net and recent models
Table 3 模型 处理域 PESQ STOI CSIG CBAK COVL 参数(MB) Noisy — 1.97 0.91 3.34 2.44 2.63 SEGAN,2017[25 ] T 2.16 0.93 3.48 2.94 2.80 43.2 Wave⁃U⁃Net,2018[8 ] T 2.40 — 3.52 3.24 2.96 38.1 MMSE⁃GAN,2018[26 ] F 2.53 0.93 3.80 3.12 3.14 — MetricGAN,2019[27 ] F 2.86 — 3.99 3.18 3.42 — PHASEN,2020[28 ] F 2.99 — 4.21 3.55 3.62 — DeepMMSE,2020[29 ] F 2.95 0.94 4.28 3.46 3.64 — DEMUCS,2020[30 ] T 3.07 0.95 4.31 3.40 3.63 130.5 TSTNN,2021[31 ] T 2.96 0.95 4.33 3.53 3.67 3.5 CleanUNet,2022[32 ] T 2.90 0.95 4.33 3.42 3.64 46.1 MANNER,2022[15 ] T 3.21 0.95 4.53 3.65 3.91 24.1 MDAM⁃Net T 3.25 0.95 4.53 3.66 3.93 16.9
由表可见,MDAM⁃Net模型各项评价指标均优于近年的增强模型.其中,Wave⁃U⁃Net,DEMUCS,CleanUNet与MANNER均采用具有跳跃连接的编解码结构.MDAM⁃Net比Wave⁃U⁃Net的PESQ得分提高了0.85.与CleanUNet相比,MDAM⁃Net的PESQ得分提高0.35,CSIG,CBAK,COVL分别提升0.20,0.24,0.29.和DEMUCS,MANNER相比,MDAM⁃Net模型的参数内存量减少了113.6和7.2 MB,同时五项指标得分都得到了提升.以上实验结果证明,MDAM⁃Net通过多维度注意力网络结构可以高效关注干净语音特征,降低网络复杂度. ...
Time?frequency masking?based speech enhancement using generative adversarial network
1
2018
... The enhanced performance comparison between MDAM⁃Net and recent models
Table 3 模型 处理域 PESQ STOI CSIG CBAK COVL 参数(MB) Noisy — 1.97 0.91 3.34 2.44 2.63 SEGAN,2017[25 ] T 2.16 0.93 3.48 2.94 2.80 43.2 Wave⁃U⁃Net,2018[8 ] T 2.40 — 3.52 3.24 2.96 38.1 MMSE⁃GAN,2018[26 ] F 2.53 0.93 3.80 3.12 3.14 — MetricGAN,2019[27 ] F 2.86 — 3.99 3.18 3.42 — PHASEN,2020[28 ] F 2.99 — 4.21 3.55 3.62 — DeepMMSE,2020[29 ] F 2.95 0.94 4.28 3.46 3.64 — DEMUCS,2020[30 ] T 3.07 0.95 4.31 3.40 3.63 130.5 TSTNN,2021[31 ] T 2.96 0.95 4.33 3.53 3.67 3.5 CleanUNet,2022[32 ] T 2.90 0.95 4.33 3.42 3.64 46.1 MANNER,2022[15 ] T 3.21 0.95 4.53 3.65 3.91 24.1 MDAM⁃Net T 3.25 0.95 4.53 3.66 3.93 16.9
由表可见,MDAM⁃Net模型各项评价指标均优于近年的增强模型.其中,Wave⁃U⁃Net,DEMUCS,CleanUNet与MANNER均采用具有跳跃连接的编解码结构.MDAM⁃Net比Wave⁃U⁃Net的PESQ得分提高了0.85.与CleanUNet相比,MDAM⁃Net的PESQ得分提高0.35,CSIG,CBAK,COVL分别提升0.20,0.24,0.29.和DEMUCS,MANNER相比,MDAM⁃Net模型的参数内存量减少了113.6和7.2 MB,同时五项指标得分都得到了提升.以上实验结果证明,MDAM⁃Net通过多维度注意力网络结构可以高效关注干净语音特征,降低网络复杂度. ...
MetricGAN:Generative adversarial networks based black?box metric scores optimization for speech enhancement
1
... The enhanced performance comparison between MDAM⁃Net and recent models
Table 3 模型 处理域 PESQ STOI CSIG CBAK COVL 参数(MB) Noisy — 1.97 0.91 3.34 2.44 2.63 SEGAN,2017[25 ] T 2.16 0.93 3.48 2.94 2.80 43.2 Wave⁃U⁃Net,2018[8 ] T 2.40 — 3.52 3.24 2.96 38.1 MMSE⁃GAN,2018[26 ] F 2.53 0.93 3.80 3.12 3.14 — MetricGAN,2019[27 ] F 2.86 — 3.99 3.18 3.42 — PHASEN,2020[28 ] F 2.99 — 4.21 3.55 3.62 — DeepMMSE,2020[29 ] F 2.95 0.94 4.28 3.46 3.64 — DEMUCS,2020[30 ] T 3.07 0.95 4.31 3.40 3.63 130.5 TSTNN,2021[31 ] T 2.96 0.95 4.33 3.53 3.67 3.5 CleanUNet,2022[32 ] T 2.90 0.95 4.33 3.42 3.64 46.1 MANNER,2022[15 ] T 3.21 0.95 4.53 3.65 3.91 24.1 MDAM⁃Net T 3.25 0.95 4.53 3.66 3.93 16.9
由表可见,MDAM⁃Net模型各项评价指标均优于近年的增强模型.其中,Wave⁃U⁃Net,DEMUCS,CleanUNet与MANNER均采用具有跳跃连接的编解码结构.MDAM⁃Net比Wave⁃U⁃Net的PESQ得分提高了0.85.与CleanUNet相比,MDAM⁃Net的PESQ得分提高0.35,CSIG,CBAK,COVL分别提升0.20,0.24,0.29.和DEMUCS,MANNER相比,MDAM⁃Net模型的参数内存量减少了113.6和7.2 MB,同时五项指标得分都得到了提升.以上实验结果证明,MDAM⁃Net通过多维度注意力网络结构可以高效关注干净语音特征,降低网络复杂度. ...
PHASEN:A phase?and?harmonics?aware speech enhancement network
1
2020
... The enhanced performance comparison between MDAM⁃Net and recent models
Table 3 模型 处理域 PESQ STOI CSIG CBAK COVL 参数(MB) Noisy — 1.97 0.91 3.34 2.44 2.63 SEGAN,2017[25 ] T 2.16 0.93 3.48 2.94 2.80 43.2 Wave⁃U⁃Net,2018[8 ] T 2.40 — 3.52 3.24 2.96 38.1 MMSE⁃GAN,2018[26 ] F 2.53 0.93 3.80 3.12 3.14 — MetricGAN,2019[27 ] F 2.86 — 3.99 3.18 3.42 — PHASEN,2020[28 ] F 2.99 — 4.21 3.55 3.62 — DeepMMSE,2020[29 ] F 2.95 0.94 4.28 3.46 3.64 — DEMUCS,2020[30 ] T 3.07 0.95 4.31 3.40 3.63 130.5 TSTNN,2021[31 ] T 2.96 0.95 4.33 3.53 3.67 3.5 CleanUNet,2022[32 ] T 2.90 0.95 4.33 3.42 3.64 46.1 MANNER,2022[15 ] T 3.21 0.95 4.53 3.65 3.91 24.1 MDAM⁃Net T 3.25 0.95 4.53 3.66 3.93 16.9
由表可见,MDAM⁃Net模型各项评价指标均优于近年的增强模型.其中,Wave⁃U⁃Net,DEMUCS,CleanUNet与MANNER均采用具有跳跃连接的编解码结构.MDAM⁃Net比Wave⁃U⁃Net的PESQ得分提高了0.85.与CleanUNet相比,MDAM⁃Net的PESQ得分提高0.35,CSIG,CBAK,COVL分别提升0.20,0.24,0.29.和DEMUCS,MANNER相比,MDAM⁃Net模型的参数内存量减少了113.6和7.2 MB,同时五项指标得分都得到了提升.以上实验结果证明,MDAM⁃Net通过多维度注意力网络结构可以高效关注干净语音特征,降低网络复杂度. ...
DeepMMSE:A deep learning approach to MMSE?based noise power spectral density estimation
1
2020
... The enhanced performance comparison between MDAM⁃Net and recent models
Table 3 模型 处理域 PESQ STOI CSIG CBAK COVL 参数(MB) Noisy — 1.97 0.91 3.34 2.44 2.63 SEGAN,2017[25 ] T 2.16 0.93 3.48 2.94 2.80 43.2 Wave⁃U⁃Net,2018[8 ] T 2.40 — 3.52 3.24 2.96 38.1 MMSE⁃GAN,2018[26 ] F 2.53 0.93 3.80 3.12 3.14 — MetricGAN,2019[27 ] F 2.86 — 3.99 3.18 3.42 — PHASEN,2020[28 ] F 2.99 — 4.21 3.55 3.62 — DeepMMSE,2020[29 ] F 2.95 0.94 4.28 3.46 3.64 — DEMUCS,2020[30 ] T 3.07 0.95 4.31 3.40 3.63 130.5 TSTNN,2021[31 ] T 2.96 0.95 4.33 3.53 3.67 3.5 CleanUNet,2022[32 ] T 2.90 0.95 4.33 3.42 3.64 46.1 MANNER,2022[15 ] T 3.21 0.95 4.53 3.65 3.91 24.1 MDAM⁃Net T 3.25 0.95 4.53 3.66 3.93 16.9
由表可见,MDAM⁃Net模型各项评价指标均优于近年的增强模型.其中,Wave⁃U⁃Net,DEMUCS,CleanUNet与MANNER均采用具有跳跃连接的编解码结构.MDAM⁃Net比Wave⁃U⁃Net的PESQ得分提高了0.85.与CleanUNet相比,MDAM⁃Net的PESQ得分提高0.35,CSIG,CBAK,COVL分别提升0.20,0.24,0.29.和DEMUCS,MANNER相比,MDAM⁃Net模型的参数内存量减少了113.6和7.2 MB,同时五项指标得分都得到了提升.以上实验结果证明,MDAM⁃Net通过多维度注意力网络结构可以高效关注干净语音特征,降低网络复杂度. ...
Real time speech enhancement in the waveform domain
2
2020
... The enhanced performance comparison between MDAM⁃Net and recent models
Table 3 模型 处理域 PESQ STOI CSIG CBAK COVL 参数(MB) Noisy — 1.97 0.91 3.34 2.44 2.63 SEGAN,2017[25 ] T 2.16 0.93 3.48 2.94 2.80 43.2 Wave⁃U⁃Net,2018[8 ] T 2.40 — 3.52 3.24 2.96 38.1 MMSE⁃GAN,2018[26 ] F 2.53 0.93 3.80 3.12 3.14 — MetricGAN,2019[27 ] F 2.86 — 3.99 3.18 3.42 — PHASEN,2020[28 ] F 2.99 — 4.21 3.55 3.62 — DeepMMSE,2020[29 ] F 2.95 0.94 4.28 3.46 3.64 — DEMUCS,2020[30 ] T 3.07 0.95 4.31 3.40 3.63 130.5 TSTNN,2021[31 ] T 2.96 0.95 4.33 3.53 3.67 3.5 CleanUNet,2022[32 ] T 2.90 0.95 4.33 3.42 3.64 46.1 MANNER,2022[15 ] T 3.21 0.95 4.53 3.65 3.91 24.1 MDAM⁃Net T 3.25 0.95 4.53 3.66 3.93 16.9
由表可见,MDAM⁃Net模型各项评价指标均优于近年的增强模型.其中,Wave⁃U⁃Net,DEMUCS,CleanUNet与MANNER均采用具有跳跃连接的编解码结构.MDAM⁃Net比Wave⁃U⁃Net的PESQ得分提高了0.85.与CleanUNet相比,MDAM⁃Net的PESQ得分提高0.35,CSIG,CBAK,COVL分别提升0.20,0.24,0.29.和DEMUCS,MANNER相比,MDAM⁃Net模型的参数内存量减少了113.6和7.2 MB,同时五项指标得分都得到了提升.以上实验结果证明,MDAM⁃Net通过多维度注意力网络结构可以高效关注干净语音特征,降低网络复杂度. ...
... Performance comparison between different speech enhancement models under low signal⁃to⁃noise ratio
Table 4 Noisy Wave⁃U⁃Net[8 ] DEMUCS[30 ] TU⁃Net[33 ] MDAM⁃Net PESQ STOI PESQ STOI PESQ STOI PESQ STOI PESQ STOI 7.5 dB 2.20 0.90 2.78 0.94 3.08 0.96 3.28 0.96 3.55 0.97 2.5 dB 1.73 0.83 2.43 0.93 2.73 0.92 3.01 0.95 3.03 0.95 -2.5 dB 1.41 0.75 1.99 0.88 2.06 0.89 2.21 0.91 2.56 0.92 -7.5 dB 1.24 0.62 1.61 0.76 1.71 0.82 1.90 0.86 2.18 0.88
图10 a~d是信噪比为-7.5 dB的带噪语音、干净语音、DEMUCS增强语音与MDAM⁃Net增强语音的波形图与语谱图,图中颜色越深表示信号能量越大.由图可见,MDAM⁃Net增强语音和带噪语音的语谱图相比,极大地抑制了背景噪声.从波形图的椭圆形区域可以看出,DEMUCS仍然存在较多的噪声残留,而MDAM⁃Net增强的语音明显优于DEMUCS.从语谱图的椭圆形区域可以看出,DEMUCS增强语音的声纹存在较大破坏,而MDAM⁃Net增强语音的声纹更完整并接近干净语音.综上,MDAM⁃Net能够改善较低信噪比条件下的语音质量. ...
TSTNN:Two?stage transformer based neural network for speech enhancement in the time domain
1
2021
... The enhanced performance comparison between MDAM⁃Net and recent models
Table 3 模型 处理域 PESQ STOI CSIG CBAK COVL 参数(MB) Noisy — 1.97 0.91 3.34 2.44 2.63 SEGAN,2017[25 ] T 2.16 0.93 3.48 2.94 2.80 43.2 Wave⁃U⁃Net,2018[8 ] T 2.40 — 3.52 3.24 2.96 38.1 MMSE⁃GAN,2018[26 ] F 2.53 0.93 3.80 3.12 3.14 — MetricGAN,2019[27 ] F 2.86 — 3.99 3.18 3.42 — PHASEN,2020[28 ] F 2.99 — 4.21 3.55 3.62 — DeepMMSE,2020[29 ] F 2.95 0.94 4.28 3.46 3.64 — DEMUCS,2020[30 ] T 3.07 0.95 4.31 3.40 3.63 130.5 TSTNN,2021[31 ] T 2.96 0.95 4.33 3.53 3.67 3.5 CleanUNet,2022[32 ] T 2.90 0.95 4.33 3.42 3.64 46.1 MANNER,2022[15 ] T 3.21 0.95 4.53 3.65 3.91 24.1 MDAM⁃Net T 3.25 0.95 4.53 3.66 3.93 16.9
由表可见,MDAM⁃Net模型各项评价指标均优于近年的增强模型.其中,Wave⁃U⁃Net,DEMUCS,CleanUNet与MANNER均采用具有跳跃连接的编解码结构.MDAM⁃Net比Wave⁃U⁃Net的PESQ得分提高了0.85.与CleanUNet相比,MDAM⁃Net的PESQ得分提高0.35,CSIG,CBAK,COVL分别提升0.20,0.24,0.29.和DEMUCS,MANNER相比,MDAM⁃Net模型的参数内存量减少了113.6和7.2 MB,同时五项指标得分都得到了提升.以上实验结果证明,MDAM⁃Net通过多维度注意力网络结构可以高效关注干净语音特征,降低网络复杂度. ...
Speech denoising in the waveform domain with self?attention
1
2022
... The enhanced performance comparison between MDAM⁃Net and recent models
Table 3 模型 处理域 PESQ STOI CSIG CBAK COVL 参数(MB) Noisy — 1.97 0.91 3.34 2.44 2.63 SEGAN,2017[25 ] T 2.16 0.93 3.48 2.94 2.80 43.2 Wave⁃U⁃Net,2018[8 ] T 2.40 — 3.52 3.24 2.96 38.1 MMSE⁃GAN,2018[26 ] F 2.53 0.93 3.80 3.12 3.14 — MetricGAN,2019[27 ] F 2.86 — 3.99 3.18 3.42 — PHASEN,2020[28 ] F 2.99 — 4.21 3.55 3.62 — DeepMMSE,2020[29 ] F 2.95 0.94 4.28 3.46 3.64 — DEMUCS,2020[30 ] T 3.07 0.95 4.31 3.40 3.63 130.5 TSTNN,2021[31 ] T 2.96 0.95 4.33 3.53 3.67 3.5 CleanUNet,2022[32 ] T 2.90 0.95 4.33 3.42 3.64 46.1 MANNER,2022[15 ] T 3.21 0.95 4.53 3.65 3.91 24.1 MDAM⁃Net T 3.25 0.95 4.53 3.66 3.93 16.9
由表可见,MDAM⁃Net模型各项评价指标均优于近年的增强模型.其中,Wave⁃U⁃Net,DEMUCS,CleanUNet与MANNER均采用具有跳跃连接的编解码结构.MDAM⁃Net比Wave⁃U⁃Net的PESQ得分提高了0.85.与CleanUNet相比,MDAM⁃Net的PESQ得分提高0.35,CSIG,CBAK,COVL分别提升0.20,0.24,0.29.和DEMUCS,MANNER相比,MDAM⁃Net模型的参数内存量减少了113.6和7.2 MB,同时五项指标得分都得到了提升.以上实验结果证明,MDAM⁃Net通过多维度注意力网络结构可以高效关注干净语音特征,降低网络复杂度. ...
U?net网络中融合多头注意力机制的单通道语音增强
1
2022
... Performance comparison between different speech enhancement models under low signal⁃to⁃noise ratio
Table 4 Noisy Wave⁃U⁃Net[8 ] DEMUCS[30 ] TU⁃Net[33 ] MDAM⁃Net PESQ STOI PESQ STOI PESQ STOI PESQ STOI PESQ STOI 7.5 dB 2.20 0.90 2.78 0.94 3.08 0.96 3.28 0.96 3.55 0.97 2.5 dB 1.73 0.83 2.43 0.93 2.73 0.92 3.01 0.95 3.03 0.95 -2.5 dB 1.41 0.75 1.99 0.88 2.06 0.89 2.21 0.91 2.56 0.92 -7.5 dB 1.24 0.62 1.61 0.76 1.71 0.82 1.90 0.86 2.18 0.88
图10 a~d是信噪比为-7.5 dB的带噪语音、干净语音、DEMUCS增强语音与MDAM⁃Net增强语音的波形图与语谱图,图中颜色越深表示信号能量越大.由图可见,MDAM⁃Net增强语音和带噪语音的语谱图相比,极大地抑制了背景噪声.从波形图的椭圆形区域可以看出,DEMUCS仍然存在较多的噪声残留,而MDAM⁃Net增强的语音明显优于DEMUCS.从语谱图的椭圆形区域可以看出,DEMUCS增强语音的声纹存在较大破坏,而MDAM⁃Net增强语音的声纹更完整并接近干净语音.综上,MDAM⁃Net能够改善较低信噪比条件下的语音质量. ...
Monaural speech enhancement using U?net fused with multi?head self?attention
1
2022
... Performance comparison between different speech enhancement models under low signal⁃to⁃noise ratio
Table 4 Noisy Wave⁃U⁃Net[8 ] DEMUCS[30 ] TU⁃Net[33 ] MDAM⁃Net PESQ STOI PESQ STOI PESQ STOI PESQ STOI PESQ STOI 7.5 dB 2.20 0.90 2.78 0.94 3.08 0.96 3.28 0.96 3.55 0.97 2.5 dB 1.73 0.83 2.43 0.93 2.73 0.92 3.01 0.95 3.03 0.95 -2.5 dB 1.41 0.75 1.99 0.88 2.06 0.89 2.21 0.91 2.56 0.92 -7.5 dB 1.24 0.62 1.61 0.76 1.71 0.82 1.90 0.86 2.18 0.88
图10 a~d是信噪比为-7.5 dB的带噪语音、干净语音、DEMUCS增强语音与MDAM⁃Net增强语音的波形图与语谱图,图中颜色越深表示信号能量越大.由图可见,MDAM⁃Net增强语音和带噪语音的语谱图相比,极大地抑制了背景噪声.从波形图的椭圆形区域可以看出,DEMUCS仍然存在较多的噪声残留,而MDAM⁃Net增强的语音明显优于DEMUCS.从语谱图的椭圆形区域可以看出,DEMUCS增强语音的声纹存在较大破坏,而MDAM⁃Net增强语音的声纹更完整并接近干净语音.综上,MDAM⁃Net能够改善较低信噪比条件下的语音质量. ...