指定输出通道排序的半监督盲源分离算法

图1 VAE网络框架图

Fig.1 The overview of VAE network

假设 $\tilde{S} \in ℂ^{F \times N}$ 表示一段纯净语音训练样本，其中F，N分别代表该样本的总频点数和帧数，该生成模型旨在通过最大化训练数据的似然函数来训练解码器刻画的信号模型 $p_{θ} (\tilde{S}| z_{c}, z_{s})$ ，训练的目标函数如下：

J (θ, ϕ, ψ) = 𝔼_{\tilde{S} \sim p_{c l e a n} (\tilde{S})} [l g \int p_{θ} (\tilde{S} |z_{c}, z_{s}) p (z_{c}) d z_{c}]

(15)

其中，p_clean表示纯净信号的数据集分布； $p (z_{c})$ 选为 $N_{c} (z_{c}| 0, I)$ ，表示隐藏变量的先验分布，I是单位阵；E是期望运算符.由于无法准确得到z_c的真实后验概率密度分布 $p (z_{c}| \tilde{S})$ ，VAE采用变分机制，通过优化式（15）的变分下界来间接优化该目标函数.利用Jenson不等式可以导出该下界函数为^［36］：

\begin{array}{l} Q (θ, ϕ, ψ) ≜ \\ 𝔼_{\tilde{S} \sim p_{c l e a n} (\tilde{S})} \{λ_{r e c} 𝔼_{z_{c} \sim q_{ϕ} (z_{c} |\tilde{S})} [l g p_{θ} (\tilde{S} |z_{c}, z_{s})] - \\ λ_{K L} K L [q_{ϕ} (z_{c} |\tilde{S}) ‖p (z_{c})]\} \end{array}

(16)

其中， $q_{ϕ} (z_{c}| \tilde{S})$ 为内容编码器刻画的z_c的后验概率密度分布.式（16）右侧第一项反映解码器的重构能力，第二项KL $[p‖ q]$ 表示两个概率分布p和q之间的Kullback⁃Leibler（KL）散度，λ_rec和λ_KL分别用于调整信号条件概率密度的期望和KL散度在目标函数中的权重.对于普通VAE， $λ_{r e c} = λ_{K L} = 1$ .当内容编码器生成的后验概率密度分布 $q_{ϕ} (z_{c}| \tilde{S})$ 和真实的后验概率密度分布 $p (z_{c}| \tilde{S})$ 一致时， $Q (θ, ϕ, ψ)$ 与 $J (θ, ϕ, ψ)$ 完全相同.对式（16）涉及的各项分布选取如下形式：

q_{ϕ} (z_{c} |\tilde{S}) = \prod_{d} N_{c} (z_{c} (d) |μ_{ϕ} (d| \tilde{S}), σ_{ϕ}^{2} (d| \tilde{S}))

(17)

p_{θ} (\tilde{S} |z_{c}, z_{s}) = \prod_{f, n} N_{c} (\tilde{s} (f, n) |0, σ_{θ}^{2} (f, n; z_{c}, z_{s}))

(18)

其中，d表示隐藏变量z_c中元素的索引， ${\{μ_{ϕ} (d| \tilde{S})\}}_{d}$ ， ${\{σ_{ϕ}^{2} (d| \tilde{S})\}}_{d}$ 以及 ${\{σ_{θ}^{2} (f, n; z_{c}, z_{s})\}}_{d}$ 分别由内容编码器以及解码器输出.实际网络训练时的目标为最大化式（16）所示的变分下界.

图2展示了本文所用的网络架构图.为了让解码器网络的输出能够尽可能地同时利用话者编码向量z_s以及内容编码向量z_c的信息，该网络对内容编码器隐藏层的输出应用实例归一化以逐层消除内容编码向量z_c中包含的全局信息.由于部分话者信息，如基频、谐频等可以被视作全局信息，因此该归一化方法能够有效减少z_c中话者相关的成分，达到将z_c和z_s解耦的目的.与此同时，对解码器应用的自适应实例归一化方法可以迫使解码器网络仅依据话者编码向量恢复信号的全局信息，进一步避免解码器网络在生成信号的条件概率密度分布时发生退化.

图2

图2 VAE网络架构图

Conv1d及ConvBank括号里的元素分别表示卷积核和步长大小，箭头上方的元素表示输入特征图的长×宽

Fig.2 The architecture of the VAE network

2.2　针对解码器的降噪训练

仿真中发现直接应用上述训练的变分自编码器作为声源模型会使语音分离的结果出现大量的块排序错误，影响算法的分离性能.为此在对VAE进行上述第一阶段训练的基础上，提出第二阶段降噪训练的方案.和式（13）类似，考虑分离算法仅用了解码器的输出，该降噪训练的目标在于提升解码器网络输出纯净语音信号分布的鲁棒性.因此对话者编码器和内容编码器网络的训练在第一阶段由纯净的训练数据完成，降噪训练时仅调整解码器的网络参数，从而针对性地提升解码器的降噪能力.考虑分离过程中经常出现的块排序噪声以及算法中间迭代步骤产生的含噪信号，本文设计了两种加噪方式，具体的数据增强方式在3.1进行了详细的说明.

根据上述分析，第二阶段训练的目标函数可以写成如下的形式：

\begin{array}{l} Q_{I I} (θ; ϕ, ψ) ≜ \\ 𝔼_{\tilde{S} \sim p_{c l e a n} (\tilde{S})} \{𝔼_{z_{c} \sim q_{ϕ} (z_{c} |f (\tilde{S}))} [l g p_{θ} (\tilde{S} |z_{c}, E_{s, ψ} (\tilde{S}))]\} \end{array}

(19)

其中，话者编码向量通过纯净的信号获得，z_c从含噪信号 $f (\tilde{S})$ 经过内容编码器得到的后验分布中采样获得， $f (\cdot)$ 表示对纯净信号加噪的方式.经过第二阶段训练，解码器网络能够在一定程度上抑制特定含噪信号的产生，减轻分离时的块排序问题.

2.3　分离算法流程

应用解码器的输出并引入全局幅度调整因子g_i，各声源满足的局部高斯模型可以重述为如下的形式：

p_{S_{i}} (S_{i}) = \prod_{f, n} N_{c} (s_{i} (f, n) |0, g_{i} σ_{θ}^{2} (f, n; z_{c}^{i}, z_{s}^{i}))

(20)

其中， $z_{c}^{i}, z_{s}^{i}$ 分别表示第i个输出通道信号的内容及话者编码向量.令 $S e n r o l l_{i}$ 表示第i个话者的注册语音，其话者编码向量 $z_{s}^{i}$ 可由 $z_{s}^{i} = E_{s, ψ} (S e n r o l l_{i})$ 得到.该算法通过指定 ${\{z_{s}^{i}\}}_{i}$ 的通道排序控制对应通道的信号输出.

利用IP算法和求导准则^［15］，易得分离矩阵和全局幅度因子的更新公式如下：

V_{i} (f) = \frac{1}{N} \sum_{n} \frac{x (f, n) x^{H} (f, n)}{g_{i} σ_{θ}^{2} (f, n; z_{c}^{i}, z_{s}^{i})}

(21)

w_{i} (f) = {(W (f) V_{i} (f))}^{- 1} e_{i}

(22)

w_{i} (f) = \frac{w_{i} (f)}{\sqrt[]{w_{i}^{H} (f) V_{i} (f) w_{i} (f)}}

(23)

g_{i} = \frac{1}{F N} \sum_{f, n} \frac{{|y_{i} (f, n)|}^{2}}{σ_{θ}^{2} (f, n; z_{c}^{i}, z_{s}^{i})}

(24)

下面给出该算法的处理流程.

算法指定输出通道排序的半监督分离算法

1.利用式(16)所示的目标函数对变分自编码器的网络参数θ，ϕ和ψ进行第一阶段训练.

2.固定内容编码器和话者编码器的网络参数ϕ和ψ，利用式(19)所示的目标函数对解码器的网络参数θ进行第二阶段训练.

3.将各话者的注册信号输入话者编码器网络得到 ${\{z_{s}^{i}\}}_{i}$ ，根据期望的通道输出顺序调整i的排列.

4.对下列步骤进行循环迭代直至算法收敛：

（1）通过反向传播更新 ${\{z_{c}^{i}\}}_{i}$ ；

（2）根据式(24)更新全局幅度调整因子 ${\{g_{i}\}}_{i}$ ；

（3）根据式(21)至式(23)更新所有频点的分离矩阵集合W；

5.应用最小失真准则^[5]并根据式(7)得到分离后的信号.

3 仿真

3.1　训练配置

VAE网络第一阶段的训练使用Librispeech^［37］开源数据集train⁃clean⁃100和train⁃clean⁃360两部分中100位话者的纯净语料，其中选用的男、女性话者的数量分别为45和55.训练数据和验证数据的总时长分别为27 h和2.7 h，分别包含30000段和3000段时长为3.2 s的训练样本.

在第二阶段，通过数据增强的方式单独对解码器网络进行降噪训练，增强的数据包括：（1）带块排序干扰的含噪数据；（2）带语音干扰的混合含噪数据.含噪信号中目标信号和干扰信号均选自上述100位话者的语料集，共生成44 h的训练数据，其中（1）（2）两种含噪语音信号和纯净语音信号的比例为2∶2∶1.两种数据增强方式如下：

（1）从目标信号2 kHz以上的频段中随机选取1~3段子频带，将这些子频带的数据用某一干扰信号的对应频段信号代替，得到人为构造的含有块排序错误的含噪信号.

（2）随机选取一段干扰信号，在时频域将其幅值和目标信号对应时频点的幅值加权相加得到人为构造的混合含噪信号，即：

f (\tilde{S} (f)) = α (f) |\tilde{S'} (f)| + (1 - α (f)) |\tilde{S} (f)|

其中， $\tilde{S'}$ 为干扰信号； $α (f) ∊ (0,1)$ 表示频点f处干扰信号的权重.该权重从随机生成的混合学生t分布曲线上采样获得，并且使目标信号能量在2 kHz以下占主导地位.

上述两种增强方式将2 kHz以下的信号成分作为基准信号，驱使网络依据该低频信息恢复其他频段的目标信号.

在训练时，首先对纯净训练数据进行静音段剪裁以及时域上的均值幅值归一化，之后将信号经过STFT变换后的幅度对数谱作为网络输入特征.信号的采样率为16 kHz，STFT的窗长和帧移分别为64 ms和16 ms，分析窗为汉宁窗.训练使用Adam优化器^［38］，学习率设置为1e^-4.第一阶段训练时设置权重参数λ_rec=10，λ_KL=1，第二阶段训练时应用早停法^［39］使网络在验证集上的效果最优.

3.2　测试配置

本文使用来自MIRD^［40］的实录房间冲激响应（Room Impulse Response，RIR）数据集构造测试所用的混合信号，该数据集包含多种录制场景和传声器⁃声源参数配置.仿真中，选取的房间混响时间RT₆₀为0.160 s以及0.360 s，传声器的间距为8 cm，声源和传声器之间的距离为1 m.仿真考虑两声源两通道的场景，其中两个传声器选为MIRD数据集中的4，5两通道，两声源的波达方向（Direction of Arrival，DOA）间距从90°，105°，110°中随机选择.

该仿真考察了所提算法在训练时已见以及未见话者的测试数据集上的处理效果.对于已见话者的场景，声源信号来自训练时所用的100位话者的其他语料数据；对于未见话者的场景，声源信号来自Librispeech test⁃clean和dev⁃clean两个子数据集中的语料.对于每一种测试数据集，在两种混响时间下，针对男性⁃男性（Male⁃Male）话者、女性⁃女性（Female⁃Female）话者以及男性⁃女性（Male⁃Female）话者三种混合场景分别生成40段不同的混合信号，每段混合信号来自不同的话者对，混合信号的初始信扰比从-5，0，5 dB中均匀选择.对于训练时已见及未见话者的场景，测试时涵盖的男性以及女性话者的数量均为40.

3.3　结果与讨论

仿真针对本文提出的基于实例归一化的多通道变分自编码器算法（Instance Normalization based MVAE，IN⁃MVAE），对其在语音分离以及输出通道排序两个方面的效果进行了详细的测试和评估.对于语音分离效果，采用信号失真比提升量（Signal⁃to⁃Distortion Ratio Improvement，SDRi）、信号干扰比提升量（Signal⁃to⁃Interference Ratio Improvement，SIRi）以及短时客观可懂度（Short⁃Time Objective Intelligibility，STOI）进行评测.其中，SDRi和SIRi由BSS_EVAL工具箱、STOI由pystoi工具箱分别计算得到.对于输出通道排序效果，考察所有测试样本下输出通道的排列顺序符合期望排列顺序的准确率.对于仿真中每一段样本，测试其所有可能的期望排序下算法的分离和排序性能.

首先对训练时已见话者的测试数据进行考察，采用的基线方法为1.3中介绍的MVAE算法.为了保证对比的严谨，MVAE算法网络训练使用的数据和IN⁃MVAE算法第一阶段使用的训练数据相同.值得注意的是，在MVAE算法的官方实践中^［28］，其分离矩阵的初始化使用ILRMA算法^［14］迭代30次之后的结果，而对于本文提出的IN⁃MVAE算法，为了避免初始化带来的通道偏置影响，采用单位阵和反单位阵交替对各个频点分离矩阵进行初始化的方式.为此在对比分离性能时，同时考察了经ILRMA初始化的MVAE算法（记为MVAE⁃I）和用单位阵初始化的MVAE算法（记为MVAE⁃II）的效果.图3和图4分别展示了两种混响场景下各算法的分离性能的评测结果，其中每一种评价指标的得分为各组测试数据两通道结果的平均.可以看出，相比同样使用单位阵初始化的MVAE⁃II算法，IN⁃MVAE算法在各项评价指标上都有很大的提升，并在绝大多数场景下与利用ILRMA算法初始化的MVAE⁃I算法SDRi和SIRi的评分相差小于1 dB，STOI的得分相当.通过观察分离结果还可以发现，MVAE⁃II效果不佳的原因是出现了大量频域间块排序错误，而IN⁃MVAE算法由于对解码器网络进行了降噪训练，在很大程度上规避了该问题的发生，因而在评价指标上的得分更高.图4的结果表明，随着混响时间的增加，IN⁃MVAE算法在和基线方法的对比中仍然维持着稳定的分离性能.

图3

图3 RT₆₀为0.160 s时各算法在已见话者测试数据上的平均SDRi，SIRi以及STOI得分

Fig.3 Averaged SDRi，SIRi and STOI with seen speakers when RT₆₀=0.160 s

图4

图4 RT₆₀为0.360 s时各算法在已见话者测试数据上的平均SDRi，SIRi以及STOI得分

Fig.4 Averaged SDRi，SIRi and STOI with seen speakers when RT₆₀=0.360 s

表1展示了IN⁃MVAE算法与MVAE⁃I算法在通道排序准确度上的性能对比，其中MVAE⁃I算法根据算法收敛后得到的通道判别结果对输出通道的顺序进行重排.结果显示，由于MVAE⁃I算法几乎无法获得有效的判别结果，其排序准确度在绝大多数测试场景下不超过50%.与之相比，IN⁃MVAE算法在已见话者测试数据集上有着稳定和准确的通道排序能力.对于异性别话者组合的情况，在两种测试的混响时间下，其排序准确度均达到100%；对于同性别话者，其在所有测试场景下的排序准确度均不小于95%.

表1 MVAE⁃I算法和IN⁃MVAE算法在已见话者的测试数据集上对输出通道排序的准确率

Table 1 Channel arrangement accuracy for MVAE⁃I and IN⁃MVAE with seen speakers

RT₆₀ (s)	测试场景	MVAE⁃I算法准确率 (%)	IN⁃MVAE算法准确率 (%)
0.160	男性⁃女性	42.50	100.00
0.160	女性⁃女性	38.75	97.50
0.160	男性⁃男性	62.50	100.00
0.360	男性⁃女性	42.50	100.00
0.360	女性⁃女性	50.00	95.00
0.360	男性⁃男性	45.00	96.25

新窗口打开| 下载CSV

其次考察IN⁃MVAE算法在训练时未见话者的混合信号上的分离和排序性能.考虑到MVAE算法受独热编码的限制，无法对训练时未见的话者进行通道判别，因此在排序评测时考察了IN⁃MVAE算法只经过第一阶段训练（记为IN⁃MVAE⁃I）以及同时经过一、二阶段训练（记为IN⁃MVAE⁃II）的性能对比.图5和图6展示了混响时间分别为0.160 s和0.360 s时MVAE⁃I算法和上述两种IN⁃MVAE算法的分离效果.

图5

图5 RT₆₀为0.160 s时各算法在未见话者测试数据上的平均SDRi，SIRi以及STOI得分

Fig.5 Averaged SDRi，SIRi and STOI with unseen speakers when RT₆₀=0.160 s

图6

图6 RT₆₀为0.360 s时各算法在未见话者测试数据上的平均SDRi，SIRi以及STOI得分

Fig.6 Averaged SDRi，SIRi and STOI with unseen speakers when RT₆₀=0.360 s

可以看出，对于异性别话者场景，IN⁃MVAE⁃II的分离性能与MVAE⁃I算法相当；对于同性别话者场景，IN⁃MVAE⁃II与MVAE⁃I算法的SDRi和SIRi指标的差距比已见话者的测试有所扩大，但是对于大多数测试情景，该评分差距仍在1 dB之内.相比IN⁃MVAE⁃II算法，未经降噪训练的IN⁃MVAE⁃I算法在分离性能上有明显的弱化.二者结果的对比证明，通过数据增强的方式对解码器网络进行降噪训练的有效性，该训练提升了IN⁃MVAE⁃II算法的分离性能.

表2展示了经过和没有经过降噪训练的IN⁃MVAE算法在训练时未见话者的测试数据上的对输出通道进行排序的准确率.对于所有场景，在增加降噪训练后，输出通道的排序准确度都有一定的提升.结合表1的结果可知，IN⁃MVAE算法对异性别话者输出通道的排序能力有很高的鲁棒性，而对于同性别话者，排序准确度则会有一定的下降.这可能是由于解码器网络从同性别话者的话者编码向量中得到的全局信息较为相似，因而排序错误的信号不会对算法的代价函数产生较大的惩罚，导致算法收敛到了局部最优.对于未见话者的场景，受限于话者编码器的泛化能力，同性别话者间的通道排序准确度会进一步下降.此外，仿真结果还显示算法在女性⁃女性测试场景下的排序稳定性不如男性⁃男性话者的组合.

表2 IN⁃MVAE⁃I算法和IN⁃MVAE⁃II算法在未见话者的测试数据集上对输出通道排序的准确率

Table 2 Channel arrangement accuracy for IN⁃ MVAE⁃I and IN⁃MVAE⁃II with unseen speakers

RT₆₀ (s)	测试场景	IN⁃MVAE⁃I算法准确率 (%)	IN⁃MVAE⁃II算法准确率 (%)
0.160	男性⁃女性	91.25	100.00
0.160	女性⁃女性	76.25	81.25
0.160	男性⁃男性	83.75	86.25
0.360	男性⁃女性	93.75	100.00
0.360	女性⁃女性	73.75	81.25
0.360	男性⁃男性	82.50	83.75

新窗口打开| 下载CSV

图7展示了在0.36 s的混响场景以及未见话者的测试数据下，话者注册语音的长度对IN⁃MVAE算法排序准确率的影响.从5 s长的注册语音开始，每次增加5 s的注册数据进行测试，直至注册语音的长度为30 s.结果显示在注册语音不小于15 s的情况下，IN⁃MVAE算法在所有场景下均能获得超过80%的输出通道排序准确率.

图7

图7 不同的注册语音长度对IN⁃MVAE算法输出通道排序的准确率的影响

Fig.7 Channel arrangement accuracy of IN⁃MVAE with different enrollment utterance lengths

4 结论

针对频域盲源分离算法的全局排序问题，提出一种能够指定输出通道排列顺序的半监督盲源分离算法.算法以MVAE的算法框架为基础，通过引入基于实例归一化和自适应实例归一化的变分自编码器作为声源模型，解决原始的MVAE算法中可能发生的模型退化问题；为了抑制分离结果中块排序错误的产生，该方法利用人为构造的包含块排序错误和干扰信号的两种含噪数据对解码器网络参数进行第二阶段的降噪训练，提升了算法的分离性能和对输出通道排序的稳定性.最后，实录房间冲激响应数据的仿真结果验证了该算法的分离性能以及其在训练时已见和未见话者数据集上对分离后输出通道排序的有效性.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Rahbar

，Reilly

J P

A frequency domain method for blind source separation of convolutive audio mixtures

IEEE Transactions on Speech and Audio Processing，2005，13(5)：832-844.

[2]

Mitianoudis

，Davies

M E

Audio source separation of convolutive mixtures

IEEE Transactions on Speech and Audio Processing，2003，11(5)：489-497.

[3]

Nion

，Mokios

K N

，Sidiropoulos

N D

，et al.

Batch and adaptive PARAFAC⁃based blind separation of convolutive speech mixtures

IEEE Transactions on Audio，Speech，and Language Processing，2010，

18(6)：1193-1207.

[4]

Kim

，Eltoft

，Lee

T W

Independent vector analysis：an extension of ICA to multivariate components

∥The 6^th International Conference on Independent Component Analysis and Signal Separation. Springer Berlin Heidelberg，2006：165-172.

[5]

Lee

，Kim

，Lee

T W

Independent vector analysis for convolutive blind speech separation

∥Makino S，Sawada H，Lee T W. Blind speech separation. Springer Berlin Heidelberg，2007：169-192.

[6]

Hyvärinen

，Oja

Independent component analysis：algorithms and applications

Neural Networks，2000，13(4-5)：411-430.

[7]

Kang

，Yang

F R

，Yang

A low⁃complexity permutation alignment method for frequency⁃domain blind source separation

Speech Communication，2019(115)：88-94.

[8]

Sawada

，Mukai

，Araki

，et al.

A robust and precise method for solving the permutation problem of frequency⁃domain blind source separation

IEEE Transactions on Speech and Audio Processing，2004，12(5)：530-538.

[9]

Liang

，Chen

，Naqvi

S M R

，et al.

Independent vector analysis with multivariate student's t⁃distribution source prior for speech separation

Electronics Letters，2013，49(16)：1035-1036.

[10]

Kitamura

，Mogami

，Mitsui

，et al.

Generalized independent low⁃rank matrix analysis using heavy⁃tailed distributions for blind source separation

EURASIP Journal on Advances in Signal Processing，2018：28.

[11]

Z Y

，Lu

，Chen

Speech separation using independent vector analysis with an amplitude variable Gaussian mixture model

∥The 20^th Annual Conference of the International Speech Communication Association. Graz，Austria：ISCA，2019：1358-1362.

[12]

Lee

D D

，Seung

H S

Learning the parts of objects by non⁃negative matrix factorization

Nature，1999，401(6755)：788-791.

[13]

Sawada

，Ono

，Kameoka

，et al.

A review of blind source separation methods：Two converging routes to ILRMA originating from ICA and NMF

APSIPA Transactions on Signal and Information Processing，2019(8)：e12.

[14]

Kitamura

，Ono

，Sawada

，et al.

Determined blind source separation unifying independent vector analysis and nonnegative matrix factorization

IEEE/ACM Transactions on Audio，Speech，and Language Processing，2016，24(9)：1626-1641.

[15]

Ono

Stable and fast update rules for independent vector analysis based on auxiliary function technique

∥The 12^th IEEE Workshop on Applications of Signal Processing to Audio and Acoustics. New Paltz，NY，USA：IEEE，2011：189-192.

[本文引用: 3]

[16]

Sekiguchi

，Nugraha

A A

，Bando

，et al.

Fast multichannel source separation based on jointly diagonalizable spatial covariance matrices

∥The 27^th European Signal Processing Conference. A Coruna，Spain：IEEE，2019：1-5.

[17]

Kubo

，Takamune

，Kitamura

，et al.

Efficient full⁃rank spatial covariance estimation using independent low⁃rank matrix analysis for blind source separation

∥The 27^th European Signal Processing Conference. A Coruna，Spain：IEEE，2019：1-5.

[18]

Sekiguchi

，Bando

，Nugraha

A A

，et al.

Fast multichannel nonnegative matrix factorization with directivity⁃aware jointly⁃diagonalizable spatial covariance matrices for blind source separation

IEEE/ACM Transactions on Audio，Speech，and Language Processing，2020(28)：2610-2625.

[19]

Janský

，Málek

，Čmejla

，et al. Adaptive blind audio source extraction supervised by dominant speaker identification using X⁃vectors∥2020 IEEE International Conference on Acoustics，Speech and Signal Processing. Barcelona，Spain：IEEE，2020：676-680.

[20]

Nesta

，Koldovský

. Supervised independent vector analysis through pilot dependent components∥The 42^th IEEE International Conference on Acoustics，Speech and Signal Processing. New Orleans，LA，USA：IEEE，2017：536-540.

[21]

Mitsui

，Takamune

，Kitamura

，et al. Vectorwise coordinate descent algorithm for spatially regularized independent low⁃rank matrix analysis∥2018 IEEE International Conference on Acoustics，Speech and Signal Processing. Calgary，Canada：IEEE，2018：746-750.

[22]

，Koishida

. Geometrically constrained independent vector analysis for directional speech enhancement∥2020 IEEE International Conference on Acoustics，Speech and Signal Processing. Barcelona，Spain：IEEE，2020：846-850.

[23]

Brendel

，Haubner

，Kellermann

A unified probabilistic view on spatially informed source separation and extraction based on independent vector analysis

IEEE Transactions on Signal Processing，2020(68)：3545-3558.

[24]

Žmolíková

，Delcroix

，Kinoshita

，et al.

SpeakerBeam：Speaker aware neural network for target speaker extraction in speech mixtures

IEEE Journal of Selected Topics in Signal Processing，2019，13(4)：800-814.

[25]

G J

，Liang

，Nie

，et al.

Direction⁃aware speaker beam for multi⁃channel speaker extraction

∥The 20^th Annual Conference of the International Speech Communication Association. Graz，Austria：ISCA，2019：2713-2717.

[26]

Delcroix

，Ochiai

，Zmolikova

，et al. Improving speaker discrimination of target speech extraction with time⁃domain speakerbeam∥2020 IEEE International Conference on Acoustics，Speech and Signal Processing. Barcelona，Spain：IEEE，2020：691-695.

[27]

Wang

，Muckenhirn

，Wilson

，et al.

VoiceFilter：Targeted voice separation by speaker⁃conditioned spectrogram masking

2019，arXiv：.

[28]

Kameoka

，Li

，Inoue

，et al.

Supervised determined source separation with multichannel variational autoencoder

Neural Computation，2019，31(9)：1891-1914.

[本文引用: 3]

[29]

Kingma

D P

，Rezende

D J

，Mohamed

，et al.

Semi⁃supervised learning with deep generative models

∥Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge，MA，USA：MIT Press，2014：3581-3589.

[30]

，Kameoka

，Makino

Fast MVAE：joint separation and classification of mixed sources based on multichannel variational autoencoder with auxiliary classifier

∥2019 IEEE International Conference on Acoustics，Speech and Signal Processing. Brighton，UK：IEEE，2019：546-550.

[31]

Y C

，Sekiguchi

，Bando

，et al.

Semi⁃supervised multichannel speech separation based on a phone⁃ and speaker⁃aware deep generative model of speech spectrograms

∥2020 28^th European Signal Processing Conference. Amsterdam，Netherlands：IEEE，2021：870-874.

[32]

Chou

J C

，Yeh

C C

，Lee

H Y

One⁃shot voice conversion by separating speaker and content representations with instance normalization

∥The 20^th Annual Conference of the International Speech Communication Association. Graz，Austria：ISCA，2019：664-668.

[本文引用: 3]

[33]

Ulyanov

，Vedaldi

，Lempitsky

Instance normalization：the missing ingredient for fast stylization

2017,arXiv：.

[34]

Huang

，Belongie

Arbitrary style transfer in real⁃time with adaptive instance normalization

∥2017 International Conference on Computer Vision. Venice，Italy：IEEE，2017：1510-1519.

[35]

Itahashi

，Matsuoka

Stability of independent vector analysis

Signal Processing，2012，92(8)：1809-1820.

[36]

Kingma

D P

，Welling

Auto⁃encoding variational bayes

2013,arXiv：.

[37]

Panayotov

，Chen

G G

，Povey

，et al.

Librispeech：an ASR corpus based on public domain audio books

∥2015 IEEE International Conference on Acoustics，Speech and Signal Processing. South Brisbane，Australia：IEEE，2015：5206-5210.

[38]

Kingma

D P

，Ba

Adam：a method for stochastic optimization

2014,arXiv：.

[39]

Yao

，Rosasco

，Caponnetto

On early stopping in gradient descent learning

Constructive Approximation，2007，26(2)：289-315.

[40]

Hadad

，Heese

，Vary

，et al.

Multichannel audio database in various acoustic environments

∥The 14^th International Workshop on Acoustic Signal Enhancement. Juan⁃les⁃Pins，France：IEEE，2014：313-317.