基于无监督对抗学习的时间序列异常检测

图1 模型的整体框架

Fig.1 The overall workflow of our algorithm

数据预处理之后，将预处理完的时序数据输入训练模块来学习序列的正常模式，SALAD模型包含四个部分：编码器 $e$ 、解码器 $d$ 、原始空间判别器 $𝒟$ 、隐空间判别器 $𝒞$ .首先提出一种全新的缺失值处理方法InT （Imputation in Training），在每一轮的网络迭代训练过程中，使用当前的网络对缺失值进行预测，使用预测值对缺失进行相应的填补，填补完成后继续进行网络训练.编码器将输入的序列编码成隐变量输入解码器，解码器将输入的隐变量重新解码回原始空间.为了使自编码重构过程能够利用可使用的标签信息^｛14】，引入一个全新的损失函数——对比重构损失（ConRec），能够根据标签的比率灵活调整重构参数.同时，为了确保编码器与解码器的重构能够更加稳健，引入原始空间判别器来判别重构样本和原始样本，期望解码器尽可能地解码原始空间中的数据.此外，引入隐空间判别器来判别先验数据分布和编码器编码出的隐变量，确保编码出的隐变量能够尽可能地服从预定义的先验分布，使模型在建模复杂时序时表现出更好的性能.由此，缺失值填补和网络训练交替进行，使缺失值的填补更加可信.

在异常检测阶段，一个经过预处理的样本被传递给异常检测模块来分别计算重构损失和判别损失，组合这两个损失可以获得一个异常分数，这个测试样本的异常分数如果高于某一预设阈值，则该样本被判别为异常样本.网络架构、训练策略和异常检测流程的细节将在下文具体展开.

3 模型

3.1　网络结构

模型的结构如图2所示.首先，经过预处理的滑窗序列通过编码器 $e$ 编码到低维隐空间中，表示为 $\hat{z}$ ；随后，解码器 $d$ 将编码出的隐变量 $\hat{z}$ 重构回原始空间，并输出 $\hat{x}$ .如前所述，在隐空间中通过一个隐空间判别器施加约束，让编码出的隐变量尽可能接近一个先验分布，如高斯分布.此外，重构之后的样本 $\hat{x}$ 同时通过重构损失和原始空间判别器来进行正则化处理.本文的编码器和解码器网络都是通过一维卷积层和全连接层来实现的，原始空间判别器和隐空间判别器通过全连接层的堆叠形成.

图2

图2 模型结构图

Fig.1 The network architecture of our proposed model

3.2　模型训练

定义好网络的结构后，下一步就是模型的训练，所以首先要定义模型的损失函数.目标损失函数包含两部分：原始空间正则化损失和隐空间正则化损失.

3.2.1　原始空间正则化损失

对于原始空间正则化项，传统的重构损失函数是将原始样本和重构之后的样本取范数，如式（2）所示：

ℒ_{r e c} (x) = {‖d (e (x)) - x‖}_{1}

(2)

传统的重构损失无法利用少量的标签信息，而本文提出对比重构损失函数，在函数中增加对于异常标签样本的特定损失部分.对于训练过程中的正常样本，和传统重构损失的思想类似，也是尽可能地减小原始样本和重构样本之间的差异.而对于异常样本，则异常点与正常点之间的差异很大，异常点应该在重构之后尽可能地远离原始的异常点.受Hadsell et al^［15］的启发，将损失函数分成两项来分别处理正常样本和异常样本，对比重构（ConRec）的损失函数定义如下：

\begin{array}{l} ℒ_{c o n} (d, e) = 𝔼_{x ~ p_{d a t a (x)}, y ~ p_{y}} \\ [(1 - y) ℒ_{r e c} (x) + y \cdot m a x \{0, m - ℒ_{r e c} (x)\}] \end{array}

(3)

其中， $y$ 是样本 $x$ 的标签，m是一个阈值，用来控制使异常样本远离正常样本的程度.

在原始空间的正则化项中加入对抗损失：

\begin{array}{l} ℒ_{d a t a} (d, 𝒟, X, Z) = 𝔼_{x ~ p_{d a t a} (x)} [l g 𝒟 (x)] + \\ 𝔼_{z ~ p (z| x)} [l g (1 - 𝒟 (d (z)))] \end{array}

(4)

用来在训练过程中使编码器和解码器重构之后的样本尽可能地还原出原始的正常样本.其中，判别器 $𝒟$ 试着最大化判别损失，而编码器和解码器试着最小化判别损失，二者构成对抗训练.

3.2.2　隐空间正则化损失

同样地，为了使编码出的隐变量在隐空间中尽可能紧凑地服从一个预定义的先验分布，在隐空间判别器中也引入对抗损失，如式（5）所示：

\begin{array}{l} ℒ_{l a t e n t} (e, 𝒞, X, Z) = 𝔼_{z ~ p_{Z} (z)} [l g 𝒞 (z)] + \\ 𝔼_{x ~ p_{d a t a} (x)} [l g (1 - 𝒞 (e (x)))] \end{array}

(5)

其中， $z$ 是从一个预定义的先验分布（如标准正态分布）采样得到的样本，在对抗训练过程中隐空间判别器 $𝒞$ 的目标是尽可能地判别出编码器e编码出的隐变量样本表示和从先验分布中采样的样本.

3.2.3　总体目标函数

定义网络的结构后，下一步就要开始进行模型的训练，所以首先定义模型的损失函数.目标损失函数包含两部分：原始空间正则化损失和隐空间正则化损失.

三个损失函数组成最终的目标损失函数，如式（6）所示：

\begin{array}{l} ℒ_{f u l l} (d, e, 𝒟, 𝒞) = ℒ_{d a t a} (d, 𝒟, X, Z) + λ ℒ_{c o n} (d, e) + \\ ℒ_{l a t e n t} (e, 𝒞, X, Z) \end{array}

(6)

其中， $λ$ 是一个用来适应重构损失的超参数，模型的网络通过对抗学习最小化式（6）来达到优化目标，最终得到最优的编码器和解码器网络，如式（7）所示：

d^{*}, e^{*} = a r g m i n_{d, e} m a x_{𝒟, 𝒞} ℒ_{f u l l} (d, e, 𝒟, 𝒞)

(7)

3.2.4　训练过程中缺失值处理

如果只在数据预处理阶段填充缺失值，会因为缺失值的不准确影响后续训练阶段的效果.为了动态地处理缺失值，提出InT动态缺失值填充方法，SALAD模型可以在训练过程中一直迭代进行缺失值的填充，填充方式如式（8）所示：

x^{'} = (1 - m i s s) \cdot x + m i s s \cdot d (e (x)) \cdot \frac{e p o c h_{c u r r e n t}}{e p o c h_{t o t a l}}

(8)

其中， $e p o c h_{c u r r e n t}$ 表示当前训练过程的迭代轮次， $e p o c h_{t o t a l}$ 表示训练总的迭代轮次， $m i s s$ 表示当前位置 $x$ 的值是否缺少.训练一开始， $\frac{e p o c h_{c u r r e n t}}{e p o c h_{t o t a l}}$ 的值比较小，填充的值相应的也比较小.对应训练初始阶段，编码器和解码器没有很好地训练，填充的值置信度较低；随着训练的进行，模型越发稳健，填充值的置信度也随之升高.

整个模型的训练使用Adam优化器，训练过程如算法1所示.

算法1

$S A L A D (X)$

1.初始化参数 $θ_{e}, θ_{d}, θ_{𝒟}, θ_{𝒞}$

2.for 迭代轮次 epochs do

3. 从数据集中采样一个小批量 $\{x_{1}, x_{2}, \dots, x_{N}\}$

4. 根据式（8），对输入时序进行缺失值处理

5. 生成 $\hat{z} = e (x)$ 和 $\hat{x} = d (\hat{z})$

6. for 判别器迭代轮次 do

7. 根据式（4），计算 $ℒ_{d a t a} w . r . t . θ_{𝒟}$

8. $θ_{𝒟} \leftarrow θ_{𝒟} + η \nabla_{θ_{𝒟}} ℒ_{d a t a}$

9. 根据式（5），计算 $ℒ_{l a t e n t} w . r . t . θ_{𝒞}$

10. $θ_{𝒞} \leftarrow θ_{𝒞} + η \nabla_{θ_{𝒞}} ℒ_{l a t e n t}$

11. end for

12. 根据式（4），计算 $ℒ_{d a t a} w . r . t . θ_{d} a n d θ_{e}$

13. $θ_{e} \leftarrow θ_{e} + η \nabla_{θ_{e}} ℒ_{d a t a}, θ_{d} \leftarrow θ_{d} + η \nabla_{θ_{d}} ℒ_{d a t a}$

14. 根据式（5），计算 $ℒ_{l a t e n t} w . r . t . θ_{e}$

15. $θ_{e} \leftarrow θ_{e} + η \nabla_{θ_{e}} ℒ_{l a t e n t}$

3.3　异常检测

本文框架的最后一个模块是异常检测模块，在模型训练完成之后将测试样本输入模型，计算相应的异常分数并判断是否异常.SALAD模型无法获得待测样本的具体分布，无法计算待测样本的似然来判断是否异常，而是使用重构误差和判别误差相结合的方式来得到异常分数，其中重构损失自编码器重构输入样本之后用来测量输入样本和重构样本之间的距离，因为训练自编码器是用来重构正常模式的，所以如果有一个样本异常，则重构出的样本和原始样本之间的距离会非常大.判别损失可以由原始空间判别器直接得到，所以总体的异常分数 $𝒮$ 定义如下：

𝒮 = {‖x - \hat{x}‖}_{1} + α 𝒟 (\hat{x})

(9)

其中， $α$ 是用来控制异常分数中判别损失的权重超参数.得到 $𝒮$ 就可以设置一个阈值 $φ$ ，当异常分数超过 $φ$ 时便判断为异常，否则判断为正常，如式（10）所示：

𝒜 (x, φ) = \{\begin{array}{l} 0, & 𝒮 < φ \\ 1, & 𝒮 \geq φ \end{array}

(10)

4 实验

4.1　数据集与基线方法

用于模型评估的数据集来自AIPOS竞赛第一阶段的KPI（Key Performance Indicator）数据（http：∥iops.ai/competition detail/？competition id=5&flag=1）和来自Yahoo Lab的用于时序异常检测的基准数据集，其中KPI数据集包含多条KPI曲线，是从多个互联网公司收集的带有完全标注的时序异常检测数据集.选择其中四条KPI用于本文的模型评估，分别将其表示为A，B，C，D.四个数据集的图像如图3所示，相关信息如表1所示.Yahoo数据集包含四组带有全标注的时序数据集，分别为一组真实生产流量数据集A1和其他三组合成数据集A2/A3/A4，数据采样间隔为1 h.为了验证本文模型在实际场景下建模数据分布的能力，用A1验证模型的异常检测性能，将其标识为E，数据集E含有67条实际流量序列，不包含数据缺失值.分别为每一条序列训练一个模型，得到相应的评价指标，最后进行汇总，得到整个数据集的最终评价指标.某些序列由于本身不含异常点，评价指标F1就失去了评价意义，所以在最终汇总时对其进行剔除.

图3

图3 本文所用时间序列数据（红色标注异常，黄色标注缺失）

Fig.3 Visualization of KPI datasets in this study （anomalies in red color and missing points (filled with zeros) in yellow)

表1 数据集相关信息

Table 1 Basic information of the datasets

数据集	A	B	C	D
点总数	17568	240242	295361	17568
缺失点	0	23348	3692	0
缺失率	0%	9.72%	1.25%	0%
异常点	320	9981	1367	209
异常率	1.82%	4.15%	0.46%	1.19%

新窗口打开| 下载CSV

用于评估本文模型的七个基线方法：

IF^［16］：传统的机器学习的异常检测方法.

AEs^［17］：传统的基于自编码器的异常检测方法.

VAEs^［13］：传统的基于变分自编码器的异常检测方法.

AAEs^［11］：基于传统对抗训练的自编码器方法.

Donut^［1］：基于变分自编码器的单变量时序异常检测方法.

MAD⁃GAN^［7］：基于对抗训练的多变量时序异常检测方法.

Beat⁃GAN^［8］：基于对抗训练的心跳异常检测方法.

4.2　评价指标

本文使用的评价指标是基于F1 score定义的.实际应用中，传统的F1 score基于点对点的方式逐点评估，但对于运维人员这种评估方式不准确.经常遇到的一种情况是成段连续的异常点，在这种情况下点对点的F1 score的评估方式很低效.另一种评估方式是在这段连续的异常点上，如果在一定的延迟下检测出任何一个异常点，则整段序列都判断为异常.这种改进的F1 score评估方式由Xu et al^［1］提出并被广泛应用，本文也使用这种评价设置方式.

具体地，对于一段连续的异常点设置一个阈值k，如果这一段上任何一个点被检测为异常，并且检测到的这个点的延迟不超过 $k$ ，则这一段的所有点都被判别为异常，具体评估方式如图4所示.

图4

图4 评价指标可视化

Fig.4 Illustration of the strategy of the adjusted metrics

图4中第一行表示两段连续的异常点，分别用红色框标识，第二行表示模型的实际预测结果.假设评估的阈值 $k = 2$ ，在蓝色框中检测到的异常点的延迟为1，小于设置的阈值，所以整段蓝色框中的点都判断为异常点；黄色框中检测到异常点的延迟为3，大于设置的阈值，所以这一整段都判断为正常点.最终调整之后的异常检测结果显示在第三行中，基于第三行的结果可以得到相应的F1 score.根据前人的实践经验和自己的实验，发现阈值 $k = 7$ 时实验效果最佳.

4.3　实验设置

模型框架的超参数是根据经验选择的.选择滑动窗口 $W$ 的大小为128，因为128是2的倍数，在后面的卷积网络中使用起来会非常方便.设置隐空间的维度 $K = 16$ .最佳的异常阈值 $φ$ 通过在实验中进行最佳阈值搜索得到.ConRec损失函数的两个参数分别设置为 $λ = 1$ ， $m = 1$ .模型训练过程中批量大小设为256，训练150个轮次.优化过程中使用Adam优化器分别对应两个学习率，在编码器和解码器中设置为 $10^{- 3}$ ，在两个判别器中设置为 $10^{- 4}$ .优化迭代使用动态学习率策略，每经过10个轮次，学习率衰减为原来的0.75.为了防止过拟合，在网络中使用L2正则化，正则化系数设置为 $2.5 \times 10^{- 5}$ .

编码器的隐藏层包含一系列卷积组合：一个带有四个卷积核的一维卷积层、一个batch⁃norm层和一个LeakyReLU激活函数.除了隐藏层，编码器还使用全连接层作为网络的输出.与编码器对应，解码器是编码器的对称实现，所有的卷积层都对应替换为反卷积层，全连接层被放置在解码器的开头，将低维的隐变量映射到高维的向量表示.原始空间判别器和隐空间判别器都被简化实现为带有LeakyReLU激活函数的全连接层.

为了在有标签和无标签的情形下评估SALAD的模型效果，在每个数据集中使用三个标签设置，分别是0%，10%和100%的标签.对于0%的标签，在数据集中忽略所有数据的标签信息；对于10%的标签，使用下采样使训练数据只包含10%的标签信息而忽略其他标签.

对于其他的基线方法，训练过程中窗口大小、迭代轮次、批量大小和优化器都采用和SALAD相同的实验设置，并且在异常检测阶段的异常阈值也采用最佳阈值搜索来得到.需要注意的是，IF无需训练，可以直接在测试集上验证IF的模型效果.

4.4　总体评价效果

首先，为了验证本文模型在完全无监督情况下建模复杂时序的能力，在本文模型和所有基线方法上进行实验，实验结果的F1 score如表2所示，表中黑体字表示性能最优.与基线方法相比，SALAD在各种情形下都取得了不错的效果，在全部五个数据集上的F1 score均超过了其他基线方法.其中，B，C数据集包含大量缺失值，说明SALAD在训练数据大量缺失的情况下仍能取得不错的效果，证明其缺失处理模块的有效性；A，D数据集含有明显的周期和噪声特性，SALAD在这两个数据集上的表现证明模型在建模不同数据分布上和抗噪声干扰上的能力；在数据集E上的实验结果则验证了SALAD在公共数据集上强大的建模能力.

表2 本文的SALAD和基线方法在五个数据集上完全无监督情况下的F1 score

Table 2 F1 score of SALAD and baseline models over five datasets with complete unsupervised settings

模型	A	B	C	D	E
SALAD	0.7818	0.9373	0.5611	0.6250	0.8094
IF	0.6167	0.0690	0.2718	0.1250	0.4564
AEs	0.1753	0.0823	0.1825	0.0678	0.6117
VAEs	0.1581	0.0552	0.4802	0.0880	0.5613
AAEs	0.3070	0.3600	0.5387	0.2745	0.3268
MAD⁃GAN	0.3136	0.2391	0.3238	0.1404	0.7467
Beat⁃GAN	0.1679	0.3417	0.1538	0.2440	0.6268
Donut	0.7674	0.4668	0.5333	0.6000	0.7182

新窗口打开| 下载CSV

此外，为了验证SALAD利用先验知识的能力，和同样具有标签处理能力的Donut方法在训练集上设置0%，10%，100%的标签比率进行实验对比，实验结果如表3所示，表中黑体字表示性能最优.在不完全标签（10%）的情况下，可以看到SALAD和Donut的实验效果都随着标签的增加而得到改善，SALAD在A，B，D三个数据集上的实验效果超过了Donut，而在实验效果一般的数据集C上的F1 score比Donut也仅仅低0.05.最后，在完全监督的情况下，SALAD也取得了比Donut更好的实验结果，SALAD的F1 score分别在数据集A，C，D上超出Donut 0.04，0.06和0.11，在数据集B上的F1 score两者接近.在含有部分标签和全部标签的情况下，SALAD的性能均超过Donut，证明了标签处理模块以及ConRec损失函数的有效性.从模型的总体实验结果可以发现，随着可利用标签数量的增加，SALAD模型的实验效果基本都在提升，但也有少量不正常的现象，例如在数据集B，C中标签数量增加为10%（半监督情况）时的模型效果比无监督时的模型效果稍差，在数据集A，D中，完全有监督时的实验效果与半监督时的实验效果相比有所下降.通过分析发现，这可能是由于模型在优化训练过程中，无标签的异常数据引起训练的不稳定，所以模型跳出了局部最优解，得到了更好的实验效果，同样的情况也发生在了Donut^［1］模型中.

表3 本文SALAD和Donut在四个KPI数据集上的F1 score

Table 3 F1 score of SALAD and Donut over four datasets

	A			B			C			D
模型	0%	10%	100%	0%	10%	100%	0%	10%	100%	0%	10%	100%
Donut	0.7674	0.7805	0.8000	0.4668	0.2736	0.9882	0.5333	0.5950	0.5405	0.6000	0.6000	0.6000
Ours	0.7818	0.8533	0.8411	0.9373	0.8553	0.9787	0.5611	0.5424	0.6064	0.6250	0.9656	0.7143

新窗口打开| 下载CSV

可以看出，SALAD在五个数据集上的实验取得了不错的效果，性能基本超过所有基线方法，下面对比分析SALAD与基线方法的实验表现.

IF^［16］孤立森林是经典无监督机器学习算法，假设异常点分布于数据稀疏的区域，无需训练，采用切割的方法可直接将异常点孤立出来.从实验结果看，IF在B，C，D数据集上的表现很差，因为数据集B，C包含大量的缺失值，而数据集D上的异常点分布在复杂的周期型数据上，IF无法应对这些复杂的数据场景.而SALAD通过引入对抗训练和缺失值处理模块，在这些复杂数据上的建模能力大大增强，取得了比IF更好的实验效果.

AEs^［17］和VAEs^［13］都是基于自编码器的深度网络，通过一个编码器和一个解码器完成对数据的重构，进而根据重构误差的大小来进行异常检测.VAEs是著名的基于变分推断的深度生成模型，与普通AEs相比，在隐空间中引入数据分布的概念，通过训练使编码得到的隐变量能够尽可能地服从某一分布.在实验评估阶段使用原始AEs和VAEs进行训练，在测试阶段使用重构损失来检测异常，SALAD在五个数据上的实验结果均超过了AEs和VAEs.而AEs和VAEs在复杂KPI数据集上的实验效果很不理想，这一方面是因为缺少缺失值处理模块，另一方面，由于在编码和解码阶段不施加额外约束，面对复杂数据时很难捕获有效的数据分布，进而导致异常检测的性能明显低于SALAD.

AAEs^［11］是使用对抗训练的自编码器算法，实验中使用AAEs在训练阶段建模正常模式，在测试阶段使用重构误差来判断异常.可以看到，由于在自编码器中引入了对抗约束，AAEs在四个复杂KPI数据集上的实验结果均超过普通AEs和VAEs，说明对抗约束使AAEs具有建模复杂数据分布的能力.同样作为对抗模型，SALAD的实验效果在五个数据集上都超过了AAEs.尽管AAEs在隐变量上引入正则化项来避免过拟合，AAEs与SALAD相比在建模复杂数据上的能力仍有差距，这是因为基于点对点的重构损失使模型趋于输出更平滑的重构样本.所以，隐空间鉴别器和缺失值处理模块的引入使SALAD具有更强的建模能力.

Donut^［1］是一种基于VAE的时序异常检测方法，它使用专门设计的方法，包括M⁃ELBO、缺失数据注入和MCMC （Markov Chain Monte Carlo）缺失值填充方法，可以处理包含缺失值和异常值的时序数据集.对于低缺失率和低异常率的情况（数据集C），SALAD的实验效果和Donut比较接近，因为这两种方法都有处理缺失值和异常值的具体方法.但是，当数据集中的缺失值和异常值比较多（数据集B）并应用了无监督的实验设置时，SALAD的实验效果就大大超过Donut，说明SALAD在面对完全无监督的情况下，建模复杂时序的能力比Donut效果更好.此外，当有少量标签可用时，SALAD在数据集A和D上获得了比Donut更显著的提升.在数据集E上的实验结果证明SALAD在无监督实验设置下，建模一般时序数据的能力超过了Donut.

MAD⁃GAN^［7］和Beat⁃GAN^［8］是近年来有名的基于GAN （Generative Adversarial Networks）网络的异常检测方法，MAD⁃GAN是多变量数据集上的异常检测方法，Beat⁃GAN是心跳异常检测的方法.由于这两个方法的实验设置和模型框架是不同的，无法直接应用于本文的单变量数据集，所以通过调整模型结构和异常检测设置将这两个模型应用到本文的数据集上.除模型结构外，其他实验设置均与其他实验相同.从实验结果可以看到，MAD⁃GAN和Beat⁃GAN在所有数据集上的模型性能均低于SALAD，并且在A，B，C，D四个复杂KPI数据集上的实验结果低于AAEs.一方面，MAD⁃GAN的模型设计主要考虑多变量数据集，无法在单变量上发挥出模型应有的性能；另一方面，Beat⁃GAN在心跳异常检测数据集上的实验设置更多考虑整段的异常心跳，模型在单点的KPI异常检测上的性能差强人意.而SALAD专门设计了针对复杂时序的缺失值处理模块，并通过隐空间对抗网络的引入，在建模复杂时序上更具优势.

4.5　消融实验

本节评估本文提出的两个方法对模型性能的影响：对比重构损失（ConRes）和InT缺失值处理.使用四个KPI数据集进行相应的实验，将不包含这两个方法的SALAD模型标识为原始模型，其他方法组合及实验结果如图5所示（原始模型SALAD、仅使用对比重构损失的SALAD、仅使用InT缺失值处理的SALAD、使用对比重构损失和InT缺失值处理的SALAD）.

图5

图5 消融实验

Fig.5 F1⁃scores of SALAD and its variants

训练缺失值填补（InT Imputation）是设计用来在模型训练过程中填补缺失值的方法.生成对抗网络（Generative Adversarial Nets，GANs）已经展示了强大的时序缺失值填补能力^［18］，在不完整的时序上进行训练，GANs通过其生成能力能够最终输出完整且符合实际的时间序列.MCMC填补方法^［1］在评估阶段进行缺失值的填补，而本文InT方法是在训练阶段通过模型的生成能力对缺失数据进行填补，通过不断迭代训练，模型的数据生成能力趋向稳定，能够生成和原始空间分布相同的数据对缺失值进行填补，为后续SALAD捕获原始空间数据分布和隐空间数据分布奠定基础.本文使用的数据集B和C都含有大量缺失，从最终的实验结果中分析发现：数据集B的缺失无法对SALAD的原始模型造成影响，原始模型在数据集B上通过迭代训练已经可以取得相当高的实验结果，导致InT模块的引入对于实验结果的提升并不明显；但数据集C中大量的数据缺失导致原始模型的泛化能力大大下降，无法捕获真实的数据分布，引入的InT模块通过对缺失值的迭代填充，使实验结果有了显著的提升，证明缺失值处理模块在包含大量缺失值的数据集上的有效性.

对比重构（ConRec）损失的设计是用来利用可获得的有标签异常.在训练数据中，对于可获得的异常点，传统重构方法无法有效利用异常点来捕获正常数据分布，而直接剔除数据中的异常点^［1］也不是一种明智的方法.假设异常点和正常点之间的数据分布具有明显差异，这种差异可以通过最大化异常点和正常点之间的距离进行实现，将这种差异^［15］与重构损失之间进行融合形成新的对比重构损失（ConRec）.SALAD通过在训练阶段引入对比重构损失，有效利用异常样本中的信息，拉大异常数据分布与正常数据分布之间的距离.四个KPI数据集中，数据集A，B，D含有比数据集C更多的异常数据，通过分析实验结果发现，在数据集A，B，D中，SALAD的原始模型通过引入ConRec损失取得比InT方法更显著的效果，这与ConRec能有效利用训练数据中的大量异常点密切相关，验证了ConRec利用异常标签信息的能力.此外，由于数据集C只含有极少量的异常数据，在训练过程中对异常数据不敏感，而在异常数据上施加的损失权重破坏了模型对正常数据分布的捕获能力，导致了模型性能的下降.通过上述实验表明，对比重构损失能够在大部分数据集上实现对异常标签信息的有效利用，能够拉大异常数据分布与正常数据分布之间的距离，实现原始模型性能的提升，验证了其有效性.

5 结论

本文提出一种全新的基于自编码器的时序异常检测方法SALAD，引入对抗学习的思想，在对比重构（ConRec）损失函数和InT缺失值处理方法这两种关键技术的加持下，SALAD能够应对时序异常检测的三个挑战：处理复杂数据分布、解决时序缺失值以及有效利用先验信息.通过大量的实验和推导，充分证明了本文方法的有效性，在公开数据集上的实验证明SALAD比其他基线方法具有更好的异常检测性能.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

H W

，Chen

W X

，Zhao

N W

，et al.

Unsupervised anomaly detection via variational auto⁃encoder for seasonal kpis in web applications

∥Proceedings of 2018 World Wide Web Conference. Lyon，France：International World Wide Web Conferences Steering Committee，2018：187-196.

[本文引用: 8]

[2]

Braei

，Wagner

Anomaly detection in univariate time⁃series：A survey on the state⁃of⁃the⁃art

2020，arXiv：.

[3]

Kieu

，Yang

，Guo

C J

，et al.

Outlier detection for time series with recurrent autoencoder ensembles

∥Proceedings of the 28th International Joint Conference on Artificial Intelligence. Macao，China：AAAI，2019：2725-2732.

[4]

Zhang

C X

，Song

D J

，Chen

Y C

，et al.

A deep neural network for unsupervised anomaly detection and diagnosis in multivariate time series data

Proceedings of the AAAI Conference on Artificial Intelligence，2019，33(1)：1409-1416.

[5]

，Cho

Variational autoencoder based anomaly detection using reconstruction probability

Special Lecture on IE，2015(2)：1-18.

[6]

Zenati

，Romain

，Foo

C S

，et al.

Adversarially learned anomaly detection

∥2018 IEEE International Conference on Data Mining. Singapore：IEEE，2018：727-736.

[7]

，Chen

D C

，Jin

B H

，et al.

MAD⁃GAN：Multivariate anomaly detection for time series data with generative adversarial networks

∥The 28th International Conference on Artificial Neural Networks. Munich，Germany：Springer，2019：703-716.

[8]

Zhou

，Liu

S H

，Hooi

，et al.

BeatGAN：Anomalous rhythm detection using adversarially generated time series

∥Proceedings of the 28th International Joint Conference on Artificial Intelligence. Macao，China：AAAI，2019：4433-4439.

[9]

Ruff

，Vandermeulen

R A

，Görnitz

，et al.

Deep one⁃class classification

∥Proceedings of the 35th International Conference on Machine Learning. Stockholm，Sweden：PMLR，2018：4393-4402.

[10]

Ruff

，Vandermeulen

R A

，Görnitz

，et al.

Deep semi⁃supervised anomaly detection

∥International Conference on Learning Representations.Addis Ababa，Ethiopia：OpenReview.net,https:∥openreview.net/forum?id=HkgH0TEYwH，2020.

[11]

Makhzani

，Shlens

，Jaitly

，et al.

Adversarial autoencoders

2016，arXiv:.

[12]

Pidhorskyi

，Almohsen

，Adjeroh

D A

，et al.

Generative probabilistic novelty detection with adversarial autoencoders

2018，arXiv:.

[13]

Kingma

D P

，Welling

Auto⁃encoding variational bayes

2014，arXiv:.

[14]

Pang

G S

，Shen

C H

，van den Hengel

Deep anomaly detection with deviation networks

2019，arXiv：.

[15]

Hadsell

，Chopra

，LeCun

Dimensionality reduction by learning an invariant mapping

∥2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York，NY，USA：IEEE，2006：1735-1742.

[本文引用: 2]

[16]

Liu

F T

，Ting

K M

，Zhou

Z H

Isolation⁃based anomaly detection

ACM Transactions on Knowledge Discovery from Data，2012，6(1)：1-39.

[本文引用: 2]

[17]

Rumelhart

D E

，Hinton

G E

，Williams

R J

. Learning internal representations by error propagation. Cambridge，MA，USA：MIT Press，1986，318-362.

[本文引用: 2]

[18]

Luo

Y H

，Zhang

，Cai

X R

，et al.

E²GAN：End⁃to⁃end generative adversarial network for multivariate time series imputation

∥Proceedings of the 28th International Joint Conference on Artificial Intelligence. Macao，China：AAAI，2019：3094-3100.