基于生成式对抗网络的自监督多元时间序列异常检测方法

doi:10.13232/j.cnki.jnju.2023.02.008

基于生成式对抗网络的自监督多元时间序列异常检测方法

周业瀚¹^,², 沈子钰¹^,², 周清¹^,², 李云^,¹^,²

1.南京邮电大学计算机学院，南京，210023

2.江苏省大数据安全与智能处理重点实验室，南京，210023

Self⁃supervised multivariate time series anomaly detection based on GAN

Zhou Yehan¹^,², Shen Ziyu¹^,², Zhou Qing¹^,², Li Yun^,¹^,²

1.College of Computer Science, Nanjing University of Posts and Telecommunications, Nanjing, 210023, China

2.Jiangsu Key Laboratory of Big Data Security & Intelligent Processing, Nanjing, 210023, China

通讯作者: E⁃mail：liyun@njupt.edu.cn

收稿日期: 2022-07-18

基金资助:

江苏省研究生科研创新计划. KYCX_0760

Received: 2022-07-18

摘要

异常检测是数据挖掘的重要研究方向之一.工业设备的各项指标以多元时间序列的形式被传感器监测，多元时间序列的异常检测对保障安全和提高服务质量至关重要，但是异常的定义相对模糊，具有异常标签的数据很稀少.此外，多元时间序列具有复杂的时间依赖性和随机性，使异常检测存在许多问题.提出CPCGAN模型，使用自监督学习的方法对多元时序数据进行异常检测.首先使用对比学习的方法得到多元时序数据的表示向量，再将具有先验信息的表示向量作为输入用来训练生成式对抗网络，通过生成式对抗网络的重构误差来确定异常.在五个数据集上与五种无监督异常检测方法进行对比，实验结果证明提出的方法能有效地检测两类异常，并且，在大多数数据集上的表现更好.

关键词： 异常检测 ; 多元时间序列 ; 自监督学习 ; 对比学习 ; 生成式对抗网络

Abstract

Anomaly detection is one of the important research directions of data mining. The indicators of industrial devices are monitored by sensors in the form of multivariate time series. Anomaly detection of multivariate time series is critical for security and improving service quality. However，the definition of anomalies is relatively vague and the data with anomalous labels is rare. Also，multivariate time series have complex time dependence and stochasticity which makes anomaly detection many issues to be settled. In this paper，we propose CPCGAN，a self⁃supervised learning method，to perform anomaly detection on multivariate time series data. Our main idea is to obtain the representation vector of multivariate time series data by using the contrastive learning method. We use the representation vector with prior information as input when training the generative adversarial network. The reconstruction error of the generative adversarial network is used to determine anomalies. We compare our method with five unsupervised anomaly detection methods on five datasets. Experimental results show that our method is effective at detecting both types of anomalies and performs better on most datasets compared with other methods.

Keywords： anomaly detection ; multivariate time series ; self⁃supervised learning ; contrastive learning ; Generative Adversarial Network

PDF (515KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

周业瀚, 沈子钰, 周清, 李云. 基于生成式对抗网络的自监督多元时间序列异常检测方法. 南京大学学报（自然科学）[J], 2023, 59(2): 256-262 doi:10.13232/j.cnki.jnju.2023.02.008

Zhou Yehan, Shen Ziyu, Zhou Qing, Li Yun. Self⁃supervised multivariate time series anomaly detection based on GAN. Journal of nanjing University[J], 2023, 59(2): 256-262 doi:10.13232/j.cnki.jnju.2023.02.008

异常检测是时间序列分析中的重要研究方向之一，旨在发掘时间序列中某一时间点或时间段的异常.传感器采集的多元时间序列数据充分反映了系统的运行状态，所以对采集的多元时间序列数据异常的检测可以及时察觉系统的非正常行为，对已发生的故障进行定位和分析，具有重要的现实意义.异常检测有广泛的应用，例如网络流量异常检测、心电图分析^［1］、信用卡欺诈检测^［2］和数据中心的监测等.时间序列异常分两种：点异常和段异常.在某个时间点数据达到一个不正常的值，称为点异常；段异常是指在一个连续时间序列段中，虽然有许多时间点的数据是正常的，但整体时序数据段存在异常.

许多基于阈值选择的统计学方法对数据点进行假设检验，以此来检测异常点，但这些方法无法处理复杂的多元时序数据，并且这些方法的统计特征经常是未知的或者变动性很大.

由于对多元时序数据集进行专家标记的成本很高，因此含有异常标签的数据集很稀少，很多研究开始使用无监督的机器学习方法来解决异常检测问题.常见的方法是将时间序列划分为定长的子序列，使用聚类方法来找到离群点；或通过建模来预测或重构时间序列，计算预测值或重构值与真实值的误差，将过高的预测误差与重构误差作为检测异常的依据.但还有些问题没有很好地解决，例如，在时间序列具有时间依赖性和随机性的前提下如何学习健壮的特征表示、没有比较好的方法对不同类型的异常进行检测等.

本文的主要贡献：

（1）提出一种基于自监督学习的异常检测模型CPCGAN，通过重构多元时序数据，分析与原始数据的误差来判断是否存在异常.

（2）针对多元时序数据缺少异常值标签的情况，将基于自监督的对比学习方法用于时序数据的预训练，提取具有鲁棒性的数据表示.

1 相关工作

传统的异常检测方法是基于统计过程控制（Statistical Process Control）的，如CUSUM，EWMA和萧华特管制图^［3］等，然而，使用统计量来寻找异常点的做法难以处理多元时间序列这种复杂的数据.随着数据量的快速增加，许多基于机器学习的研究相继展开，由于带有异常值标签的时序数据很难得到，人工打标签成本高昂，因此无监督学习的异常检测方法吸引了很多学者.

当前，无监督机器学习异常检测主要分为基于预测的方法和基于重构的方法.Hundman et al^［4］使用LSTM （Long Short⁃Term Memory）^［5］对多元时序数据进行预测，针对预测误差进行异常检测.Li et al^［6］使用原始GAN （Generative Adversarial Networks）模型拟合多元时序数据分布，通过重构时序数据误差和判别器来检测异常.Geiger et al^［7］提出TadGAN模型，通过训练生成器来重构时序数据，并使用评价器来计算异常得分.Su et al^［8］使用变分自动编码器和平面标准化流来学习多元时序数据的鲁棒性表征，并重构数据概率分布来进行异常检测.

本文提出基于自监督学习的GAN模型，将异常检测分为两阶段：在预训练阶段，使用对比学习的方法对多元时序数据进行表示学习；使用预训练模型输出的具有先验信息的表示向量作为GAN的输入来进行训练，使用重构误差来检测异常数据.这样的训练方法首先解决了数据标签难以获取的问题，其次，可以通过微调模型在不同目标任务上获得更好的效果.

2 多元时序数据的表示学习

2.1　多元时间序列定义

多元时间序列可以定义为 $X = \{x_{1}, x_{2}, \dots, x_{N}\}$ ，其中N为时间序列长度， $x_{t} \in ℝ^{M}$ 为 $t (t \leq N)$ 时间点的一个M维变量. $x_{t} = [x_{t}^{1}, x_{t}^{2}, \dots, x_{t}^{M}]$ ，因此多元时间序列 $X \in$

$ℝ^{M \times N}$ 可以看作是由M个互相关联的一维时间序列组成.

2.2　对多元时序数据进行对比预测编码

对比预测编码^［9］可以对高维度的数据进行特征提取，是自监督学习中的一个通用方法，而针对时序数据，需要考虑其时间依赖性等特点.对比预测编码的总体结构如图1所示.

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 对比预测编码

Fig.1 Contrastive predicting coding

首先，一段多元时序数据 $x_{t - n : t + m} (n, m > 0)$ 通过非线性编码器 $g_{e n c}$ 被映射为潜在表示 $Z = g_{e n c} (X)$ .考虑时序数据的时间依赖性，选定时间点t，将t时刻及之前的潜在向量 $z_{\leq t}$ 作为输入，将其输入自回归模型 $g_{a r}$ ，产生一个具有t时刻之前时间点信息的潜在表示 $c_{t} = g_{a r} (z_{\leq t})$ .为了使得到的表示变量 Z 具有上下文信息，需要考虑未来第k个时间点的数据，使 $c_{t}$ 与 $x_{t + k}$ 之间的互信息 $I (x; c) = \sum_{x, c} p (x, c) l g \frac{p (x| c)}{p (x)}$ 最大化.此时令 $f_{k} (x_{t + k}, c_{t}) \propto \frac{p (x_{t + k}| c_{t})}{p (x_{t + k})}$ .由于难以直接对高维数据 $x_{t_{k}}$ 的概率分布建模，因此使用自动编码器和双线性模型来计算 $f_{k} (x_{t + k}, c_{t}) = e x p (z_{t + k} W_{k}^{T} c_{t})$ .其中， $W_{k}^{T} c_{t}$ 表示未来第k步时对 $c_{t}$ 的线性变换，将c变换成与z相同的维度.

使用噪声对比估计（Noise Contrastive Estimation，NCE）^［10-12］和重要性采样^［13］来比较目标值和随机采样得到的负值，训练编码器 $g_{e n c}$ 和自回归模型 $g_{a r}$ 来优化基于NCE的InfoNCE^［9］损失.定义损失为：

L_{N} = - E_{X} [l g \frac{f_{k} (x_{t + k}, c_{t})}{\sum_{x_{j} \in X} f_{k} (x_{j}, c_{t})}]

定义一个批量的N个时序数据 $X_{b a t c h} = [X^{(1)},$

$X^{(2)}, \dots, X^{(N)}]$ ，随机选择一个时间点t，对其中某一条时序数据 $X^{(i)} = \{x_{1}, x_{2}, \dots, x_{N}\}$ 进行编码后得到的 $c_{t}$ ，这条数据t时刻后k个时间点的数据 $x_{t + k}$ 符合概率分布 $p (x_{t + k}, c_{t})$ ，与 $c_{t}$ 关联度高，将其作为正样本.同一批量剩余的N-1条数据t时刻后k个时间点的数据服从概率分布 $p (x_{t + k})$ ，与 $c_{t}$ 关联度低，将其作为负样本.

3 生成式对抗网络(GAN)

GAN通过对抗过程训练生成模型的架构^［14］，架构包括两部分：一个生成器G学习真实数据分布，并模拟真实数据来生成可以欺骗判别器的假样本；一个判别器D判别当前数据的真伪，并输出当前为真实数据的概率.两个模型同时进行训练，其结构如图2所示.

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 生成式对抗网络(GAN)

Fig.2 Generative Adversarial Network (GAN)

普通的GAN模型会遭遇模式坍塌的问题.模式坍塌指生成器始终生成固定少量种类的、甚至是同样的假样本，这些样本可以很好地欺骗判别器，结果是无论模型输入什么，判别器都不能促进生成器学习到有用的变量信息，生成器始终无法学习到样本的真实分布.

在拟合数据分布时，WGAN^［15］通过将KL散度或JS散度替换为Wasserstein距离来解决模式坍塌的问题.KL散度和JS散度衡量两个概率分布之间的相似程度，而Wasserstein距离衡量的是将该分布的函数图形调整为待拟合的分布时产生的最低消耗.GAN模型的Wasserstein距离损失定义为：

W (P_{r}, P_{q}) = \underset{{|f|}_{L} \leq 1}{s u p} E_{x ~ P_{r}} [f (x)] - E_{x ~ P_{q}} [f (x)]

其中， $P_{r}$ 是真实样本分布， $P_{θ}$ 是生成器产生的样本分布.最小上界覆盖所有的K⁃lipschitz函数，这里将K设为1，因此总体优化目标为：

\underset{w \in W}{m a x} E_{x ~ P_{r}} [f_{w} (x)] - E_{x ~ P_{q}} [f_{w} (g_{q} (z))]

其中， $f (x)$ 为生成器， $g (x)$ 为判别器.判别器损失为 $E_{x ~ P_{r}} [f_{w} (x)] - E_{x ~ P_{q}} [f_{w} (x)]$ ，生成器损失为 $- E_{x ~ P_{q}} [f_{w} (g_{q} (z))]$ .

GAN模型的输入为随机高斯噪声z，通过对z的编码和对抗训练来使生成器生成近似真实样本的假样本.本研究为了避免模式坍塌问题，选择WGAN模型，将上游模型输出的具有先验信息的表示向量作为GAN模型的输入，这样不仅可以有效地包含时序数据的时序特征和上下文信息，而且在训练时可以加速模型收敛.

4 模型结构与异常检测算法

4.1　模型总体结构

模型的总体结构如图3所示.模型分两部分：第一部分是基于对比学习提取时序特征；第二部分是训练生成式对抗网络，计算异常得分.

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 CPCGAN的总体结构

Fig.3 The overall structure of CPCGAN

4.2　多元时间序列异常检测算法

设置一个长度为W的滑动窗口，按步长为1滑动取值，将原始数据集 $X_{1 : N} = \{x_{1}, x_{2}, \dots, x_{N}\}, x_{t} \in ℝ^{M}$ 划分为 $N - W + 1$ 个长度为W的时间序列子数据段 $\{x_{1 : w}, x_{2 : w + 1}, \dots, x_{N - W + 1 : N}\}$ ，记为 $X = \{X^{(1)}, X^{(2)},$

$\dots, X^{(N - W + 1)}\}, X^{(t)} \in ℝ^{M \times W}$ .将滑动取值后的数据段作为算法的输入.

通过自监督方法预训练对比预测编码模型.将原始多元时序数据 $x_{m : m + w}$ 通过编码器变换为隐空间表示向量 $z_{m : m + w}$ .选取一个随机时间点 $t \in (m, m + w)$ ，将 $z_{m : m + w}$ 作为输入，使用自回归模型，计算包含时间依赖性特征的上下文向量 $c_{t}$ ，然后计算InfoNCE损失，更新模型参数.具体如算法1所示.

算法1 对比预测编码预训练

输入：时间序列子数据段

X = \{X^{(1)}, X^{(2)}, \dots, X^{(N - W + 1)}\}

，

b a t c h = n

，

预测步长 $t i m e_s t e p s = K$ ；

输出：训练完成的对比预测编码模型

C o n t r a s t i v e P r e d i c t i n g C o d i n g ()

1.While θ has not converged do

2. Sample ${\{X^{(i)}\}}_{i = 1}^{m}$ a batch from input data

3. $Z = g_{e n c} (X)$

4. Choose a random time step t

5. $C_{t} = g_{a r} (Z_{1 : t})$

6. $I n f o N C E L o s s (z_{t : t + k}, c_{t}) = - E [l g \frac{f_{k} (z_{t + k}, c_{t})}{\sum_{J} f_{k} (z_{j}, c_{t})}]$

7. $f_{θ} \leftarrow - \nabla_{θ} \frac{1}{m} \overset{m}{\sum_{i = 1}} I n f o N C E L o s s (Z^{(i)}, C^{(i)})$

8. $θ \leftarrow θ - α \cdot A d a m (θ, f_{θ})$

9.end while

将对比预测编码输出的表示向量作为下游任务的输入来训练GAN模型，得到输入序列的重构误差序列 $\{a_{s e q}^{(i)}, i = 1,2, \dots, W\}$ ，将其作为得分.具体如算法2所示.

算法2 多元时序数据异常检测算法

输入：时间序列子数据段

X = \{X^{(1)}, X^{(2)}, \dots, X^{(N - W + 1)}\}

判别器训练次数 $n_{c r i t i c}$ ，参数截断常数c；

输出：重构误差序列 $A s c o r e = \{a_{s e q}^{(i)}, i = 1,2, \dots, W\}$

1.While θ has not converged do

2. for $t = 0, \dots, n_{c r i t i c}$ do

3. Sample ${\{X^{(i)}\}}_{i = 1}^{m} ~ P_{r}$ a batch from the real data.

4. $Z = C o n t r a s t i v e P r e d i c t i n g C o d i n g (X)$

5. $g_{w} \leftarrow [\nabla_{w} \frac{1}{m} \sum_{i = 1}^{m} f_{w} (x^{(i)}) - \frac{1}{m} \sum_{i = 1}^{m} f_{w} (g_{q} (z^{(i)}))]$

6. $w \leftarrow w + α \cdot R M S P r o p (w, g_{w})$

7. $w \leftarrow c l i p (w, - c, c)$

8. end for

9. $g_{q} \leftarrow - \nabla_{q} \frac{1}{m} \sum_{i = 1}^{m} f_{w} (g_{q} (z^{(i)}))$

10. $θ \leftarrow θ - α \cdot R M S P r o p (θ, g_{θ})$

11.end while

12. $X = {\{X^{(i)}\}}_{i = 1}^{m}$

13.for $i = 0, \dots, m$ do

14. ${\tilde{X}}^{(i)} = g (X^{(i)})$

15. $A s c o r e = C o n s t r a c t i v e E r r o r (X^{(i)}, {\tilde{X}}^{(i)})$

16.end for

5 实验及结果

5.1　实验数据集

使用五个公开数据集作为实验数据，数据集的概况描述如表1所示.

表1 实验使用的数据集

Table 1 Datasets used in experiments

数据集	训练集样本数	测试集样本数	时序数据维度	异常点占比
SWaT	496800	449919	51	11.98%
WADI	1048571	172801	123	5.99%
SMD	708405	708420	28×38	4.16%
SMAP	135183	427617	55×25	13.13%
MSL	58317	73729	27×55	10.72%

新窗口打开| 下载CSV

安全水处理（SWaT）数据集是生产过滤水的真实工业水处理厂数据的缩小版本，包括连续运行11天采集的数据^［16］，其中正常操作下采集七天，系统异常场景下采集四天.

水分配（WADI）数据集是从WADI测试平台收集的，WADI测试平台是SWaT tesbed的扩展^［16］，包括16天连续运行的数据，其中正常操作下采集14天，系统异常场景下采集两天.

服务器数据集（SMD）是一个持续时长为五周的由一家大型互联网公司收集并公开^［8］的数据集，包含28台服务器的数据，每台服务器反映运行状态的33个监测指标都受到监控.SMD分为两个大小相等的子集，前半部分是训练集，后半部分是测试集.

土壤水分观测数据集（SMAP）、卫星和火星科学实验室（MSL）火星车数据集是两个现实世界的公共数据集^［4］，由NASA专家标注数据标签，分别包含55/27个实体的数据，每个实体含有25/55个监测指标.

5.2　评价指标

选择精确度（Precision，P）、召回率（Recall，R）和F1得分来评估异常检测的效果：

P = \frac{T P}{T P + F P}

R = \frac{T P}{T P + F N}

F 1 = 2 \times \frac{P \times R}{P + R}

其中，TP表示真正例，FP表示假正例，FN表示假负例.

训练集采用不含异常点的正常数据进行自监督学习；由于需要对比算法效果，验证集采用含有异常点标签的测试集.由于测试集的标签体现的是某个时间点是否异常，因此在判断段异常的场景下要对测试集标签进行一定的改动，若输入序列中异常点个数占比超过某个阈值，则将这个时间段标签设为异常.

首先对输入的时序数据 $X_{t : T} = \{x_{t}, x_{t + 1}, \dots, x_{T}\}$ 进行重构，计算每个点的重构误差作为异常点得分 $\{a_{s e q}^{i}, i = 1,2, \dots, T - t + 1\}$ ；然后，计算重构误差序列的 Z 分数，偏离序列平均值2.5个标准差的数据作为异常点.对于段异常检测，需要考虑输入的整段时间序列是否异常，设定默认阈值为0.2，若输入序列中异常点个数占比超过阈值，则认为是段异常.

5.3　实验结果

设置一个长度为 $w = 20$ 的滑动窗口，按步长为1来滑动取值，将原始数据集 $X_{1 : N} =$

$\{x_{1}, x_{2}, \dots, x_{N}\}, x_{t} \in ℝ^{M}$ 划分为 $N - W + 1$ 个时序数据段 $x_{1 : w}, x_{2 : w + 1}, \dots, x_{N - W + 1 : N}$ ，将滑动取值后的数据段作为算法的输入.

模型中的编码器 $g_{e n c}$ 选用多层线性模型与卷积神经网络的混合模型，本文使用网格搜索法对超参数进行选择，最终设置隐空间变量z维度为36.自回归模型 $g_{a r}$ 采用双层GRU^［17］模型，GAN使用双层LSTM模型，其中判别器更新次数为 $n_{c r i t i c} = 5$ ， $b a t c h = 64$ ，学习率 $α = 0.00005$ .

为了验证CPCGAN对异常点检测的总体表现，选取五种无监督异常检测方法进行多元时序数据异常检测，分别是Autoencoders （AE），MAD⁃GAN^［6］，LSTM⁃VAE^［18］，DAGMM^［19］和TadGAN^［7］.各算法在所选数据集上的具体表现如表2所示，表中黑体字表示结果最优.

表2 CPCGAN与其他五种对比方法异常点检测的评价指标情况

Table 2 Performanceof CPCGAN and five baseline approaches on anomalous points detection

	SWaT			WADI			SMD			SMAP			MSL
	P	R	F1	P	R	F1	P	R	F1	P	R	F1	P	R	F1
CPCGAN	0.9815	0.661	0.7899	0.991	0.1316	0.2323	0.9511	0.9484	0.9497	0.7581	0.9822	0.8557	0.882	0.9686	0.9232
AE	0.9324	0.5734	0.7101	0.3074	0.179	0.2262	0.5684	0.7894	0.6609	0.5633	0.6223	0.5915	0.571	0.6641	0.614
MAD⁃GAN	0.9585	0.6166	0.7504	0.9842	0.1351	0.2375	0.8722	0.8075	0.8386	0.7106	0.9521	0.8138	0.8457	0.9546	0.8968
LSTM⁃VAE	0.9655	0.6218	0.7564	0.9845	0.1334	0.2349	0.8592	0.8012	0.8291	0.7056	0.9752	0.8187	0.8601	0.9663	0.9101
DAGMM	0.4576	0.671	0.5441	0.0851	0.9117	0.1556	0.6573	0.8549	0.7431	0.6234	0.9776	0.7613	0.7467	0.9817	0.8482
TadGAN	0.9525	0.6481	0.7713	0.9561	0.1246	0.2204	0.9141	0.9362	0.925	0.7413	0.9867	0.8465	0.9052	0.8932	0.8991

新窗口打开| 下载CSV

由于在建模时考虑了时序数据的时间依赖性，MAD⁃GAN，LSTM⁃VAE，TadGAN和CPCGAN模型在分类精确度和F1得分上比较有优势.五个数据集中，CPCGAN在四个数据集上的精确度都是最高，F1得分在其中四个数据集上也是最高.

对CPC自监督学习模块进行消融实验，将其替换为一般的LSTM模型，使用CPCGAN模型在相同数据集上进行自监督学习模块的有效性验证.去除自监督模块的算法在所选数据集上的表现如表3所示，表中黑体字表示结果最优，“with”表示模型包含CPC模块，“without”表示去掉CPC模块.由表可见，在所选的五个数据集上，将对比自监督模块去除后，模型的性能指标有明显下降.

表3 包含（不包含）自监督模块的CPCGAN模型评价指标情况

Table 3 Performance of CPCGAN with and without self⁃supervised module

	SWaT			WADI			SMD			SMAP			MSL
	P	R	F1	P	R	F1	P	R	F1	P	R	F1	P	R	F1
CPCGAN (with)	0.9815	0.661	0.7899	0.991	0.1316	0.2323	0.9511	0.9484	0.9497	0.7581	0.9822	0.8557	0.882	0.9686	0.9232
CPCGAN (without)	0.842	0.5912	0.7014	0.871	0.1416	0.1992	0.8833	0.9026	0.837	0.6518	0.8872	0.785	0.7966	0.9181	0.8395

新窗口打开| 下载CSV

对于SWaT和WADI数据集，由于采集场景的原因，异常状态持续时间较长且多在连续时间点发生异常，因此需要对原始数据集的标签进行预处理，并针对异常段的检测效果进行实验.五个对比算法和CPCGAN的评价指标如表4所示，表中黑体字表示结果最优.由表可见，在一定场景下，CPCGAN对于段异常也能有效检测.在标签处理后的SWaT和WADI数据集上，CPCGAN取得了最高的F1得分和较高的精确度.

表4 CPCGAN与其他五种对比方法异常段检测的评价指标情况

Table 4 Performance of CPCGAN and five baseline approaches on anomalous segment detection

	SWaT (segment)			WADI (segment)
	P	R	F1	P	R	F1
CPCGAN	0.8142	0.8010	0.8075	0.7691	0.7827	0.7758
AE	0.7513	0.7334	0.7422	0.5423	0.5737	0.5575
MAD⁃GAN	0.7225	0.6866	0.7040	0.6022	0.6714	0.6349
LSTM⁃VAE	0.7468	0.7918	0.7686	0.7621	0.7001	0.7297
DAGMM	0.6221	0.7510	0.6805	0.6366	0.8782	0.7381
TadGAN	0.7392	0.8581	0.7942	0.7782	0.7075	0.7411

新窗口打开| 下载CSV

6 结论

本文提出一种基于自监督学习和生成式对抗网络的架构CPCGAN，针对多元时间序列数据进行异常检测，基于重构误差探究了该架构应用于异常点和异常段两种不同类型的异常检测上的表现.未来的工作包括：（1）深入对异常的可解释性研究，对异常发生的原因进行分析；（2）探究多种场景下更多的异常种类；（3）研究更合适的阈值选择方法，如自动调整阈值使模型的健壮性更强.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Jiang

B C

， Yang

W H

， Yang

C Y

An SPC⁃based forward⁃backward algorithm for arrhythmic beat detection and classification

Industrial Engineering & Management Systems，2013，12(4)：380-388.

[本文引用: 1]

[2]

Beutel

， Faloutsos

User behavior modeling and fraud detection

IEEE Intelligent Systems，2016，31(2)：84-86.

[本文引用: 1]

[3]

Sun

， Luh

P B

， Jia

Q S

，et al.

Building energy doctors：An SPC and Kalman filter⁃based method for system⁃level fault detection in HVAC systems

IEEE Transactions on Automation Science and Engineering，2014，11(1)：215-229.

[本文引用: 1]

[4]

Hundman

， Constantinou

， Laporte

，et al.

Detecting spacecraft anomalies using LSTMs and nonparametric dynamic thresholding

∥Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. London，UK：ACM，2018：387-395.

[本文引用: 2]

[5]

Hochreiter

， Schmidhuber

Long short⁃term memory

Neural Computation，1997，9(8)：1735-1780.

[本文引用: 1]

[6]

， Chen

D C

， Jin

B L

，et al.

Mad⁃GAN：Multivariate anomaly detection for time series data with generative adversarial networks

∥The 28^th International Conference on Artificial Neural Networks. Springer Berlin Heidelberg，2019：703-716.

[本文引用: 2]

[7]

Geiger

， Liu

D Y

， Alnegheimish

，et al.

TadGAN：Time series anomaly detection using generative adversarial networks

∥2020 IEEE International Conference on Big Data. Atlanta，GA，USA：IEEE，2020：33-43，DOI：10.1109/BigData50022.2020. 9378139 .

[本文引用: 2]

[8]

， Zhao

Y J

， Niu

C H

，et al.

Robust anomaly detection for multivariate time series through stochastic recurrent neural network

∥Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. Anchorage，AK，USA：ACM，2019：2828-2837.

[本文引用: 2]

[9]

Van Den Oord

， Li

Y Z

， Vinyals

Representation learning with contrastive Predictive coding

2018，arXiv:.

[本文引用: 2]

[10]

Gutmann

， Hyvärinen

Noise⁃contrastive estimation：A new estimation principle for unnormalized statistical models

∥Proceedings of the 13th International Conference on Artificial Intelligence and Statistics. Chia Laguna Resort，Sardinia：JMLR.org，2010：297-304.

[本文引用: 1]

[11]

Mnih

， Teh

Y W

A fast and simple algorithm for training neural probabilistic language models

∥Proceedings of the 29th International Coference on International Conference on Machine Learning. Edinburgh，Scotland：Omnipress，2012：419-426.

[12]

Jozefowicz

， Vinyals

， Schuster

，et al.

Exploring the limits of language modeling

2016，arXiv:.

[本文引用: 1]

[13]

Bengio

， Senecal

Y S

Adaptive importance sampling to accelerate training of a neural probabilistic language model

IEEE Transactions on Neural Networks，2008，19(4)：713-722.

[本文引用: 1]

[14]

Goodfellow

I J

， Pouget⁃Abadie

， Mirza

，et al.

Generative adversarial nets

∥Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal，Canada：MIT Press，2014：2672-2680.

[本文引用: 1]

[15]

Arjovsky

， Chintala

， Bottou

Wasserstein generative adversarial networks

∥Proceedings of the 34th International Conference on Machine Learning. Sydney，Australia：JMLR.org，2017：214-223.

[本文引用: 1]

[16]

Mathur

A P

， Tippenhauer

N O

SWaT：A water treatment testbed for research and training on ICS security

∥2016 International Workshop on Cyber⁃physical Systems for Smart Water Networks. Vienna，Austria：IEEE，2016：31-36.

[本文引用: 2]

[17]

Cho

， Van Merrienboer

， Bahdanau

，et al.

On the properties of neural machine translation：Encoder⁃decoder approaches

∥Proceedings of the 8^th Workshop on Syntax，Semantics and Structure in Statistical Translation. Doha，Qatar：Association for Computational Linguistics，2014：103-111.

[本文引用: 1]

[18]

Park

， Hoshi

， Kemp

C C

A multimodal anomaly detector for robot⁃assisted feeding using an LSTM⁃based variational autoencoder

IEEE Robotics and Automation Letters，2018，3(3)：1544-1551.

[本文引用: 1]

[19]

Zong

， Song

， Min

M R

，et al.

Deep autoencoding Gaussian mixture model for unsupervised anomaly detection

∥The 6th International Conference on Learning Representations. Toulon，France：ICLR，2018：1-19.

[本文引用: 1]

An SPC?based forward?backward algorithm for arrhythmic beat detection and classification

2013

... 异常检测是时间序列分析中的重要研究方向之一，旨在发掘时间序列中某一时间点或时间段的异常.传感器采集的多元时间序列数据充分反映了系统的运行状态，所以对采集的多元时间序列数据异常的检测可以及时察觉系统的非正常行为，对已发生的故障进行定位和分析，具有重要的现实意义.异常检测有广泛的应用，例如网络流量异常检测、心电图分析^［1］、信用卡欺诈检测^［2］和数据中心的监测等.时间序列异常分两种：点异常和段异常.在某个时间点数据达到一个不正常的值，称为点异常；段异常是指在一个连续时间序列段中，虽然有许多时间点的数据是正常的，但整体时序数据段存在异常. ...

User behavior modeling and fraud detection

2016

Building energy doctors：An SPC and Kalman filter?based method for system?level fault detection in HVAC systems

2014

... 传统的异常检测方法是基于统计过程控制（Statistical Process Control）的，如CUSUM，EWMA和萧华特管制图^［3］等，然而，使用统计量来寻找异常点的做法难以处理多元时间序列这种复杂的数据.随着数据量的快速增加，许多基于机器学习的研究相继展开，由于带有异常值标签的时序数据很难得到，人工打标签成本高昂，因此无监督学习的异常检测方法吸引了很多学者. ...

Detecting spacecraft anomalies using LSTMs and nonparametric dynamic thresholding

2018

... 当前，无监督机器学习异常检测主要分为基于预测的方法和基于重构的方法.Hundman et al^［4］使用LSTM （Long Short⁃Term Memory）^［5］对多元时序数据进行预测，针对预测误差进行异常检测.Li et al^［6］使用原始GAN （Generative Adversarial Networks）模型拟合多元时序数据分布，通过重构时序数据误差和判别器来检测异常.Geiger et al^［7］提出TadGAN模型，通过训练生成器来重构时序数据，并使用评价器来计算异常得分.Su et al^［8］使用变分自动编码器和平面标准化流来学习多元时序数据的鲁棒性表征，并重构数据概率分布来进行异常检测. ...

... 土壤水分观测数据集（SMAP）、卫星和火星科学实验室（MSL）火星车数据集是两个现实世界的公共数据集^［4］，由NASA专家标注数据标签，分别包含55/27个实体的数据，每个实体含有25/55个监测指标. ...

Long short?term memory

1997

Mad?GAN：Multivariate anomaly detection for time series data with generative adversarial networks

2019

... 为了验证CPCGAN对异常点检测的总体表现，选取五种无监督异常检测方法进行多元时序数据异常检测，分别是Autoencoders （AE），MAD⁃GAN^［6］，LSTM⁃VAE^［18］，DAGMM^［19］和TadGAN^［7］.各算法在所选数据集上的具体表现如表2所示，表中黑体字表示结果最优. ...

TadGAN：Time series anomaly detection using generative adversarial networks

Robust anomaly detection for multivariate time series through stochastic recurrent neural network

2019

... 服务器数据集（SMD）是一个持续时长为五周的由一家大型互联网公司收集并公开^［8］的数据集，包含28台服务器的数据，每台服务器反映运行状态的33个监测指标都受到监控.SMD分为两个大小相等的子集，前半部分是训练集，后半部分是测试集. ...

Representation learning with contrastive Predictive coding

2018

... 对比预测编码^［9］可以对高维度的数据进行特征提取，是自监督学习中的一个通用方法，而针对时序数据，需要考虑其时间依赖性等特点.对比预测编码的总体结构如图1所示. ...

... 使用噪声对比估计（Noise Contrastive Estimation，NCE）^［10-12］和重要性采样^［13］来比较目标值和随机采样得到的负值，训练编码器

g_{e n c}

和自回归模型

g_{a r}

来优化基于NCE的InfoNCE^［9］损失.定义损失为： ...

Noise?contrastive estimation：A new estimation principle for unnormalized statistical models

2010

... 使用噪声对比估计（Noise Contrastive Estimation，NCE）^［10-12］和重要性采样^［13］来比较目标值和随机采样得到的负值，训练编码器

g_{e n c}

和自回归模型

g_{a r}

来优化基于NCE的InfoNCE^［9］损失.定义损失为： ...

A fast and simple algorithm for training neural probabilistic language models

2012

Exploring the limits of language modeling

2016

... 使用噪声对比估计（Noise Contrastive Estimation，NCE）^［10-12］和重要性采样^［13］来比较目标值和随机采样得到的负值，训练编码器

g_{e n c}

和自回归模型

g_{a r}

来优化基于NCE的InfoNCE^［9］损失.定义损失为： ...

Adaptive importance sampling to accelerate training of a neural probabilistic language model

2008

... 使用噪声对比估计（Noise Contrastive Estimation，NCE）^［10-12］和重要性采样^［13］来比较目标值和随机采样得到的负值，训练编码器

g_{e n c}

和自回归模型

g_{a r}

来优化基于NCE的InfoNCE^［9］损失.定义损失为： ...

Generative adversarial nets

2014

... GAN通过对抗过程训练生成模型的架构^［14］，架构包括两部分：一个生成器G学习真实数据分布，并模拟真实数据来生成可以欺骗判别器的假样本；一个判别器D判别当前数据的真伪，并输出当前为真实数据的概率.两个模型同时进行训练，其结构如图2所示. ...

Wasserstein generative adversarial networks

2017

... 在拟合数据分布时，WGAN^［15］通过将KL散度或JS散度替换为Wasserstein距离来解决模式坍塌的问题.KL散度和JS散度衡量两个概率分布之间的相似程度，而Wasserstein距离衡量的是将该分布的函数图形调整为待拟合的分布时产生的最低消耗.GAN模型的Wasserstein距离损失定义为： ...

SWaT：A water treatment testbed for research and training on ICS security

2016

... 安全水处理（SWaT）数据集是生产过滤水的真实工业水处理厂数据的缩小版本，包括连续运行11天采集的数据^［16］，其中正常操作下采集七天，系统异常场景下采集四天. ...

... 水分配（WADI）数据集是从WADI测试平台收集的，WADI测试平台是SWaT tesbed的扩展^［16］，包括16天连续运行的数据，其中正常操作下采集14天，系统异常场景下采集两天. ...

On the properties of neural machine translation：Encoder?decoder approaches

2014

... 模型中的编码器

g_{e n c}

选用多层线性模型与卷积神经网络的混合模型，本文使用网格搜索法对超参数进行选择，最终设置隐空间变量z维度为36.自回归模型

g_{a r}

采用双层GRU^［17］模型，GAN使用双层LSTM模型，其中判别器更新次数为

n_{c r i t i c} = 5

，

b a t c h = 64

，学习率

α = 0.00005

. ...

A multimodal anomaly detector for robot?assisted feeding using an LSTM?based variational autoencoder

2018

Deep autoencoding Gaussian mixture model for unsupervised anomaly detection

2018

〈

〉