多模型融合的时空特征运动想象脑电解码方法

图1 网络整体结构

Fig.1 Overall network structure

1.1　TSCN模块

TSCN模块的设计与EEGNet的网络结构相似，能够实现对MI⁃EEG浅层时空特征的提取.

将预处理后的脑电数据传入到时空卷积网络TSCN，如图2所示，将输入的MI⁃EEG信号 $X_{1} \in R^{C \times L}$ 扩展维度为 $X_{2} \in R^{1 \times C \times L},$ 以图的形式传入网络结构，其中，C为每次实验的电极通道数，L为每次实验的采样点数.将 $X_{2}$ 传入 $F_{1}$ 个卷积核大小为 $(1, K_{c})$ 的时间卷积层（Temporal Conv），同时保持输入输出时间维度不变，用于对MI⁃EEG时间维度进行滤波，提取浅层时间维度特征，再传入到批归一化层（Batch Normalization，BN）来加速网络训练.之后，将特征图传入到深度为 $D$ ，卷积核大小为 $(C, 1)$ 的二维深度卷积（Channel DW Conv），提取MI⁃EEG不同电极通道间的特征，再经过BN层加速网络收敛和指数线性单位（Exponential Linear Unit，ELU）激活函数增强网络的非线性拟合能力.将特征图传入大小为 $(1, P_{1})$ 的平均池化层（Average Pooling Layer，Avg.Pool）来降维，再将特征图传入 $F_{2}$ 个卷积核大小为 $(1, K_{2})$ 的二维空间卷积（Spatial Conv）来进行时间和通道两个维度的特征融合，再经过BN层和ELU激活函数.为了进一步减少特征维度，最后将特征图传入大小为 $(1, P_{2})$ 的Avg.Pool.经过TSCN块之后，MI⁃EEG的输出维度为 $X_{3} \in R^{F_{2} \times T_{c}}$ ，其中， $T_{c} = L / P_{1} / P_{2}$ .输出特征图中每个数值都包含原始MI⁃EEG的 $C \times P_{1} \times P_{2}$ 采样点信息.

图2

图2 时空卷积网络

Fig.2 Temporal⁃spatial convolutional networks

1.2　SW

SW是基于对脑电信号分割预处理的思想，通过对原始信号进行分割来弥补数据不足的缺陷，同时使用SW也是对MI⁃EEG部分信号的恒等变换.使用基于卷积的滑动窗口能够提升MI⁃EEG的解码，并且，在实施过程中不会增加权重参数，只需使用一个不进行卷积操作的滑动窗口就可以实现对MI⁃EEG的分割和恒等变换.

将TSCN块的输出特征图 $X_{3}$ 在时间维度上使用一个长度为 $T_{w}$ ，步长为1的卷积滑动窗口SW进行切分，假设滑动窗口的数量为 $W$ ，相对应的 $T_{w}$ 应满足 $T_{w} = T_{c} - W + 1$ ，经过SW输出的特征图 $X_{4} \in R^{F_{2} \times T_{w}}$ ，在下文会通过实验证明使用一个合适的滑动窗口能够有效增加MI⁃EEG的解码准确度.将SW输出的特征图 $X_{4}$ 传入到LN对时间序列长度 $T_{w}$ 进行层归一化处理得到特征图 $X_{5} \in R^{F_{2} \times T_{w}}$ .

1.3　MPS模块

为了模仿人能够在眼球视角范围内聚焦在关键的区域，在设计解码方法过程中，需要对不同区域的特征设置不同的权重系数来拟合对不同区域的重视程度.在深度学习中，网络模型能够自适应地调整不同区域的权重系数称为注意力机制.对于MI⁃EEG的时间序列，本身包含不同频段的时间特征，对不同的频段采用相同的关注程度会降低对脑电信号的解码性能，使用注意力机制能够使网络自适应地关注与MI相关的频段特征.在本次实验过程中采用的注意力机制为Informer^［15］中的多头概率稀疏注意力机制MPS，MPS的提出主要是为了解决使用transform^［8］中Muti⁃head Attention存在计算成本高和对时间序列问题预测能力较弱的问题.

将输入数据 $X_{5}$ 经过三个不同的权重矩阵 $W^{q}, W^{k}, W^{v}$ 产生相应的查询（Query）向量 $Q \in R^{d \times T_{w}}$ 、键（Key）向量 $K \in R^{d \times T_{w}}$ 和值（Value）向量 $V \in R^{d \times T_{w}}$ . $q_{i}, k_{i}, v_{i}$ 分别代表 $Q$ ， $K$ ， $V$ 中的第i行向量，d表示每个 $h e a d_{i}$ 的维度.概率稀疏自注意力机制如图3所示，随机采样 $S_{1}$ 个 $k_{i}$ 向量组成 $K_{1}$ ，其中 $S_{1} = m i n (c e i l (M \times l n T_{w}), T_{w})$ ， $M$ 决定了 $S_{1}$ 的值，表示从向量 $K$ 中选择行向量的个数；计算每个 $q_{i}$ 向量与 $K_{1}$ 矩阵的稀疏性 $M (q_{i}, K)$ 得分， $M$ 表示每个 $q_{i}$ 向量与 $K_{1}$ 矩阵产生注意力的函数.

图3

图3 概率稀疏自注意力机制

Fig. 3 Probsparse self⁃attention mechanism

选择稀疏性得分最高的 $S_{2}$ 个 $q_{i}$ 组成矩阵 $Q_{1}$ ，对应的索引为Index，其中， $S_{2} = m i n (c e i l (N \times l n T_{w}), T_{w})$ ；将 $V$ 矩阵在时间序列维度上取平均组成矩阵 $V_{1}$ ， $V_{1}$ 矩阵的计算只在 $I n d e x$ 部分进行；计算出每个 $h e a d_{i}$ 的Attention；将每个 $h e a d_{i}$ 进行拼接，再通过权重矩阵 $W^{o} \in R^{(d \times h) \times T_{w}}$ 映射输出 $X_{6} \in R^{F_{2} \times T_{w}}$ .上述过程如式（1）~（7）所示.

K_{1} = R a n d (K, S_{1})

(1)

M (q_{i}, K_{1}) = m a x_{j} \{\frac{q_{i} \cdot k_{j}^{T}}{\sqrt[]{d}}\} - \frac{1}{T_{w}} \sum_{j = 1}^{T_{w}} \{\frac{q_{i} \cdot k_{j}^{T}}{\sqrt[]{d}}\}

(2)

V_{1} = I n d e x (m e a n (V), S_{2})

(3)

Q_{1}, I n d e x = T o p k (M (q_{i}, K_{1}), S_{2})

(4)

A = s o f t m a x (\frac{Q_{1} \cdot K^{T}}{\sqrt[]{d}})

(5)

h e a d_{i} = A t t e n t i o n (A, V_{1}) = A \cdot V_{1}

(6)

X_{6} = c o n c a t (h e a d_{1}, h e a d_{2}, \dots, h e a d_{h}) \cdot W^{o}

(7)

其中， $1 / \sqrt[]{d}$ 是缩放因子， $h$ 是 $h e a d_{i}$ 的个数， $T$ 是矩阵转置，concat是拼接函数，softmax是软归一化函数，Rand是随机函数，Topk是选择前 $S_{2}$ 个最大值并返回对应索引值Index函数，max是选择最大值函数，min是选择最小值函数，ceil是向上取整函数，MatMul是执行矩阵相乘操作.

1.4　SIE模块

在实验过程中，使用注意力机制自适应调整权重系数的网络模型往往关注不同空间区域的信息特征，但对通道信息和通道与空间之间的信息具有较弱的表征能力，因此，在使用注意力机制的网络模型中需要加上一个能增强网络空间信息表征能力的网络模型.

将MPS输出的特征图 $X_{6}$ 进行信息增强，SIE是由卷积核大小为 $K_{k}$ 的一维卷积、BN和ELU激活函数实现，输出 $X_{7} \in R^{F_{2} \times T_{w}}$ .

X_{7} = E L U (B N (C o n v (X_{6})))

(8)

X_{8} = X_{5} + X_{7}

(9)

将特征图 $X_{5}$ 经过多头概率稀疏自注意力机制和空间信息增强SIE处理生成的特征图 $X_{7}$ 进行相加操作，得到 $X_{8}$ 来作为TCN模块的输入.

1.5　TCN模块

TCN模块的设计包含两个残差块，与TCNet的网络结构相似，将TCNet的ReLU激活函数改为ELU激活函数.每个残差块都有两个扩张因果卷积（Dilated Causal Conv，DCC），每个DCC后都加入BN层和ELU激活函数.扩张因果卷积的提出是为了满足时序问题中某一时刻的输出只依赖于当前和历史时刻输入的需求，同时使用扩张因果卷积能够实现指数级增加感受野（Receptive Field Size，RFS）.

R F S = 1 + 2 \cdot (K_{T} - 1) (2^{L} - 1)

(10)

其中， $K_{T}$ 是扩张因果卷积的大小， $L$ 表示堆叠残层数.为了利用所有的序列点， $K_{T}$ 和 $L$ 的选择，应满足 $R F S \geq T_{w}$ .

TCN的结构如图4所示，特征图 $X_{8}$ 经过两个残差连接的因果卷积，其中前一个残差的扩张因果卷积的数量为 $F_{t}$ ，卷积核大小为 $K_{1}$ ，扩张率为 $D_{1}$ ，后一个残差的扩张因果卷积的数量为 $F_{t}$ ，卷积核大小为 $K_{2}$ ，扩张率为 $D_{2}$ .为了加速网络收敛和增强网络的非线性拟合能力，在每个卷积后面都加上BN和ELU激活函数，经过TCN输出为 $X_{9} \in R^{F_{t} \times 1}$ .

图4

图4 时间卷积网络

Fig.4 Temporal convolutional networks

将TCN的输出特征图 $X_{9}$ 输入全连接层 $F C \in R^{F_{t} \times n_c l a s s}$ ，输出特征图为 $X_{10} \in R^{n_c l a s s}$ .每个滑动窗口分割后的特征图进行LN，MPS，SIE，TCN和FC之后生成一个 $X_{10}$ ，将这 $W$ 个滑动窗口所产生的特征图拼接成 $X_{11} \in R^{w \times n_c l a s s}$ ，再进行平均和softmax分类器处理，最终生成 $X_{12} \in R^{n_c l a s s}$ 来进行分类，其中 $n_c l a s s$ 为类别数.以上网络的超参数选择如表1所示.

表1 超参数设定

Table 1 Hyperparameter setting

TSCN & SW
$F_{1}$	16	$P_{1}$	7
$K_{c}$	64	$P_{2}$	8
$D$	2	$W$	17
$C$	22	$K_{2}$	16
MPS & SIE
$d$	8	$M$	5
$h$	2	$N$	5
$K_{k}$	3
SIE & TCN
$F_{t}$	32	$K_{2}$	4
$K_{1}$	4	$D_{2}$	2
$D_{1}$	1

2 实验结果与分析

2.1　数据集介绍与预处理

实验采用2008年第四次国际BCI竞赛运动想象的脑电数据集BCI IV⁃2a.该数据集包含九名被试者，编号为A01~A09，每个被试者进行两次sessions，将其中一个session作为训练集，另一个session作为测试集；每次实验的标签为想象左手运动、想象右手运动、想象双脚运动和想象舌头运动（简称left hand，right hand，feet，tongue）中的一种，每种MI进行72次，所以每个受试者在每个session进行288次MI实验.BCI IV⁃2a以250 Hz采样率采集MI⁃EEG数据，同时进行0.5~100 Hz的带通滤波和50 Hz的凹陷滤波的预处理.本实验选择22个EEG电极通道，每次实验选择MI结束时前4.5 s，共计1125个采样点，即 $n_c l a s s = 4$ ， $C = 22$ ， $L = 1125$ .在对原始MI⁃EEG进行预处理时，没有使用共空间模式滤波^［2］、独立成分分析^［3］、短时傅里叶变化和小波变换^［4］等具有专家知识的处理方法，也没有剔除被专家标记为伪迹的实验数据，仅对每次实验的每个通道进行标准差标准化，使处理后的数据符合标准正态分布，即均值为0，方差为1的数据分布，如式（11）所示：

x_{t, j, i}^{'} = \frac{{x_{t, j,}}_{i} - u_{t, j}}{σ_{t, j}}

(11)

其中， $x_{t, j, i}$ 表示原始MI⁃EEG第 $t$ 次实验、第 $j$ 个通道、第 $i$ 个时间的采样点数值； $u_{t, j}$ 表示第 $t$ 次实验、第 $j$ 个通道的均值； $σ_{t, j}$ 表示第 $t$ 次实验、第 $j$ 个通道的标准差； $x_{t, j, i}^{'}$ 表示经过数值处理之后的第 $t$ 次实验、第 $j$ 个通道、第 $i$ 个时间的采样点数值.

2.2　训练过程

操作系统为Windows 10，通过PyTorch框架搭建网络结构，在Pycharm进行代码实验，GPU为GTX 3060 12 GB.使用Adam优化器、交叉熵损失函数，迭代1000次.为了防止过拟合，若300次迭代准确度无变化即停止训练，权重损失率设置为0.001，初始学习率为0.001，学习率更新方式为余弦退火函数.

2.3　消融实验

网络结构决定了解码性能的上限，选择一组最优的超参数能够逼近解码上限.

2.3.1　滑动窗口数量对解码性能的影响

经过TSCN模块输出的 $X_{3}$ 的时间序列长度为 $T_{c}$ ，每个时间点都包含着原始MI⁃EEG的 $C \times P_{1} \times P_{2}$ 采样点信息，每个时间点都包含原始MI⁃EEG的高维特征.因此，对MI⁃EEG的分割方式直接影响解码性能，使用滑动窗口对 $X_{3}$ 进行分割，不同大小的滑动窗口表示对原始MI⁃EEG的高维时间特征不同的聚合方式.经过长度为 $T_{w}$ 的滑动窗口输出的特征图，每个特征点都包含着原始信号 $C \times P_{1} \times P_{2} \times T_{w}$ 时间点信息.

为了验证滑动窗口的数量 $W$ 对MI⁃EEG的解码性能的影响， $W$ 在 $[1, T_{c} - 1]$ 之间取值，在 $M = N = 5$ 和 $M = N = 1$ 的条件下，进行仿真验证，如图5所示.其中， $W = 1$ 可以理解为不加滑动窗口.由图可见，增加滑动窗口的数量能够明显地提升MI⁃EEG的解码性能，仅使用两个滑动窗口（ $W = 2$ ）比不加滑动窗口（ $W = 1$ ）在MI⁃EEG解码准确度提升4%以上，同时设置一个合适的滑动数量，进一步提升解码准确度，在本次实验中，当 $W = 17$ 时，解码准确度最高.

图5

图5 滑动窗口数量对解码准确度的影响

Fig.5 Effect of the number of sliding windows on decoding accuracy

2.3.2　MPS中点积数量对解码性能的影响Informer^［15］在利用点积对去产生注意力机制的过程中，并非所有的点积对都能够产生有效的注意力机制.使用不同的点积数量对MI⁃EEG进行解码，在 $W$ =1 （ $T_{w} = 20$ ）和 $W$ =5 （ $T_{w} = 16$ ）的情况下， $M (N)$ 的取值分别为 $\{1,2, 3,4, 5,6, 7\}$ 和

\{1,2, 3,4, 5,6\}

表2为在 $W = 1$ 和 $W = 5$ 的情况下，使用不同的点积数量对MI⁃EEG解码准确度的影响.由表可见，使用更多的点积对并没有对解码性能产生有效的影响，甚至还会有损解码性能.并且使用更少的点积对可以在一定程度上缓解内存的计算负担，因此使用MPS更适合对长时间序列的脑电信号进行解码.

表2 点积数量对解码准确度的影响

Table 2 Effect of the number of dot product on decoding accuracy

$W$	$M / N$	$S_{1} / S_{2}$	Accuracy
1	1	3	79.12%
	2	6	79.58%
	3	9	79.43%
	4	12	79.01%
	5	15	79.19%
	6	18	78.63%
	7	20	78.56%
5	1	3	86.98%
	2	6	86.86%
	3	9	86.94%
	4	12	86.94%
	5	14	86.30%
	6	16	86.50%

2.3.3　SIE对解码性能的影响

SIE的提出是为了解决使用点积对产生注意力机制的解码方法在时序问题上具有较弱的空间信息表征能力的问题.SIE在网络结构上仅有一个卷积，但是对MI⁃EEG的解码性能具有非常明显的效果，同时，仅增加一个卷积不会对网络的参数量和内存的浮点运算造成太大的影响.为了验证增加SIE是否能够影响MI⁃EEG的解码，进行以下的实验：

（1）在ATCNet的基础上加上SIE来对MI⁃EEG测试，记为ATCNet+SIE；

（2）在MMFTSF的基础上减去SIE来对MI⁃EEG进行测试，记为MMFTSF⁃SIE.

表3展示了不同方法的解码准确度，由表可见，在ATCNet的基础上加上SIE模型，准确度可提升1.68%，同时SIE对所提解码方法有1.07%的提升，证明增加SIE模块能够有效地提升MI⁃EEG的解码准确度.

表3 SIE对解码准确度的影响

Table 3 Effect of SIE on decoding accuracy

Method	Accuracy
ATCNet	85.48%
ATCNet+SIE	87.16%
MMFTSF⁃SIE	87.96%
MMFTSF	89.03%

3 与其他方法的实验对比

为了验证MMFTSF对MI⁃EEG解码的高效性，选用近年以深度学习为框架对BCI IV⁃2a解码的现有技术与本次实验进行对照，实验数据如表4所示，表中黑体字表示结果最优.表4中数据并非原论文对BCI IV⁃2a数据集的解码准确度，而是通过论文中所提出的解码方法在本实验环境下所取得的准确度，即不改变现有技术中解码方法中的超参数，使用本次实验的预处理和训练过程得到的结果.由表可见，MMFTSF在MI⁃EEG解码中已经明显优于现有技术，并且每个受试者的解码准确度都有增强，和ATCNet相比，对受试者A01，A02，A04，A06，A08，A09的解码准确度能提升4%以上，也具有更强的泛化性.

表4 与其他已复现方法的解码准确度比较

Table 4 Decoding accuracy comparison with other reproduced methods

	EEGNet	EEG⁃TCNet	ATCNet	MMFTSF
A01	84.34%	86.48%	88.97%	93.24%
A02	59.36%	70.32%	76.33%	80.57%
A03	91.94%	95.24%	96.34%	97.44%
A04	60.53%	71.93%	84.21%	89.04%
A05	73.91%	78.62%	81.52%	84.78%
A06	59.07%	66.05%	72.09%	76.28%
A07	90.61%	93.14%	95.67%	96.75%
A08	82.66%	83.76%	85.98%	90.04%
A09	78.79%	86.74%	88.26%	93.18%
平均值	75.69%	81.36%	85.48%	89.03%

图6为MMFTSF在受试者A01，A03，A07，A09测试集上所体现的混淆矩阵.与ATCNet，EEG⁃TCNet和EEGNet相比，MMFTSF在受试者上解码性能最优，解码准确度分别提升3.55%，7.67%和13.34%.图7为MMFTSF对数据集的混淆矩阵，图8~10分别为ATCNet，EEG⁃TCNet和EEGNet对数据集的混淆矩阵，对比不同方法的混淆矩阵.可以看出，MMFTSF对每种运动想象类别具有更高的解码性能，并且更具有鲁棒性.从单个和整体受试者的解码准确度和每种运动想象的解码性能角度上分析，MMFTSF的解码准确度优于现有技术.

图6

图6 A01, A03, A07和A09受试者的混淆矩阵

Fig.6 Confusion matrix for subjects A01, A03, A07 and A09

图7

图7 MMFTSF对BCI IV⁃2a的平均混淆矩阵

Fig.7 Average confusion matrices of MMFTSF for BCI IV⁃2a

图8

图8 ATCNet对BCI IV⁃2a的平均混淆矩阵

Fig.8 Average confusion matrices of ATCNet for BCI IV⁃2a

图9

图9 EEG⁃TCNet对BCI IV⁃2a的平均混淆矩阵

Fig.9 Average confusion matrices of EEG⁃TCNet for BCI IV⁃2a

图10

图10 EEGNet对BCI IV⁃2a的平均混淆矩阵

Fig.10 Average confusion matrices of EEGNet for BCI IV⁃2a

为了进一步说明MMFTSF具有更高的解码性能，表5展示了不同方法对BCI IV⁃2a数据集的解码准确度，由表可见，MMFTSF具有更高的解码准确度.在MI⁃EEG解码任务中，G⁃CRAM以图的卷积递归注意模型作为解码方法；MCNN是使用多层CNN融合的解码方法；MSFBCNN是一种嵌入Inception的并行多尺度滤波器组CNN解码方法；EEG⁃ITNet先使用Inception并行处理，再通过TCNet进行特征提取的解码方法；MS⁃AMF是在多尺度融合CNN的基础上加入注意力机制SENet的解码方法；MBEEGSE是一种使用多分支CNN的解码方法，每个分支包含EEGNet和SENet注意力机制；TCACNet是一种使用时间注意力来识别与MI任务相关的时间片和空间注意力机制自适应地调整每个通道的权重系数的解码方法.上述网络中G⁃CRAM属于单一的图卷积网络模型，MCNN，MSFBCNN，EEG⁃ITNet，MS⁃AMF，MBEEGSE和TCACNet等是使用CNN及其变体（DCC）组成不同网络结构的解码方法，也属于单一模型，而MMFTSF是CNN，DCC和Informer融合的解码方法，以CNN为单位的时空卷积网络提取MI⁃EEG中浅层信息特征，使用Informer中多头概率稀疏自注意力机制使网络自适应地关注与MI任务相关频段的特征，使用CNN和DCC结合的TCN结构提取MI⁃EEG高维时间特征，同时使用基于卷积的滑动窗口和以CNN为单位的空间信息增强模块进一步提升MI⁃EEG解码准确度，是一种多模型融合的解码方法，多模型融合的解码方法能够提取MI⁃EEG不同维度的信息特征，进而提高解码准确度.

表5 不同方法对BCI IV⁃2a的解码准确度

Table 5 Decoding accuracy of different methods on BCI IV⁃2a

Method	Accuracy
G⁃CRAM^[14]	60.11%
MCNN^[16]	75.70%
MSFBCNN^[17]	75.80%
EEG⁃ITNet^[10]	76.74%
MS⁃AMF^[18]	79.90%
MBEEGSE^[12]	82.87%
TCACNet^[19]	86.80%
MMFTSF	89.03%

4 结论

现有技术对MI⁃EEG低效的解码性能和对MI⁃EEG过度依赖预处理的方式限制了BCI的广泛发展，提出一个多模型融合的时空特征运动想象脑电解码方法.先通过TSCN，使用不同的卷积操作对MI⁃EEG的各个维度进行浅层特征提取，再使用MPS关注MI任务中最有价值的特征，再经过TCN来提取MI⁃EEG中的高级特征，最后使用带有softmax分类器的全连接层进行分类.同时使用基于卷积的滑动窗口和空间信息增强来提升解码性能.实验结果证明MMFTSF能够在BCI IV⁃2a数据集上达到89.03%的解码准确度，相比于ATCNet，EEG⁃TCNet和EEGNet，分别提升3.55%，7.67%和13.34%.此外，为了验证SW中滑动窗口的数量、MPS中点积数量对和使用SIE模块对MI⁃EEG解码性能的影响，通过大量实验证明，适当增加滑动窗口的数量能够大幅度地提升解码性能，只需较少的点积数量对就能实现较好的解码性能和增加SIE模块能够提升解码准确度.同时，只对MI⁃EEG做数值上的简单预处理，选择所有实验数据，因此，本实验过程并没有使用过多的专家知识.通过上述实验数据，说明MMFTSF优于现有技术，能够对BCI的应用做出一定贡献.然而，多模型融合网络结构虽然比单一模型的解码性能更有优势，但是，多模型融合会带来计算复杂度，造成推理时间过长的问题，因此在之后的工作中，会利用知识蒸馏的方法，设计一个多模型轻量化网络来对MI⁃EEG进行解码.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Ahmed

， Jeon

， Piccialli

From artificial intelligence to explainable artificial intelligence in industry 4.0：A survey on what，how，and where

IEEE Transactions on Industrial Informatics，2022，18(8)：5031-5042.

[2]

Ang

K K

， Chin

Z Y

， Wang

C C

，et al.

Filter bank common spatial pattern algorithm on BCI competition IV datasets 2a and 2b

Frontiers in Neuroscience，2012，6：39.

[3]

Delorme

， Sejnowski

， Makeig

Enhanced detection of artifacts in EEG data using higher⁃order statistics and independent component analysis

NeuroImage，2007，34(4)：1443-1449.

[4]

Kousarrizi

M R N

， Ghanbari

A A

， Teshnehlab

，et al.

Feature extraction and classification of EEG signals using wavelet transform，SVM and artificial neural networks for brain computer interfaces

∥2009 International Joint Conference on Bioinformatics，Systems Biology and Intelligent Computing. Shanghai，China：IEEE，2009：352-355.

[5]

Lawhern

V J

， Solon

A J

， Waytowich

N R

，et al.

EEGNet：A compact convolutional neural network for EEG⁃based brain⁃computer interfaces

Journal of Neural Engineering，2018，15(5)：056013.

[6]

Bai

S J

， Kolter

J Z

， Koltun

An empirical evaluation of generic convolutional and recurrent networks for sequence modeling

2018，arXiv：.

[7]

Ingolfsson

T M

， Hersche

， Wang

X Y

，et al.

EEG⁃TCNet：An accurate temporal convolutional network for embedded motor⁃imagery brain⁃machine interfaces

∥2020 IEEE International Conference on Systems，Man，and Cybernetics (SMC). Toronto，Canada：IEEE，2020：2958-2965.

[8]

Vaswani

， Shazeer

， Parmar

，et al.

Attention is all you need

∥Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook，NY，USA：Curran Associates Inc.，2017：6000-6010.

[9]

Altaheri

， Muhammad

， Alsulaiman

Physics⁃informed attention temporal convolutional network for EEG⁃based motor imagery classification

IEEE Transactions on Industrial Informatics，2023，19(2)：2249-2258.

[10]

Salami

， Andreu⁃Perez

， Gillmeister

EEG⁃ITNet：An explainable inception temporal convolutional network for motor imagery classification

IEEE Access，2022，10：36672-36685.

[11]

Szegedy

， Liu

， Jia

Y Q

，et al.

Going deeper with convolutions

∥2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston，MA，USA：IEEE，2015：1-9.

[12]

Altuwaijri

G A

， Muhammad

， Altaheri

，et al.

A multi⁃branch convolutional neural network with squeeze⁃and⁃excitation attention blocks for EEG⁃based motor imagery signals classification

Diagnostics，2022，12(4)：995.

[13]

， Shen

， Sun

Squeeze⁃and⁃excitation networks

∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City，UT，USA：IEEE，2018：7132-7141.

[14]

Zhang

D L

， Chen

K X

， Jian

D B

，et al.

Motor imagery classification via temporal attention cues of graph embedded EEG signals

IEEE Journal of Biomedical and Health Informatics，2020，24(9)：2570-2579.

[15]

Zhou

H Y

， Zhang

S H

， Peng

J Q

，et al.

Informer：Beyond efficient transformer for long sequence time⁃series forecasting

∥Proceedings of the AAAI Conference on Artificial Intelligence. Vancouver, Canada：AAAI Press，2021，35(12)：11106-11115.

[16]

Amin

S U

， Alsulaiman

， Muhammad

，et al.

Deep learning for EEG motor imagery classification based on multi⁃layer CNNs feature fusion

Future Generation Computer Systems，2019，101：542-554.

[17]

， Niu

， Li

，et al.

A parallel multiscale filter bank convolutional neural networks for motor imagery EEG classification

Frontiers in Neuroscience，2019，13：1275.

[18]

D L

， Xu

J C

， Wang

J H

，et al.

A multi⁃scale fusion convolutional neural network based on attention mechanism for the visualization analysis of EEG signals decoding

IEEE Transactions on Neural Systems and Rehabilitation Engineering，2020，28(12)：2615-2626.

[19]

Liu

X L

， Shi

R Y

， Hui

Q X

，et al.

TCACNet：Temporal and channel attention convolutional network for motor imagery classification of EEG⁃based BCI

Information Processing & Management，2022，59(5)：103001.