基于BSFinformer模型的金融数据特征选择及预测

doi:10.13232/j.cnki.jnju.2024.03.008

基于BSFinformer模型的金融数据特征选择及预测

朱晓彤¹, 林培光^,¹, 孙玫², 王倩¹, 李金玉¹, 王杰茹²

1.山东财经大学计算机科学与技术学院，济南，250014

2.山东财经大学财政税务学院，济南，250014

Feature selection and prediction of financial data based on BSFinformer model

Zhu Xiaotong¹, Lin Peiguang^,¹, Sun Mei², Wang Qian¹, Li Jinyu¹, Wang Jieru²

1.School of Computer Science and Technology, Shandong University of Finance and Economics, Ji'nan, 250014, China

2.School of Finance and Taxation, Shandong University of Finance and Economics, Ji'nan, 250014, China

通讯作者: E⁃mail：llpwgh@163.com

收稿日期: 2023-12-28

基金资助:

国家自然科学基金. 61802230

Received: 2023-12-28

摘要

金融领域的长时间序列预测正在面对复杂的市场和众多金融产品的挑战，传统的时序数据预测方法在处理线性分布数据时表现良好，但对于特征参数冗余和非线性长序列金融产品数据的预测效果有限.为了解决这一问题，提出一种长时间序列预测方法BSFinformer （Boruta⁃SHAP+Finformer），利用金融数据的时间相关性并综合运用Boruta⁃SHAP，Finformer等技术来完成特征选择及预测功能.该方法首先引入Boruta⁃SHAP模块，利用XgBoost和SHAP分析方法进行特征选择，从给定的特征集中识别出与金融时间序列预测任务相关的重要特征，并解释这些特征对预测的影响.其次，利用Transformer结构和自注意力机制，改进为Finformer模块，将长序列金融数据分解为趋势、周期和残差成分，结合稀疏自注意力机制.在多个真实金融数据集上进行了实验评估.实验结果显示，BSFinformer对金融产品的价格预测表现出优异的性能，与其他预测方法相比，能准确捕捉长期趋势和周期性来实现高质量的预测.具体地，和传统的Transformer模型相比，在三个实验数据集上，BSFinformer的均方误差分别降低了52%，16%和19%，平均绝对误差分别降低了34%，25%和11%，为金融数据的长期时间序列预测提供了一种有效的解决方案.

关键词： 特征选择 ; Boruta⁃SHAP ; 长时间序列 ; Finformer ; 金融数据预测

Abstract

The long⁃term series prediction in the financial domain faces challenges due to complex markets and numerous financial products. Traditional methods in time series forecasting perform well in handling linear distributed data，but their effectiveness is limited when dealing with redundant feature parameters and nonlinear data of long sequence financial products. To address this issue，this study proposes a method in long⁃term series prediction called BSFinformer (Boruta⁃SHAP+Finformer). This method leverages the time correlation of financial data and integrates techniques such as Boruta⁃SHAP and Finformer to accomplish feature selection and prediction tasks.Firstly，the Boruta⁃SHAP module is introduced，which utilizes such analytical methods as XgBoost and SHAP for feature selection. It identifies important features related to tasks of financial time series prediction from the given feature set and explains the impact of these features on the prediction. Secondly，the Finformer module is developed by improving the Transformer structure and incorporating self⁃attention mechanisms. It decomposes long sequence financial data into trend，cycle，and residual components，and combines sparse self⁃attention mechanisms. The BSFinformer model is evaluated on multiple real financial datasets through experiments.The experimental results demonstrate that the BSFinformer model exhibits excellent performance in price prediction of financial products. Compared to other forecasting methods，the BSFinformer model accurately captures long⁃term trends and periodicity to achieve high⁃quality predictions. Specifically，compared to the traditional Transformer model，the BSFinformer model reduces Mean⁃Square Error by 52%，16% and reduces 19%，and Mean Absolute Error by 34%，25% and 11% on the three datasets，respectively. It provides an effective solution for long⁃term series prediction of financial data.

Keywords： feature selection ; Boruta SHAP ; long time series ; Finformer ; financial data prediction

PDF (521KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

朱晓彤, 林培光, 孙玫, 王倩, 李金玉, 王杰茹. 基于BSFinformer模型的金融数据特征选择及预测. 南京大学学报（自然科学）[J], 2024, 60(3): 442-450 doi:10.13232/j.cnki.jnju.2024.03.008

Zhu Xiaotong, Lin Peiguang, Sun Mei, Wang Qian, Li Jinyu, Wang Jieru. Feature selection and prediction of financial data based on BSFinformer model. Journal of nanjing University[J], 2024, 60(3): 442-450 doi:10.13232/j.cnki.jnju.2024.03.008

在金融领域，时间序列预测是一项关键的任务，对金融市场的决策和风险管理有重要意义，然而，金融市场的复杂性以及金融产品的非线性特征给时间序列预测带来了挑战.为了克服这些挑战，研究人员已经提出了许多方法和模型来改进金融时间序列预测的准确性和效果.

传统的时间序列预测方法，如自回归移动平均（Auto⁃Regressive Moving Average，ARMA）模型和季节性自回归移动平均（Seasonal AutoRegressive Integrated Moving Average，SARMA）模型，被广泛应用于金融数据预测^［1-2］.然而，这些方法假设数据服从线性分布，对于具有非线性特征和长期记忆效应的金融时间序列数据的预测效果有限.近年来，一些研究者提出基于深度学习的模型来处理金融时间序列预测问题，如长短期记忆网络（Long Short⁃Term Memory，LSTM）和门控循环单元（Gated Recurrent Unit，GRU）^［3-4］等循环神经网络模型被广泛应用于捕捉金融时间序列数据中的长期依赖关系，此外，注意力机制也被引入模型来提高对重要特征的关注度^［5］.另一方面，特征选择在金融时间序列预测中也是一个重要的问题，大量的特征可能包含冗余信息，降低了预测模型的准确性和可解释性.为了解决这个问题，研究人员提出了许多特征选择方法，如基于统计检验的方法和基于机器学习的方法^［6］.

本文提出一种对金融数据进行长时间序列预测的方法BSFinformer（Boruta⁃SHAP+Finformer），结合Boruta特征选择算法和SHAP（Shapley Additive exPlanations）分析方法，以准确选择金融数据中最具有竞争力的特征组合并消除冗余特征的影响.同时，在Autoformer^［7］模型的基础上改进Finformer模型，将其应用于金融数据的长期预测，以更好地捕捉非线性长序列数据的特征.

综上，本文旨在解决金融时间序列预测中特征选择和长期预测的挑战，主要贡献如下.

（1）为了处理长时间序列数据，Finformer引入分解机制，将序列分成多个不同的时间尺度并对每个时间尺度上的子序列进行建模，能更好地捕捉序列中的长期依赖关系和局部模式.

（2）为了消除金融数据中的冗余特征，同时提高长时间序列预测的效率，引入Boruta⁃SHAP特征选择方法，考虑特征与目标变量之间、特征与特征之间的相关性，以更全面地评估特征的重要性.同时，通过计算SHAP值，为每个特征提供一个可解释的重要性评估参数，这样做可以理解每个特征对预测结果的贡献程度，能更好地解释和解读模型的预测能力.

（3）为了评估BSFinformer模型的性能，使用多个金融数据集进行一系列实验，并对实验结果进行对比分析.在三个金融数据集上，和传统的Transformer模型相比，BSFinformer的均方误差（Mean⁃Square Error，MSE）分别降低52％，16％和19％，平均绝对误差（Mean Absolute Error，MAE）分别降低34％，25％和11％，具有更高的预测准确性和稳定性.说明BSFinformer模型在金融时间序列预测任务中性能优越，可以较好地解决部分金融产品数据的预测问题.

1 相关工作

在金融时间序列预测领域，已经有多项重要的研究工作涉及了特征选择和长期预测的问题.特征选择是一项关键步骤，旨在选择具有预测能力的特征并消除冗余特征，而统计学方法和机器学习方法被广泛应用于特征选择.2003年Kim^［8］在支持向量机中进行时间序列特征选择，提出一种基于相关系数的特征选择策略来提高预测准确性和模型解释性.2010年Crone and Kourentzes^［9］探讨基于神经网络的时间序列预测的特征选择方法，提出一种结合过滤和包装两种方法的特征选择策略来提高预测性能，降低计算复杂度.2021年Leung and Zhao^［10］使用经验模态分解（Empirical Mode Decomposition，EMD）来生成特征并结合机器学习进行金融时间序列分析和预测的方法，提出一种结合Hilbert⁃Huang变换（HHT）和机器学习方法的框架来提高金融时间序列的预测精度和稳定性.2023年张展云等^［11］基于多标签学习领域中的流标签，提出一种新的特征选择方法来提高特征选择的有效性和高效性.

随着特征选择的精度和稳定性不断提高，时间序列预测的准确度也不断进步.2018年Tran et al^［12］使用深度学习和注意力机制进行金融时间序列预测，基于循环神经网络（Recurrent Netural Network，RNN）和自注意力机制，通过自动关注序列中重要的时间步来提高预测性能，能更准确地预测金融时间序列.2020年Sezer et al^［13］回顾2005-2019年深度学习在金融时间序列预测中的应用，总结了各种深度学习模型在金融数据预测中的效果和局限性，提出了未来研究的方向和挑战.长期预测是金融时间序列预测中的挑战之一，2021年后，随着Transformer的流行，Informer，Autoformer，Fedformer，Yformer等模型陆续被提出，它们可以捕捉长期记忆效应和非线性特征，结合自注意力机制和全局上下文编码器，可捕捉序列中的长期依赖关系，对长序列时间序列预测表现出强大的性能^［14-16］.2023年方宇等^［17］提出三支残差修正的时间序列预测，利用时间序列分解算法STL（Seasonal Decomposition of Time Series by Loess）来修正时间序列的预测结果.

然而，先前的工作很少将特征选择和长时间序列预测相结合，在处理具有长序列和非线性特征的金融产品数据时仍然存在挑战.因此，本研究旨在结合特征选择模块Boruta⁃SHAP和长时间序列预测模块Finformer，以提高金融长时间序列预测的准确性和稳定性.

2 BSFinformer方法的构建

本文结合特征选择方法Boruta⁃SHAP和Finformer模型来构建BSFinformer，以实现对长时间金融时间序列数据的特征选择及价格预测.首先使用Boruta⁃SHAP算法对金融数据进行特征选择以减少冗杂数据对后续预测模型的影响；另一方面，剔除无效数据来提高算法的时间效率.将处理好的数据输入Finformer模型，经过编码层和解码层，可以获得一个预测值并得到其MAE和MSE.BSFinformer模型的架构如图1所示.

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 BSFinformer模型的架构图

Fig.1 The architecture diagram of BSFinformer

2.1　Boruta⁃SHAP模型构建

特征选择是金融时间序列预测中的关键步骤，用于选择具有预测能力的特征并消除冗余特征.BSFinformer中采用Boruta⁃SHAP方法作为特征选择模块，该方法结合Boruta特征选择算法和SHAP分析方法，可以提高特征选择的准确性和解释性.

Boruta算法通过比较每个特征的重要性与随机生成的“影子”特征的重要性来评估其预测能力^［18］，而SHAP分析方法提供了对特征的解释性，帮助理解特征对预测结果的贡献程度^［19］.Boruta⁃SHAP的算法步骤如下.

（1）数据初始化.对原始数据集中的每个特征创建一个副本，这些新特征可以模拟原始特征并消除其与相应变量之间的相关性，然后随机打乱这些新增的特征以消除它们与相应变量的相关性.这一操作可以确保新添加的特征与目标变量之间没有真实的关联，避免在特征选择过程中引入偏差.初始化前后的矩阵如下：

(\begin{matrix} x_{11} & x_{12} & \dots & x_{1 n} \\ x_{21} & x_{22} & \dots & x_{2 n} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ x_{m 1} & x_{m 2} & \dots & x_{m n} \end{matrix})

(\begin{matrix} x_{11} & x_{12} & \dots & x_{1 n} \\ x_{21} & x_{22} & \dots & x_{2 n} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ x_{m 1} & x_{m 2} & \dots & x_{m n} \\ s h a d o w_{11} & s h a d o w_{12} & \dots & s h a d o w_{1 n} \\ s h a d o w_{21} & s h a d o w_{22} & \dots & s h a d o w_{2 n} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ s h a d o w_{m 1} & s h a d o w_{m 2} & \dots & s h a d o w_{m n} \end{matrix})

其中，原始数据矩阵的维度为 $m \times n$ ；扩展数据矩阵的维度为 $(m + m_{s h a d o w}) \times n$ ， $m_{s h a d o w}$ 是新增的shadow特征的数量.

（2）特征评估.选择置换重要性（Permutation Importance）作为度量，然后使用包含随机shadow特征的扩展数据集进行特征评估，进而对特征重要性度量进行特征排序.

Boruta⁃SHAP算法使用shadow特征的重要性得分作为阈值的参考指标.在原始特征的基础上创建shadow特征之后，对其值进行随机洗牌以消除与相应变量之间的相关性，得到最大shadow特征的重要性得分，被用作初始阈值.

（3）选择最重要的特征.根据shadow特征的最大重要性分数设置一个阈值，对于超过阈值的特征，将其标记为“命中”（hit），对于没有被标记的特征则进行双侧的T检验.T检验定义如下：

t = \frac{\bar{X_{1}} - \bar{X_{2}}}{\sqrt[]{\frac{s_{1}^{2}}{n_{1}} + \frac{s_{2}^{2}}{n_{2}}}}

(1)

其中，t表示T检验统计量， $\bar{X_{1}}$ 和 $\bar{X_{2}}$ 分别是两个待比较样本的均值， $s_{1}^{2}$ 和 $s_{2}^{2}$ 分别是两个样本的方差， $n_{1}$ 和 $n_{2}$ 分别是两个样本的大小.具体地，T检验通过比较各特征的SHAP值与通过随机排列得到的shadow特征的SHAP值之间的差异，从而标记特征的重要性.

（4）循环特征选择.在获得对应特征向量后，将重要性显著低于阈值的特征视为“不重要”，将其从进程中删除，同时将重要性显著高于阈值的特征视为“重要”.在算法的迭代过程中，随着每一轮的执行，根据先前轮次的结果和特征重要性来动态调整阈值.

关于置换重要性的计算，对于特征 $X_{i}$ ，置换重要性定义如下：

\begin{array}{l} I_{p e r m} (X_{i}) = \\ \frac{1}{n_{p e r m}} \sum_{j = 1}^{n_{p e r m}} (l o s s (y, f (X)) - l o s s (y, f (X_{p e r m, i}))) \end{array}

(2)

其中， $y$ 是目标变量， $f (X)$ 是模型的预测输出， $X_{p e r m, i}$ 是将特征 $X_{i}$ 的值进行随机排列后的数据集， $n_{p e r m}$ 是置换次数， $\{l o s s\}$ 是评价损失函数.

（5）循环扩展和特征选择.移除shadow特征并重复上述步骤，直到为每个特征分配重要性或达到预设的运行次数上限.在此过程中，对于被标记为“不重要”的特征，可以选择性地进行一些后处理操作以进一步提高特征选择的准确性和鲁棒性.对于返回被标记为“重要”的特征，将其作为特征选择后的低维金融数据集.

基于Boruta⁃SHAP的特征选择过程如下面的算法所示.

算法基于Boruta⁃SHAP算法的特征选择

输入：特征选择前的高维金融数据 $H_{i}$ ，阈值 $S$

输出：特征选择后的低维金融数据 $H_{i + 1}$

1. $I n i t i a l i z e (H_{i})$

2. $E v a l u a t e (H_{i})$

3. $F e a t u r e_s e l e c t i o n (H_{i}, S)$

4.while not TerminationCondition do：

5. $H_{i} \leftarrow S h a d o w (H_{i})$

6. $H_{i} \leftarrow S h u f f l e (H_{i})$

7. $H_{i} \leftarrow C o m p u t e_i m p o r t a n c e s (H_{i})$

8. $H_{i} \leftarrow T_t e s t (H_{i})$

9. $H_{i + 1} \leftarrow S i g n i f i c a n c e_t h r e s h o l d (H_{i})$

10. $I t e r a t i o n (i)$

11.end

2.2　Finformer模型构建

由于长序列数据存在长期依赖关系和非线性特征，在传统的时间序列预测任务中，长时间序列的处理是一个挑战.为此，本文设计了Finformer模型，通过引入Transformer的注意力机制和Autoformer的分解机制来解决这类问题，提高了对长时间序列的建模能力和预测准确性.

具体地，Finformer模型包含输入嵌入层、编码器层、解码器层、输出层.顾名思义，输入嵌入层将输入的时间序列数据进行嵌入表示，每个时间步的特征被映射到一个低维的嵌入空间，每个特征被表示为一个嵌入向量.同样，输出层对编码器⁃解码器结构的输出进行处理，生成最终的预测结果.编码器层和解码器层以Transformer为基础进行构建，下面介绍其创新之处.

（1）如图1所示，在Encoder和Decoder中使用了Decomposition（Decomp）架构，通过加性分解模型，将时间序列表示为趋势、季节性和残差（Residual）三个成分的和：

Y (t) = T (t) + S (t) + R (t)

(3)

其中， $Y (t)$ 是原始时间序列在时刻t的观测值； $T (t)$ 为趋势成分，表示序列随时间的整体变化趋势； $S (t)$ 为季节性成分，表示序列在特定周期内的周期性变化； $R (t)$ 表示残差成分，包含趋势和季节性之外的随机噪声和不规律的部分.

由于预测问题中未来的不可知性，通常先对过去序列进行分解，再分别预测，但这会造成预测结果受限于分解效果，还忽视了未来各组分之间的相互作用.因此，在Finformer架构中，Encoder通过序列分解模块（Decomp）消除趋势⁃周期项，并专注于季节项建模；Decoder通过逐步累加，从隐变量中提取趋势⁃周期项.Encoder⁃Decoder（Finformer Decoder中的Decomp模块）利用了来自Encoder的过去的季节项信息.

在序列分解模块中，对于一个长为L的输入序列， $X \in R^{T \times d}$ ，d表示每个时间步有d维数据：

X_{t} = A v g P o o l (P a d d i n g (X))

(4)

X_{s} = X - X_{t}

(5)

其中， $X_{s}, X_{t} \in R^{T \times d}$ 分别为季节项和趋势⁃周期项，同时采用平均池化层进行窗口滑动以保持序列长度不变.编码器中，序列分解基于滑动平均思想逐步分解出各成分，在解码器中，又对各个部分分别建模.基于这种渐进式分解架构，模型可以在预测过程中逐步分解隐变量，并通过自相关机制、累积的方式分别得到周期、趋势组分的预测结果，实现分解、预测结果优化的交替进行，相互促进.

（2）为了解决传统的Transformer模型在处理长序列时计算复杂度过高的问题，Finformer引入Informer的稀疏自注意力机制，使模型只关注与当前位置相关的局部信息，减少计算负担.

具体地，首先引入一个超参数k，表示每个位置只与其相邻的k个位置进行关注计算，这样，每个位置只须关注局部范围内的信息，不必关注整个序列中的所有位置.接下来，定义一个二值稀疏矩阵 $A \in 0, 1^{n \times n}$ ，其中， $n$ 是序列的长度.矩阵 $A$ 指示每个位置与其相邻的 $k$ 个位置是否相互关注，其第 $i$ 行表示位置 $i$ 与其相邻的 $k$ 个位置的关注关系， $A_{i j} = 1$ 表示位置 $i$ 关注位置 $j$ ， $A_{i j} = 0$ 表示位置 $i$ 不关注位置 $j$ .

在计算自注意力时，传统的Transformer模型使用注意力权重 $W_{q} W_{k}^{⊤}$ 进行位置之间的关注计算，其中， $W_{q}$ 和 $W_{k}$ 是对查询和键进行线性变换的权重矩阵.在引入的稀疏自注意力机制中，引入一个稀疏矩阵 $B \in R^{n \times n}$ ，其中 $B_{i j} = W_{q} (i) W_{k} (j)$ 表示位置 $i$ 与位置 $j$ 之间的注意力权重.最后，通过矩阵相乘 $B A$ ，得到每个位置与其相邻的 $k$ 个位置之间的注意力权重.这样，只有与当前位置在局部范围内的位置才有非零的注意力权重，从而实现了稀疏性.

具体地，稀疏自注意力的计算如下：

\begin{array}{l} A t t e n t i o n (Q, K, V) = \\ S o f t m a x (\frac{Q W_{q}^{⊤} W K W_{k}^{⊤}}{\sqrt[]{d_{k}}}) V \end{array}

(6)

其中， $Q, K 和 V$ 分别是查询、键和值的输入向量， $W_{q}$ 和 $W_{k}$ 是线性变换的权重矩阵.对于稀疏自注意力， $Q, K 和 V$ 的维度为 $n \times d_{k}$ ， $W_{q}$ 和 $W_{k}$ 的维度为 $d_{k} \times d_{k}$ ， $B$ 的维度为 $n \times n$ ， $A$ 的维度为 $n \times n$ .通过计算 $B A$ ，即式（6）中的 $W_{q}^{⊤} W K W_{k}^{⊤}$ ，可以得到每个位置与其相邻的 $k$ 个位置之间的注意力权重，然后与值 $V$ 相乘得到最终的输出.

这样，通过稀疏自注意力机制，Finformer模型可以高效地处理长序列的时间序列预测问题，减少计算复杂度，同时保持对序列中重要位置的关注.

2.3　BSFinformer模型

如前所述，Boruta⁃SHAP模块通过Boruta迭代来评估特征的预测能力，通过SHAP分析对特征的重要性进行解释，二者实现了对冗余数据的处理，从而完成了特征选择功能.它不仅能评估每个特征与目标变量之间的单独关系，还考虑了特征之间的相关性，这种综合考虑可以更全面地评估特征的重要性，并避免选择冗余或相关性高的特征.

得到合理的数据集后，通过Finformer模块，创新地将Decomposition架构和稀疏自注意力机制相结合，可以更好地捕捉序列中的长期依赖关系，较好地对长时间序列的金融数据进行预测.下一节用得到的BSFinformer模型代入三个金融数据实例，并详细展示实验结果的分析和讨论.

3 实验设计与分析

3.1　数据集

为了验证BSFinformer模型预测长时间序列金融数据的可行性，选取三种常见的加密货币Bitcoin，Dogecoin和Binance Coin，其数据特征包括交易数量、最高时美元价格、最低时美元价格、每分钟的成交量加权平均价等.数据大部分来源于Kaggle比赛的G⁃Research 加密货币预测，包含2016年以后的14种货币，每种货币含有13种特征标签，共有100多万条数据信息.

3.2　评价指标

长时间序列预测中，为了更准确地评估模型，选择平均绝对误差（MAE）和均方误差（MSE）两个指标来评价模型.

（1）平均绝对误差（MAE）是衡量预测值与真实值之间差异的绝对值的平均值.对于一个时间序列预测任务，给定 $n$ 个样本，表示为 $y_{i}$ 的真实值和 $\hat{y_{i}}$ 的预测值，MAE的计算如下所示：

M A E = \frac{1}{n} \sum_{i = 1}^{n} |y_{i} - \hat{y_{i}}|

(7)

首先，对每个样本的预测误差取绝对值，然后求取这些绝对值的平均值.MAE越小，表示预测结果与真实值之间的平均差异越小，即模型的预测精度越高.

（2）均方误差（MSE）是预测值与真实值之间差异的平方的平均值.对于 $n$ 个样本的时间序列预测任务，MSE的计算如下所示：

M S E = \frac{1}{n} \sum_{i = 1}^{n} {(y_{i} - \hat{y_{i}})}^{2}

(8)

首先计算每个样本的预测误差的平方，然后求取这些平方值的平均值.与MAE不同，MSE考虑了预测误差的平方，能强调大误差的影响，使其对整体误差的贡献更显著，与MAE结合能更好地展示实验结果.

3.3　Boruta⁃SHAP特征选择结果的分析

为了评估特征冗余对预测实验结果的影响，采用Boruta⁃SHAP算法对金融产品数据进行特征提取，并选择最优的特征组合进行预测实验.选取三个数据集中的Bitcoin数据集进行分析，通过Boruta⁃SHAP算法来比较其各个特征的重要性，实验结果如表1和图2所示.

表1 采用Boruta⁃SHAP进行特征选择的实验结果

Table 1 Experimental results of feature selection by Boruta⁃SHAP

Features	Feature Importance	Decision
CLOSE	2.262197119	Accepted
OPEN	2.165680501	Accepted
SPR	1.812067526	Accepted
LOW	1.66772876	Accepted
LAS	0.735900298	Accepted
HIGH	0.476583884	Accepted
VWAP	0.255709245	Accepted
COUNT	-0.096069686	Accepted
TICK	-0.16843082	Accepted
VOL	-0.323379883	Accepted
MOV	-0.349020967	Accepted
VAR VOLUME	-0.56171029 -0.58607727	Rejected Rejected

新窗口打开| 下载CSV

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 Boruta⁃SHAP算法的Z⁃score评分

Fig.2 Z⁃score of Boruta⁃SHAP algorithm

通过Boruta⁃SHAP方法进行特征选择后，发现VAR和VOLUME（图中红色）的重要性得分低于阴影特征集的最大重要性得分，因此这两个特征在该模型中属于冗余数据.为了更直观地展示特征选择的结果，同时确保Boruta⁃SHAP算法特征提取方面的有效性，用长时间序列预测领域广泛应用的深度学习模型Finformer，LSTM，Transformer和Informer模型进行对照实验，实验结果如表2所示，表中黑体字表示结果更优.

表2 使用不同的深度学习模型进行的Boruta⁃SHAP对比实验结果

Table 2 Comparative experiments of Boruta⁃SHAP by different deep learning models

模型	MSE	MAE
BS+Finformer	0.1748	0.3145
Finformer	0.2633	0.3427
BS+LSTM	0.4781	0.5248
LSTM	0.6373	0.7578
BS+Transformer	0.2899	0.4134
Transformer	0.3633	0.4827
BS+Informer	0.2644	0.3436
Informer	0.3686	0.4154

新窗口打开| 下载CSV

由表可见，使用Boruta⁃SHAP算法进行特征选择后，其模型的预测结果均为更优，特别是在Finformer模型上，对比效果最显著.在Bitcoin数据集上，结合Boruta⁃SHAP算法的Finformer，LSTM，Transformer和Informer模型，其MSE分别减少34%，25%，20%和28%，其MAE分别减少8%，31%，14%和17%，证明结合Boruta⁃SHAP算法对预测模型进行优化可以显著提升其性能.尤其是Finformer模型，Boruta⁃SHAP算法的引入使其能够更好地适应特定数据集的特征和模式，降低预测误差.这些改进有助于提高模型的预测准确性和可靠性，在实际应用中具有潜在的价值和应用前景.

3.4　Finformer预测结果分析

类似对Boruta⁃SHAP特征选择结果的分析，对于利用Finformer进行长时间序列的预测，同样选取三个数据集中的Bitcoin数据集进行分析.实验的输入参数如表3所示，实验结果如表4所示，表中黑体字表示结果更优.由表可见，在Bitcoin数据集上，Finformer和其他五种模型相比，表现出明显的优势.与表现次好的Informer相比，Finformer模型的MSE降低了29%，MAE降低了17%，证明本文提出的Finformer模型在实际金融长序列预测场景下具有出色的性能.

表3 实验中Finformer模型使用的参数

Table 3 Parameters of Finformer used in experiments

参数名称	数值
序列长度	96
待预测序列长度	96
特征数目	11
嵌入维度	512
编码器输入序列	（32，96，11）
学习率	10^-4

新窗口打开| 下载CSV

表4 Bitcoin数据集上Finformer模型的实验结果

Table 4 Experimental results of Finformer model on Bitcoin dataset

模型	MSE	MAE
Finformer	0.2633	0.3427
Autoformer	0.3839	0.4178
Informer	0.3686	0.4154
Transformer	0.3633	0.4827
LSTM	0.6373	0.7578
Reformer	0.6135	0.5552

新窗口打开| 下载CSV

3.5　BSFinformer模型

在Bitcoin，Dogecoin和Binance Coin三种加密货币数据集上验证BSFinformer模型的可行性.除了选择Informer和Autoformer模型作为基准模型之外，还选取了Transformer和LSTM模型作为对比基准模型.通过对比实验来评估本文模型对金融产品交易价格预测的性能.

所有模型均采用交叉验证的方式进行实验.为了获得更可靠的结果，避免意外导致实验误差，每个模型均进行了至少三次实验，取预测结果的均值作为最终对比结果.具体的模型参数如表3所示.在三个加密货币的数据集上，BSFinformer与其他四种预测模型的对比结果如表5所示，表中列出的是MSE和MAE的均值，表中黑体字表示结果更优.

表5 BSFinformer模型在三个数据集上的实验结果

Table 5 Experimental results of the BSFinformer model on three datasets

	Bitcoin		Dogecoin		Binance Coin
	MSE	MAE	MSE	MAE	MSE	MAE
BSFinformer	0.1748	0.3145	0.4130	0.3739	0.3616	0.4160
Autoformer	0.3839	0.4178	0.4507	0.4503	0.4347	0.4479
Informer	0.3686	0.4154	0.5101	0.4938	0.3816	0.4860
Transformer	0.3633	0.4827	0.4922	0.4993	0.4495	0.4706
LSTM	0.6373	0.7578	0.6548	0.7904	0.6301	0.5367

新窗口打开| 下载CSV

由表可见，在三种加密货币数据集上，本文的BSFinformer模型和其他四种预测模型相比，具有显著优势.在Bitcoin数据集上，和Informer相比，BSFinformer的MSE降低了52%，MAE降低了24%；在Dogecoin数据集上，和Autoformer相比，BSFinformer的MSE降低了8%，MAE降低了17%；在Binance Coin数据集上，和Informer相比，BSFinformer的MSE降低了5%，MAE降低了14%.证明在实际金融预测场景下，本文提出的BSFinformer模型也有出色的性能表现.

3.6　消融实验

为了验证Finformer模块的优越性，进行了相关的消融实验，实验结果如表6所示，表中Finformer^*表示不使用稀疏自注意力机制的Finformer模型，表中黑体字表示结果更优.由表可见，稀疏自注意力机制对Finformer模型的提升较大，和不使用稀疏自注意力机制相比，在三个数据集上，其MSE分别减少22%，8%和10%，其MAE分别减少8%，10%和3%.证明稀疏自注意力机制在预测长时间序列的金融数据时有优势.

表6 消融实验的结果

Table 6 Results of ablation experiment

	Finformer		Finformer^*		Transformer
	MSE	MAE	MSE	MAE	MSE	MAE
Bitcoin	0.2633	0.3427	0.3387	0.3752	0.3633	0.4827
Dogecoin	0.4349	0.4156	0.4739	0.4623	0.4993	0.4993
Binance Coin	0.3746	0.4352	0.4203	0.4511	0.4495	0.4706

新窗口打开| 下载CSV

4 结论

本研究旨在解决金融领域中的两个重要问题：特征选择和长期时间序列预测，为此提出两个关键方法，即Boruta⁃SHAP特征选择方法和Finformer时间序列预测模型.本文详细介绍了两个方法的原理、算法流程和实验结果，并对它们的有效性进行了全面评估.

首先介绍了Boruta⁃SHAP方法，它是一种基于组合策略的特征选择算法.结合Boruta算法和SHAP值计算方法，能准确地评估特征的重要性，并选择出对于金融预测任务最具有区分性和相关性的特征集合.实验中应用Boruta⁃SHAP方法来选择最优的特征组合，并验证了其在金融数据集上的优越性.

其次介绍了Finformer模型，它是一种基于稀疏自注意力机制和分解机制的Transformer模型，专用于长期时间序列的预测任务.Finformer模型能有效地捕捉序列中的长期依赖关系并提供准确的预测结果.实验中将Finformer模型与其他经典的时间序列预测模型进行对比，证明了其在金融领域中的优越性.另一方面，通过引入了稀疏自注意力机制这种高效的自相关机制，Finformer模型可以实现 $O (L l g L)$ 的复杂度，并在广泛的现实金融数据中加以运用.

Boruta⁃SHAP方法能准确地选择与金融预测任务相关的重要特征，有效降低了特征冗余对预测结果的影响，同时，Finformer模型在金融时间序列预测任务中表现了出色的性能.实验结果证明，结合Boruta⁃SHAP方法和Finformer模型能获得更准确、更可靠的金融预测结果.

总之，Boruta⁃SHAP方法和Finformer模型在特征选择和长期时间序列预测方面具有重要的应用价值，为金融领域的决策者和研究者提供了有效的工具和方法，有助于在面对复杂的金融数据和预测任务时作出准确的决策.未来将进一步优化和扩展这些方法，满足金融领域中更具挑战性的需求，并推动金融预测技术的发展和应用.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

McLeod

A I

， Li

W K

Diagnostic checking ARMA time series models using squared⁃residual auto⁃correlations

Journal of Time Series Analysis，1983，4(4)：269-273.