多采样近似粒集成学习

图1 多采样近似粒化

Fig.1 Multi⁃sampling approximate granulation

多采样近似粒化传播式如下所示：

S = S i m p l e (I S (N (U), E [f]), U, M)

(7)

A = F (U_{S}), n_{u_{s}} ≪ n

(8)

G = S t a c k (F (A, U))

(9)

其中，式（7）表示对样本 $U$ 进行 $M$ 次重要性采样的过程.式（8）表示基于多次采样的结果 $U_{S}$ 构建近似求解模型集 $A$ 的过程.式（9）表示基于近似解集 $A$ 与样本集 $U$ 的粒化过程.可以看出，该粒化过程的每一步的输出都作为下一步的输入，因此该粒化过程是一个顺序过程.

2.2　模型结构

多采样近似粒集成模型主要分为基模型构建阶段、近似解信息粒化阶段和最终决策阶段.前两阶段是多采样近似粒化的简化表示，最后阶段是对粒向量的决策过程.这三个阶段有两个阶段涉及模型的结构.多采样近似粒集成模型的结构如图2所示.

图2

图2 多采样近似粒集成模型

Fig.2 Granular ensemble model based on multi⁃sampling approximate granulation

在基模型构建阶段，通过使用近似子集 $U_{S}$ 构建相应的近似基模型 $A_{S}$ .每个近似基模型 $a_{s} \in A$ 的构建方法是多变的.这样的多变性体现在近似基模型选取时既可以使用同类基模型，又可以使用不同类的基模型.这是因为在使用同类基模型的时候，每个基模型输入的近似子集是不同的（通过采样大小进行控制），使得每个近似解集都是不同近似分布下的解，因此模型获得更深层的空间信息.同样地，也可以使用异类的基模型.多种不同的基模型结合会使得模型获得多个基模型的优点，有着更高的鲁棒性.第二个涉及模型结构的阶段是最终决策阶段，该过程使用最终决策器对解粒向量做最终决策.最终决策器的选择则是整个模型最终分类效果的关键，在该步中会根据具体面对的情况（数据集）选择不同的分类模型.同时，由于解粒向量 $G$ 是由 $m$ 个近似解集中对应的近似解堆叠得到，其维度往往是高维的.在输入最终决策器前，会使用拼接或均值池化技术将堆叠的高维粒向量脱粒为粒子形式（一维数据）.

2.3　算法及其复杂度分析

本节对涉及的构建多采样近似粒集成模型的算法进行介绍，算法1使用循环表示近似基模型与全局近似解的构建流程.实际上，由于其每个近似基模型与其输入的近似子集是一一对应的关系，不同关系之间是不相关的，因此近似基模型的构造是并行的，则构造近似基模型集的时间复杂度可以用时间效率最复杂的近似基模型表达，即 $m a x (O (A))$ .同样地，整个模型是顺序结构，故其时间复杂度为 $O (m a x (O (A)) + O (F D))$ .由于在数据处理部分没有涉及循环或者迭代处理，因此该部分的计算效率被忽略不计.在整个模型的计算过程中，涉及样本集 $U$ 的有三个模块，分别是计算样本重

要性概率 $P$ 、计算近似子集 $U_{S}$ 和计算全局近似解

算法1 多采样近似粒集成模型构建算法

输入：样本集 $U$ ，标签集 $Y$ ，抽样比例集 $S$ ，近似基模型集 $A$ ，最终决策模型FD.

输出：指标集 $E$ .

1.样本集 $U$ 被映射为正态分布，计算样本的重要性概率 $P$ ，转步骤2;

2.基于重要性概率 $P$ 和抽样比例集 $S$ 对样本集 $U$ 进行 $m$ 次重要性采样，输出近似子集 $U_{S}$ ，转步骤3；

3.For $i = 0$ to $m$ ；

4. 基于近似子集 $u_{s_{i}} \in U_{S}$ 训练近似基模型 $a_{i} \in A$ ，转步骤5；

5. 构建近似基模型 $a_{i}$ 上样本集 $U$ 的全局近似解 $V_{i}$ ；

6.end；

7.输出近似解集 $V = \{V_{1}, V_{2}, \dots, V_{m}\}$ ，转步骤8;

8.对近似解集 $V$ 进行堆叠，构建信息粒化，输出样本粒向量 $G$ ，转步骤9；

9.样本粒向量 $G$ 输入最终决策模型，构建最终决策 $D$ ，转步骤10；

10.将最终决策 $D$ 与标签 $Y$ 对比，输出指标集 $E$ ；

$V$ .这三个模块是顺序结构，其空间效率分别为 $O (n)$ ， $s_{m e a n} O (n)$ （假设采样子集的大小平均为 $s_{m e a n}$ ）和 $O (n)$ .最终决策模型的输入为粒向量 $G$ ，该粒向量由 $n$ 个 $m$ 维的粒子组成，故其空间效率为 $O (n m)$ .考虑到在实际计算中，近似基模型的数量 $m$ 远小于样本数量 $n$ ，因此整个模型的空间效率为 $O (n)$ 的有限倍数.

3 实验分析

本章采用10个Kaggle与UCI数据集进行实验，数据集具体信息如表1所示.为了测试算法的有效性，对模型设计三种实验.首先对比多种采样方式对模型的影响.其次对比了多采样近似粒化和多种粒化方法，证明多采样近似粒化的有效性.最后与多个经典的集成算法做了详细比较.本章所有实验结果都是基于十折交叉验证得出，并保留四位小数.

表1 数据集的具体属性

Table 1 The specific attributes of the dataset

数据集	维度	类别数	样本数
breast cancer	30	2	569
mobile	20	4	2000
diabetes	8	2	768
blood	4	2	747
raisin	7	2	900
Shill Bidding	10	2	6321
Wine Quality	21	10	5000
yeast	8	10	1484
waveform	21	3	5000
Debrecen	19	2	1150

3.1　采样方法的对比

该节对比多种采样方式对构建近似基模型的影响，具体对比方法有随机采样、聚类采样和重要性采样.随机采样是以随机数的方式对样本进行选取，每个样本被选中的概率是相等的，即 $1 / n$ ，该方法可以看作是重要性采样的特殊情况.聚类采样则是以样本的簇作为采样基础，按簇的大小对簇内样本进行采样，在本实验中构建簇的算法为k⁃means.三种算法的优缺点如表2所示，其可视化结果如图3所示.所有数据集的方差对比结果如表3所示，表中黑体字表示结果最优.

表2 三种采样方法对比

Table 2 Comparison of three sampling methods

采样方法	优点	缺点
随机采样	算法简单有效，计算效率高	随机性较高，需要多次采样才能有好的结果
聚类采样	构建的近似分布方差较小	计算效率较高，需要预先计算簇
重要性采样	构建的近似分布方差最小，更符合原始分布	重要性较低的样本很难被选择

图3

图3 采样分布对比

Fig.3 Comparison of sampling distribution

表3 采样方法的方差对比

Table 3 Comparison of the variance of sampling methods

数据集	原始分布	随机采样	邻域采样	重要性采样
breast cancer	0.0208	0.0238	0.0217	0.0125
mobile	0.1305	0.1308	0.1301	0.1263
diabetes	0.0258	0.0249	0.0257	0.0200
blood	0.0267	0.0247	0.0237	0.0154
raisin	0.0224	0.0216	0.0222	0.0111
Shill Bidding	0.1119	0.1118	0.1106	0.1036
Wine Quality	0.0180	0.0180	0.0171	0.0131
yeast	0.0138	0.0133	0.0128	0.0096
waveform	0.0241	0.0246	0.0241	0.0220
Debrecen	0.0320	0.0314	0.0292	0.0257
均值	0.0426	0.0424	0.0417	0.0358

首先，为了分析采样方法对构建近似基模型的影响，该节比较了三种采样方法的可视化结果.可视化实验在diabetes和Wine Quality数据集上进行，并设定采样比例系数.采样比例系数是一个经验化的超参数，其值的设置根据模型与其处理的数据大小而定.图3展示了diabetes和Wine Quality在采样比例（Sampling Portion，SP）为0.2时的分布对比.图中从左到右依次为原始分布、聚类采样分布、重要性采样分布和随机采样分布.其中子图标题var表示该采样下数据的方差.右侧的色带表示图中样本点的重要性概率.

根据表3和图3可以看出，随机采样并不能降低采样分布的方差，并且在waveform数据集上的方差比原始分布更高.邻域采样方法只能在有限程度上降低样本分布的方差.而重要性采样在采样过程中会着重考虑重要性更高的样本，这些样本对样本分布的影响最大，因此有着最低的方差.重要性采样与其他两种采样方法对比来看，方差平均低0.0066和0.0059.

图4展示了在raisin数据集上，基于不同 $S P$ 的重要性采样的分布对比.由图可知，随着SP的提高，重要性采样的方差会有不同程度的上升.但是，即使采样了80%的原始数据，在该数据集上，重要性采样的方差依然比原始分布和其他采样方法低.其在高SP下的表现更稳定.因此，重要性采样方法的鲁棒性更好.

图4

图4 不同采样比例的对比

Fig 4 Comparison of different sampling ratios

由于这三种方法的采样结果都带有一定的随机性，因此在精准度（Accuracy，Acc）的比较上，分别获取10次运行结果，并以图表展示其可视化结果.对数据分别进行三次采样， $S P = [0.2,0.2,0.2]$ ，对应的近似基模型 $A = [线性核 S V M, k 近邻分类器, G a u s s i a n N B]$ ，最终决策模型FD为rbf核SVM.其中，近似基模型的输出为软数据，对应样本属于某一类的概率值.

图5比较了在diabetes，breast cancer 和raisin数据集中，三种采样方法在十次交叉验证后的结果.图中横轴为采样轮数，前10次为重要性采样，11至20次为随机采样，21至30次为聚类采样.其中有色点表示采样结果，即每次采样的精准度.IS指包围的红圈部分为重要性采样（Important Sampling），RS指包围的篮圈部分为随机采样（Random Sampling），CS指包围的绿圈部分为聚类采样（Cluster Sampling）.由图可知，红圈面积与蓝圈和绿圈相比明显较小，表明在十次交叉验证中，重要性采样方法的结果波动性较小，相反随机采样与聚类采样则稳定性较差.同样地，红圈的相对位置要高于蓝圈与绿圈，这表明重要性采样的分类结果平均来看要优于其他两种采样方法.

图5

图5 三个数据集的十次分类结果对比

Fig.5 Comparison of ten classification results under three datasets

表4展示了三种采样方法在数据集上的十次分类结果，分别对比了十次分类结果的最大值、最小值和平均值，表中黑体字表示结果最优.可以看出，重要性采样除blood，Shill Bidding和yeast数据集外，其最大精准度是最高的.同时，在所有数据集上，重要性采样的最小精准度也是最高的.平均来看，除了在blood与Shill Bidding数据集上三种采样算法的表现相似，重要性采样的分类精准度比其他两种采样方法分别高约0.0060和0.0050.这一现象说明与随机采样与聚类采样相比，重要性采样产生的近似分布是更有效的，同时，基于重要性采样构建的近似模型也有着更高的鲁棒性.

表4 三种采样方法的分类结果对比

Table 4 Comparison of the classification results of the three sampling methods

数据集	随机采样			聚类采样			重要性采样
数据集	最大	最小	平均	最大	最小	平均	最大	最小	平均
breast cancer	0.9772	0.9631	0.9712	0.9806	0.9719	0.9745	0.9806	0.9754	0.9777
mobile	0.9110	0.8865	0.8975	0.9100	0.8860	0.8983	0.9120	0.8875	0.9035
diabetes	0.7787	0.7566	0.7683	0.7774	0.7435	0.7674	0.7826	0.7631	0.7710
blood	0.7818	0.7604	0.7656	0.7912	0.7590	0.7668	0.7724	0.7631	0.7646
raisin	0.8644	0.8478	0.8572	0.8667	0.8522	0.8600	0.8700	0.8600	0.8653
Shill Bidding	0.9854	0.9813	0.9833	0.9869	0.9801	0.9839	0.9848	0.9821	0.9831
Wine Quality	0.5935	0.5735	0.5869	0.5929	0.5785	0.5879	0.5966	0.5860	0.5906
yeast	0.5725	0.5421	0.5605	0.5758	0.5557	0.5646	0.5725	0.5637	0.5673
waveform	0.8698	0.8650	0.8680	0.8718	0.8662	0.8693	0.8718	0.8676	0.8693
Debrecen	0.6765	0.6557	0.6623	0.6809	0.6557	0.6590	0.6870	0.6600	0.6738

3.2　粒化方法

该节将多采样近似粒化与三种粒化方法做对比，具体的对比方法有邻域粒化^{［17，20］}、条件粒化^［19］与模糊粒化^［9］.该三种粒化方法都是基于粒的判别式去构造粒子.条件粒化与模糊粒化都是局部粒化方式，这两种方法会先在样本集中选取参考样本，进而用判别式对样本集与参考样本做单特征下的比较.

模糊粒化的判别式如下所示：

g {(x_{i})}_{j} = |x_{i} - r e f e r e n c e|, i \in n, j \in m

(10)

其中，n为样本个数，m为样本维度，reference为参考样本集.直觉上，每个模糊粒子就是由样本x与参考样本集reference在某个特征下差值的绝对值定义的.

相似地，条件粒化则是在模糊粒化的基础上做了一些更改.条件粒化的判别式如下所示：

g {(x_{i})}_{j} = 1 - |x_{i} - r e f e r e n c e|, i \in n, j \in m

(11)

条件粒化的判别式定义了在某个特征下，样本x与参考样本集的相似度.相反，模糊粒化的判别式则定义了样本x与参考样本集的不相似程度.

与前两种局部粒化方式不同的是，邻域粒化是一种全局粒化方式，该方法在样本集内部进行交叉比较.其第一步是先通过式（10）计算全局的不相似程度，第二步则是根据邻域判别式将粒子做二值化处理.邻域粒化的判别式如下所示：

y = \{\begin{array}{l} 0, g {(x_{i})}_{j} > σ \\ 1, g {(x_{i})}_{j} \leq σ \end{array}, i \in n, j \in m

(12)

其中， $σ$ 为邻域参数.

基于上述三种粒化方法，在该节构建粒随机森林，并与多采样近似粒化作详细对比.模糊粒化与条件粒化的参考样本个数为5，邻域粒化的邻域参数为0.3，随机森林（RF）基于Gini系数构建并且基预测器个数为50.多采样近似粒化的 $S P = [0.4,0.4,0.4]$ ，对应的近似基模型 $A = [线性核 S V M, k 近邻分类器, G a u s s i a n N B]$ ，对比结果如表5所示，表中黑体字表示结果最优.其中RF表示原始数据，RF_Fuzzy表示模糊粒化，RF_Condition表示条件粒化，RF_Neighbor表示邻域粒化，RF_SAG表示多采样近似粒化.分类结果以均值±方差的形式表示.由表5可知，多采样近似粒化在大部分数据集上表现更好.其中在mobile，blood，waveform数据集上优势更明显，平均分别高于其他算法约0.045，0.015，0.015.同样地，在diabetes数据集上，模糊粒化获得最优表现，其分类精准度达到0.7721，分别比其他粒化方法高0.0156，0.0065，0.0221.在Shill Bidding数据集上，邻域粒化获得最优表现，其分类精准度达到0.9984，相应的多采样近似粒化只有0.9847.最后，在yeast数据集上条件粒化的分类精准度最高，达到0.6150.同时，多采样近似粒化也获得相似的分类效果，分类精准度为0.6135.平均来看，基于多采样近似粒化的随机森林的分类精准度最高，与其他四种算法相比分别多约0.0113，0.0087，0.0097，0.0089.同时，多采样近似粒化的平均方差也是最低的，只有0.0006.表明与其他粒化方法相比，多采样近似粒化有着更高的泛用性，同时能够降低精度分数的方差，提高了模型的鲁棒性.

表5 多种粒化方法在数据集上的对比结果

Table 5 The comparative results of various granulation methods on the dataset

数据集	RF	RF_Fuzzy	RF_Condition	RF_Neighbor	RF_SAG
breast cancer	0.9614±0.0007	0.9596±0.0011	0.9632±0.0014	0.9631±0.0007	0.9667±0.0007
mobile	0.8755±0.0002	0.8915±0.0001	0.8915±0.0002	0.9090±0.0003	0.9405±0.0002
diabetes	0.7474±0.0025	0.7721±0.0025	0.7565±0.0025	0.7656±0.0019	0.7500±0.0020
blood	0.7363±0.0008	0.7470±0.0008	0.7483±0.0004	0.7377±0.0011	0.7536±0.0008
raisin	0.8556±0.0004	0.8544±0.0007	0.8611±0.0005	0.8578±0.0011	0.8656±0.0005
Shill Bidding	0.9959±0.0000	0.9975±0.0000	0.9975±0.0000	0.9984±0.0000	0.9847±0.0000
Wine Quality	0.6979±0.0010	0.7004±0.0009	0.6967±0.0005	0.7005±0.0016	0.7035±0.0008
yeast	0.6103±0.0006	0.6042±0.0011	0.6150±0.0008	0.5866±0.0011	0.6135±0.0009
waveform	0.8490±0.0002	0.8392±0.0001	0.8400±0.0002	0.8384±0.0002	0.8586±0.0002
Debrecen	0.6878±0.0003	0.6774±0.0011	0.6635±0.0012	0.6843±0.0025	0.6930±0.0002
均值	0.8017±0.0007	0.8043±0.0008	0.8033±0.0008	0.8041±0.0010	0.8130±0.0006

3.3　综合比较

该节详细对比了多采样近似粒集成学习与其他先进的集成算法的分类效果，具体对比的算法有Random Forests （RF）^［3］，AdaBoost，HistGradientBoosting （HGB）^［29］和XGBoost^［30-31］.其中，随机森林RF的树基于熵构建，基预测器个数为100；AdaBoost的预测器类别为决策树，学习率为1.0，构建算法为SAMME.R，基预测器个数为50；HGB的损失函数为交叉熵损失，学习率为1.0，最大迭代次数为100次；XGBoost的特征SP为0.7，目标函数为softmax，学习率为0.3，基预测器个数为100.对于MSAGEL（多采样近似学习）的参数设置如下： $S P = [0.4,0.6,0.4]$ ，对应的近似模型 $A = [线性核 S V M, 决策树 D T, G a u s s i a n N B]$ ，最终决策模型为线性核SVM，结果如表6所示，表中黑体字表示结果最优.

表6 多种集成方法在数据集上的对比结果

Table 6 The comparative results of various ensemble methods on the dataset

数据集	RF	AdaBoost	HGB	XGBoost	MSAGEL
breast cancer	0.9614±0.0006	0.9667±0.0005	0.9684±0.0003	0.9789±0.0006	0.9842±0.0002
mobile	0.8825±0.0006	0.7210±0.0018	0.9120±0.0002	0.9205±0.0002	0.9610±0.0002
diabetes	0.7474±0.0025	0.7527±0.0033	0.7344±0.0014	0.7357±0.0019	0.8724±0.0022
blood	0.6643±0.0196	0.7873±0.0112	0.6883±0.0214	0.7444±0.0019	0.8488±0.0016
raisin	0.8600±0.0013	0.8544±0.0021	0.8467±0.0024	0.8511±0.0015	0.9444±0.0008
Shill Bidding	0.9911±0.0000	0.9913±0.0000	0.9962±0.0000	0.9972±0.0000	0.9994±0.0000
Wine Quality	0.5647±0.0016	0.5253±0.0050	0.5428±0.0008	0.6898±0.0022	0.8405±0.0005
yeast	0.6197±0.0018	0.4323±0.0004	0.5846±0.0011	0.5947±0.0008	0.7876±0.0009
waveform	0.8264±0.0002	0.8094±0.0004	0.8518±0.0004	0.8450±0.0003	0.9026±0.0002
Debrecen	0.6600±0.0023	0.6522±0.0011	0.7043±0.0024	0.7122±0.0005	0.8478±0.0004
均值	0.7778±0.0030	0.7492±0.0026	0.7829±0.0030	0.8069±0.0010	0.8989±0.0007

由表6可知，MSAGEL算法在所有数据集上都获得了较大提升.其中在Wine Quality和yeast数据上，MSAGEL分别获得0.8405和0.7876的准确度，比其他四种集成学习算法的准确度高0.15~0.3.在diabetes，raisin和Debrecen数据集上，MSAGEL比其他四种集成学习算法的准确度高0.1~0.2.总体来看，AdaBoost算法不够稳定，在yeast数据集上无法获得足够正确的划分结果，并且总体的平均准确分数也是五种算法中最低的.与AdaBoost算法相比，RF，HGB和XGBoost算法表现则相对一致，它们的平均分数分别高出AdaBoost约0.0286，0.0337和0.0577.与其他四种算法相比，MSAGEL的平均分数高出较为明显.MSAGEL平均高于其他算法约0.114，0.1594，0.1110和0.0920.除了分类精准度的优势外，MSAGEL在方差比较上也有明显优势，比其他算法分别低0.0023，0.0019，0.0023和0.0003.表明MSAGEL在十折交叉验证的过程中表现更稳定.在这些数据集中，Wine Quality和yeast都是多类不平衡数据集.如在yeast数据集内，类别为CYT的样本有463个，而类别为ERL的样本只有五个，这种类别的极度不平衡性，导致其他四种算法的弱表现.由于MSAGEL是一种基于采样的近似模型，其基近似模型的构建可以在一定程度上避免数据的不平衡性所带来的缺陷，因此获得了远高于其他四种算法的分类效果.上述数据体现了MSAGEL强大的鲁棒性与适用性.

为了详细比较各项指标，选择XGBoost算法作为多指标的对照算法.两种算法在F1、Acc和召回率三个评价指标和所有数据集上进行详细比较，结果如表7所示，表中黑体字表示结果最优.

表7 MSAGEL和XGBoost在数据集上的多指标对比结果

Table 7 The multi⁃metric comparison results of MSAGEL and XGBoost on the datasets

数据集	模型	F1	Acc	召回率
breast cancer	MSAGEL	0.9810±0.0004	0.9847±0.0002	0.9785±0.0005
breast cancer	XGBoost	0.9737±0.0008	0.9742±0.0008	0.9738±0.0008
mobile	MSAGEL	0.9599±0.0001	0.9604±0.0001	0.9600±0.0001
mobile	XGBoost	0.9208±0.0002	0.9205±0.0002	0.9205±0.0002
diabetes	MSAGEL	0.8569±0.0009	0.8660±0.0009	0.8524±0.0011
diabetes	XGBoost	0.7103±0.0014	0.7159±0.0014	0.7116±0.0017
blood	MSAGEL	0.7736±0.0012	0.8031±0.0005	0.7587±0.0019
blood	XGBoost	0.5995±0.0050	0.6343±0.0095	0.5964±0.0038
raisin	MSAGEL	0.9444±0.0008	0.9448±0.0006	0.9444±0.0008
raisin	XGBoost	0.8508±0.0015	0.8536±0.0014	0.8511±0.0015
Shill Bidding	MSAGEL	0.9967±0.0000	0.9974±0.0000	0.9960±0.0000
Shill Bidding	XGBoost	0.9921±0.0000	0.9919±0.0000	0.9925±0.0001
Wine Quality	MSAGEL	0.7112±0.0017	0.7188±0.0034	0.7190±0.0019
Wine Quality	XGBoost	0.3622±0.0029	0.3806±0.0065	0.3619±0.0024
yeast	MSAGEL	0.7369±0.0018	0.768±0.0016	0.7393±0.0028
yeast	XGBoost	0.5267±0.0058	0.5560±0.0073	0.5255±0.0062
waveform	MSAGEL	0.9021±0.0003	0.9027±0.0003	0.9020±0.0003
waveform	XGBoost	0.8469±0.0003	0.8476±0.0003	0.8472±0.0003
Debrecen	MSAGEL	0.8472±0.0012	0.8488±0.0012	0.8480±0.0013
Debrecen	XGBoost	0.7113±0.0005	0.7131±0.0005	0.7126±0.0005
均值	MSAGEL	0.8711±0.0008	0.8795±0.0009	0.8698±0.0011
均值	XGBoost	0.7494±0.0018	0.7588±0.0028	0.7493±0.0018

由表7可知，MSAGEL算法评价指标的得分在大部分数据集上明显高于XGBoost.该现象在Wine Quality和yeast数据集上尤为明显，分项指标分别平均高约0.25和0.21.而在面对这两个不平衡数据集时，XGBoost由于并没有考虑不平衡性，其只能对类别规模较大的样本做正确分类，因此其各项分数平均只有约0.37和0.53.同时在diabetes，blood，raisin和Debrecen数据集上，MSAGEL则获得0.1~0.15的指标优势.而在breast cancer和Shill Bidding数据集上，两种算法的表现相似，MSAGEL的评价分数比XGBoost高约0.06.这说明MSAGEL的泛化性和鲁棒性都要优于XGBoost.

4 总结

本文提出一种全新的粒化方法，该粒化方法基于采样的思想，同时引入近似理论与重要性采样技术，构建近似粒向量.与随机采样和聚类采样方法相比，重要性采样方差更低，计算花费较低.这些特点使得重要性采样的分布与原始分布相似.与其他先进的粒化方法相比，该方法摒弃了根据具体判别式构造粒子的方式，其依据数据的近似分布构建多个分布下的近似粒子的方法赋予粒化过程更高的灵活性.根据分析，近似粒化的空间复杂度仅为 $O (n m)$ ，这一规模远低于邻域粒化的 $O (n n)$ .同时，在以RF为基础模型的粒化方法比较上，多采样近似粒化在大部分数据集上获得最优效果.最后，基于近似粒向量的构建过程，本文提出一种多采样近似粒集成学习模型并详细对比该模型与其他先进的集成学习算法.结果表明，多采样近似粒集成学习有着强大的泛化性与鲁棒性.未来工作包括以下三个方面：（1）探索近似模型间的权重关系对最终决策的影响；（2）结合Boosting思想构建多采样近似Boosting；（3）探索近似模型对不平衡数据的性能.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Morente⁃Molinera

J A

， Mezei

， Carlsson

，et al.

Improving supervised learning classification methods using multigranular linguistic modeling and fuzzy entropy

IEEE Transactions on Fuzzy Systems，2017，25(5)：1078-1089.

[2]

Opitz

， Maclin

Popular ensemble methods：An empirical study

Journal of Artificial Intelligence Research，1999，11(1)：169-198.

[3]

Quadrianto

， Ghahramani

A very simple safe⁃Bayesian random forest

IEEE Transactions on Pattern Analysis and Machine Intelligence，2015，37(6)：1297-1303.

[4]

Jiang

S H

， Mao

H Y

， Ding

Z M

，et al.

Deep decision tree transfer boosting

IEEE Transactions on Neural Networks and Learning Systems，2020，31(2)：383-395.

[5]

Zadeh

L A

Toward a theory of fuzzy information granulation and its centrality in human reasoning and fuzzy logic

Fuzzy Sets and Systems，1997，90(2)：111-127.

[6]

Bhapkar

H R

， Mahalle

P N

， Shinde

G R

，et al.

Rough sets in COVID⁃19 to predict symptomatic cases

∥Santosh K C，Joshi A. COVID⁃19：Prediction，decision⁃making，and its impacts. Springer Berlin Heidelberg，2021：57-68.

[7]

Chen

Y M

， Zhu

S Z

， Li

，et al.

Fuzzy granular convolutional classifiers

Fuzzy Sets and Systems，2022,426：145-162.

[本文引用: 5]

[8]

Niu

J J

， Chen

D G

， Li

J H

，et al.

Fuzzy rule⁃based classification method for incremental rule learning

IEEE Transactions on Fuzzy Systems，2022，30(9)：3748-3761.

[9]

Meher

S K

， Pal

S K

Rough⁃wavelet granular space and classification of multispectral remote sensing image

Applied Soft Computing，2011，11(8)：5662-5673.

[10]

Borowska

， Stepaniuk

A rough⁃granular approach to the imbalanced data classification problem

Applied Soft Computing，2019,83：105607.

[11]

X C

， Pedrycz

， Wang

X M

Fuzzy classifiers with information granules in feature space and logic⁃based computing

Pattern Recognition，2018，80：156-167.

[12]

Yao

Y Y

Three perspectives of granular computing

Journal of Nanchang Institute of Technology，2006，25(2)：16-21.

[13]

胡清华，于达仁，谢宗霞.

基于邻域粒化和粗糙逼近的数值属性约简

软件学报，2008，19(3)：640-649.

Q H

， Yu

D R

， Xie

Z X

Numerical attribute reduction based on neighborhood granulation and rough approximation

Journal of Software，2008，19(3)：640-649.

[14]

傅兴宇，陈颖悦，陈玉明,等.

一种全连接粒神经网络分类方法

山西大学学报(自然科学版)，2023，46(1)：91-100.

X Y

， Chen

Y Y

， Chen

Y M

，et al.

A classification method of fully connected granular neural network

Journal of Shanxi University (Natural Science Edition)，2023，46(1)：91-100.

[15]

Jiang

H L

， Chen

Y M

， Kong

L R

，et al. An LVQ clustering algorithm based on neighborhood granules. Journal of Intelligent & Fuzzy Systems：Applications in Engineering and Technology，2022，43(5)：6109-6122.

[16]

， Chen

Y M

， Song

Y P

Boosted K⁃nearest neighbor classifiers based on fuzzy granules

Knowledge⁃Based Systems，2020，195：105606.

[17]

Lin

S H

， Zhang

K B

， Guan

，et al. An intrusion detection method based on granular autoencoders. Journal of Intelligent & Fuzzy Systems：Applications in Engineering and Technology，2023，44(5)：8413-8424.

[18]

陈玉明，蔡国强，卢俊文,等.

一种邻域粒K均值聚类方法

控制与决策，2023，38(3)：857-864.

Chen

Y M

， Cai

G Q

， Lu

J W

，et al.

A neighborhood granular K⁃means clustering method

Control and Decision，2023，38(3)：857-864.

[19]

Chen

Y M

， Qin

， Li

，et al.

Granule structures，distances and measures in neighborhood systems

Knowledge⁃Based Systems，2019，165：268-281.

[20]

Chen

Y M

， Zhu

Q X

， Wu

K S

，et al. A binary granule representation for uncertainty measures in rough set theory. Journal of Intelligent & Fuzzy Systems：Applications in Engineering and Technology，2015，28(2)：867-878.

[21]

Chen

J F

， Zhu

， Song

Stochastic training of graph convolutional networks with variance reduction

2018,arXiv:.

[22]

Chiang

W L

， Liu

X Q

， Si

，et al.

Cluster⁃GCN：An efficient algorithm for training deep and large graph convolutional networks

∥Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. Anchorage，USA：ACM，2019：257-266.

[23]

Feng

K X

， Lu

Z Z

， Ling

C Y

，et al.

Fuzzy importance sampling method for estimating failure possibility

Fuzzy Sets and Systems，2021，424：170-184.

[24]

Müller

， McWilliams

， Rousselle

，et al.

Neural importance sampling

ACM Transactions on Graphics，2019，38(5)：145.

[25]

Grittmann

， Georgiev

， Slusallek

，et al.

Variance⁃aware multiple importance sampling

ACM Transactions on Graphics，2019，38(6)：152.

[26]

Huang

X L

， Li

Z H

， Jin

Y L

，et al.

Fair⁃AdaBoost：Extending AdaBoost method to achieve fair classification

Expert Systems with Applications，2022，202：117240.

[27]

Liu

， Liu

C D

， Xiao

Y S

，et al.

AdaBoost⁃based transfer learning method for positive and unlabelled learning problem

Knowledge⁃Based Systems，2022，241：108162.

[28]

Jiang

， Xu

， Ke

，et al.

An imbalanced multifault diagnosis method based on bias weights AdaBoost

IEEE Transactions on Instrumentation and Measurement，2022，71：3505908.

[29]

Guryanov

Histogram⁃based algorithm for building gradient boosting ensembles of piecewise linear decision trees

∥8^th International Conference on Analysis of Images，Social Networks and Texts. Springer Berlin Heidelberg，2019：39-50.

[30]

Chen

T Q

， Guestrin

Xgboost：A scalable tree boosting system

∥Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco,USA：ACM，2016：785-794.

[31]

Dong

， Huang

Y M

， Lehane

，et al.

XGBoost algorithm⁃based prediction of concrete electrical resistivity for structural health monitoring

Automation in Construction，2020，114：103155.