人类在遇到复杂任务时,会将问题分割成多个子问题,利用强大的记忆与相似对比能力来处理复杂任务[1 ] .随着问题复杂程度的上升,单一的分类系统已经无法满足用户对分类精度的要求,因此,近年来集成学习成为一个热门的研究领域[2 ] .集成学习的构建可以分为两类.第一类是通过平行方法构建,各个基学习器之间是平行的,如Bagging算法、随机森林(Random Forest)算法[3 ] .第二类是通过顺序化方法构建,基学习器是顺序构建的,代表算法有Boosting算法[4 ] .
粒计算是一个新兴的多学科交叉理论,该理论认为粒计算是模糊集、粗糙集理论的合集[5 -6 ] .粒子是构建粒计算模型的最基本元素,以样本的特征间的相似性、距离等度量方式作为粒化的依据,进而构造各种粒子.近年来,粒计算逐渐成为热门研究领域.在该领域中,如何构建粒结构与粒模型一直是一个重要的问题[7 -10 ] .
粒计算的一个主要特征是将输入模式在更高的抽象等级上进行重构[11 -12 ] .因此,粒计算可以获得更多的深层信息.据此,结合粒计算理论的分类模型也成为另一个研究热点,多种基于度量尺度的粒化方法被提出.胡清华等[13 ] 提出一种基于邻域关系所定义的邻域粒化方式,实现了实数空间中的粒度计算.该方法定义在实数空间上的非空有限集合U = x 1 , x 2 , … , x n 中,任一样本x i 的邻域δ 为:
其中,δ x i 被称为邻域信息粒子,∆ 为邻域判别函数.基于该式构建一个邻域关系矩阵M N = r i j n × n . 其中若x j ∈ δ x i ,则r i j = 1 ,否则为0.使用邻域粒化构建模型的方式被应用在多个决策模型上,并取得优秀的效果.同样地,Chen et al[7 ] 提出一种基于单原子特征的模糊粒化,结合卷积运算优化权重获得很好的分类性能.基于特征上的度量方法如欧式距离、曼哈顿距离和Cos相似度等方式,在单特征下构建条件粒子,多特征下构建条件粒向量[7 ,14 ] .模糊粒化拓展了样本的相似属性.最终与KNN (K Nearest Neighbors)等算法相比,在多个数据集下获得高约2%的分类效果.
但是上述工作仍存在一些缺点.全局式的邻域粒化会在构建粒子阶段产生单调且难以处理的数据,使得模型在计算阶段占用过多的资源[15 ] .并且在极小邻域与极大邻域范围内,模型的性能表现往往较差[15 -16 ] .而模糊粒化是一种局部粒化方法,其计算效率会比邻域粒化更低.但是,其基于单特征下相似度构建粒子的方式,使得样本基于特征分布的差异化降低,进而丢失掉某些全局特征[7 ,14 ,17 ] .并且其粒子的空间效率也是基于参考样本决定的(随着参考样本数量的提高而提高).针对这些缺点,本文提出一种基于近似解的粒化方法.该方法通过采样技术对样本集做多次全局采样.在全局采样的结果下,求解全局样本的近似解粒子.并在构建粒子的过程中引入并行式的近似基模型输出多个近似解粒子,多个近似解粒子以粒向量的形式输入最终决策器.这一方法既限制了在粒化过程中产生的数据量,还集成了多个近似基模型的决策能力,提高了模型的分类能力.与多种粒化方式相比[7 ,14 ,17 -18 ] ,多采样近似粒化的空间效率相对较低.多采样近似粒集成模型的创新如下:
(1)结合粒计算和集成模型的特点,进一步提升模型的鲁棒性;
(3)基于全局采样的近似解粒子,使得粒化过程有着更高的灵活性.
1 相关工作
1.1 粒表示
粒的表示方法是粒计算的重要研究内容,其涉及数据在决策模型中做计算的数据结构与方法.基于不同结构的粒子,需要采取不同的计算方式.如陈玉明等[18 ] 提出一种计算二元邻域粒子的距离度量方法,使得二元粒子的距离可以通过具体数值表示.根据Chen et al[19 -20 ] 中粒的计算方法,本文对近似粒的表示做了类似描述.
M A G = U , F , V , S , A 为一个多采样近似粒系统,其中U 是样本的集合,F 是特征或属性的集合,V 则是近似粒子的组合,如V = ⋃ f ∈ F V f ,V f 表示在特征f 下的粒子值,任意的a ∈ F 都决定了一个函数映射关系U → a ∈ A V f ,S = s s ∈ S , u s ∈ U , f s ∈ F , v s ∈ V 表示从原始数据中采样的样本序列集合,A = a | a ∈ A 表示与s ∈ S 对应的近似基学习器的集合.
M A G = U , F , V , S , A 为一个多采样近似粒系统,对于任一采样子集u s ,s ∈ S 和其对应的近似基学习器a s ∈ A . 样本集U 对近似基学习器a s 的近似解集为:
V a s = v a s , 1 , v a s , 2 , … , v a s , n (2)
其中,n 为样本数量.v a s , i , i ∈ n 表示第i 个样本在近似器a s 中得到的近似解.
M A G = U , F , V , S , A 为一个多采样近似粒系统,其中近似基学习器集A = a 1 , a 2 , … , a m ,则样本集U 基于近似基学习器集A 构建的近似解集为:
V = V 1 , V 2 , … , V m (3)
其中,由式(2)可知,V i , i ∈ m 宽度为n . 记g i , j = v i , j v i , j ∈ V , i ∈ n , j ∈ m ,则g i , j 表示样本x i ∈ X 在第j 个近似器上的解粒子.类似地,样本x i ∈ X 在近似器上的解粒向量可以被定义为:
G x i = g 1 , g 2 , … , g m (4)
1.2 全局重要性采样
采样方法一直被广泛应用于机器学习与深度学习领域.不管是对数值数据的采样还是对图像数据的采样,其采样目的都是用少于原始数据量的采样数据去近似获得原始的数据分布,以此来进行更快的计算并挖掘出更深层的数据信息.在该领域中,基于蒙特卡洛思想的重要性采样(Importance Sampling)一直是一个研究热点[21 -24 ] .重要性采样的主要优点是采样出的子集精准度较高且方差较低.
Chen et al[21 ] 定义了一种基于节点数据的重要性方法.一个节点数据由节点本身的特征数据和节点之间的边数据表示,因此可以通过边数据构建节点在整张图上的重要性或采样概率.具体每个传播层的近似式如下:
P H l u = V ∑ u = 1 V 1 V P u v h v l ≈ V S P u v h s l / q v s (5)
其中,q v ∝ ∑ u = 1 V P u v 2 = 1 n v ∑ u , v ∈ ε 1 n u 表示节点的重要性分布.该分布基于节点的度来决定每个邻域节点被采样的概率,P 为图的传播矩阵,h l 为图l 层的激活.该式中的节点v 是以1 n u 的概率采样得出.根据Chen et al[21 -22 ] 的推导,重要性采样分布的q v ∝ 1 ,使得采样的分布与原始数据相近,并拥有较低的方差.与节点数据中依据节点度构建重要性的方法相似,在数值数据中,通常以正态分布的方式确定数据x i ∈ X 被选择的概率p i [23 -25 ] ,即:
E f = ∑ i = 1 m w ^ x i f x i , x i ~ q (6)
其中,w ^ x i = s o f t m a x w x i , w ,x i 为q 分布下的取值.令w ^ x i = p i ,则式(6)表达了在正态分布下样本的重要性期望.
在面对多列数据时,p x 计算主要经过三个步骤:(1)对数据以列的形式做正态化转换,即x ' = N o r m a l T r a n s x ;(2)按行计算均值,即x ¯ = m e a n x ' ;(3)按列对均值x ¯ 做softmax 归一化,得重要性概率p x . 基于概率p x ,可对原始数据集做重要性采样.
2 多采样近似粒集成模型
2.1 多采样近似粒化
多采样近似粒化定义了一个多次采样、近似求解和信息粒化的顺序过程.下面依次详细介绍该顺序过程.
广泛使用的集成学习算法如AdaBoost,在初始阶段对样本集U 中的样本赋予相同权重[26 -28 ] .在每次基于上次样本权重的决策完成后,提高该次决策错误的子集u f 的权重.通过迭代式的训练,最终获得较好的决策结果.这样的训练方式尽管是有效的,但实际上由于其构建模型的过程是串行的,因此其效率较低.基于上述定义,根据样本的重要性概率p x ,对样本集U 进行M = 1,2 , … , m 次有放回采样.由于重要性采样分布的q v ∝ 1 ,因此其采样出的子集u s 为原样本集U 的近似子集,即采样出的近似子序列为S = s 1 , s 2 , … , s m ,相应的近似子集为U S = u s 1 , u s 2 , … , u s m . 易知,u s i ∈ U , i ∈ m . 同时,u s i ⋂ u s j ≢ ∅ , i , j ∈ m .
基于多次采样的近似子集u s ∈ U S 可以构建近似基模型a s ∈ A S . 由于每个近似子集u s 之间满足u s i ⋂ u s j ≢ ∅ , i , j ∈ m ,因此它们是互相独立的.故可以并行地去对每个近似子集u s 构建近似基模型a s . 与Boost和Random Forest等以同类弱分类器作为基础的方式不同,对于多采样近似粒集成模型来说,其每个近似基模型a s 的构建方法是多变的.既可以选择相同的基模型去构建一个强化版的分类模型,也可以集成多种不同的基模型,进而融合多种基模型的优势.该构建方法赋予粒子多种解性质,保证了后续粒化步骤的灵活性,可以构建出一系列近似求解器A S = a 1 , a 2 , … , a m .
基于构建出的近似基学习器集A S ,将所有的样本作为近似基学习器的输入,获得数据的近似解集V = V 1 , V 2 , … , V m . 将近似解集V 粒化为近似解粒向量G x i , i ∈ n . 这一步粒化过程是十分重要的,因为它涉及到将多个互不相关的基近似的解集以粒子性质组合为内部相关的粒向量集.该表达方法使得以粒向量的形式融合多个互不相关的解粒子,进而对这些粒向量进行运算.
图1 展示了多采样近似粒化的详细过程,可以看出近似子集U S 的构建是基于重要性概率P I S 和样本集U 的,因此被采样的样本并不是正态分布化的数据.而对于正态分布化的数据则忽略p x 计算的步骤(1)即可.同时为了防止采样出的数据重复,对采样出的序列集s i ∈ S 做集合性处理,即每个序列集中的元素是非重复的.在近似子集U S 、近似基模型A S 和近似解集V 三个模块间有虚线将对应的子模块相连,表明在这些关联的子模块中,它们有着一一对应的关系.例如近似解集中的子模块V 1 是由近似基模型中的a s 1 产生.图中的样本集除了产生重要性概率P I S 和近似子集U S 之外,还与近似基模型A S 产生关联.这是因为近似解集V 本质上是一种全局解集,而不是基于采样子集得出的近似子解集.最后,在粒化过程中对近似解集V 进行堆叠处理,构建粒向量.可见构建粒向量G 的个数是n ,这是因为在堆叠过程中,对互不相关的近似解集V 按样本关系做了对应.此时,需要处理的数据个数由近似解集V 的个数m 变为样本的个数n .
图1
图1
多采样近似粒化
Fig.1
Multi⁃sampling approximate granulation
S = S i m p l e I S N U , E f , U , M (7)
A = F U S , n u s ≪ n (8)
G = S t a c k F A , U (9)
其中,式(7)表示对样本U 进行M 次重要性采样的过程.式(8)表示基于多次采样的结果U S 构建近似求解模型集A 的过程.式(9)表示基于近似解集A 与样本集U 的粒化过程.可以看出,该粒化过程的每一步的输出都作为下一步的输入,因此该粒化过程是一个顺序过程.
2.2 模型结构
多采样近似粒集成模型主要分为基模型构建阶段、近似解信息粒化阶段和最终决策阶段.前两阶段是多采样近似粒化的简化表示,最后阶段是对粒向量的决策过程.这三个阶段有两个阶段涉及模型的结构.多采样近似粒集成模型的结构如图2 所示.
图2
图2
多采样近似粒集成模型
Fig.2
Granular ensemble model based on multi⁃sampling approximate granulation
在基模型构建阶段,通过使用近似子集U S 构建相应的近似基模型A S . 每个近似基模型a s ∈ A 的构建方法是多变的.这样的多变性体现在近似基模型选取时既可以使用同类基模型,又可以使用不同类的基模型.这是因为在使用同类基模型的时候,每个基模型输入的近似子集是不同的(通过采样大小进行控制),使得每个近似解集都是不同近似分布下的解,因此模型获得更深层的空间信息.同样地,也可以使用异类的基模型.多种不同的基模型结合会使得模型获得多个基模型的优点,有着更高的鲁棒性.第二个涉及模型结构的阶段是最终决策阶段,该过程使用最终决策器对解粒向量做最终决策.最终决策器的选择则是整个模型最终分类效果的关键,在该步中会根据具体面对的情况(数据集)选择不同的分类模型.同时,由于解粒向量G 是由m 个近似解集中对应的近似解堆叠得到,其维度往往是高维的.在输入最终决策器前,会使用拼接或均值池化技术将堆叠的高维粒向量脱粒为粒子形式(一维数据).
2.3 算法及其复杂度分析
本节对涉及的构建多采样近似粒集成模型的算法进行介绍,算法1使用循环表示近似基模型与全局近似解的构建流程.实际上,由于其每个近似基模型与其输入的近似子集是一一对应的关系,不同关系之间是不相关的,因此近似基模型的构造是并行的,则构造近似基模型集的时间复杂度可以用时间效率最复杂的近似基模型表达,即m a x O A . 同样地,整个模型是顺序结构,故其时间复杂度为O m a x O A + O F D . 由于在数据处理部分没有涉及循环或者迭代处理,因此该部分的计算效率被忽略不计.在整个模型的计算过程中,涉及样本集U 的有三个模块,分别是计算样本重
输入:样本集U ,标签集Y ,抽样比例集S ,近似基模型集A ,最终决策模型FD.
1.样本集U 被映射为正态分布,计算样本的重要性概率P ,转步骤2;
2.基于重要性概率P 和抽样比例集S 对样本集U 进行m 次重要性采样,输出近似子集U S ,转步骤3;
4. 基于近似子集u s i ∈ U S 训练近似基模型a i ∈ A ,转步骤5;
5. 构建近似基模型a i 上样本集U 的全局近似解V i ;
7.输出近似解集V = V 1 , V 2 , ⋯ , V m ,转步骤8;
8.对近似解集V 进行堆叠,构建信息粒化,输出样本粒向量G ,转步骤9;
9.样本粒向量G 输入最终决策模型,构建最终决策D ,转步骤10;
V . 这三个模块是顺序结构,其空间效率分别为O n ,s m e a n O n (假设采样子集的大小平均为s m e a n )和O n . 最终决策模型的输入为粒向量G ,该粒向量由n 个m 维的粒子组成,故其空间效率为O n m . 考虑到在实际计算中,近似基模型的数量m 远小于样本数量n ,因此整个模型的空间效率为O n 的有限倍数.
3 实验分析
本章采用10个Kaggle与UCI数据集进行实验,数据集具体信息如表1 所示.为了测试算法的有效性,对模型设计三种实验.首先对比多种采样方式对模型的影响.其次对比了多采样近似粒化和多种粒化方法,证明多采样近似粒化的有效性.最后与多个经典的集成算法做了详细比较.本章所有实验结果都是基于十折交叉验证得出,并保留四位小数.
3.1 采样方法的对比
该节对比多种采样方式对构建近似基模型的影响,具体对比方法有随机采样、聚类采样和重要性采样.随机采样是以随机数的方式对样本进行选取,每个样本被选中的概率是相等的,即1 / n ,该方法可以看作是重要性采样的特殊情况.聚类采样则是以样本的簇作为采样基础,按簇的大小对簇内样本进行采样,在本实验中构建簇的算法为k⁃means.三种算法的优缺点如表2 所示,其可视化结果如图3 所示.所有数据集的方差对比结果如表3 所示,表中黑体字表示结果最优.
图3
图3
采样分布对比
Fig.3
Comparison of sampling distribution
首先,为了分析采样方法对构建近似基模型的影响,该节比较了三种采样方法的可视化结果.可视化实验在diabetes和Wine Quality数据集上进行,并设定采样比例系数.采样比例系数是一个经验化的超参数,其值的设置根据模型与其处理的数据大小而定.图3 展示了diabetes和Wine Quality在采样比例(Sampling Portion,SP )为0.2时的分布对比.图中从左到右依次为原始分布、聚类采样分布、重要性采样分布和随机采样分布.其中子图标题var 表示该采样下数据的方差.右侧的色带表示图中样本点的重要性概率.
根据表3 和图3 可以看出,随机采样并不能降低采样分布的方差,并且在waveform数据集上的方差比原始分布更高.邻域采样方法只能在有限程度上降低样本分布的方差.而重要性采样在采样过程中会着重考虑重要性更高的样本,这些样本对样本分布的影响最大,因此有着最低的方差.重要性采样与其他两种采样方法对比来看,方差平均低0.0066和0.0059.
图4 展示了在raisin数据集上,基于不同S P 的重要性采样的分布对比.由图可知,随着SP 的提高,重要性采样的方差会有不同程度的上升.但是,即使采样了80%的原始数据,在该数据集上,重要性采样的方差依然比原始分布和其他采样方法低.其在高SP 下的表现更稳定.因此,重要性采样方法的鲁棒性更好.
图4
图4
不同采样比例的对比
Fig 4
Comparison of different sampling ratios
由于这三种方法的采样结果都带有一定的随机性,因此在精准度(Accuracy,Acc )的比较上,分别获取10次运行结果,并以图表展示其可视化结果.对数据分别进行三次采样,S P = 0.2,0.2,0.2 ,对应的近似基模型A = 线性 核 S V M , k 近邻 分类 器 , G a u s s i a n N B ,最终决策模型FD为rbf核SVM.其中,近似基模型的输出为软数据,对应样本属于某一类的概率值.
图5 比较了在diabetes,breast cancer 和raisin数据集中,三种采样方法在十次交叉验证后的结果.图中横轴为采样轮数,前10次为重要性采样,11至20次为随机采样,21至30次为聚类采样.其中有色点表示采样结果,即每次采样的精准度.IS指包围的红圈部分为重要性采样(Important Sampling),RS指包围的篮圈部分为随机采样(Random Sampling),CS指包围的绿圈部分为聚类采样(Cluster Sampling).由图可知,红圈面积与蓝圈和绿圈相比明显较小,表明在十次交叉验证中,重要性采样方法的结果波动性较小,相反随机采样与聚类采样则稳定性较差.同样地,红圈的相对位置要高于蓝圈与绿圈,这表明重要性采样的分类结果平均来看要优于其他两种采样方法.
图5
图5
三个数据集的十次分类结果对比
Fig.5
Comparison of ten classification results under three datasets
表4 展示了三种采样方法在数据集上的十次分类结果,分别对比了十次分类结果的最大值、最小值和平均值,表中黑体字表示结果最优.可以看出,重要性采样除blood,Shill Bidding和yeast数据集外,其最大精准度是最高的.同时,在所有数据集上,重要性采样的最小精准度也是最高的.平均来看,除了在blood与Shill Bidding数据集上三种采样算法的表现相似,重要性采样的分类精准度比其他两种采样方法分别高约0.0060和0.0050.这一现象说明与随机采样与聚类采样相比,重要性采样产生的近似分布是更有效的,同时,基于重要性采样构建的近似模型也有着更高的鲁棒性.
3.2 粒化方法
该节将多采样近似粒化与三种粒化方法做对比,具体的对比方法有邻域粒化[17 ,20 ] 、条件粒化[19 ] 与模糊粒化[9 ] .该三种粒化方法都是基于粒的判别式去构造粒子.条件粒化与模糊粒化都是局部粒化方式,这两种方法会先在样本集中选取参考样本,进而用判别式对样本集与参考样本做单特征下的比较.
g x i j = x i - r e f e r e n c e , i ∈ n , j ∈ m (10)
其中,n 为样本个数,m 为样本维度,reference 为参考样本集.直觉上,每个模糊粒子就是由样本x 与参考样本集reference 在某个特征下差值的绝对值定义的.
相似地,条件粒化则是在模糊粒化的基础上做了一些更改.条件粒化的判别式如下所示:
g x i j = 1 - x i - r e f e r e n c e , i ∈ n , j ∈ m (11)
条件粒化的判别式定义了在某个特征下,样本x 与参考样本集的相似度.相反,模糊粒化的判别式则定义了样本x 与参考样本集的不相似程度.
与前两种局部粒化方式不同的是,邻域粒化是一种全局粒化方式,该方法在样本集内部进行交叉比较.其第一步是先通过式(10)计算全局的不相似程度,第二步则是根据邻域判别式将粒子做二值化处理.邻域粒化的判别式如下所示:
y = 0 , g x i j > σ 1 , g x i j ≤ σ , i ∈ n , j ∈ m (12)
基于上述三种粒化方法,在该节构建粒随机森林,并与多采样近似粒化作详细对比.模糊粒化与条件粒化的参考样本个数为5,邻域粒化的邻域参数为0.3,随机森林(RF)基于Gini系数构建并且基预测器个数为50.多采样近似粒化的S P = 0.4,0.4,0.4 ,对应的近似基模型A = 线性 核 S V M , k 近邻 分类 器 , G a u s s i a n N B ,对比结果如表5 所示,表中黑体字表示结果最优.其中RF表示原始数据,RF_Fuzzy表示模糊粒化,RF_Condition表示条件粒化,RF_Neighbor表示邻域粒化,RF_SAG表示多采样近似粒化.分类结果以均值±方差的形式表示.由表5 可知,多采样近似粒化在大部分数据集上表现更好.其中在mobile,blood,waveform数据集上优势更明显,平均分别高于其他算法约0.045,0.015,0.015.同样地,在diabetes数据集上,模糊粒化获得最优表现,其分类精准度达到0.7721,分别比其他粒化方法高0.0156,0.0065,0.0221.在Shill Bidding数据集上,邻域粒化获得最优表现,其分类精准度达到0.9984,相应的多采样近似粒化只有0.9847.最后,在yeast数据集上条件粒化的分类精准度最高,达到0.6150.同时,多采样近似粒化也获得相似的分类效果,分类精准度为0.6135.平均来看,基于多采样近似粒化的随机森林的分类精准度最高,与其他四种算法相比分别多约0.0113,0.0087,0.0097,0.0089.同时,多采样近似粒化的平均方差也是最低的,只有0.0006.表明与其他粒化方法相比,多采样近似粒化有着更高的泛用性,同时能够降低精度分数的方差,提高了模型的鲁棒性.
3.3 综合比较
该节详细对比了多采样近似粒集成学习与其他先进的集成算法的分类效果,具体对比的算法有Random Forests (RF)[3 ] ,AdaBoost,HistGradientBoosting (HGB)[29 ] 和XGBoost[30 -31 ] .其中,随机森林RF的树基于熵构建,基预测器个数为100;AdaBoost的预测器类别为决策树,学习率为1.0,构建算法为SAMME.R,基预测器个数为50;HGB的损失函数为交叉熵损失,学习率为1.0,最大迭代次数为100次;XGBoost的特征SP 为0.7,目标函数为softmax ,学习率为0.3,基预测器个数为100.对于MSAGEL(多采样近似学习)的参数设置如下:S P = 0.4,0.6,0.4 ,对应的近似模型A = 线性 核 S V M , 决策 树 D T , G a u s s i a n N B ,最终决策模型为线性核SVM,结果如表6 所示,表中黑体字表示结果最优.
由表6 可知,MSAGEL算法在所有数据集上都获得了较大提升.其中在Wine Quality和yeast数据上,MSAGEL分别获得0.8405和0.7876的准确度,比其他四种集成学习算法的准确度高0.15~0.3.在diabetes,raisin和Debrecen数据集上,MSAGEL比其他四种集成学习算法的准确度高0.1~0.2.总体来看,AdaBoost算法不够稳定,在yeast数据集上无法获得足够正确的划分结果,并且总体的平均准确分数也是五种算法中最低的.与AdaBoost算法相比,RF,HGB和XGBoost算法表现则相对一致,它们的平均分数分别高出AdaBoost约0.0286,0.0337和0.0577.与其他四种算法相比,MSAGEL的平均分数高出较为明显.MSAGEL平均高于其他算法约0.114,0.1594,0.1110和0.0920.除了分类精准度的优势外,MSAGEL在方差比较上也有明显优势,比其他算法分别低0.0023,0.0019,0.0023和0.0003.表明MSAGEL在十折交叉验证的过程中表现更稳定.在这些数据集中,Wine Quality和yeast都是多类不平衡数据集.如在yeast数据集内,类别为CYT的样本有463个,而类别为ERL的样本只有五个,这种类别的极度不平衡性,导致其他四种算法的弱表现.由于MSAGEL是一种基于采样的近似模型,其基近似模型的构建可以在一定程度上避免数据的不平衡性所带来的缺陷,因此获得了远高于其他四种算法的分类效果.上述数据体现了MSAGEL强大的鲁棒性与适用性.
为了详细比较各项指标,选择XGBoost算法作为多指标的对照算法.两种算法在F 1、Acc 和召回率三个评价指标和所有数据集上进行详细比较,结果如表7 所示,表中黑体字表示结果最优.
由表7 可知,MSAGEL算法评价指标的得分在大部分数据集上明显高于XGBoost.该现象在Wine Quality和yeast数据集上尤为明显,分项指标分别平均高约0.25和0.21.而在面对这两个不平衡数据集时,XGBoost由于并没有考虑不平衡性,其只能对类别规模较大的样本做正确分类,因此其各项分数平均只有约0.37和0.53.同时在diabetes,blood,raisin和Debrecen数据集上,MSAGEL则获得0.1~0.15的指标优势.而在breast cancer和Shill Bidding数据集上,两种算法的表现相似,MSAGEL的评价分数比XGBoost高约0.06.这说明MSAGEL的泛化性和鲁棒性都要优于XGBoost.
4 总结
本文提出一种全新的粒化方法,该粒化方法基于采样的思想,同时引入近似理论与重要性采样技术,构建近似粒向量.与随机采样和聚类采样方法相比,重要性采样方差更低,计算花费较低.这些特点使得重要性采样的分布与原始分布相似.与其他先进的粒化方法相比,该方法摒弃了根据具体判别式构造粒子的方式,其依据数据的近似分布构建多个分布下的近似粒子的方法赋予粒化过程更高的灵活性.根据分析,近似粒化的空间复杂度仅为O n m ,这一规模远低于邻域粒化的O n n . 同时,在以RF为基础模型的粒化方法比较上,多采样近似粒化在大部分数据集上获得最优效果.最后,基于近似粒向量的构建过程,本文提出一种多采样近似粒集成学习模型并详细对比该模型与其他先进的集成学习算法.结果表明,多采样近似粒集成学习有着强大的泛化性与鲁棒性.未来工作包括以下三个方面:(1)探索近似模型间的权重关系对最终决策的影响;(2)结合Boosting思想构建多采样近似Boosting;(3)探索近似模型对不平衡数据的性能.
参考文献
View Option
[1]
Morente⁃Molinera J A , Mezei J , Carlsson C ,et al . Improving supervised learning classification methods using multigranular linguistic modeling and fuzzy entropy
IEEE Transactions on Fuzzy Systems ,2017 ,25 (5 ):1078 -1089 .
[本文引用: 1]
[2]
Opitz D , Maclin R . Popular ensemble methods:An empirical study
Journal of Artificial Intelligence Research ,1999 ,11 (1 ):169 -198 .
[本文引用: 1]
[3]
Quadrianto N , Ghahramani Z . A very simple safe⁃Bayesian random forest
IEEE Transactions on Pattern Analysis and Machine Intelligence ,2015 ,37 (6 ):1297 -1303 .
[本文引用: 2]
[4]
Jiang S H , Mao H Y , Ding Z M ,et al . Deep decision tree transfer boosting
IEEE Transactions on Neural Networks and Learning Systems ,2020 ,31 (2 ):383 -395 .
[本文引用: 1]
[5]
Zadeh L A . Toward a theory of fuzzy information granulation and its centrality in human reasoning and fuzzy logic
Fuzzy Sets and Systems ,1997 ,90 (2 ):111 -127 .
[本文引用: 1]
[6]
Bhapkar H R , Mahalle P N , Shinde G R ,et al . Rough sets in COVID⁃19 to predict symptomatic cases
∥Santosh K C,Joshi A. COVID⁃19:Prediction,decision⁃making,and its impacts . Springer Berlin Heidelberg,2021 :57 -68 .
[本文引用: 1]
[7]
Chen Y M , Zhu S Z , Li W ,et al . Fuzzy granular convolutional classifiers
Fuzzy Sets and Systems ,2022 ,426 :145 -162 .
[本文引用: 5]
[8]
Niu J J , Chen D G , Li J H ,et al . Fuzzy rule⁃based classification method for incremental rule learning
IEEE Transactions on Fuzzy Systems ,2022 ,30 (9 ):3748 -3761 .
[9]
Meher S K , Pal S K . Rough⁃wavelet granular space and classification of multispectral remote sensing image
Applied Soft Computing ,2011 ,11 (8 ):5662 -5673 .
[本文引用: 1]
[10]
Borowska K , Stepaniuk J . A rough⁃granular approach to the imbalanced data classification problem
Applied Soft Computing ,2019 ,83 :105607 .
[本文引用: 1]
[11]
Hu X C , Pedrycz W , Wang X M . Fuzzy classifiers with information granules in feature space and logic⁃based computing
Pattern Recognition ,2018 ,80 :156 -167 .
[本文引用: 1]
[12]
Yao Y Y . Three perspectives of granular computing
Journal of Nanchang Institute of Technology ,2006 ,25 (2 ):16 -21 .
[本文引用: 1]
[13]
胡清华 ,于达仁 ,谢宗霞 . 基于邻域粒化和粗糙逼近的数值属性约简
软件学报 ,2008 ,19 (3 ):640 -649 .
[本文引用: 1]
Hu Q H , Yu D R , Xie Z X . Numerical attribute reduction based on neighborhood granulation and rough approximation
Journal of Software ,2008 ,19 (3 ):640 -649 .
[本文引用: 1]
[14]
傅兴宇 ,陈颖悦 ,陈玉明 ,等 . 一种全连接粒神经网络分类方法
山西大学学报(自然科学版) ,2023 ,46 (1 ):91 -100 .
[本文引用: 3]
Fu X Y , Chen Y Y , Chen Y M ,et al . A classification method of fully connected granular neural network
Journal of Shanxi University (Natural Science Edition) ,2023 ,46 (1 ):91 -100 .
[本文引用: 3]
[15]
Jiang H L , Chen Y M , Kong L R ,et al . An LVQ clustering algorithm based on neighborhood granules . Journal of Intelligent & Fuzzy Systems :Applications in Engineering and Technology ,2022 ,43 (5 ):6109 -6122 .
[本文引用: 2]
[16]
Li W , Chen Y M , Song Y P . Boosted K⁃nearest neighbor classifiers based on fuzzy granules
Knowledge⁃Based Systems ,2020 ,195 :105606 .
[本文引用: 1]
[17]
Lin S H , Zhang K B , Guan D ,et al . An intrusion detection method based on granular autoencoders . Journal of Intelligent & Fuzzy Systems :Applications in Engineering and Technology ,2023 ,44 (5 ):8413 -8424 .
[本文引用: 3]
[18]
陈玉明 ,蔡国强 ,卢俊文 ,等 . 一种邻域粒K均值聚类方法
控制与决策 ,2023 ,38 (3 ):857 -864 .
[本文引用: 2]
Chen Y M , Cai G Q , Lu J W ,et al . A neighborhood granular K⁃means clustering method
Control and Decision ,2023 ,38 (3 ):857 -864 .
[本文引用: 2]
[19]
Chen Y M , Qin N , Li W ,et al . Granule structures,distances and measures in neighborhood systems
Knowledge⁃Based Systems ,2019 ,165 :268 -281 .
[本文引用: 2]
[20]
Chen Y M , Zhu Q X , Wu K S ,et al . A binary granule representation for uncertainty measures in rough set theory . Journal of Intelligent & Fuzzy Systems :Applications in Engineering and Technology ,2015 ,28 (2 ):867 -878 .
[本文引用: 2]
[21]
Chen J F , Zhu J , Song L . Stochastic training of graph convolutional networks with variance reduction
2018 ,arXiv:.
[本文引用: 3]
[22]
Chiang W L , Liu X Q , Si S ,et al . Cluster⁃GCN:An efficient algorithm for training deep and large graph convolutional networks
∥Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining . Anchorage,USA :ACM ,2019 :257 -266 .
[本文引用: 1]
[23]
Feng K X , Lu Z Z , Ling C Y ,et al . Fuzzy importance sampling method for estimating failure possibility
Fuzzy Sets and Systems ,2021 ,424 :170 -184 .
[本文引用: 1]
[24]
Müller T , McWilliams B , Rousselle F ,et al . Neural importance sampling
ACM Transactions on Graphics ,2019 ,38 (5 ):145 .
[本文引用: 1]
[25]
Grittmann P , Georgiev I , Slusallek P ,et al . Variance⁃aware multiple importance sampling
ACM Transactions on Graphics ,2019 ,38 (6 ):152 .
[本文引用: 1]
[26]
Huang X L , Li Z H , Jin Y L ,et al . Fair⁃AdaBoost:Extending AdaBoost method to achieve fair classification
Expert Systems with Applications ,2022 ,202 :117240 .
[本文引用: 1]
[27]
Liu B , Liu C D , Xiao Y S ,et al . AdaBoost⁃based transfer learning method for positive and unlabelled learning problem
Knowledge⁃Based Systems ,2022 ,241 :108162 .
[28]
Jiang X , Xu Y , Ke W ,et al . An imbalanced multifault diagnosis method based on bias weights AdaBoost
IEEE Transactions on Instrumentation and Measurement ,2022 ,71 :3505908 .
[本文引用: 1]
[29]
Guryanov A . Histogram⁃based algorithm for building gradient boosting ensembles of piecewise linear decision trees
∥8th International Conference on Analysis of Images,Social Networks and Texts . Springer Berlin Heidelberg,2019 :39 -50 .
[本文引用: 1]
[30]
Chen T Q , Guestrin C . Xgboost:A scalable tree boosting system
∥Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining . San Francisco,USA :ACM ,2016 :785 -794 .
[本文引用: 1]
[31]
Dong W , Huang Y M , Lehane B ,et al . XGBoost algorithm⁃based prediction of concrete electrical resistivity for structural health monitoring
Automation in Construction ,2020 ,114 :103155 .
[本文引用: 1]
Improving supervised learning classification methods using multigranular linguistic modeling and fuzzy entropy
1
2017
... 人类在遇到复杂任务时,会将问题分割成多个子问题,利用强大的记忆与相似对比能力来处理复杂任务[1 ] .随着问题复杂程度的上升,单一的分类系统已经无法满足用户对分类精度的要求,因此,近年来集成学习成为一个热门的研究领域[2 ] .集成学习的构建可以分为两类.第一类是通过平行方法构建,各个基学习器之间是平行的,如Bagging算法、随机森林(Random Forest)算法[3 ] .第二类是通过顺序化方法构建,基学习器是顺序构建的,代表算法有Boosting算法[4 ] . ...
Popular ensemble methods:An empirical study
1
1999
... 人类在遇到复杂任务时,会将问题分割成多个子问题,利用强大的记忆与相似对比能力来处理复杂任务[1 ] .随着问题复杂程度的上升,单一的分类系统已经无法满足用户对分类精度的要求,因此,近年来集成学习成为一个热门的研究领域[2 ] .集成学习的构建可以分为两类.第一类是通过平行方法构建,各个基学习器之间是平行的,如Bagging算法、随机森林(Random Forest)算法[3 ] .第二类是通过顺序化方法构建,基学习器是顺序构建的,代表算法有Boosting算法[4 ] . ...
A very simple safe?Bayesian random forest
2
2015
... 人类在遇到复杂任务时,会将问题分割成多个子问题,利用强大的记忆与相似对比能力来处理复杂任务[1 ] .随着问题复杂程度的上升,单一的分类系统已经无法满足用户对分类精度的要求,因此,近年来集成学习成为一个热门的研究领域[2 ] .集成学习的构建可以分为两类.第一类是通过平行方法构建,各个基学习器之间是平行的,如Bagging算法、随机森林(Random Forest)算法[3 ] .第二类是通过顺序化方法构建,基学习器是顺序构建的,代表算法有Boosting算法[4 ] . ...
... 该节详细对比了多采样近似粒集成学习与其他先进的集成算法的分类效果,具体对比的算法有Random Forests (RF)[3 ] ,AdaBoost,HistGradientBoosting (HGB)[29 ] 和XGBoost[30 -31 ] .其中,随机森林RF的树基于熵构建,基预测器个数为100;AdaBoost的预测器类别为决策树,学习率为1.0,构建算法为SAMME.R,基预测器个数为50;HGB的损失函数为交叉熵损失,学习率为1.0,最大迭代次数为100次;XGBoost的特征SP 为0.7,目标函数为softmax ,学习率为0.3,基预测器个数为100.对于MSAGEL(多采样近似学习)的参数设置如下:S P = 0.4,0.6,0.4 ,对应的近似模型A = 线性 核 S V M , 决策 树 D T , G a u s s i a n N B ,最终决策模型为线性核SVM,结果如表6 所示,表中黑体字表示结果最优. ...
Deep decision tree transfer boosting
1
2020
... 人类在遇到复杂任务时,会将问题分割成多个子问题,利用强大的记忆与相似对比能力来处理复杂任务[1 ] .随着问题复杂程度的上升,单一的分类系统已经无法满足用户对分类精度的要求,因此,近年来集成学习成为一个热门的研究领域[2 ] .集成学习的构建可以分为两类.第一类是通过平行方法构建,各个基学习器之间是平行的,如Bagging算法、随机森林(Random Forest)算法[3 ] .第二类是通过顺序化方法构建,基学习器是顺序构建的,代表算法有Boosting算法[4 ] . ...
Toward a theory of fuzzy information granulation and its centrality in human reasoning and fuzzy logic
1
1997
... 粒计算是一个新兴的多学科交叉理论,该理论认为粒计算是模糊集、粗糙集理论的合集[5 -6 ] .粒子是构建粒计算模型的最基本元素,以样本的特征间的相似性、距离等度量方式作为粒化的依据,进而构造各种粒子.近年来,粒计算逐渐成为热门研究领域.在该领域中,如何构建粒结构与粒模型一直是一个重要的问题[7 -10 ] . ...
Rough sets in COVID?19 to predict symptomatic cases
1
2021
... 粒计算是一个新兴的多学科交叉理论,该理论认为粒计算是模糊集、粗糙集理论的合集[5 -6 ] .粒子是构建粒计算模型的最基本元素,以样本的特征间的相似性、距离等度量方式作为粒化的依据,进而构造各种粒子.近年来,粒计算逐渐成为热门研究领域.在该领域中,如何构建粒结构与粒模型一直是一个重要的问题[7 -10 ] . ...
Fuzzy granular convolutional classifiers
5
2022
... 粒计算是一个新兴的多学科交叉理论,该理论认为粒计算是模糊集、粗糙集理论的合集[5 -6 ] .粒子是构建粒计算模型的最基本元素,以样本的特征间的相似性、距离等度量方式作为粒化的依据,进而构造各种粒子.近年来,粒计算逐渐成为热门研究领域.在该领域中,如何构建粒结构与粒模型一直是一个重要的问题[7 -10 ] . ...
... 其中,δ x i 被称为邻域信息粒子,∆ 为邻域判别函数.基于该式构建一个邻域关系矩阵M N = r i j n × n . 其中若x j ∈ δ x i ,则r i j = 1 ,否则为0.使用邻域粒化构建模型的方式被应用在多个决策模型上,并取得优秀的效果.同样地,Chen et al[7 ] 提出一种基于单原子特征的模糊粒化,结合卷积运算优化权重获得很好的分类性能.基于特征上的度量方法如欧式距离、曼哈顿距离和Cos相似度等方式,在单特征下构建条件粒子,多特征下构建条件粒向量[7 ,14 ] .模糊粒化拓展了样本的相似属性.最终与KNN (K Nearest Neighbors)等算法相比,在多个数据集下获得高约2%的分类效果. ...
... [7 ,14 ].模糊粒化拓展了样本的相似属性.最终与KNN (K Nearest Neighbors)等算法相比,在多个数据集下获得高约2%的分类效果. ...
... 但是上述工作仍存在一些缺点.全局式的邻域粒化会在构建粒子阶段产生单调且难以处理的数据,使得模型在计算阶段占用过多的资源[15 ] .并且在极小邻域与极大邻域范围内,模型的性能表现往往较差[15 -16 ] .而模糊粒化是一种局部粒化方法,其计算效率会比邻域粒化更低.但是,其基于单特征下相似度构建粒子的方式,使得样本基于特征分布的差异化降低,进而丢失掉某些全局特征[7 ,14 ,17 ] .并且其粒子的空间效率也是基于参考样本决定的(随着参考样本数量的提高而提高).针对这些缺点,本文提出一种基于近似解的粒化方法.该方法通过采样技术对样本集做多次全局采样.在全局采样的结果下,求解全局样本的近似解粒子.并在构建粒子的过程中引入并行式的近似基模型输出多个近似解粒子,多个近似解粒子以粒向量的形式输入最终决策器.这一方法既限制了在粒化过程中产生的数据量,还集成了多个近似基模型的决策能力,提高了模型的分类能力.与多种粒化方式相比[7 ,14 ,17 -18 ] ,多采样近似粒化的空间效率相对较低.多采样近似粒集成模型的创新如下: ...
... [7 ,14 ,17 -18 ],多采样近似粒化的空间效率相对较低.多采样近似粒集成模型的创新如下: ...
Fuzzy rule?based classification method for incremental rule learning
0
2022
Rough?wavelet granular space and classification of multispectral remote sensing image
1
2011
... 该节将多采样近似粒化与三种粒化方法做对比,具体的对比方法有邻域粒化[17 ,20 ] 、条件粒化[19 ] 与模糊粒化[9 ] .该三种粒化方法都是基于粒的判别式去构造粒子.条件粒化与模糊粒化都是局部粒化方式,这两种方法会先在样本集中选取参考样本,进而用判别式对样本集与参考样本做单特征下的比较. ...
A rough?granular approach to the imbalanced data classification problem
1
2019
... 粒计算是一个新兴的多学科交叉理论,该理论认为粒计算是模糊集、粗糙集理论的合集[5 -6 ] .粒子是构建粒计算模型的最基本元素,以样本的特征间的相似性、距离等度量方式作为粒化的依据,进而构造各种粒子.近年来,粒计算逐渐成为热门研究领域.在该领域中,如何构建粒结构与粒模型一直是一个重要的问题[7 -10 ] . ...
Fuzzy classifiers with information granules in feature space and logic?based computing
1
2018
... 粒计算的一个主要特征是将输入模式在更高的抽象等级上进行重构[11 -12 ] .因此,粒计算可以获得更多的深层信息.据此,结合粒计算理论的分类模型也成为另一个研究热点,多种基于度量尺度的粒化方法被提出.胡清华等[13 ] 提出一种基于邻域关系所定义的邻域粒化方式,实现了实数空间中的粒度计算.该方法定义在实数空间上的非空有限集合U = x 1 , x 2 , … , x n 中,任一样本x i 的邻域δ 为: ...
Three perspectives of granular computing
1
2006
... 粒计算的一个主要特征是将输入模式在更高的抽象等级上进行重构[11 -12 ] .因此,粒计算可以获得更多的深层信息.据此,结合粒计算理论的分类模型也成为另一个研究热点,多种基于度量尺度的粒化方法被提出.胡清华等[13 ] 提出一种基于邻域关系所定义的邻域粒化方式,实现了实数空间中的粒度计算.该方法定义在实数空间上的非空有限集合U = x 1 , x 2 , … , x n 中,任一样本x i 的邻域δ 为: ...
基于邻域粒化和粗糙逼近的数值属性约简
1
2008
... 粒计算的一个主要特征是将输入模式在更高的抽象等级上进行重构[11 -12 ] .因此,粒计算可以获得更多的深层信息.据此,结合粒计算理论的分类模型也成为另一个研究热点,多种基于度量尺度的粒化方法被提出.胡清华等[13 ] 提出一种基于邻域关系所定义的邻域粒化方式,实现了实数空间中的粒度计算.该方法定义在实数空间上的非空有限集合U = x 1 , x 2 , … , x n 中,任一样本x i 的邻域δ 为: ...
Numerical attribute reduction based on neighborhood granulation and rough approximation
1
2008
... 粒计算的一个主要特征是将输入模式在更高的抽象等级上进行重构[11 -12 ] .因此,粒计算可以获得更多的深层信息.据此,结合粒计算理论的分类模型也成为另一个研究热点,多种基于度量尺度的粒化方法被提出.胡清华等[13 ] 提出一种基于邻域关系所定义的邻域粒化方式,实现了实数空间中的粒度计算.该方法定义在实数空间上的非空有限集合U = x 1 , x 2 , … , x n 中,任一样本x i 的邻域δ 为: ...
一种全连接粒神经网络分类方法
3
2023
... 其中,δ x i 被称为邻域信息粒子,∆ 为邻域判别函数.基于该式构建一个邻域关系矩阵M N = r i j n × n . 其中若x j ∈ δ x i ,则r i j = 1 ,否则为0.使用邻域粒化构建模型的方式被应用在多个决策模型上,并取得优秀的效果.同样地,Chen et al[7 ] 提出一种基于单原子特征的模糊粒化,结合卷积运算优化权重获得很好的分类性能.基于特征上的度量方法如欧式距离、曼哈顿距离和Cos相似度等方式,在单特征下构建条件粒子,多特征下构建条件粒向量[7 ,14 ] .模糊粒化拓展了样本的相似属性.最终与KNN (K Nearest Neighbors)等算法相比,在多个数据集下获得高约2%的分类效果. ...
... 但是上述工作仍存在一些缺点.全局式的邻域粒化会在构建粒子阶段产生单调且难以处理的数据,使得模型在计算阶段占用过多的资源[15 ] .并且在极小邻域与极大邻域范围内,模型的性能表现往往较差[15 -16 ] .而模糊粒化是一种局部粒化方法,其计算效率会比邻域粒化更低.但是,其基于单特征下相似度构建粒子的方式,使得样本基于特征分布的差异化降低,进而丢失掉某些全局特征[7 ,14 ,17 ] .并且其粒子的空间效率也是基于参考样本决定的(随着参考样本数量的提高而提高).针对这些缺点,本文提出一种基于近似解的粒化方法.该方法通过采样技术对样本集做多次全局采样.在全局采样的结果下,求解全局样本的近似解粒子.并在构建粒子的过程中引入并行式的近似基模型输出多个近似解粒子,多个近似解粒子以粒向量的形式输入最终决策器.这一方法既限制了在粒化过程中产生的数据量,还集成了多个近似基模型的决策能力,提高了模型的分类能力.与多种粒化方式相比[7 ,14 ,17 -18 ] ,多采样近似粒化的空间效率相对较低.多采样近似粒集成模型的创新如下: ...
... ,14 ,17 -18 ],多采样近似粒化的空间效率相对较低.多采样近似粒集成模型的创新如下: ...
A classification method of fully connected granular neural network
3
2023
... 其中,δ x i 被称为邻域信息粒子,∆ 为邻域判别函数.基于该式构建一个邻域关系矩阵M N = r i j n × n . 其中若x j ∈ δ x i ,则r i j = 1 ,否则为0.使用邻域粒化构建模型的方式被应用在多个决策模型上,并取得优秀的效果.同样地,Chen et al[7 ] 提出一种基于单原子特征的模糊粒化,结合卷积运算优化权重获得很好的分类性能.基于特征上的度量方法如欧式距离、曼哈顿距离和Cos相似度等方式,在单特征下构建条件粒子,多特征下构建条件粒向量[7 ,14 ] .模糊粒化拓展了样本的相似属性.最终与KNN (K Nearest Neighbors)等算法相比,在多个数据集下获得高约2%的分类效果. ...
... 但是上述工作仍存在一些缺点.全局式的邻域粒化会在构建粒子阶段产生单调且难以处理的数据,使得模型在计算阶段占用过多的资源[15 ] .并且在极小邻域与极大邻域范围内,模型的性能表现往往较差[15 -16 ] .而模糊粒化是一种局部粒化方法,其计算效率会比邻域粒化更低.但是,其基于单特征下相似度构建粒子的方式,使得样本基于特征分布的差异化降低,进而丢失掉某些全局特征[7 ,14 ,17 ] .并且其粒子的空间效率也是基于参考样本决定的(随着参考样本数量的提高而提高).针对这些缺点,本文提出一种基于近似解的粒化方法.该方法通过采样技术对样本集做多次全局采样.在全局采样的结果下,求解全局样本的近似解粒子.并在构建粒子的过程中引入并行式的近似基模型输出多个近似解粒子,多个近似解粒子以粒向量的形式输入最终决策器.这一方法既限制了在粒化过程中产生的数据量,还集成了多个近似基模型的决策能力,提高了模型的分类能力.与多种粒化方式相比[7 ,14 ,17 -18 ] ,多采样近似粒化的空间效率相对较低.多采样近似粒集成模型的创新如下: ...
... ,14 ,17 -18 ],多采样近似粒化的空间效率相对较低.多采样近似粒集成模型的创新如下: ...
2
2022
... 但是上述工作仍存在一些缺点.全局式的邻域粒化会在构建粒子阶段产生单调且难以处理的数据,使得模型在计算阶段占用过多的资源[15 ] .并且在极小邻域与极大邻域范围内,模型的性能表现往往较差[15 -16 ] .而模糊粒化是一种局部粒化方法,其计算效率会比邻域粒化更低.但是,其基于单特征下相似度构建粒子的方式,使得样本基于特征分布的差异化降低,进而丢失掉某些全局特征[7 ,14 ,17 ] .并且其粒子的空间效率也是基于参考样本决定的(随着参考样本数量的提高而提高).针对这些缺点,本文提出一种基于近似解的粒化方法.该方法通过采样技术对样本集做多次全局采样.在全局采样的结果下,求解全局样本的近似解粒子.并在构建粒子的过程中引入并行式的近似基模型输出多个近似解粒子,多个近似解粒子以粒向量的形式输入最终决策器.这一方法既限制了在粒化过程中产生的数据量,还集成了多个近似基模型的决策能力,提高了模型的分类能力.与多种粒化方式相比[7 ,14 ,17 -18 ] ,多采样近似粒化的空间效率相对较低.多采样近似粒集成模型的创新如下: ...
... [15 -16 ].而模糊粒化是一种局部粒化方法,其计算效率会比邻域粒化更低.但是,其基于单特征下相似度构建粒子的方式,使得样本基于特征分布的差异化降低,进而丢失掉某些全局特征[7 ,14 ,17 ] .并且其粒子的空间效率也是基于参考样本决定的(随着参考样本数量的提高而提高).针对这些缺点,本文提出一种基于近似解的粒化方法.该方法通过采样技术对样本集做多次全局采样.在全局采样的结果下,求解全局样本的近似解粒子.并在构建粒子的过程中引入并行式的近似基模型输出多个近似解粒子,多个近似解粒子以粒向量的形式输入最终决策器.这一方法既限制了在粒化过程中产生的数据量,还集成了多个近似基模型的决策能力,提高了模型的分类能力.与多种粒化方式相比[7 ,14 ,17 -18 ] ,多采样近似粒化的空间效率相对较低.多采样近似粒集成模型的创新如下: ...
Boosted K?nearest neighbor classifiers based on fuzzy granules
1
2020
... 但是上述工作仍存在一些缺点.全局式的邻域粒化会在构建粒子阶段产生单调且难以处理的数据,使得模型在计算阶段占用过多的资源[15 ] .并且在极小邻域与极大邻域范围内,模型的性能表现往往较差[15 -16 ] .而模糊粒化是一种局部粒化方法,其计算效率会比邻域粒化更低.但是,其基于单特征下相似度构建粒子的方式,使得样本基于特征分布的差异化降低,进而丢失掉某些全局特征[7 ,14 ,17 ] .并且其粒子的空间效率也是基于参考样本决定的(随着参考样本数量的提高而提高).针对这些缺点,本文提出一种基于近似解的粒化方法.该方法通过采样技术对样本集做多次全局采样.在全局采样的结果下,求解全局样本的近似解粒子.并在构建粒子的过程中引入并行式的近似基模型输出多个近似解粒子,多个近似解粒子以粒向量的形式输入最终决策器.这一方法既限制了在粒化过程中产生的数据量,还集成了多个近似基模型的决策能力,提高了模型的分类能力.与多种粒化方式相比[7 ,14 ,17 -18 ] ,多采样近似粒化的空间效率相对较低.多采样近似粒集成模型的创新如下: ...
3
2023
... 但是上述工作仍存在一些缺点.全局式的邻域粒化会在构建粒子阶段产生单调且难以处理的数据,使得模型在计算阶段占用过多的资源[15 ] .并且在极小邻域与极大邻域范围内,模型的性能表现往往较差[15 -16 ] .而模糊粒化是一种局部粒化方法,其计算效率会比邻域粒化更低.但是,其基于单特征下相似度构建粒子的方式,使得样本基于特征分布的差异化降低,进而丢失掉某些全局特征[7 ,14 ,17 ] .并且其粒子的空间效率也是基于参考样本决定的(随着参考样本数量的提高而提高).针对这些缺点,本文提出一种基于近似解的粒化方法.该方法通过采样技术对样本集做多次全局采样.在全局采样的结果下,求解全局样本的近似解粒子.并在构建粒子的过程中引入并行式的近似基模型输出多个近似解粒子,多个近似解粒子以粒向量的形式输入最终决策器.这一方法既限制了在粒化过程中产生的数据量,还集成了多个近似基模型的决策能力,提高了模型的分类能力.与多种粒化方式相比[7 ,14 ,17 -18 ] ,多采样近似粒化的空间效率相对较低.多采样近似粒集成模型的创新如下: ...
... ,17 -18 ],多采样近似粒化的空间效率相对较低.多采样近似粒集成模型的创新如下: ...
... 该节将多采样近似粒化与三种粒化方法做对比,具体的对比方法有邻域粒化[17 ,20 ] 、条件粒化[19 ] 与模糊粒化[9 ] .该三种粒化方法都是基于粒的判别式去构造粒子.条件粒化与模糊粒化都是局部粒化方式,这两种方法会先在样本集中选取参考样本,进而用判别式对样本集与参考样本做单特征下的比较. ...
一种邻域粒K均值聚类方法
2
2023
... 但是上述工作仍存在一些缺点.全局式的邻域粒化会在构建粒子阶段产生单调且难以处理的数据,使得模型在计算阶段占用过多的资源[15 ] .并且在极小邻域与极大邻域范围内,模型的性能表现往往较差[15 -16 ] .而模糊粒化是一种局部粒化方法,其计算效率会比邻域粒化更低.但是,其基于单特征下相似度构建粒子的方式,使得样本基于特征分布的差异化降低,进而丢失掉某些全局特征[7 ,14 ,17 ] .并且其粒子的空间效率也是基于参考样本决定的(随着参考样本数量的提高而提高).针对这些缺点,本文提出一种基于近似解的粒化方法.该方法通过采样技术对样本集做多次全局采样.在全局采样的结果下,求解全局样本的近似解粒子.并在构建粒子的过程中引入并行式的近似基模型输出多个近似解粒子,多个近似解粒子以粒向量的形式输入最终决策器.这一方法既限制了在粒化过程中产生的数据量,还集成了多个近似基模型的决策能力,提高了模型的分类能力.与多种粒化方式相比[7 ,14 ,17 -18 ] ,多采样近似粒化的空间效率相对较低.多采样近似粒集成模型的创新如下: ...
... 粒的表示方法是粒计算的重要研究内容,其涉及数据在决策模型中做计算的数据结构与方法.基于不同结构的粒子,需要采取不同的计算方式.如陈玉明等[18 ] 提出一种计算二元邻域粒子的距离度量方法,使得二元粒子的距离可以通过具体数值表示.根据Chen et al[19 -20 ] 中粒的计算方法,本文对近似粒的表示做了类似描述. ...
A neighborhood granular K?means clustering method
2
2023
... 但是上述工作仍存在一些缺点.全局式的邻域粒化会在构建粒子阶段产生单调且难以处理的数据,使得模型在计算阶段占用过多的资源[15 ] .并且在极小邻域与极大邻域范围内,模型的性能表现往往较差[15 -16 ] .而模糊粒化是一种局部粒化方法,其计算效率会比邻域粒化更低.但是,其基于单特征下相似度构建粒子的方式,使得样本基于特征分布的差异化降低,进而丢失掉某些全局特征[7 ,14 ,17 ] .并且其粒子的空间效率也是基于参考样本决定的(随着参考样本数量的提高而提高).针对这些缺点,本文提出一种基于近似解的粒化方法.该方法通过采样技术对样本集做多次全局采样.在全局采样的结果下,求解全局样本的近似解粒子.并在构建粒子的过程中引入并行式的近似基模型输出多个近似解粒子,多个近似解粒子以粒向量的形式输入最终决策器.这一方法既限制了在粒化过程中产生的数据量,还集成了多个近似基模型的决策能力,提高了模型的分类能力.与多种粒化方式相比[7 ,14 ,17 -18 ] ,多采样近似粒化的空间效率相对较低.多采样近似粒集成模型的创新如下: ...
... 粒的表示方法是粒计算的重要研究内容,其涉及数据在决策模型中做计算的数据结构与方法.基于不同结构的粒子,需要采取不同的计算方式.如陈玉明等[18 ] 提出一种计算二元邻域粒子的距离度量方法,使得二元粒子的距离可以通过具体数值表示.根据Chen et al[19 -20 ] 中粒的计算方法,本文对近似粒的表示做了类似描述. ...
Granule structures,distances and measures in neighborhood systems
2
2019
... 粒的表示方法是粒计算的重要研究内容,其涉及数据在决策模型中做计算的数据结构与方法.基于不同结构的粒子,需要采取不同的计算方式.如陈玉明等[18 ] 提出一种计算二元邻域粒子的距离度量方法,使得二元粒子的距离可以通过具体数值表示.根据Chen et al[19 -20 ] 中粒的计算方法,本文对近似粒的表示做了类似描述. ...
... 该节将多采样近似粒化与三种粒化方法做对比,具体的对比方法有邻域粒化[17 ,20 ] 、条件粒化[19 ] 与模糊粒化[9 ] .该三种粒化方法都是基于粒的判别式去构造粒子.条件粒化与模糊粒化都是局部粒化方式,这两种方法会先在样本集中选取参考样本,进而用判别式对样本集与参考样本做单特征下的比较. ...
2
2015
... 粒的表示方法是粒计算的重要研究内容,其涉及数据在决策模型中做计算的数据结构与方法.基于不同结构的粒子,需要采取不同的计算方式.如陈玉明等[18 ] 提出一种计算二元邻域粒子的距离度量方法,使得二元粒子的距离可以通过具体数值表示.根据Chen et al[19 -20 ] 中粒的计算方法,本文对近似粒的表示做了类似描述. ...
... 该节将多采样近似粒化与三种粒化方法做对比,具体的对比方法有邻域粒化[17 ,20 ] 、条件粒化[19 ] 与模糊粒化[9 ] .该三种粒化方法都是基于粒的判别式去构造粒子.条件粒化与模糊粒化都是局部粒化方式,这两种方法会先在样本集中选取参考样本,进而用判别式对样本集与参考样本做单特征下的比较. ...
Stochastic training of graph convolutional networks with variance reduction
3
2018
... 采样方法一直被广泛应用于机器学习与深度学习领域.不管是对数值数据的采样还是对图像数据的采样,其采样目的都是用少于原始数据量的采样数据去近似获得原始的数据分布,以此来进行更快的计算并挖掘出更深层的数据信息.在该领域中,基于蒙特卡洛思想的重要性采样(Importance Sampling)一直是一个研究热点[21 -24 ] .重要性采样的主要优点是采样出的子集精准度较高且方差较低. ...
... Chen et al[21 ] 定义了一种基于节点数据的重要性方法.一个节点数据由节点本身的特征数据和节点之间的边数据表示,因此可以通过边数据构建节点在整张图上的重要性或采样概率.具体每个传播层的近似式如下: ...
... 其中,q v ∝ ∑ u = 1 V P u v 2 = 1 n v ∑ u , v ∈ ε 1 n u 表示节点的重要性分布.该分布基于节点的度来决定每个邻域节点被采样的概率,P 为图的传播矩阵,h l 为图l 层的激活.该式中的节点v 是以1 n u 的概率采样得出.根据Chen et al[21 -22 ] 的推导,重要性采样分布的q v ∝ 1 ,使得采样的分布与原始数据相近,并拥有较低的方差.与节点数据中依据节点度构建重要性的方法相似,在数值数据中,通常以正态分布的方式确定数据x i ∈ X 被选择的概率p i [23 -25 ] ,即: ...
Cluster?GCN:An efficient algorithm for training deep and large graph convolutional networks
1
2019
... 其中,q v ∝ ∑ u = 1 V P u v 2 = 1 n v ∑ u , v ∈ ε 1 n u 表示节点的重要性分布.该分布基于节点的度来决定每个邻域节点被采样的概率,P 为图的传播矩阵,h l 为图l 层的激活.该式中的节点v 是以1 n u 的概率采样得出.根据Chen et al[21 -22 ] 的推导,重要性采样分布的q v ∝ 1 ,使得采样的分布与原始数据相近,并拥有较低的方差.与节点数据中依据节点度构建重要性的方法相似,在数值数据中,通常以正态分布的方式确定数据x i ∈ X 被选择的概率p i [23 -25 ] ,即: ...
Fuzzy importance sampling method for estimating failure possibility
1
2021
... 其中,q v ∝ ∑ u = 1 V P u v 2 = 1 n v ∑ u , v ∈ ε 1 n u 表示节点的重要性分布.该分布基于节点的度来决定每个邻域节点被采样的概率,P 为图的传播矩阵,h l 为图l 层的激活.该式中的节点v 是以1 n u 的概率采样得出.根据Chen et al[21 -22 ] 的推导,重要性采样分布的q v ∝ 1 ,使得采样的分布与原始数据相近,并拥有较低的方差.与节点数据中依据节点度构建重要性的方法相似,在数值数据中,通常以正态分布的方式确定数据x i ∈ X 被选择的概率p i [23 -25 ] ,即: ...
Neural importance sampling
1
2019
... 采样方法一直被广泛应用于机器学习与深度学习领域.不管是对数值数据的采样还是对图像数据的采样,其采样目的都是用少于原始数据量的采样数据去近似获得原始的数据分布,以此来进行更快的计算并挖掘出更深层的数据信息.在该领域中,基于蒙特卡洛思想的重要性采样(Importance Sampling)一直是一个研究热点[21 -24 ] .重要性采样的主要优点是采样出的子集精准度较高且方差较低. ...
Variance?aware multiple importance sampling
1
2019
... 其中,q v ∝ ∑ u = 1 V P u v 2 = 1 n v ∑ u , v ∈ ε 1 n u 表示节点的重要性分布.该分布基于节点的度来决定每个邻域节点被采样的概率,P 为图的传播矩阵,h l 为图l 层的激活.该式中的节点v 是以1 n u 的概率采样得出.根据Chen et al[21 -22 ] 的推导,重要性采样分布的q v ∝ 1 ,使得采样的分布与原始数据相近,并拥有较低的方差.与节点数据中依据节点度构建重要性的方法相似,在数值数据中,通常以正态分布的方式确定数据x i ∈ X 被选择的概率p i [23 -25 ] ,即: ...
Fair?AdaBoost:Extending AdaBoost method to achieve fair classification
1
2022
... 广泛使用的集成学习算法如AdaBoost,在初始阶段对样本集U 中的样本赋予相同权重[26 -28 ] .在每次基于上次样本权重的决策完成后,提高该次决策错误的子集u f 的权重.通过迭代式的训练,最终获得较好的决策结果.这样的训练方式尽管是有效的,但实际上由于其构建模型的过程是串行的,因此其效率较低.基于上述定义,根据样本的重要性概率p x ,对样本集U 进行M = 1,2 , … , m 次有放回采样.由于重要性采样分布的q v ∝ 1 ,因此其采样出的子集u s 为原样本集U 的近似子集,即采样出的近似子序列为S = s 1 , s 2 , … , s m ,相应的近似子集为U S = u s 1 , u s 2 , … , u s m . 易知,u s i ∈ U , i ∈ m . 同时,u s i ⋂ u s j ≢ ∅ , i , j ∈ m . ...
AdaBoost?based transfer learning method for positive and unlabelled learning problem
0
2022
An imbalanced multifault diagnosis method based on bias weights AdaBoost
1
2022
... 广泛使用的集成学习算法如AdaBoost,在初始阶段对样本集U 中的样本赋予相同权重[26 -28 ] .在每次基于上次样本权重的决策完成后,提高该次决策错误的子集u f 的权重.通过迭代式的训练,最终获得较好的决策结果.这样的训练方式尽管是有效的,但实际上由于其构建模型的过程是串行的,因此其效率较低.基于上述定义,根据样本的重要性概率p x ,对样本集U 进行M = 1,2 , … , m 次有放回采样.由于重要性采样分布的q v ∝ 1 ,因此其采样出的子集u s 为原样本集U 的近似子集,即采样出的近似子序列为S = s 1 , s 2 , … , s m ,相应的近似子集为U S = u s 1 , u s 2 , … , u s m . 易知,u s i ∈ U , i ∈ m . 同时,u s i ⋂ u s j ≢ ∅ , i , j ∈ m . ...
Histogram?based algorithm for building gradient boosting ensembles of piecewise linear decision trees
1
2019
... 该节详细对比了多采样近似粒集成学习与其他先进的集成算法的分类效果,具体对比的算法有Random Forests (RF)[3 ] ,AdaBoost,HistGradientBoosting (HGB)[29 ] 和XGBoost[30 -31 ] .其中,随机森林RF的树基于熵构建,基预测器个数为100;AdaBoost的预测器类别为决策树,学习率为1.0,构建算法为SAMME.R,基预测器个数为50;HGB的损失函数为交叉熵损失,学习率为1.0,最大迭代次数为100次;XGBoost的特征SP 为0.7,目标函数为softmax ,学习率为0.3,基预测器个数为100.对于MSAGEL(多采样近似学习)的参数设置如下:S P = 0.4,0.6,0.4 ,对应的近似模型A = 线性 核 S V M , 决策 树 D T , G a u s s i a n N B ,最终决策模型为线性核SVM,结果如表6 所示,表中黑体字表示结果最优. ...
Xgboost:A scalable tree boosting system
1
2016
... 该节详细对比了多采样近似粒集成学习与其他先进的集成算法的分类效果,具体对比的算法有Random Forests (RF)[3 ] ,AdaBoost,HistGradientBoosting (HGB)[29 ] 和XGBoost[30 -31 ] .其中,随机森林RF的树基于熵构建,基预测器个数为100;AdaBoost的预测器类别为决策树,学习率为1.0,构建算法为SAMME.R,基预测器个数为50;HGB的损失函数为交叉熵损失,学习率为1.0,最大迭代次数为100次;XGBoost的特征SP 为0.7,目标函数为softmax ,学习率为0.3,基预测器个数为100.对于MSAGEL(多采样近似学习)的参数设置如下:S P = 0.4,0.6,0.4 ,对应的近似模型A = 线性 核 S V M , 决策 树 D T , G a u s s i a n N B ,最终决策模型为线性核SVM,结果如表6 所示,表中黑体字表示结果最优. ...
XGBoost algorithm?based prediction of concrete electrical resistivity for structural health monitoring
1
2020
... 该节详细对比了多采样近似粒集成学习与其他先进的集成算法的分类效果,具体对比的算法有Random Forests (RF)[3 ] ,AdaBoost,HistGradientBoosting (HGB)[29 ] 和XGBoost[30 -31 ] .其中,随机森林RF的树基于熵构建,基预测器个数为100;AdaBoost的预测器类别为决策树,学习率为1.0,构建算法为SAMME.R,基预测器个数为50;HGB的损失函数为交叉熵损失,学习率为1.0,最大迭代次数为100次;XGBoost的特征SP 为0.7,目标函数为softmax ,学习率为0.3,基预测器个数为100.对于MSAGEL(多采样近似学习)的参数设置如下:S P = 0.4,0.6,0.4 ,对应的近似模型A = 线性 核 S V M , 决策 树 D T , G a u s s i a n N B ,最终决策模型为线性核SVM,结果如表6 所示,表中黑体字表示结果最优. ...