南京大学学报(自然科学), 2024, 60(1): 118-129 doi: 10.13232/j.cnki.jnju.2024.01.012

多采样近似粒集成学习

侯贤宇,, 陈玉明, 吴克寿

厦门理工学院计算机与信息工程学院,厦门,361024

A granular ensemble learning based on multi⁃sampling approximate granulation

Hou Xianyu,, Chen Yuming, Wu Keshou

College of Computer and Information Engineering,Xiamen University of Technology,Xiamen,361024,China

通讯作者: E⁃mail:416410794@qq.com

收稿日期: 2023-09-25  

基金资助: 国家自然科学基金.  61976183

Received: 2023-09-25  

摘要

粒化是一种构建粒数据与粒模型的方法.近些年来,有多种粒化方法被提出,如基于样本相似度尺度的相似度粒化、基于邻域关系的邻域粒化和基于特征尺度变换的旋转粒化等.这些粒化方法都在监督与非监督任务中获得优秀的表现.但是这些粒化方法都是基于样本本身的度量关系构建的,会导致样本在粒化过程中的信息量呈现不同量级的扩展现象.这一特征使粒化后的粒子在一些情况下难以处理.因此,提出一种基于多采样方法构建近似粒子的粒化方式以保证粒化过程被限制在有限量级,并且在粒化过程中抛弃固定的度量关系式,粒化的结果会随着选取的近似集与近似基模型的不同而变化,使得样本在粒化为粒子时有着更高的灵活性.文中对多采样近似粒化和多种粒化方法进行详细比较,结果表明多采样近似粒化有着更高的分类性能,且与多种先进的集成算法做了详细比较,结果表明在分类任务上多采样近似粒集成模型拥有着更好的鲁棒性与泛化性.

关键词: 粒计算 ; 粒表示 ; 多采样近似粒化 ; 重要性采样 ; 粒集成学习

Abstract

Granulation is a method to construct the granular data and granular models. In recent years,several granulation methods have been proposed. For instance,similarity granulation based on sample similarity scale,neighborhood granulation derived from neighborhood relationship,rotation granulation based on feature transformation,and so forth,have demonstrated outstanding performance in supervised and unsupervised tasks. Nevertheless,these granulation techniques are formulated on the metric associations of the samples themselves,which result in varying extents of information expansion during the granulation process. This property renders the granules challenging to manage in certain cases. An approach to construct approximate granules using a multi⁃sampling method is proposed in this paper. This method guarantees a finite amount of granulation. Furthermore,the fixed metric relation is discarded in the granulation process,causing the granules to vary with the chosen approximation set and approximation base model. This variation increases the flexibility of samples in granulation to granules. We present a comprehensive comparison of multi⁃sampling approximate granulation with multiple granulation methods. The results demonstrate that multi⁃sampling approximate granulation outperforms other methods in terms of classification performance. Furthermore,we conduct a thorough comparison with various advanced ensemble algorithms, the final results indicate that the granular ensemble model exhibits superior robustness and generalization for classification tasks.

Keywords: granular computing ; granular representation ; multi⁃sampling approximate granulation ; importance sampling ; granular ensemble learning

PDF (1490KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

侯贤宇, 陈玉明, 吴克寿. 多采样近似粒集成学习. 南京大学学报(自然科学)[J], 2024, 60(1): 118-129 doi:10.13232/j.cnki.jnju.2024.01.012

Hou Xianyu, Chen Yuming, Wu Keshou. A granular ensemble learning based on multi⁃sampling approximate granulation. Journal of nanjing University[J], 2024, 60(1): 118-129 doi:10.13232/j.cnki.jnju.2024.01.012

人类在遇到复杂任务时,会将问题分割成多个子问题,利用强大的记忆与相似对比能力来处理复杂任务1.随着问题复杂程度的上升,单一的分类系统已经无法满足用户对分类精度的要求,因此,近年来集成学习成为一个热门的研究领域2.集成学习的构建可以分为两类.第一类是通过平行方法构建,各个基学习器之间是平行的,如Bagging算法、随机森林(Random Forest)算法3.第二类是通过顺序化方法构建,基学习器是顺序构建的,代表算法有Boosting算法4.

粒计算是一个新兴的多学科交叉理论,该理论认为粒计算是模糊集、粗糙集理论的合集5-6.粒子是构建粒计算模型的最基本元素,以样本的特征间的相似性、距离等度量方式作为粒化的依据,进而构造各种粒子.近年来,粒计算逐渐成为热门研究领域.在该领域中,如何构建粒结构与粒模型一直是一个重要的问题7-10.

粒计算的一个主要特征是将输入模式在更高的抽象等级上进行重构11-12.因此,粒计算可以获得更多的深层信息.据此,结合粒计算理论的分类模型也成为另一个研究热点,多种基于度量尺度的粒化方法被提出.胡清华等13提出一种基于邻域关系所定义的邻域粒化方式,实现了实数空间中的粒度计算.该方法定义在实数空间上的非空有限集合U=x1,x2,,xn中,任一样本xi的邻域δ为:

δxi=xxU,x,xiδ

其中,δxi被称为邻域信息粒子,为邻域判别函数.基于该式构建一个邻域关系矩阵MN=rijn×n.其中若xjδxi,则rij=1,否则为0.使用邻域粒化构建模型的方式被应用在多个决策模型上,并取得优秀的效果.同样地,Chen et al7提出一种基于单原子特征的模糊粒化,结合卷积运算优化权重获得很好的分类性能.基于特征上的度量方法如欧式距离、曼哈顿距离和Cos相似度等方式,在单特征下构建条件粒子,多特征下构建条件粒向量714.模糊粒化拓展了样本的相似属性.最终与KNN (K Nearest Neighbors)等算法相比,在多个数据集下获得高约2%的分类效果.

但是上述工作仍存在一些缺点.全局式的邻域粒化会在构建粒子阶段产生单调且难以处理的数据,使得模型在计算阶段占用过多的资源15.并且在极小邻域与极大邻域范围内,模型的性能表现往往较差15-16.而模糊粒化是一种局部粒化方法,其计算效率会比邻域粒化更低.但是,其基于单特征下相似度构建粒子的方式,使得样本基于特征分布的差异化降低,进而丢失掉某些全局特征71417.并且其粒子的空间效率也是基于参考样本决定的(随着参考样本数量的提高而提高).针对这些缺点,本文提出一种基于近似解的粒化方法.该方法通过采样技术对样本集做多次全局采样.在全局采样的结果下,求解全局样本的近似解粒子.并在构建粒子的过程中引入并行式的近似基模型输出多个近似解粒子,多个近似解粒子以粒向量的形式输入最终决策器.这一方法既限制了在粒化过程中产生的数据量,还集成了多个近似基模型的决策能力,提高了模型的分类能力.与多种粒化方式相比71417-18,多采样近似粒化的空间效率相对较低.多采样近似粒集成模型的创新如下:

(1)结合粒计算和集成模型的特点,进一步提升模型的鲁棒性;

(2)并行的近似粒化过程,提高粒子的空间效率;

(3)基于全局采样的近似解粒子,使得粒化过程有着更高的灵活性.

1 相关工作

1.1 粒表示

粒的表示方法是粒计算的重要研究内容,其涉及数据在决策模型中做计算的数据结构与方法.基于不同结构的粒子,需要采取不同的计算方式.如陈玉明等18提出一种计算二元邻域粒子的距离度量方法,使得二元粒子的距离可以通过具体数值表示.根据Chen et al19-20中粒的计算方法,本文对近似粒的表示做了类似描述.

定义1

MAG=U,F,V,S,A为一个多采样近似粒系统,其中U是样本的集合,F是特征或属性的集合,V则是近似粒子的组合,如V=fFVfVf表示在特征f下的粒子值,任意的aF都决定了一个函数映射关系UaAVfS=ssS,usU,fsF,vsV表示从原始数据中采样的样本序列集合,A=a|aA表示与sS对应的近似基学习器的集合.

定义2

MAG=U,F,V,S,A为一个多采样近似粒系统,对于任一采样子集ussS和其对应的近似基学习器asA.样本集U对近似基学习器as的近似解集为:

Vas=vas,1,vas,2,,vas,n

其中,n为样本数量.vas,i,in表示第i个样本在近似器as中得到的近似解.

定义3

MAG=U,F,V,S,A为一个多采样近似粒系统,其中近似基学习器集A=a1,a2,,am,则样本集U基于近似基学习器集A构建的近似解集为:

V=V1,V2,,Vm

其中,由式(2)可知,Vi,im宽度为n.gi,j=vi,jvi,jV,in,jm,则gi,j表示样本xiX在第j个近似器上的解粒子.类似地,样本xiX在近似器上的解粒向量可以被定义为:

Gxi=g1,g2,,gm

1.2 全局重要性采样

采样方法一直被广泛应用于机器学习与深度学习领域.不管是对数值数据的采样还是对图像数据的采样,其采样目的都是用少于原始数据量的采样数据去近似获得原始的数据分布,以此来进行更快的计算并挖掘出更深层的数据信息.在该领域中,基于蒙特卡洛思想的重要性采样(Importance Sampling)一直是一个研究热点21-24.重要性采样的主要优点是采样出的子集精准度较高且方差较低.

Chen et al21定义了一种基于节点数据的重要性方法.一个节点数据由节点本身的特征数据和节点之间的边数据表示,因此可以通过边数据构建节点在整张图上的重要性或采样概率.具体每个传播层的近似式如下:

PHlu=Vu=1V1VPuvhvlVSPuvhsl/qvs

其中,qvu=1VPuv2=1nvu,vε1nu表示节点的重要性分布.该分布基于节点的度来决定每个邻域节点被采样的概率,P为图的传播矩阵,hl为图l层的激活.该式中的节点v是以1nu的概率采样得出.根据Chen et al21-22的推导,重要性采样分布的qv1,使得采样的分布与原始数据相近,并拥有较低的方差.与节点数据中依据节点度构建重要性的方法相似,在数值数据中,通常以正态分布的方式确定数据xiX被选择的概率pi23-25,即:

Ef=i=1mw^xifxi,xi~q

其中,w^xi=softmaxwxi,wxiq分布下的取值.令w^xi=pi,则式(6)表达了在正态分布下样本的重要性期望.

在面对多列数据时,px计算主要经过三个步骤:(1)对数据以列的形式做正态化转换,即x'=NormalTransx;(2)按行计算均值,即x¯=meanx';(3)按列对均值x¯softmax归一化,得重要性概率px.基于概率px,可对原始数据集做重要性采样.

2 多采样近似粒集成模型

2.1 多采样近似粒化

多采样近似粒化定义了一个多次采样、近似求解和信息粒化的顺序过程.下面依次详细介绍该顺序过程.

广泛使用的集成学习算法如AdaBoost,在初始阶段对样本集U中的样本赋予相同权重26-28.在每次基于上次样本权重的决策完成后,提高该次决策错误的子集uf的权重.通过迭代式的训练,最终获得较好的决策结果.这样的训练方式尽管是有效的,但实际上由于其构建模型的过程是串行的,因此其效率较低.基于上述定义,根据样本的重要性概率px,对样本集U进行M=1,2,,m次有放回采样.由于重要性采样分布的qv1,因此其采样出的子集us为原样本集U的近似子集,即采样出的近似子序列为S=s1,s2,,sm,相应的近似子集为US=us1,us2,,usm.易知,usiU,im.同时,usiusj,i,jm.

基于多次采样的近似子集usUS可以构建近似基模型asAS.由于每个近似子集us之间满足usiusj,i,jm,因此它们是互相独立的.故可以并行地去对每个近似子集us构建近似基模型as.与Boost和Random Forest等以同类弱分类器作为基础的方式不同,对于多采样近似粒集成模型来说,其每个近似基模型as的构建方法是多变的.既可以选择相同的基模型去构建一个强化版的分类模型,也可以集成多种不同的基模型,进而融合多种基模型的优势.该构建方法赋予粒子多种解性质,保证了后续粒化步骤的灵活性,可以构建出一系列近似求解器AS=a1,a2,,am.

基于构建出的近似基学习器集AS,将所有的样本作为近似基学习器的输入,获得数据的近似解集V=V1,V2,,Vm.将近似解集V粒化为近似解粒向量Gxi,in.这一步粒化过程是十分重要的,因为它涉及到将多个互不相关的基近似的解集以粒子性质组合为内部相关的粒向量集.该表达方法使得以粒向量的形式融合多个互不相关的解粒子,进而对这些粒向量进行运算.

图1展示了多采样近似粒化的详细过程,可以看出近似子集US的构建是基于重要性概率PIS和样本集U的,因此被采样的样本并不是正态分布化的数据.而对于正态分布化的数据则忽略px计算的步骤(1)即可.同时为了防止采样出的数据重复,对采样出的序列集siS做集合性处理,即每个序列集中的元素是非重复的.在近似子集US、近似基模型AS和近似解集V三个模块间有虚线将对应的子模块相连,表明在这些关联的子模块中,它们有着一一对应的关系.例如近似解集中的子模块V1是由近似基模型中的as1产生.图中的样本集除了产生重要性概率PIS和近似子集US之外,还与近似基模型AS产生关联.这是因为近似解集V本质上是一种全局解集,而不是基于采样子集得出的近似子解集.最后,在粒化过程中对近似解集V进行堆叠处理,构建粒向量.可见构建粒向量G的个数是n,这是因为在堆叠过程中,对互不相关的近似解集V按样本关系做了对应.此时,需要处理的数据个数由近似解集V的个数m变为样本的个数n.

图1

图1   多采样近似粒化

Fig.1   Multi⁃sampling approximate granulation


多采样近似粒化传播式如下所示:

S=SimpleISNU,Ef,U,M
A=FUS,nusn
G=StackFA,U

其中,式(7)表示对样本U进行M次重要性采样的过程.式(8)表示基于多次采样的结果US构建近似求解模型集A的过程.式(9)表示基于近似解集A与样本集U的粒化过程.可以看出,该粒化过程的每一步的输出都作为下一步的输入,因此该粒化过程是一个顺序过程.

2.2 模型结构

多采样近似粒集成模型主要分为基模型构建阶段、近似解信息粒化阶段和最终决策阶段.前两阶段是多采样近似粒化的简化表示,最后阶段是对粒向量的决策过程.这三个阶段有两个阶段涉及模型的结构.多采样近似粒集成模型的结构如图2所示.

图2

图2   多采样近似粒集成模型

Fig.2   Granular ensemble model based on multi⁃sampling approximate granulation


在基模型构建阶段,通过使用近似子集US构建相应的近似基模型AS.每个近似基模型asA的构建方法是多变的.这样的多变性体现在近似基模型选取时既可以使用同类基模型,又可以使用不同类的基模型.这是因为在使用同类基模型的时候,每个基模型输入的近似子集是不同的(通过采样大小进行控制),使得每个近似解集都是不同近似分布下的解,因此模型获得更深层的空间信息.同样地,也可以使用异类的基模型.多种不同的基模型结合会使得模型获得多个基模型的优点,有着更高的鲁棒性.第二个涉及模型结构的阶段是最终决策阶段,该过程使用最终决策器对解粒向量做最终决策.最终决策器的选择则是整个模型最终分类效果的关键,在该步中会根据具体面对的情况(数据集)选择不同的分类模型.同时,由于解粒向量G是由m个近似解集中对应的近似解堆叠得到,其维度往往是高维的.在输入最终决策器前,会使用拼接或均值池化技术将堆叠的高维粒向量脱粒为粒子形式(一维数据).

2.3 算法及其复杂度分析

本节对涉及的构建多采样近似粒集成模型的算法进行介绍,算法1使用循环表示近似基模型与全局近似解的构建流程.实际上,由于其每个近似基模型与其输入的近似子集是一一对应的关系,不同关系之间是不相关的,因此近似基模型的构造是并行的,则构造近似基模型集的时间复杂度可以用时间效率最复杂的近似基模型表达,即maxOA.同样地,整个模型是顺序结构,故其时间复杂度为OmaxOA+OFD.由于在数据处理部分没有涉及循环或者迭代处理,因此该部分的计算效率被忽略不计.在整个模型的计算过程中,涉及样本集U的有三个模块,分别是计算样本重

要性概率P、计算近似子集US和计算全局近似解

算法1 多采样近似粒集成模型构建算法

输入:样本集U,标签集Y,抽样比例集S,近似基模型集A,最终决策模型FD.

输出:指标集E.

1.样本集U被映射为正态分布,计算样本的重要性概率P,转步骤2;

2.基于重要性概率P和抽样比例集S对样本集U进行m次重要性采样,输出近似子集US,转步骤3;

3.For i=0 to m

4. 基于近似子集usiUS训练近似基模型aiA,转步骤5;

5. 构建近似基模型ai上样本集U的全局近似解Vi

6.end;

7.输出近似解集V=V1,V2,,Vm,转步骤8;

8.对近似解集V进行堆叠,构建信息粒化,输出样本粒向量G,转步骤9;

9.样本粒向量G输入最终决策模型,构建最终决策D,转步骤10;

10.将最终决策D与标签Y对比,输出指标集E

V.这三个模块是顺序结构,其空间效率分别为OnsmeanOn(假设采样子集的大小平均为smean)和On.最终决策模型的输入为粒向量G,该粒向量由nm维的粒子组成,故其空间效率为Onm.考虑到在实际计算中,近似基模型的数量m远小于样本数量n,因此整个模型的空间效率为On的有限倍数.

3 实验分析

本章采用10个Kaggle与UCI数据集进行实验,数据集具体信息如表1所示.为了测试算法的有效性,对模型设计三种实验.首先对比多种采样方式对模型的影响.其次对比了多采样近似粒化和多种粒化方法,证明多采样近似粒化的有效性.最后与多个经典的集成算法做了详细比较.本章所有实验结果都是基于十折交叉验证得出,并保留四位小数.

表1   数据集的具体属性

Table 1  The specific attributes of the dataset

数据集维度类别数样本数
breast cancer302569
mobile2042000
diabetes82768
blood42747
raisin72900
Shill Bidding1026321
Wine Quality21105000
yeast8101484
waveform2135000
Debrecen1921150

新窗口打开| 下载CSV


3.1 采样方法的对比

该节对比多种采样方式对构建近似基模型的影响,具体对比方法有随机采样、聚类采样和重要性采样.随机采样是以随机数的方式对样本进行选取,每个样本被选中的概率是相等的,即1/n,该方法可以看作是重要性采样的特殊情况.聚类采样则是以样本的簇作为采样基础,按簇的大小对簇内样本进行采样,在本实验中构建簇的算法为k⁃means.三种算法的优缺点如表2所示,其可视化结果如图3所示.所有数据集的方差对比结果如表3所示,表中黑体字表示结果最优.

表2   三种采样方法对比

Table 2  Comparison of three sampling methods

采样方法优点缺点
随机采样算法简单有效,计算效率高随机性较高,需要多次采样才能有好的结果
聚类采样构建的近似分布方差较小计算效率较高,需要预先计算簇
重要性采样构建的近似分布方差最小,更符合原始分布重要性较低的样本很难被选择

新窗口打开| 下载CSV


图3

图3   采样分布对比

Fig.3   Comparison of sampling distribution


表3   采样方法的方差对比

Table 3  Comparison of the variance of sampling methods

数据集原始分布随机采样邻域采样重要性采样
breast cancer0.02080.02380.02170.0125
mobile0.13050.13080.13010.1263
diabetes0.02580.02490.02570.0200
blood0.02670.02470.02370.0154
raisin0.02240.02160.02220.0111
Shill Bidding0.11190.11180.11060.1036
Wine Quality0.01800.01800.01710.0131
yeast0.01380.01330.01280.0096
waveform0.02410.02460.02410.0220
Debrecen0.03200.03140.02920.0257
均值0.04260.04240.04170.0358

新窗口打开| 下载CSV


首先,为了分析采样方法对构建近似基模型的影响,该节比较了三种采样方法的可视化结果.可视化实验在diabetes和Wine Quality数据集上进行,并设定采样比例系数.采样比例系数是一个经验化的超参数,其值的设置根据模型与其处理的数据大小而定.图3展示了diabetes和Wine Quality在采样比例(Sampling Portion,SP)为0.2时的分布对比.图中从左到右依次为原始分布、聚类采样分布、重要性采样分布和随机采样分布.其中子图标题var表示该采样下数据的方差.右侧的色带表示图中样本点的重要性概率.

根据表3图3可以看出,随机采样并不能降低采样分布的方差,并且在waveform数据集上的方差比原始分布更高.邻域采样方法只能在有限程度上降低样本分布的方差.而重要性采样在采样过程中会着重考虑重要性更高的样本,这些样本对样本分布的影响最大,因此有着最低的方差.重要性采样与其他两种采样方法对比来看,方差平均低0.0066和0.0059.

图4展示了在raisin数据集上,基于不同SP的重要性采样的分布对比.由图可知,随着SP的提高,重要性采样的方差会有不同程度的上升.但是,即使采样了80%的原始数据,在该数据集上,重要性采样的方差依然比原始分布和其他采样方法低.其在高SP下的表现更稳定.因此,重要性采样方法的鲁棒性更好.

图4

图4   不同采样比例的对比

Fig 4   Comparison of different sampling ratios


由于这三种方法的采样结果都带有一定的随机性,因此在精准度(Accuracy,Acc)的比较上,分别获取10次运行结果,并以图表展示其可视化结果.对数据分别进行三次采样,SP=0.2,0.2,0.2,对应的近似基模型A=线性SVM,k近邻分类,GaussianNB,最终决策模型FD为rbf核SVM.其中,近似基模型的输出为软数据,对应样本属于某一类的概率值.

图5比较了在diabetes,breast cancer 和raisin数据集中,三种采样方法在十次交叉验证后的结果.图中横轴为采样轮数,前10次为重要性采样,11至20次为随机采样,21至30次为聚类采样.其中有色点表示采样结果,即每次采样的精准度.IS指包围的红圈部分为重要性采样(Important Sampling),RS指包围的篮圈部分为随机采样(Random Sampling),CS指包围的绿圈部分为聚类采样(Cluster Sampling).由图可知,红圈面积与蓝圈和绿圈相比明显较小,表明在十次交叉验证中,重要性采样方法的结果波动性较小,相反随机采样与聚类采样则稳定性较差.同样地,红圈的相对位置要高于蓝圈与绿圈,这表明重要性采样的分类结果平均来看要优于其他两种采样方法.

图5

图5   三个数据集的十次分类结果对比

Fig.5   Comparison of ten classification results under three datasets


表4展示了三种采样方法在数据集上的十次分类结果,分别对比了十次分类结果的最大值、最小值和平均值,表中黑体字表示结果最优.可以看出,重要性采样除blood,Shill Bidding和yeast数据集外,其最大精准度是最高的.同时,在所有数据集上,重要性采样的最小精准度也是最高的.平均来看,除了在blood与Shill Bidding数据集上三种采样算法的表现相似,重要性采样的分类精准度比其他两种采样方法分别高约0.0060和0.0050.这一现象说明与随机采样与聚类采样相比,重要性采样产生的近似分布是更有效的,同时,基于重要性采样构建的近似模型也有着更高的鲁棒性.

表4   三种采样方法的分类结果对比

Table 4  Comparison of the classification results of the three sampling methods

数据集随机采样聚类采样重要性采样
最大最小平均最大最小平均最大最小平均
breast cancer0.97720.96310.97120.98060.97190.97450.98060.97540.9777
mobile0.91100.88650.89750.91000.88600.89830.91200.88750.9035
diabetes0.77870.75660.76830.77740.74350.76740.78260.76310.7710
blood0.78180.76040.76560.79120.75900.76680.77240.76310.7646
raisin0.86440.84780.85720.86670.85220.86000.87000.86000.8653
Shill Bidding0.98540.98130.98330.98690.98010.98390.98480.98210.9831
Wine Quality0.59350.57350.58690.59290.57850.58790.59660.58600.5906
yeast0.57250.54210.56050.57580.55570.56460.57250.56370.5673
waveform0.86980.86500.86800.87180.86620.86930.87180.86760.8693
Debrecen0.67650.65570.66230.68090.65570.65900.68700.66000.6738

新窗口打开| 下载CSV


3.2 粒化方法

该节将多采样近似粒化与三种粒化方法做对比,具体的对比方法有邻域粒化1720、条件粒化19与模糊粒化9.该三种粒化方法都是基于粒的判别式去构造粒子.条件粒化与模糊粒化都是局部粒化方式,这两种方法会先在样本集中选取参考样本,进而用判别式对样本集与参考样本做单特征下的比较.

模糊粒化的判别式如下所示:

gxij=xi-reference,in,jm

其中,n为样本个数,m为样本维度,reference为参考样本集.直觉上,每个模糊粒子就是由样本x与参考样本集reference在某个特征下差值的绝对值定义的.

相似地,条件粒化则是在模糊粒化的基础上做了一些更改.条件粒化的判别式如下所示:

gxij=1-xi-reference,in,jm

条件粒化的判别式定义了在某个特征下,样本x与参考样本集的相似度.相反,模糊粒化的判别式则定义了样本x与参考样本集的不相似程度.

与前两种局部粒化方式不同的是,邻域粒化是一种全局粒化方式,该方法在样本集内部进行交叉比较.其第一步是先通过式(10)计算全局的不相似程度,第二步则是根据邻域判别式将粒子做二值化处理.邻域粒化的判别式如下所示:

y=0,gxij>σ1,gxijσ,in,jm

其中,σ为邻域参数.

基于上述三种粒化方法,在该节构建粒随机森林,并与多采样近似粒化作详细对比.模糊粒化与条件粒化的参考样本个数为5,邻域粒化的邻域参数为0.3,随机森林(RF)基于Gini系数构建并且基预测器个数为50.多采样近似粒化的SP=0.4,0.4,0.4,对应的近似基模型A=线性SVM,k近邻分类,GaussianNB,对比结果如表5所示,表中黑体字表示结果最优.其中RF表示原始数据,RF_Fuzzy表示模糊粒化,RF_Condition表示条件粒化,RF_Neighbor表示邻域粒化,RF_SAG表示多采样近似粒化.分类结果以均值±方差的形式表示.由表5可知,多采样近似粒化在大部分数据集上表现更好.其中在mobile,blood,waveform数据集上优势更明显,平均分别高于其他算法约0.045,0.015,0.015.同样地,在diabetes数据集上,模糊粒化获得最优表现,其分类精准度达到0.7721,分别比其他粒化方法高0.0156,0.0065,0.0221.在Shill Bidding数据集上,邻域粒化获得最优表现,其分类精准度达到0.9984,相应的多采样近似粒化只有0.9847.最后,在yeast数据集上条件粒化的分类精准度最高,达到0.6150.同时,多采样近似粒化也获得相似的分类效果,分类精准度为0.6135.平均来看,基于多采样近似粒化的随机森林的分类精准度最高,与其他四种算法相比分别多约0.0113,0.0087,0.0097,0.0089.同时,多采样近似粒化的平均方差也是最低的,只有0.0006.表明与其他粒化方法相比,多采样近似粒化有着更高的泛用性,同时能够降低精度分数的方差,提高了模型的鲁棒性.

表5   多种粒化方法在数据集上的对比结果

Table 5  The comparative results of various granulation methods on the dataset

数据集RFRF_FuzzyRF_ConditionRF_NeighborRF_SAG
breast cancer0.9614±0.00070.9596±0.00110.9632±0.00140.9631±0.00070.9667±0.0007
mobile0.8755±0.00020.8915±0.00010.8915±0.00020.9090±0.00030.9405±0.0002
diabetes0.7474±0.00250.7721±0.00250.7565±0.00250.7656±0.00190.7500±0.0020
blood0.7363±0.00080.7470±0.00080.7483±0.00040.7377±0.00110.7536±0.0008
raisin0.8556±0.00040.8544±0.00070.8611±0.00050.8578±0.00110.8656±0.0005
Shill Bidding0.9959±0.00000.9975±0.00000.9975±0.00000.9984±0.00000.9847±0.0000
Wine Quality0.6979±0.00100.7004±0.00090.6967±0.00050.7005±0.00160.7035±0.0008
yeast0.6103±0.00060.6042±0.00110.6150±0.00080.5866±0.00110.6135±0.0009
waveform0.8490±0.00020.8392±0.00010.8400±0.00020.8384±0.00020.8586±0.0002
Debrecen0.6878±0.00030.6774±0.00110.6635±0.00120.6843±0.00250.6930±0.0002
均值0.8017±0.00070.8043±0.00080.8033±0.00080.8041±0.00100.8130±0.0006

新窗口打开| 下载CSV


3.3 综合比较

该节详细对比了多采样近似粒集成学习与其他先进的集成算法的分类效果,具体对比的算法有Random Forests (RF)3,AdaBoost,HistGradientBoosting (HGB)29和XGBoost30-31.其中,随机森林RF的树基于熵构建,基预测器个数为100;AdaBoost的预测器类别为决策树,学习率为1.0,构建算法为SAMME.R,基预测器个数为50;HGB的损失函数为交叉熵损失,学习率为1.0,最大迭代次数为100次;XGBoost的特征SP为0.7,目标函数为softmax,学习率为0.3,基预测器个数为100.对于MSAGEL(多采样近似学习)的参数设置如下:SP=0.4,0.6,0.4,对应的近似模型A=线性SVM,决策DT,GaussianNB,最终决策模型为线性核SVM,结果如表6所示,表中黑体字表示结果最优.

表6   多种集成方法在数据集上的对比结果

Table 6  The comparative results of various ensemble methods on the dataset

数据集RFAdaBoostHGBXGBoostMSAGEL
breast cancer0.9614±0.00060.9667±0.00050.9684±0.00030.9789±0.00060.9842±0.0002
mobile0.8825±0.00060.7210±0.00180.9120±0.00020.9205±0.00020.9610±0.0002
diabetes0.7474±0.00250.7527±0.00330.7344±0.00140.7357±0.00190.8724±0.0022
blood0.6643±0.01960.7873±0.01120.6883±0.02140.7444±0.00190.8488±0.0016
raisin0.8600±0.00130.8544±0.00210.8467±0.00240.8511±0.00150.9444±0.0008
Shill Bidding0.9911±0.00000.9913±0.00000.9962±0.00000.9972±0.00000.9994±0.0000
Wine Quality0.5647±0.00160.5253±0.00500.5428±0.00080.6898±0.00220.8405±0.0005
yeast0.6197±0.00180.4323±0.00040.5846±0.00110.5947±0.00080.7876±0.0009
waveform0.8264±0.00020.8094±0.00040.8518±0.00040.8450±0.00030.9026±0.0002
Debrecen0.6600±0.00230.6522±0.00110.7043±0.00240.7122±0.00050.8478±0.0004
均值0.7778±0.00300.7492±0.00260.7829±0.00300.8069±0.00100.8989±0.0007

新窗口打开| 下载CSV


表6可知,MSAGEL算法在所有数据集上都获得了较大提升.其中在Wine Quality和yeast数据上,MSAGEL分别获得0.8405和0.7876的准确度,比其他四种集成学习算法的准确度高0.15~0.3.在diabetes,raisin和Debrecen数据集上,MSAGEL比其他四种集成学习算法的准确度高0.1~0.2.总体来看,AdaBoost算法不够稳定,在yeast数据集上无法获得足够正确的划分结果,并且总体的平均准确分数也是五种算法中最低的.与AdaBoost算法相比,RF,HGB和XGBoost算法表现则相对一致,它们的平均分数分别高出AdaBoost约0.0286,0.0337和0.0577.与其他四种算法相比,MSAGEL的平均分数高出较为明显.MSAGEL平均高于其他算法约0.114,0.1594,0.1110和0.0920.除了分类精准度的优势外,MSAGEL在方差比较上也有明显优势,比其他算法分别低0.0023,0.0019,0.0023和0.0003.表明MSAGEL在十折交叉验证的过程中表现更稳定.在这些数据集中,Wine Quality和yeast都是多类不平衡数据集.如在yeast数据集内,类别为CYT的样本有463个,而类别为ERL的样本只有五个,这种类别的极度不平衡性,导致其他四种算法的弱表现.由于MSAGEL是一种基于采样的近似模型,其基近似模型的构建可以在一定程度上避免数据的不平衡性所带来的缺陷,因此获得了远高于其他四种算法的分类效果.上述数据体现了MSAGEL强大的鲁棒性与适用性.

为了详细比较各项指标,选择XGBoost算法作为多指标的对照算法.两种算法在F1、Acc和召回率三个评价指标和所有数据集上进行详细比较,结果如表7所示,表中黑体字表示结果最优.

表7   MSAGEL和XGBoost在数据集上的多指标对比结果

Table 7  The multi⁃metric comparison results of MSAGEL and XGBoost on the datasets

数据集模型F1Acc召回率
breast cancerMSAGEL0.9810±0.00040.9847±0.00020.9785±0.0005
XGBoost0.9737±0.00080.9742±0.00080.9738±0.0008
mobileMSAGEL0.9599±0.00010.9604±0.00010.9600±0.0001
XGBoost0.9208±0.00020.9205±0.00020.9205±0.0002
diabetesMSAGEL0.8569±0.00090.8660±0.00090.8524±0.0011
XGBoost0.7103±0.00140.7159±0.00140.7116±0.0017
bloodMSAGEL0.7736±0.00120.8031±0.00050.7587±0.0019
XGBoost0.5995±0.00500.6343±0.00950.5964±0.0038
raisinMSAGEL0.9444±0.00080.9448±0.00060.9444±0.0008
XGBoost0.8508±0.00150.8536±0.00140.8511±0.0015
Shill BiddingMSAGEL0.9967±0.00000.9974±0.00000.9960±0.0000
XGBoost0.9921±0.00000.9919±0.00000.9925±0.0001
Wine QualityMSAGEL0.7112±0.00170.7188±0.00340.7190±0.0019
XGBoost0.3622±0.00290.3806±0.00650.3619±0.0024
yeastMSAGEL0.7369±0.00180.768±0.00160.7393±0.0028
XGBoost0.5267±0.00580.5560±0.00730.5255±0.0062
waveformMSAGEL0.9021±0.00030.9027±0.00030.9020±0.0003
XGBoost0.8469±0.00030.8476±0.00030.8472±0.0003
DebrecenMSAGEL0.8472±0.00120.8488±0.00120.8480±0.0013
XGBoost0.7113±0.00050.7131±0.00050.7126±0.0005
均值MSAGEL0.8711±0.00080.8795±0.00090.8698±0.0011
XGBoost0.7494±0.00180.7588±0.00280.7493±0.0018

新窗口打开| 下载CSV


表7可知,MSAGEL算法评价指标的得分在大部分数据集上明显高于XGBoost.该现象在Wine Quality和yeast数据集上尤为明显,分项指标分别平均高约0.25和0.21.而在面对这两个不平衡数据集时,XGBoost由于并没有考虑不平衡性,其只能对类别规模较大的样本做正确分类,因此其各项分数平均只有约0.37和0.53.同时在diabetes,blood,raisin和Debrecen数据集上,MSAGEL则获得0.1~0.15的指标优势.而在breast cancer和Shill Bidding数据集上,两种算法的表现相似,MSAGEL的评价分数比XGBoost高约0.06.这说明MSAGEL的泛化性和鲁棒性都要优于XGBoost.

4 总结

本文提出一种全新的粒化方法,该粒化方法基于采样的思想,同时引入近似理论与重要性采样技术,构建近似粒向量.与随机采样和聚类采样方法相比,重要性采样方差更低,计算花费较低.这些特点使得重要性采样的分布与原始分布相似.与其他先进的粒化方法相比,该方法摒弃了根据具体判别式构造粒子的方式,其依据数据的近似分布构建多个分布下的近似粒子的方法赋予粒化过程更高的灵活性.根据分析,近似粒化的空间复杂度仅为Onm,这一规模远低于邻域粒化的Onn.同时,在以RF为基础模型的粒化方法比较上,多采样近似粒化在大部分数据集上获得最优效果.最后,基于近似粒向量的构建过程,本文提出一种多采样近似粒集成学习模型并详细对比该模型与其他先进的集成学习算法.结果表明,多采样近似粒集成学习有着强大的泛化性与鲁棒性.未来工作包括以下三个方面:(1)探索近似模型间的权重关系对最终决策的影响;(2)结合Boosting思想构建多采样近似Boosting;(3)探索近似模型对不平衡数据的性能.

参考文献

Morente⁃Molinera J AMezei JCarlsson Cet al.

Improving supervised learning classification methods using multigranular linguistic modeling and fuzzy entropy

IEEE Transactions on Fuzzy Systems,201725(5):1078-1089.

[本文引用: 1]

Opitz DMaclin R.

Popular ensemble methods:An empirical study

Journal of Artificial Intelligence Research,199911(1):169-198.

[本文引用: 1]

Quadrianto NGhahramani Z.

A very simple safe⁃Bayesian random forest

IEEE Transactions on Pattern Analysis and Machine Intelligence,201537(6):1297-1303.

[本文引用: 2]

Jiang S HMao H YDing Z Met al.

Deep decision tree transfer boosting

IEEE Transactions on Neural Networks and Learning Systems,202031(2):383-395.

[本文引用: 1]

Zadeh L A.

Toward a theory of fuzzy information granulation and its centrality in human reasoning and fuzzy logic

Fuzzy Sets and Systems,199790(2):111-127.

[本文引用: 1]

Bhapkar H RMahalle P NShinde G Ret al.

Rough sets in COVID⁃19 to predict symptomatic cases

∥Santosh K C,Joshi A. COVID⁃19:Prediction,decision⁃making,and its impacts. Springer Berlin Heidelberg,202157-68.

[本文引用: 1]

Chen Y MZhu S ZLi Wet al.

Fuzzy granular convolutional classifiers

Fuzzy Sets and Systems,2022,426145-162.

[本文引用: 5]

Niu J JChen D GLi J Het al.

Fuzzy rule⁃based classification method for incremental rule learning

IEEE Transactions on Fuzzy Systems,202230(9):3748-3761.

Meher S KPal S K.

Rough⁃wavelet granular space and classification of multispectral remote sensing image

Applied Soft Computing,201111(8):5662-5673.

[本文引用: 1]

Borowska KStepaniuk J.

A rough⁃granular approach to the imbalanced data classification problem

Applied Soft Computing,2019,83105607.

[本文引用: 1]

Hu X CPedrycz WWang X M.

Fuzzy classifiers with information granules in feature space and logic⁃based computing

Pattern Recognition,201880156-167.

[本文引用: 1]

Yao Y Y.

Three perspectives of granular computing

Journal of Nanchang Institute of Technology,200625(2):16-21.

[本文引用: 1]

胡清华于达仁谢宗霞.

基于邻域粒化和粗糙逼近的数值属性约简

软件学报,200819(3):640-649.

[本文引用: 1]

Hu Q HYu D RXie Z X.

Numerical attribute reduction based on neighborhood granulation and rough approximation

Journal of Software,200819(3):640-649.

[本文引用: 1]

傅兴宇陈颖悦陈玉明,.

一种全连接粒神经网络分类方法

山西大学学报(自然科学版),202346(1):91-100.

[本文引用: 3]

Fu X YChen Y YChen Y Met al.

A classification method of fully connected granular neural network

Journal of Shanxi University (Natural Science Edition),202346(1):91-100.

[本文引用: 3]

Jiang H LChen Y MKong L Ret al. An LVQ clustering algorithm based on neighborhood granules. Journal of Intelligent & Fuzzy SystemsApplications in Engineering and Technology202243(5):6109-6122.

[本文引用: 2]

Li WChen Y MSong Y P.

Boosted K⁃nearest neighbor classifiers based on fuzzy granules

Knowledge⁃Based Systems,2020195105606.

[本文引用: 1]

Lin S HZhang K BGuan Det al. An intrusion detection method based on granular autoencoders. Journal of Intelligent & Fuzzy SystemsApplications in Engineering and Technology202344(5):8413-8424.

[本文引用: 3]

陈玉明蔡国强卢俊文,.

一种邻域粒K均值聚类方法

控制与决策,202338(3):857-864.

[本文引用: 2]

Chen Y MCai G QLu J Wet al.

A neighborhood granular K⁃means clustering method

Control and Decision,202338(3):857-864.

[本文引用: 2]

Chen Y MQin NLi Wet al.

Granule structures,distances and measures in neighborhood systems

Knowledge⁃Based Systems,2019165268-281.

[本文引用: 2]

Chen Y MZhu Q XWu K Set al. A binary granule representation for uncertainty measures in rough set theory. Journal of Intelligent & Fuzzy SystemsApplications in Engineering and Technology201528(2):867-878.

[本文引用: 2]

Chen J FZhu JSong L.

Stochastic training of graph convolutional networks with variance reduction

2018,arXiv:.

[本文引用: 3]

Chiang W LLiu X QSi Set al.

Cluster⁃GCN:An efficient algorithm for training deep and large graph convolutional networks

Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. Anchorage,USAACM2019257-266.

[本文引用: 1]

Feng K XLu Z ZLing C Yet al.

Fuzzy importance sampling method for estimating failure possibility

Fuzzy Sets and Systems,2021424170-184.

[本文引用: 1]

Müller TMcWilliams BRousselle Fet al.

Neural importance sampling

ACM Transactions on Graphics,201938(5):145.

[本文引用: 1]

Grittmann PGeorgiev ISlusallek Pet al.

Variance⁃aware multiple importance sampling

ACM Transactions on Graphics,201938(6):152.

[本文引用: 1]

Huang X LLi Z HJin Y Let al.

Fair⁃AdaBoost:Extending AdaBoost method to achieve fair classification

Expert Systems with Applications,2022202117240.

[本文引用: 1]

Liu BLiu C DXiao Y Set al.

AdaBoost⁃based transfer learning method for positive and unlabelled learning problem

Knowledge⁃Based Systems,2022241108162.

Jiang XXu YKe Wet al.

An imbalanced multifault diagnosis method based on bias weights AdaBoost

IEEE Transactions on Instrumentation and Measurement,2022713505908.

[本文引用: 1]

Guryanov A.

Histogram⁃based algorithm for building gradient boosting ensembles of piecewise linear decision trees

8th International Conference on Analysis of Images,Social Networks and Texts. Springer Berlin Heidelberg,201939-50.

[本文引用: 1]

Chen T QGuestrin C.

Xgboost:A scalable tree boosting system

Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco,USAACM2016785-794.

[本文引用: 1]

Dong WHuang Y MLehane Bet al.

XGBoost algorithm⁃based prediction of concrete electrical resistivity for structural health monitoring

Automation in Construction,2020114103155.

[本文引用: 1]

/